上云无忧 > 文档中心 > 百度智能云流式计算 BSC 实践 - CDN 日志提取中转(ETL)
百度流式计算 BSC
百度智能云流式计算 BSC 实践 - CDN 日志提取中转(ETL)

文档简介:
概览: 用户对 CDN 日志进行提取中转,属于 ETL 场景, 用于数据的实时清洗、归并和结构化。 需求场景: 所有的 CDN 日志通过 flume 直接推送到 百度消息服务(BKAFKA)中作为流式计算 source , 在我们 BSC 中创建 SPARK_STREAM/SQL 类型的作业用于 CDN 日志的提取中转 【百度智能云】流式计算BSC
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

概览

用户对 CDN 日志进行提取中转,属于 ETL 场景, 用于数据的实时清洗、归并和结构化。

需求场景

所有的 CDN 日志通过 flume 直接推送到 百度消息服务(BKAFKA)中作为流式计算 source , 在我们 BSC 中创建 SPARK_STREAM/SQL 类型的作业用于 CDN 日志的提取中转,并实时将结果写到 百度消息服务(BKAFKA)或 对象存储(BOS)当中,用户可以对 sink 端的 BKAFKA / BOS 进行进一步的处理。

方案概述

服务器 → BKAFKA → BSC → BKAFKA / BOS → 其他

配置步骤

一个完整的 Spark SQL 作业由 source 表、sink 表和 DML 语句构成。

定义 BKAFKA Source 表

CREATE TABLE source_kafka_table ( `prefix` STRING, `region` STRING, `userIdSrc` STRING,
 `clusterNameSrc` STRING, `transDurationSrc` DOUBLE, `srcDurationSrc` STRING, `ts` BIGINT ) 
WITH ( 'connector.type' = 'BKAFKA', 'format.encode' = 'CSV', 'format.attributes.
field-delimiter' = ' ''connector.topic' = 'xxxxxxxxx__bsc-source', 'connector
.properties.bootstrap.servers' = 'kafka.bd.baidubce.com:9071', 'connector.properties.
ssl.filename' = 'kafka-key_bd.zip' );

定义 BKAFKA / BOS Sink 表

CREATE TABLE sink_table ( `timestamp` TIMESTAMP, `region` STRING, `userIdSrc` STRING, `clusterNameSrc` STRING ) WITH 
( 'connector.type' = 'BKAFKA', 'format.encode' = 'CSV', 'format.attributes.field-delimiter' = ','
 'connector.topic' = 'xxxxxxxxx__bsc-source', 'connector.properties.bootstrap.servers' =
 'kafka.bd.baidubce.com:9071', 'connector.properties.ssl.filename' = 'kafka-key_bd.zip' );

编写数据提取DML语句

根据 prefix 对日志内容进行提取,并存放到下游的云服务中,为之后的其他处理做数据清洗。

INSERT INTO sink_table outputmode append SELECT from_unixtime(`ts`/1000-(`ts`/1000)%60,'yyyy-MM-dd HH') 
AS `timestamp`, `region`, `userIdSrc`, `clusterNameSrc` FROM source_kafka_table WHERE prefix = 'xxxxxxxx';

相关产品

消息服务 for Kafka、对象存储 BOS

相似文档
  • 概览: 监控、预警工厂设备的用电情况。 需求场景: 用户拥有大量的大功率设备,如果没有在下班之前及时关闭,会造成用电浪费,甚至引起重大安全事故。每个设备上的传感器定时(5~30秒不等)将设备当前的情况推送到 物联网核心套件(IoT Core)或 物接入(IoT Hub) 的 MQTT 当中作为 source 【百度智能云】流式计算BSC
  • 概览: 用户拥有多台服务器,托管了一些 API 调用服务,现在想统计 API 的调用情况,形成图表。 需求场景: 所有机器的 API 调用日志通过 自定义日志采集程序 进行日志采集后推送到 百度消息服务(BKAFKA)中作为流式计算 source , 在我们 BSC 中创建 FLINK_STREAM/SQL 类型的作业用于 API 日志的聚合统计 【百度智能云】流式计算BSC
  • 概览: 统计每个设备每分钟报警次数。 需求场景: 用户拥有1千多台设备,分布在不同城市的多个厂区,每个设备上的传感器大概每5秒采集并上传数据到 物联网核心套件(IoT Core)或 物接入(IoT Hub) 的 MQTT 当中作为第一个 source 【百度智能云】流式计算BSC
  • 流计算作业中的代码包括几部分? 流计算作业中的代码包括DDL语句(用于创建输入端、输出端)、DML语句(业务逻辑的执行语句)。目前,同一个作业内支持多个输入端、一个输出端。 【百度智能云】流式计算BSC
  • Sugar BI是百度智能云推出的敏捷 BI 和数据可视化平台,通过拖拽图表组件可实现 5 分钟搭建数据可视化页面,组件丰富,开箱即用,无需SQL和任何编码。通过可视化图表及强大的交互分析能力,企业可使用 Sugar BI有效助力自己的业务决策。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部