上云无忧 > 文档中心 > 百度智能云流式计算 BSC - 开发作业
百度流式计算 BSC
百度智能云流式计算 BSC - 开发作业

文档简介:
通过一个SPARK STREAM SQL作业实例来展现百度流式计算BSC上端到端的开发流程。本样例作业上游为KAFKA,下游为BOS。 准备工作: 若没有用户名,请先完成注册,操作请参考 注册百度账号。 创建作业前需确保账号已开通流式计算BSC服务,操作请参考 开通服务。 【百度智能云】流式计算BSC
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

通过一个SPARK STREAM SQL作业实例来展现百度流式计算BSC上端到端的开发流程。本样例作业上游为KAFKA,下游为BOS。

准备工作

  • 若没有用户名,请先完成注册,操作请参考 注册百度账号。
  • 创建作业前需确保账号已开通流式计算BSC服务,操作请参考 开通服务。
  • 在页面左上角选择区域,在不同区域创建的作业所依赖的资源不同。

    说明:

    • 百度智能云目前开放多区域支持,如果您需要在多区域新增作业,请参考 区域选择说明。
    • 在不同区域创建的实例相互独立。

创建作业

  1. 登录 百度智能云控制台
  2. 选择 产品服务 > 智能大数据 > 流式计算BSC
  3. 选择 华北 - 北京 区域 (样例中用到的KAFKA上游主题创建在此区域)
  4. 创建一个 SPARK_STREAM/SQL 类型的BSC作业,操作请参考 新增作业。
  5. 通过资源管理,上传KAFKA证书,并绑定至当前作业,操作请参考 资源管理。
  • 下载 样例KAFKA证书

    说明: 此KAFKA证书仅提供样例主题的读权限。

  1. 编辑作业

示例作业的完整SQL语句如下(用户可以直接粘贴到编辑器中,更新输出端BOS地址,进行作业调试):

-- 创建输入端表(source),连接KAFKA消息队列
create table source_table_kafka(
    stringtype STRING,
    longtype BIGINT,
    floattype FLOAT,
    binarytype Binary,
    integertype Integer,
    bytetype Byte,
    booleantype Boolean,
    datetype TIMESTAMP,
    doubletype Double,
    shorttype Short
) with(
    'connector.type' = 'BKAFKA',
    'connector.topic' = '2a504dd6a8344952b10835451d2d2ebb__BSC_Sample',
    'format.encode' = 'JSON',
    'connector.properties.bootstrap.servers' = 'kafka.bj.baidubce.com:9091',
    'connector.properties.ssl.filename' = 'BSC_Sample_kafka-key.zip'
);

-- 创建输出端表(sink),连接BOS
create table sink_table_bos(
    stringtype_out String,
    longtype_out BIGINT
) with(
    'connector.type' = 'BOS',
    'format.encode' = 'JSON',
    'connector.path' = 'bos://BOS_BUCKET_NAME/BOS_OBJECT_NAME' -- 用户需替换为实际BOS地址
);

-- 具体作业处理逻辑
insert into
    sink_table_bos
select
    stringtype AS stringtype_out,
    longtype AS longtype_out
from
    source_table_kafka

输入/输出端

  • 样例中输入端为KAFKA,输出端为BOS(相同region下),具体参数含义及其它支持的输入/输出端类型,请参考 DDL语句。
  • 输入端表的Scheme需与具体导入数据格式相匹配

    • 若格式为CSV,格式及字段顺序需完全匹配
    • 若格式为JSON,字段无需完全匹配
  • 输出端表的Scheme需与具体作业逻辑输出数据相匹配

编写处理业务逻辑的SQL语句

样例中,从输入端表选取stringtype和longtype两字段,不做额外逻辑处理,仅重命名字段为stringtype_out和longtype_out储存于输出端表中。 如需查看其它语法及与语句,请参考 DML语句。

调试作业

  • 下载 样例调试数据
  1. 点击工具栏内 调试 按钮,弹出上传输入端测试数据的页面。如有多输入源,可在页面左侧选择切换输入源。

    • 上传文件:现阶段仅支持JSON文件类型
  2. 选择 文件上传,上传 样例数据 。
  3. 点击 开始调试 ,开始运行调试作业。
  4. 作业完成后,会在 调试日志 中提示,用户可在 调试结果 处看到调试结果。

发布作业

点击 发布 按钮,即可发布作业。发布成功后,作业会出现在 作业运维 页面下的作业列表。

启动作业

  1. 选择 百度流式计算BSC > 作业管理 > 作业运维 ,进入到作业运维页面。
  2. 在作业列表处选择刚刚创建的作业。
  3. 选中作业后,点击右侧工具栏 启动 按钮,弹出作业资源配置界面。用户可根据实际需要对 作业起始时间、网络类型、安全组、CU数目及规格进行配置。
  4. 完成配置后,点击 启动 按钮启动作业。作业启动后,会根据用户所选 CU数目及规格进行收费。
  5. 作业启动后,可在 作业运维 页面查看作业日志。
相似文档
  • 操作步骤: 若没有用户名,请先完成注册,操作请参考 注册百度账号。 创建作业前需确保账号已开通流式计算BSC服务,操作请参考 开通服务。 在页面左上角选择区域,在不同区域创建的作业所依赖的资源不同。 【百度智能云】流式计算BSC
  • 编辑作业: 选择菜单栏 作业管理 > 作业开发 后,所有当前已创建的作业会以列表的形式展现,编辑作业可通过: 点击所需编辑作业右侧 操作 > 编辑。 点击 作业名。 进行 编辑作业 操作。 开发作业: 作业开发 提供一套完整的在线编辑器,主要包括编辑区域、工具栏、版本管理、高级设置。 【百度智能云】流式计算BSC
  • 概述: 作业运维 主要为用户提供作业启停操作、作业详情、实时监控、运行日志等内容。 作业启停: 作业发布后,用户可以在 作业运维 页面查看到已发布的作业列表,用户可以根据需要启动、停止作业。 【百度智能云】流式计算BSC
  • 概述: 作业模板是指把一些比较通用的SQL语句或JAR作业语句存为模板,用户可基于模板创建新作业。通过使用模板,可以有效节省用户编辑作业所花费的时间。 【百度智能云】流式计算BSC
  • 概述: 为了给用户提供更简单易用的SQL编辑器,除了提供Spark SQL原生函数外,将一些比较常规常用的函数集成为SQL编辑器的内置函数。 使用扩展内置函数的方式跟原生内置函数的方式一致。 【百度智能云】流式计算BSC
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部