上云无忧 > 文档中心 > 百度智能云流式计算 BSC - 扩展内置函数
百度流式计算 BSC
百度智能云流式计算 BSC - 扩展内置函数

文档简介:
概述: 为了给用户提供更简单易用的SQL编辑器,除了提供Spark SQL原生函数外,将一些比较常规常用的函数集成为SQL编辑器的内置函数。 使用扩展内置函数的方式跟原生内置函数的方式一致。 【百度智能云】流式计算BSC
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

概述

为了给用户提供更简单易用的SQL编辑器,除了提供Spark SQL原生函数外,将一些比较常规常用的函数集成为SQL编辑器的内置函数。

使用扩展内置函数的方式跟原生内置函数的方式一致。

正则转换函数

sysudf_regexp_extract

使用正则表达式,将字符串解析成结构化数据。支持在表达式中设定group name,并将此作为列名。未设置列名的列将根据所在位置设置默认名字:column1、column2等。

示例

  1. 新增SQL类型的作业,具体教程请参照新增作业。
  2. 编辑作业,以下是sysudf_regexp_extract函数的SQL作业示例。

    说明:如果只是在调试环节运行SQL作业示例,无需改动示例内容,直接粘贴到作业中,进行下一步。

    CREATE table source_table(
        log_field string
    ) with(
        type = 'BKAFKA',
        topic = 'e390b8b0673e4680b0e9a39816595c87__test_for_bsc',
        kafka.bootstrap.servers = 'kafka.bj.baidubce.com:9091',
        sslFilePath = 'kafka-key.zip',
        encode = 'CSV'
    );create table sink_table(
        first_col string,
        second_col string,
        third_col string,
        forth_col string
    ) with(
        type = 'BKAFKA',
        topic = 'e390b8b0673e4680b0e9a39816595c87__bsc_sink',
        kafka.bootstrap.servers = 'kafka.bj.baidubce.com:9091',
        sslFilePath = 'kafka-key.zip',
        encode = 'CSV'
    );
    insert into
        sink_table(first_col,second_col ,third_col,forth_col)
        outputmode complete
    select
        temp.uri,temp.ctime,temp.idc,temp.errno
    from
        (select sysudf_regexp_extract(log_field, 'uri:(?<uri>[\\w\\/]+) got a pv
  3.  - ctime:(?<ctime>\\d+) - dc:(?<idc>\\w+) - errno:(?<errno>\\d+)') as temp from source_table);
  4. 点击“调试”按钮,出现弹框,测试数据选择“手动录入”的方式,将下面的数据粘贴到输入框。

    uri:/test/index got a pv - ctime:1 - dc:testdc - errno:0

  5. 点击“开始调试”,开始调试作业,运行结果如下图所示。

相似文档
  • 概述: 多用户访问控制,主要用于帮助用户管理云账户下资源的访问权限,适用于企业内的不同角色,可以对不同的工作人员赋予使用产品的不同权限,当您的企业存在多用户协同操作资源时,推荐您使用多用户访问控制。 【百度智能云】流式计算BSC
  • 概述: 对作业相关资源进行综合管理,如KAFKA证书及作业JAR包等。用户可上传、删除资源并对资源进行细化版本管理,最终将资源与作业进行绑定操作。 【百度智能云】流式计算BSC
  • 概览: 统计每个设备每分钟报警次数。 需求场景: 用户拥有1千多台设备,分布在不同城市的多个厂区,每个设备上的传感器大概每5秒采集并上传数据到IoT Hub。 【百度智能云】流式计算BSC
  • 概览: 用户对 CDN 日志进行提取中转,属于 ETL 场景, 用于数据的实时清洗、归并和结构化。 需求场景: 所有的 CDN 日志通过 flume 直接推送到 百度消息服务(BKAFKA)中作为流式计算 source , 在我们 BSC 中创建 SPARK_STREAM/SQL 类型的作业用于 CDN 日志的提取中转 【百度智能云】流式计算BSC
  • 概览: 监控、预警工厂设备的用电情况。 需求场景: 用户拥有大量的大功率设备,如果没有在下班之前及时关闭,会造成用电浪费,甚至引起重大安全事故。每个设备上的传感器定时(5~30秒不等)将设备当前的情况推送到 物联网核心套件(IoT Core)或 物接入(IoT Hub) 的 MQTT 当中作为 source 【百度智能云】流式计算BSC
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部