DIS进阶指导之转储数据到DWS的特定列

举报
Leef724 发表于 2020/05/30 17:46:30 2020/05/30
6.6k+ 0 0
【摘要】 DIS如何实现转储数据至DWS的特定列DIS支持将源数据类型为JSON格式的数据转储至DWS。转储前,需要配置源数据Schema。源数据Schema,即用户的JSON数据样例,用于描述JSON数据格式。DIS可以根据此JSON数据样例生成Avro schema, 将通道内上传的JSON数据转换为Parquet或CarbonData格式。参考创建源数据Schema,创建源数据Schema。如下...

DIS如何实现转储数据至DWS的特定列

DIS支持将源数据类型为JSON格式的数据转储至DWS。转储前,需要配置源数据Schema。

源数据Schema,即用户的JSON数据样例,用于描述JSON数据格式。DIS可以根据此JSON数据样例生成Avro schema, 将通道内上传的JSON数据转换为Parquet或CarbonData格式。

  1. 参考创建源数据Schema,创建源数据Schema。如下以添加转储任务时创建源数据Schema为例进行说明。

    1. 选择源数据类型是Json的通道。

    2. 在通道详情页面的“转储任务”页签,单击“添加转储任务”

    3. 转储服务类型选择DWS,通过导入文件的方式配置源数据Schema。

    4. 输入源数据样例,单击“转换源数据样例”并提交,生成源数据Schema。

      图1 创建源数据Schema
      image.png

  2. 配置Schema属性过滤功能。


    说明: 

    schema过滤功能,只针对源数据schema根节点或一级子节点非array类型,才有效。即管理源数据Schema创建的源数据schema,满足根节点或一级子节点非array类型,界面才呈现此配置。

    图3 Schema属性过滤结果

    1. 打开Schema过滤开关。

    2. 在源数据属性名列表中,勾选对应的属性名,完成DWS表中指定列的映射。


      说明: 

      源数据属性名列表中的属性由源数据Schema的name字段生成,匹配DWS的列名称。

      图2 配置Schema属性
      image.png

    3. 图2所示,源数据属性名只选择id,即少于对应表的总字段。

      DWS侧创建集群,并执行如下命令创建表。

      CREATE TABLE dis_test3(id TEXT,dev TEXT,online BIGINT,module TEXT default 'a',logTime TEXT,appId TEXT,event TEXT);

    4. DIS侧转储数据至DWS成功后,登录集群数据库查询dis_test3表格数据,可看到仅id列和module列插入数据,其中module列是默认数据。如图3所示。

image.png

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。