记录一个CDM字读取错误的规避方式

举报
jianjian 发表于 2020/10/22 17:50:19 2020/10/22
8.2k+ 0 0
【摘要】 【功能模块】CDM背景是在网络中抓取数据,抓论坛里面的回复,写在CSV文件里面,通过CDM传到OBS,供数据入湖使用。【操作步骤&问题现象】1、它的任务是跑成功的,但是由于我们表中有个字段概率性存在换行符,在CSV文件中,应该是一行记录,会被拆分成两行。2、这个字段在前端的显示中,会有一个html的换行标签<br />3、在数据库里查询了话,就会看到很长的一段空白【截图信息】集群版本2.5....

【功能模块】

CDM

背景是在网络中抓取数据,抓论坛里面的回复,写在CSV文件里面,通过CDM传到OBS,供数据入湖使用。

【操作步骤&问题现象】

1、它的任务是跑成功的,但是由于我们表中有个字段概率性存在换行符,在CSV文件中,应该是一行记录,会被拆分成两行。

2、这个字段在前端的显示中,会有一个html的换行标签<br />

3、在数据库里查询了话,就会看到很长的一段空白

【截图信息】

集群版本2.5.0

现象截图:

image.png

image.png

image.png

【日志信息】(可选,上传日志内容或者附件)

因为是界面现象,不存在于后端日志报错。

所以我们在界面配置信息中,找寻可以匹配该现象的解决方式:

在我们进行迁移的第二步有转换器设置,可以针对每一个字段进行字段的特殊属性进行不同设置,时间,表达式,去空格,换行等。

image.png

在去换行中选择:/r/n

image.png

可以用来解决这个抓取的结果有错位的问题。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。