记录一个CDM字读取错误的规避方式

举报
jianjian 发表于 2020/10/22 17:50:19 2020/10/22
【摘要】 【功能模块】CDM背景是在网络中抓取数据,抓论坛里面的回复,写在CSV文件里面,通过CDM传到OBS,供数据入湖使用。【操作步骤&问题现象】1、它的任务是跑成功的,但是由于我们表中有个字段概率性存在换行符,在CSV文件中,应该是一行记录,会被拆分成两行。2、这个字段在前端的显示中,会有一个html的换行标签<br />3、在数据库里查询了话,就会看到很长的一段空白【截图信息】集群版本2.5....

【功能模块】

CDM

背景是在网络中抓取数据,抓论坛里面的回复,写在CSV文件里面,通过CDM传到OBS,供数据入湖使用。


【操作步骤&问题现象】

1、它的任务是跑成功的,但是由于我们表中有个字段概率性存在换行符,在CSV文件中,应该是一行记录,会被拆分成两行。

2、这个字段在前端的显示中,会有一个html的换行标签<br />

3、在数据库里查询了话,就会看到很长的一段空白


【截图信息】

集群版本2.5.0

现象截图:

image.png

image.png

image.png


【日志信息】(可选,上传日志内容或者附件)

因为是界面现象,不存在于后端日志报错。

所以我们在界面配置信息中,找寻可以匹配该现象的解决方式:

在我们进行迁移的第二步有转换器设置,可以针对每一个字段进行字段的特殊属性进行不同设置,时间,表达式,去空格,换行等。

image.png

在去换行中选择:/r/n

image.png

可以用来解决这个抓取的结果有错位的问题。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。