《大数据全栈成长计划》学习感受

举报
wuyicom 发表于 2021/05/05 18:27:13 2021/05/05
【摘要】     通过学习大数据全栈成长计划,对大数据的基础有了进一步的了解。    第一阶段重温mysql和jdbc的基础,在这期间使用logstash做数据同步出现中文出现乱码,如图所示:    原因是之前mysql的编码没弄好出现的问题,使用docker版mysql无法修改utf8的设置,通过docker cp 把my.cnf拷贝出来,在【client】下面添加default-character...

1.jpg

    通过学习大数据全栈成长计划,对大数据的基础有了进一步的了解。

    第一阶段重温mysqljdbc的基础,在这期间使用logstash做数据同步出现中文出现乱码,如图所示:

2.png

    原因是之前mysql的编码没弄好出现的问题,使用dockermysql无法修改utf8的设置,通过docker cp my.cnf拷贝出来,在【client】下面添加default-character-set=utf8,再把my.cnf拷贝回docker里,再重启dockermysql修改字符编码成功。

    在第三阶段的考核选择基于流计算的双十一大屏开发案例微认证考试,对DLV有了一定的了解,做了股票实时数据可视化,但是在54日发现6个屏幕有5个屏幕无法展示,如图所示:

3.png

    经排查,原因是35号股市不开市,而设置了采集股市数据的时间为星期一到星期五,导致35号重复采集430号最后交易时间数据。这样DLV查询请求返回的数据总大小是超过了限制范围,而无法获取数据做数据可视化。解决的办法有2种:(1)使用group by去重。(2)等6号采集新的数据就可以做数据可视化展示。

    第二阶段和第三阶段hadoopspark课程讲得很好,通过学习了解spark也能独立安装使用,在现有的资源里(22C4G的云服务器)也能搭建kafka + spark streaming做测试。选用python-kafka的第三方库在虚拟机上测试把数据写入到kafka,运行正常,没有报错。但是在kafka的消费端无数据。已经测试过kafka,确保kafka运行没有问题。如图所示:

4.jpg

暂时无法找到原因,另外使用pykafka把数据写入到kafka消费端。代码如下:

class operateKafka:

    def __init__(self):

        myhosts = "kafka1.wuyi.com:9092"

        client = KafkaClient(hosts=myhosts)                        

        self.topic = client.topics['test']

在使用命令查看消费之前产生的数据./kafka-console-consumer.sh --bootstrap-server kafka1.wuyi.com:9092 --topic share --from-beginning

5.png

    通过这段时间实践,不但提高对mysql,hadoop,spark和kafka的基础知识的了解,还锻炼了自己动手和解决问题的能力。同时也获得奖品和证书,收获满满。但有点可惜的是缺少python对大数据的开发案例。建议下次能增加python对大数据的开发案例的话,课程会更加完美。还有对每个阶段的学习,最好能提供相关的云服务资源。这次也有云服务资源领取,但是只能在一个阶段使用。比如在第一阶段领取使用了,第二和第三阶段就无法领取使用了。建议每个阶段都可以领取。这样能更好的鼓励大家学习的积极性。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。