- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《大数据全栈成长计划》学习感受

wuyicom 发表于 2021/05/05 18:27:13 2021/05/05

【摘要】通过学习大数据全栈成长计划，对大数据的基础有了进一步的了解。第一阶段重温mysql和jdbc的基础，在这期间使用logstash做数据同步出现中文出现乱码，如图所示：原因是之前mysql的编码没弄好出现的问题，使用docker版mysql无法修改utf8的设置，通过docker cp 把my.cnf拷贝出来，在【client】下面添加default-character...

通过学习大数据全栈成长计划，对大数据的基础有了进一步的了解。

第一阶段重温mysql和jdbc的基础，在这期间使用logstash做数据同步出现中文出现乱码，如图所示：

原因是之前mysql的编码没弄好出现的问题，使用docker版mysql无法修改utf8的设置，通过docker cp 把my.cnf拷贝出来，在【client】下面添加default-character-set=utf8，再把my.cnf拷贝回docker里，再重启docker，mysql修改字符编码成功。

在第三阶段的考核选择基于流计算的双十一大屏开发案例微认证考试，对DLV有了一定的了解，做了股票实时数据可视化，但是在5月4日发现6个屏幕有5个屏幕无法展示，如图所示：

经排查，原因是3到5号股市不开市，而设置了采集股市数据的时间为星期一到星期五，导致3到5号重复采集4月30号最后交易时间数据。这样DLV查询请求返回的数据总大小是超过了限制范围，而无法获取数据做数据可视化。解决的办法有2种：（1）使用group by去重。（2）等6号采集新的数据就可以做数据可视化展示。

第二阶段和第三阶段hadoop，spark课程讲得很好，通过学习了解spark也能独立安装使用，在现有的资源里（2台2C4G的云服务器）也能搭建kafka + spark streaming做测试。选用python-kafka的第三方库在虚拟机上测试把数据写入到kafka，运行正常，没有报错。但是在kafka的消费端无数据。已经测试过kafka，确保kafka运行没有问题。如图所示：

暂时无法找到原因，另外使用pykafka把数据写入到kafka消费端。代码如下：

class operateKafka:

def __init__(self):

myhosts = "kafka1.wuyi.com:9092"

client = KafkaClient(hosts=myhosts)

self.topic = client.topics['test']

在使用命令查看消费之前产生的数据./kafka-console-consumer.sh --bootstrap-server kafka1.wuyi.com:9092 --topic share --from-beginning

通过这段时间实践，不但提高对mysql，hadoop，spark和kafka的基础知识的了解，还锻炼了自己动手和解决问题的能力。同时也获得奖品和证书，收获满满。但有点可惜的是缺少python对大数据的开发案例。建议下次能增加python对大数据的开发案例的话，课程会更加完美。还有对每个阶段的学习，最好能提供相关的云服务资源。这次也有云服务资源领取，但是只能在一个阶段使用。比如在第一阶段领取使用了，第二和第三阶段就无法领取使用了。建议每个阶段都可以领取。这样能更好的鼓励大家学习的积极性。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《大数据全栈成长计划》学习感受

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《大数据全栈成长计划》学习感受

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品