《大数据全栈成长计划》学习感受
通过学习大数据全栈成长计划,对大数据的基础有了进一步的了解。
第一阶段重温mysql和jdbc的基础,在这期间使用logstash做数据同步出现中文出现乱码,如图所示:
原因是之前mysql的编码没弄好出现的问题,使用docker版mysql无法修改utf8的设置,通过docker cp 把my.cnf拷贝出来,在【client】下面添加default-character-set=utf8,再把my.cnf拷贝回docker里,再重启docker,mysql修改字符编码成功。
在第三阶段的考核选择基于流计算的双十一大屏开发案例微认证考试,对DLV有了一定的了解,做了股票实时数据可视化,但是在5月4日发现6个屏幕有5个屏幕无法展示,如图所示:
经排查,原因是3到5号股市不开市,而设置了采集股市数据的时间为星期一到星期五,导致3到5号重复采集4月30号最后交易时间数据。这样DLV查询请求返回的数据总大小是超过了限制范围,而无法获取数据做数据可视化。解决的办法有2种:(1)使用group by去重。(2)等6号采集新的数据就可以做数据可视化展示。
第二阶段和第三阶段hadoop,spark课程讲得很好,通过学习了解spark也能独立安装使用,在现有的资源里(2台2C4G的云服务器)也能搭建kafka + spark streaming做测试。选用python-kafka的第三方库在虚拟机上测试把数据写入到kafka,运行正常,没有报错。但是在kafka的消费端无数据。已经测试过kafka,确保kafka运行没有问题。如图所示:
暂时无法找到原因,另外使用pykafka把数据写入到kafka消费端。代码如下:
class operateKafka:
def __init__(self):
myhosts = "kafka1.wuyi.com:9092"
client = KafkaClient(hosts=myhosts)
self.topic = client.topics['test']
在使用命令查看消费之前产生的数据./kafka-console-consumer.sh --bootstrap-server kafka1.wuyi.com:9092 --topic share --from-beginning
通过这段时间实践,不但提高对mysql,hadoop,spark和kafka的基础知识的了解,还锻炼了自己动手和解决问题的能力。同时也获得奖品和证书,收获满满。但有点可惜的是缺少python对大数据的开发案例。建议下次能增加python对大数据的开发案例的话,课程会更加完美。还有对每个阶段的学习,最好能提供相关的云服务资源。这次也有云服务资源领取,但是只能在一个阶段使用。比如在第一阶段领取使用了,第二和第三阶段就无法领取使用了。建议每个阶段都可以领取。这样能更好的鼓励大家学习的积极性。
- 点赞
- 收藏
- 关注作者
评论(0)