- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

客快物流大数据项目(四)：大数据项目为什么使用Docker

Lansonli 发表于 2021/12/23 02:16:13 2021/12/23

【摘要】目录大数据项目为什么使用Docker 一、场景一二、场景二三、场景三大数据项目为什么使用Docker 随着大数据平台型产品方向的深入应用实践和Docker开源社区的逐渐成熟，业界有不少的大数据研发团队开始使用Docker。简单来说，Docker会让大数据平台部署更加简单快捷、让研发和测试团队集成交付更加敏捷高效、让...

大数据项目为什么使用Docker

随着大数据平台型产品方向的深入应用实践和Docker开源社区的逐渐成熟，业界有不少的大数据研发团队开始使用Docker。简单来说，Docker会让大数据平台部署更加简单快捷、让研发和测试团队集成交付更加敏捷高效、让产线环境的运维更加有质量保障。

一、场景一

在大数据平台型产品的开发过程中，经常要跟许多模块打交道，包括Hadoop、HBase、Hive、Spark、Sqoop、Zookeeper……等多达几十个开源组件，为了不影响团队成员间的工作任务协同，开发人员其实非常需要自己有一套独立的集群环境，以便反复测试自己负责的模块，可真实的企业开发环境往往只有一两个大的虚拟集群，这可怎么办？

难道要给每个开发人员都配几台独立的物理机器？

二、场景二

针对每一次新版本的发布，产品测试组都需要反复的重装整个平台以便发现问题，而正如本文前面所阐述的那样，大数据平台所依赖的组件繁多，不同组件模块依赖的底层库也不尽相同，经常会出现各种依赖冲突问题，而一旦安装完成，就很难再让Linux系统恢复到一个非常干净的状态，通过Remove、UnInstall、rpm -e等手动方式卸载，往往需要花费很长的时间，那如何才能快速地恢复大数据平台集群的系统环境?

三、场景三

当测试人员在测试大数据平台过程中发现了一个BUG，需要保存现场，这里面包括相关的大数据组件配置、进程状态、运行日志、还有一些中间数据，可是，平台集群服务器节点数量很多，针对每个进程的配置目录和日志文件，都相对较独立，一般都需要专业的开发工程师或者运维工程师进入相关服务器节点，按照不同组件的个性化配置信息，手工方式收集所需的各个条目信息，然后打包汇集到日志中心服务器进行统一分析，而目前业界并没有一款能够自动分布式收集故障相关的日志系统，但测试工作还要继续，怎么办?

传统解决方案的缺陷

想要解决这些问题，第一个想到的方案当然是用虚拟机，但这种方式并不能完美的解决以上问题，比如：

虽然虚拟机也可以完成系统环境的迁移，但这并不是它所擅长的，不够灵活，很笨重。
虚拟机的快照可以保存当前的状态，但要恢复回去，就得把当前正在运行的虚拟机关闭，所以并不适合频繁保存当前状态的业务场景。
虽然可以给每个人都分配几个虚拟机用，但它是一个完整的系统，本身需要较多的资源，底层物理机的资源很快就被用完了，所以我们需要寻找其它方式来弥补这些不足。

📢博客主页：https://lansonli.blog.csdn.net
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢本文由 Lansonli 原创，首发于 CSDN博客🙉
📢大数据系列文章会每天更新，停下休息的时候不要忘了别人还在奔跑，希望大家抓紧时间学习，全力奔赴更美好的生活✨

文章来源: lansonli.blog.csdn.net，作者：Lansonli，版权归原作者所有，如需转载，请联系作者。

原文链接：lansonli.blog.csdn.net/article/details/122075613

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

客快物流大数据项目(四)：大数据项目为什么使用Docker

大数据项目为什么使用Docker

一、场景一

二、场景二

三、场景三

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品