谈谈我个人对大数据解决方案的一些理解

举报
wanggui001 发表于 2020/08/18 16:51:59 2020/08/18
【摘要】 这是我第一次发帖,内容有点少,不过很开心终于迈出了第一步,以后会走的更远 自从知道“大数据”这个新概念,本人就一直对这方面很感兴趣,自然也就在不断了解大数据相关的技术。 5G技术应用后,开始出现了和传统数据截然不同的复杂数据,也就是大家提到的大数据。之所以成为大数据,是因为相对与传统业务数据,这种数据量庞大,一般数据量都会达到100T,普通的计算机硬盘根本无法胜任存储工作...

    这是我第一次发帖,内容有点少,不过很开心终于迈出了第一步,以后会走的更远

    自从知道“大数据”这个新概念,本人就一直对这方面很感兴趣,自然也就在不断了解大数据相关的技术。

    5G技术应用后,开始出现了和传统数据截然不同的复杂数据,也就是大家提到的大数据。之所以成为大数据,是因为相对与传统业务数据,这种数据量庞大,一般数据量都会达到100T,普通的计算机硬盘根本无法胜任存储工作,更不用谈处理数据了。按照目前公认的说法:大数据处理目前主要面临以下几个问题:

    1、数据的搜集获取;

    2、数据的预处理;

    3、分类存储预处理后的数据;

    4、根据业务需求对各类数据进行计算或处理,获取数据背后隐藏的信息。

     首先是数据的获取,一种是已知需要获取的数据背后的信息,直接对相应的数据进行精准的搜集获取,确保数据量及收集数据覆盖的人群较广,就像问卷调查,一百个人的问卷最少也得找80个人来问卷,不能说一个人把这一百份的问卷全部胡乱填完,这样的数据没有任何意义,那么之后的存储和处理也就没有必要,纯粹是浪费资源,相反还有可能得出相反的结论;

     而另一种就是较为常见的数据收集方式,在收集数据之初,没有知道想要得到什么方面的建议或指导,也不知道搜集的数据会影响哪些方面,这种数据收集就很耗费精力,需要大量的人力和财力支撑,这种数据分类极为麻烦,需要在预处理阶段花费较多时间,预处理后能够发现这些数据中的部分有价值数据时,就可以先对这部分有价值的数据进行预处理后的存储和计算处理,得出结论。但是并没有结束,最初的原始数据仍旧需要一个独立的空间来存储,相当于这种数据需要存储两份甚至更多份。因为随着时间的发展,很多无意义的数据也会变得有价值,所以这就需要收集数据一直进行下去,不能间断,而且还要在预处理前把原始数据一直存储,这样的数据不能分开存储,所以越到后期村粗数据的压力会越大,可能目前还没有这种类型的数据出现,我可以举个例子,随着科技的进步,如果想对“人类社会”这个概念进行研究,以预估人类社会未来的进步方向时,就得进行这种大数据的收集处理了。

    除了收集数据方面需要好的方案,数据的预处理同样也需要优秀的思想和方法。如何对原始数据进行最大限度地分类,如何在大量的数据中找到具有共性的数据,这项工作必须由电脑来完成,人脑无法胜任此项工作,我们也等不了那么久,只有“新鲜”的原始数据才能得到最及时的指导意见。因此这就需要我们设计出能够让计算机来完成这项工作的算法或其他底层逻辑,给计算机指明道路,然后让计算机只管按照预计的轨迹向前冲就好。

    分类存储数据这块,我个人认为有两个问题。一方面是数据存储需要的庞大存储空间,短期的数据存储还好办,如果是长期的数据保存真的是一项极大的挑战,我们不能简单的认为数据只需要存储一份就好,一般这种很长时间才收集到的数据价值不可估量,备份是必须要做的工作,所以大数据就成了“Double大数据”,甚至更大。

    还有就是这么多的数据如何分类保存,只有分类保存好了,后续查找各类数据才会轻松,需要的时间也就越少。

    最后也就是对数据的处理,这块是目前我们面临的较大的难题,设计优秀的算法处理数据,同时不断优化算法,确保得出的结论更符合未来的预期。极限的数据处理算法甚至能够预知未来,这个未来可以包括我们周围的方方面面,未来的科技进步一定是建立在大数据之上的。

以上就是我对大数据处理方案的一些拙见,因为我不是专业的,可能有的观点不对,欢迎大家积极指出,我们共同学习进步。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。