【愚公系列】《人工智能70年》043-数据科学崛起(来自大数据的挑战)

举报
愚公搬代码 发表于 2025/11/22 17:17:44 2025/11/22
【摘要】 💎【行业认证·权威头衔】✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者🏆【荣誉殿堂】🎖 连续三年蝉联"华为云十佳博主"(2022-2024)🎖 双冠加冕CSDN"年度博客之星TOP...

在这里插入图片描述

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析

🚀前言

当平凡的数据显露出价值,围绕数据的争夺就在所难免了。
在这里插入图片描述

🚀一、来自大数据的挑战

数据热潮的兴起与各国对大数据发展的高度重视,其背后有一个深刻的现实背景:人类社会中数据的积累规模已达到空前水平,大规模、深度的数据应用不仅成为可能,更成为一种必然需求。

随着互联网、移动互联网和物联网的迅猛发展,计算机、手机、传感器、相机、摄像头、麦克风、RFID读写器、车载电子设备等信息终端如天罗地网般遍布全球,每时每刻都在持续产生数据,可谓无穷无尽。早在2012年,全球每日产生的数据量就已高达2.5 EB。

EB是什么概念?我们熟悉的MB、GB甚至TB单位已远不足以描述数据的爆炸式增长,更大的计量单位正在被广泛使用。数据的基本单位为字节(B),其数量级从小到大依次约为之前的1000倍:B、KB(10³)、MB(10⁶)、GB(10⁹)、TB(10¹²)、PB(10¹⁵)、EB(10¹⁸)、ZB(10²¹)、YB(10²⁴),甚至还有更大的DB、NB、CB单位——这些曾看似遥不可及的计量尺度,人类也将很快面对。

2.5 EB的数据,相当于需要250万块1TB的硬盘才能存储,而这还只是2012年某一天的数据总量。到2016年,全球数据总量已达到10 ZB,需100亿块1TB硬盘才能容纳。

中国作为全球网民数量最多的国家,每日数据产量同样位居世界前列。仅淘宝网站每天就产生数千万笔交易,单日数据量超过50 TB,总存储量达40 PB;百度每日需处理约60亿次搜索请求,产生数十PB数据。一个高清摄像头每小时可产生3.6 GB数据,若一个城市安装几十万个摄像头,每月数据量可达几十PB。目前全球数据仍以每年40%的速度增长,每两年翻一番。预测显示,2025年全球数据总量将超过160 ZB;截至2024年,全球数据生成量已达159.2 ZB,中国占比24.2%。随着生成式人工智能应用的普及,数据产量还将急剧加速,人类在几年内就将迈入YB时代。

“浩如烟海”仅是大数据的特征之一,其完整特质通常用“4V”概括:Volume(海量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据既是人类社会无尽的财富,也对数据科学提出了前所未有的挑战。

从各类采集设备汹涌而来的原始数据,首先需经过预处理,将非结构化数据转换为机器可处理的结构化数据,为建模分析做好基础准备。所谓“结构化”,是指为数据标注出特征属性。例如:

  • 语音数据需转换为说话内容、说话人性别、年龄、情绪及环境噪声等属性;
  • 图像数据需标注人脸五官位置、人物年龄与情绪等信息;
  • 文本数据则需通过自然语言处理,识别主语、分词等语法和语义属性。

这项为数据添加属性标签的基础性工作,被称为“数据标注”,是数据处理中至关重要的一环。

数据标注传统上主要依赖人工完成,如今逐渐转向人机协作模式。例如国外的“亚马逊土耳其机器人”(Amazon Mechanical Turk),便是高效协助完成数据结构化处理的众包平台。

在大数据技术中,一个重要思路是不再依赖抽样数据,而是进行全量数据处理。这进一步提高了对数据结构化的要求。自动化数据预处理将成为提升数据处理效率的关键,它能够保障数据质量与处理速度跟上AI发展的需求。一旦数据标注的效率瓶颈被突破,数据科学家便能够借助优质的结构化数据,运用各类精巧的模型与算法开展挖掘与分析,创造更多价值。

数据是无尽的资源,也伴随着诸多新课题。数据科学正在积极应对大数据带来的挑战,而大力培养数据人才,已成为一项关键任务。

由于数据科学责任重大、前景广阔,数据类人才长期处于紧缺状态。既懂业务又熟悉大数据应用的管理者尤其稀缺。数据科学家与数据工程师已成为AI行业中备受追捧的高薪职业,《哈佛商业评论》甚至将其称为“21世纪最性感的职业”。

作为经济高速发展的人口大国,中国不仅是数据资源强国,也拥有海量高质量数据。在这片土地上,数据应用前景极为广阔,对数据人才的需求也更加迫切。2017年春,教育部批准32所高校新设“数据科学与大数据技术”本科专业,加上此前已设立的3所,全国开设该专业的高校增至35所。至2024年,这一数字已迅速增长至885所,显示出中国高等教育对数据人才培育的高度重视与快速响应。

同样,中国也在不断加强公众数据素养教育,提升社会整体应对大数据与人工智能时代挑战的意识与能力,为未来的数字社会奠定坚实基础。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。