科技圈小白三连问:数据从哪儿来?到哪儿去?能干什么?

举报
就挺突然 发表于 2021/05/14 02:18:09 2021/05/14
【摘要】 作者:孟瑜作为科技圈小白,经常被数据搞得头晕脑胀,数据打哪儿来?到哪儿去?能干什么?那么多数据怎么区分谁有用谁没用?今天这篇文章,小编就带你查一查数据采集技术的水表。一、数据打哪儿来数据就好比是人工智能的粮食,是人工智能最基础的需求之一。巧妇难为无米之炊,想让人工智能吃顿饱饭,一切的前提就是要找到数据粮食,那数据打哪儿来呢?首先我们要搞明白什么样的数据是有用的,不能看到数据就搞...

作者:孟瑜


作为科技圈小白,经常被数据搞得头晕脑胀,数据打哪儿来?到哪儿去?能干什么?那么多数据怎么区分谁有用谁没用?今天这篇文章,小编就带你查一查数据采集技术的水表。




一、数据打哪儿来

数据就好比是人工智能的粮食,是人工智能最基础的需求之一。巧妇难为无米之炊,想让人工智能吃顿饱饭,一切的前提就是要找到数据粮食,那数据打哪儿来呢?

首先我们要搞明白什么样的数据是有用的,不能看到数据就搞拿来主义,数据要具备真实性、有效性、时效性三大特征。对人工智能来说,才是一道色香味俱全的“好菜”。



那数据打哪儿来(怎么获得)?

数据是通过采集的方式获得的,但是采集过程并不简单。比如,数据粮食并不单一,有的是粗粮有的是细粮,能够拿到细粮的概率太低了。为了筛选出真实有效的数据,大家通常的做法就是把粗粮先搞回来再加工,这种情况就导致花大力气搞回来的粮食筛到最后能吃的不到10%。

而且,不是所有的数据都是现成的,有些情况下需要自给自足去种地,从撒子秧苗开始培育自己的数据,至于哪个环节出问题导致数据收成不好那都是靠天吃饭的随机性了。

就算是自己动手丰衣足食也存在秧苗生长不统一的问题,数据有很大的主观性,经常按照自己的想法长,大家都不一样,那口感就不一致了,咱们以为这是一碗大米饭,可能最后出来的是杂豆饭。



再说存储和传输问题

存储数据就好比存储粮食,遇到个雨雪潮湿,粮食易发霉最终就会无法食用。传输也是头等大事,毕竟数据在谁看来都足够香,遇上个劫匪什么的把数据抢走就白忙活了。



二、数据到哪儿去

我们既然拿粮食比喻数据,那么数据对于人工智能来说就是吃到肚子里去。数据采集难度系数不低,我们怎么更简便的得到数据,更快的解决人工智能的温饱问题呢?聪明的人类又开始思考如何为自己快速搞到数据。

首先,我们可以自己搞一个高定制化的统一收割系统,用统一的机器做数据粮食收割效率非常高,但这也导致了最终的数据粮食虽然统一,完全没有惊喜,毕竟收割机高度就是这么高,这一茬被收割,一些参差不齐的数据却侥幸继续野蛮生长无法收割。从下面的曲线可以看出:高度定制化可以带来极简的使用体验,但也牺牲了灵活性。


极简和灵活性如何取舍,还是要落地在场景中。按照2-8原则,80%的数据我们采用高端定制的模式来收割,剩下的20%的数据手动收割,这样我们既能高效的获取整齐划一的粮食也能参杂一些小惊喜,两全其美。

下面我们来看看具体的操作:

网络人工智能业务所使用的80%以上数据,是电信网络的设备数据,所以这一部分可以直接进行网络打通,系统自动完成对接协商、数据采集和标准化处理,使用者可直接获取想要的小区性能指标,进入下一业务环节。

80%的数据采集场景做到了极简,大部分用户的体验得到保障。剩下20%的场景,通过灵活通用的采集能力来解决,用户配置数据源对接参数即可完成数据采集。

还有一些数据并不能通过简单采集获得,比如,无源设备、以及无法产生状态数据的软硬件系统,这就需要一波高端操作——探针自主采集。探针技术本身比较成熟,各行业都有广泛应用,弊端是部署成本高、推广难度大。探针技术也有软硬之分,从名称上就能看出,软探针就是通过独立可执行的软件或可被集成的SDK,在用户授权的情况下,采集网络体验数据。硬探针基本上就是传感器、探测设备等,专业性较强,数据收集准确性高。


三、数据能干什么

数据能干的事情太多了,可以用来分析用户喜好和需求,获得对电信网络真实客观的使用反馈,能够快速得知产品有何不足,对应更新更多的业务模式,能够帮助实现业务改善。好的数据能够帮助企业获得更大对竞争力。但这些数据的背后是人,人的主观性越强,需求就越明确,对产品能力的提升就越有帮助。这些数据就好比是食物中最顶端的高端食材,口感一流品质上乘,但是价格不菲。如下图所示:


体验数据不好获得,这些数据基本上要通过问卷调查、实验、端侧体验指标采集等方式获得,不仅成本高而且可获得的数据量也有限。这就好像你是个网店卖家,辛苦做出的产品想要得到五星好评或真实超过10个字的评价感受,需要给客户搞一个好评返现红包。鉴于大家都比较忙,给有字评价的客户依旧不多,那就需要用插补的方式,基于少量真实评价估计一个全部用户的整体感受。


四、保卫数据安全才是正经事

在开头我们讲过,数据采集有很多难处,在收集、存储、传输上都需要更安全的环境。只有保障从数据采集系统安全可靠,才能够有效的保护数据需求者和提供者的权益。网络人工智能在数据采集安全方面也做了不少针对性的措施。比如数据脱敏、数据加密等等,在传输过程中也提升了运输大队的军火储备和隐蔽能力,争取让劫匪找不到自己的数据,或者遇到劫道儿的也能从容迎战保卫数据安全。

网络人工智能在数据采集安全方面所做的措施如下图所示:



五、数据采集技术还在不断成长

数据采集不是一蹴而就的,随着产品或服务的迭代升级,各行业技术的发展,用户需求的提升,政策法规的完善,数据采集技术在安全和隐私保护、数据可获得性、体验等都需要不断演进发展。数据采集不仅是数字化转型的基础,人工智能的精神食粮,更需要做到保障数据通道的畅通无阻。

文章来源: zhuanlan.zhihu.com,作者:网络人工智能园地,版权归原作者所有,如需转载,请联系作者。

原文链接:zhuanlan.zhihu.com/p/372026634

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。