科技圈小白三连问:数据从哪儿来?到哪儿去?能干什么?
作者:孟瑜
作为科技圈小白,经常被数据搞得头晕脑胀,数据打哪儿来?到哪儿去?能干什么?那么多数据怎么区分谁有用谁没用?今天这篇文章,小编就带你查一查数据采集技术的水表。
一、数据打哪儿来
数据就好比是人工智能的粮食,是人工智能最基础的需求之一。巧妇难为无米之炊,想让人工智能吃顿饱饭,一切的前提就是要找到数据粮食,那数据打哪儿来呢?
首先我们要搞明白什么样的数据是有用的,不能看到数据就搞拿来主义,数据要具备真实性、有效性、时效性三大特征。对人工智能来说,才是一道色香味俱全的“好菜”。
那数据打哪儿来(怎么获得)?
数据是通过采集的方式获得的,但是采集过程并不简单。比如,数据粮食并不单一,有的是粗粮有的是细粮,能够拿到细粮的概率太低了。为了筛选出真实有效的数据,大家通常的做法就是把粗粮先搞回来再加工,这种情况就导致花大力气搞回来的粮食筛到最后能吃的不到10%。
而且,不是所有的数据都是现成的,有些情况下需要自给自足去种地,从撒子秧苗开始培育自己的数据,至于哪个环节出问题导致数据收成不好那都是靠天吃饭的随机性了。
就算是自己动手丰衣足食也存在秧苗生长不统一的问题,数据有很大的主观性,经常按照自己的想法长,大家都不一样,那口感就不一致了,咱们以为这是一碗大米饭,可能最后出来的是杂豆饭。
再说存储和传输问题
存储数据就好比存储粮食,遇到个雨雪潮湿,粮食易发霉最终就会无法食用。传输也是头等大事,毕竟数据在谁看来都足够香,遇上个劫匪什么的把数据抢走就白忙活了。
二、数据到哪儿去
我们既然拿粮食比喻数据,那么数据对于人工智能来说就是吃到肚子里去。数据采集难度系数不低,我们怎么更简便的得到数据,更快的解决人工智能的温饱问题呢?聪明的人类又开始思考如何为自己快速搞到数据。
首先,我们可以自己搞一个高定制化的统一收割系统,用统一的机器做数据粮食收割效率非常高,但这也导致了最终的数据粮食虽然统一,完全没有惊喜,毕竟收割机高度就是这么高,这一茬被收割,一些参差不齐的数据却侥幸继续野蛮生长无法收割。从下面的曲线可以看出:高度定制化可以带来极简的使用体验,但也牺牲了灵活性。
极简和灵活性如何取舍,还是要落地在场景中。按照2-8原则,80%的数据我们采用高端定制的模式来收割,剩下的20%的数据手动收割,这样我们既能高效的获取整齐划一的粮食也能参杂一些小惊喜,两全其美。
下面我们来看看具体的操作:
网络人工智能业务所使用的80%以上数据,是电信网络的设备数据,所以这一部分可以直接进行网络打通,系统自动完成对接协商、数据采集和标准化处理,使用者可直接获取想要的小区性能指标,进入下一业务环节。
80%的数据采集场景做到了极简,大部分用户的体验得到保障。剩下20%的场景,通过灵活通用的采集能力来解决,用户配置数据源对接参数即可完成数据采集。
还有一些数据并不能通过简单采集获得,比如,无源设备、以及无法产生状态数据的软硬件系统,这就需要一波高端操作——探针自主采集。探针技术本身比较成熟,各行业都有广泛应用,弊端是部署成本高、推广难度大。探针技术也有软硬之分,从名称上就能看出,软探针就是通过独立可执行的软件或可被集成的SDK,在用户授权的情况下,采集网络体验数据。硬探针基本上就是传感器、探测设备等,专业性较强,数据收集准确性高。
三、数据能干什么
数据能干的事情太多了,可以用来分析用户喜好和需求,获得对电信网络真实客观的使用反馈,能够快速得知产品有何不足,对应更新更多的业务模式,能够帮助实现业务改善。好的数据能够帮助企业获得更大对竞争力。但这些数据的背后是人,人的主观性越强,需求就越明确,对产品能力的提升就越有帮助。这些数据就好比是食物中最顶端的高端食材,口感一流品质上乘,但是价格不菲。如下图所示:
体验数据不好获得,这些数据基本上要通过问卷调查、实验、端侧体验指标采集等方式获得,不仅成本高而且可获得的数据量也有限。这就好像你是个网店卖家,辛苦做出的产品想要得到五星好评或真实超过10个字的评价感受,需要给客户搞一个好评返现红包。鉴于大家都比较忙,给有字评价的客户依旧不多,那就需要用插补的方式,基于少量真实评价估计一个全部用户的整体感受。
四、保卫数据安全才是正经事
在开头我们讲过,数据采集有很多难处,在收集、存储、传输上都需要更安全的环境。只有保障从数据采集系统安全可靠,才能够有效的保护数据需求者和提供者的权益。网络人工智能在数据采集安全方面也做了不少针对性的措施。比如数据脱敏、数据加密等等,在传输过程中也提升了运输大队的军火储备和隐蔽能力,争取让劫匪找不到自己的数据,或者遇到劫道儿的也能从容迎战保卫数据安全。
网络人工智能在数据采集安全方面所做的措施如下图所示:
五、数据采集技术还在不断成长
数据采集不是一蹴而就的,随着产品或服务的迭代升级,各行业技术的发展,用户需求的提升,政策法规的完善,数据采集技术在安全和隐私保护、数据可获得性、体验等都需要不断演进发展。数据采集不仅是数字化转型的基础,人工智能的精神食粮,更需要做到保障数据通道的畅通无阻。
文章来源: zhuanlan.zhihu.com,作者:网络人工智能园地,版权归原作者所有,如需转载,请联系作者。
原文链接:zhuanlan.zhihu.com/p/372026634
- 点赞
- 收藏
- 关注作者
评论(0)