当大数据深度学习失效时
这几年,电信领域的人工智能热度一直很高,特别是看到图像识别、语音识别等基础服务获得了广泛应用,以及一些行业宣称在人工智能上获得了突破性进展,并为此开创了新的产业模式以后。现在从运营商到供应商,都希望能够通过大投入、大架构、大平台,依托大数据挖掘,先进的模型与算法,让人工智能技术在电信领域产生革命性的突破与价值。
但实际情况,有没有感觉电信领域在大数据、人工智能的进展上相比IT等领域还滞后很多呢?在我个人来看,其中的问题不少。从某种程度上来看,电信领域引入人工智能技术有点迷失在大数据海洋里面,动辄就是要各种数据采集、复杂的关联模型与深度学习算法、大数据挖掘与体系化的平台架构,但就此能产生相应的价值吗?
我们是不是应该回过头来考虑一下,电信领域当前需要选择什么样的模型怎样来实现突破呢?
一、先从一个亲身经历的案例说起
前段时间,家里的宽带出问题了,正好小孩需要完成网上作业,但是上不了网了,急得直跳。远程指导断电重启终极大 法之后还是不能上网,只得打客服电话,描述故障现象以后,客服说需要安排人上门。第二天维修人员上门处理以后说是家里的无线猫有问题,得换一个,同时留了他的手机号码。
等到周末回家以后,赶紧找了一个新的猫换上去,用电脑连接完成配置,特别是宽带的用户名、密码还专门找到开户时的记录一个个核对好,但还是上不了网。不过观察到其中有一个环节提示用户名、密码错误,但很快又跳开了,到了最终显示无网络连接的页面。
怎么会提示用户名、密码错误呢?都用了好多年了,一直没有这样的问题。好吧,再重新更加仔细的把用户名、密码配置好,还是不行。换回老的猫,发现还有同样的提示,看来还真不是猫的问题。
过程中突然想到1月份套餐快到期的时候客服电话联系我升级了套餐,客服说会邮寄新套餐的账单过来缴费,但好像一直没有收到账单,因此也没有去缴费。于是赶紧跑到营业厅问了一下,确认是处于欠费状态。当时就把费用交了,营业厅说最多个把小时就会好的。结果等到晚上,还是不行,问题还是一样。
只好打电话给之前上门的维修人员,说应该不是猫的问题,换了新猫也不行,两个猫都碰到了一样的用户名、密码错误的提示,对方也只能说再试试换猫、再确认账号配置是否正确,实在不行的话就准备第二天再次上门了。过程中我把升级了套餐、已经完成缴费的情况顺嘴提了一下,维修人员突然说不对,这种情况可能会有账号变化,让我等等,他去问问后台。
过了一会,收到维修人员的短信,给了个新的账号信息。用老的无线猫,用这个新的账号信息配置以后,上网正常了。
为什么之前一直没有碰到问题?而且欠费也有一段时间了?我估计是因为没有重启,所以还是用老账号之前建立好的通道上网,直到欠费到一定时间被停掉,进行重启以后就切换到新的账号了,然后就出现账号不对的问题了。
就此我也理解了,为什么之前做解决方案规划的时候,固定视频与家庭宽带领域提到的万投比都是万分之几百(而对应的移动领域万投比一般都是万分之几,相差几十到上百倍,其中一个关键差异就是用户侧的场景不一样),目标是要降低到万分之五十以下。而实际上,根据一线反馈,大部分投诉(反馈的统计数据是70%以上)都是这样的与欠费、账号、家庭侧的机顶盒、猫、配置或连接相关的家庭侧低级问题。但就是这些特征明显、处理简单的常规问题,却耗费了大量的人力物力不停的重复处理,包括上门处理。当然,也正因这样的常规问题是主流,虽然问题多,投诉多,支撑体系也不完善,即使万分之几百的投诉率,但运营商们依然还能凑合活着,并没有到我们主观认为的完全过不下去的情况。
那么,问题就来了,在电信网络,如果这样的常规问题占了大部分,可以通过基本的规则套路就能完成处理。那么,我们的大数据架构以及对应的基于大数据的人工智能高维技术,还有必要做成要应对终极复杂问题场景下的那么复杂吗?更何况,以我做技术支持的经历以及这些年以来的重大问题攻关经验来看,这种终极复杂问题场景,往往都是靠专家会诊进行不停的猜测、尝试才能解决,数据也往往需要进行很多轮基于猜测的场景化数据获取才能支撑分析、尝试。特别是按照现在的数据支撑与算法能力,即使人工智能平台再大、再强,实际上也解决不了这些复杂问题。
也许,电信领域,我们是否可以找到一种突破对大数据依赖的方式,在大数据深度学习模式上增加一个选择,多一条路,用架构性创新来解决结构性问题呢?
二、基于大数据深度学习的人工智能尝试
在我参与的人工智能项目中,网络维护业务的客户支持模块在人工智能课题研究中碰到了极大障碍。最初认为是最佳大数据源、最能支撑快速实现人工智能应用的每年超过80万的网上问题单,由于数据缺乏结构化与基本的标注,被判定了无法基于此来实现所需要的人工智能应用。为此业务部门不得不按照在问题处理系统中增加标注字段,并做了业务规定,要求工程师在处理问题时都得做出相应的关键标注。只是直到现在,基于海量问题单数据标注结合人工智能算法的黑盒式高维应用依然还没有见到有效成效。我们真要扪心自问一下,占据主流的常规问题是否需要基于海量的数据需求以及复杂的人工智能算法,采用大平台、高规格以及复杂的数据需求进行复杂处理?少量的复杂问题,特别是新出现的疑难问题,往往都需要深入到协议、信元、代码级的多人会诊,单个专家都还不一定能搞定,得靠不停的猜测与尝试才能最终定位。这样的场景,当前采用这样的基于大数据架构的人工智能技术能否搞定?而去为此构建一套复杂的大数据采集、分析与处理的庞大架构体系吗?
前一段时间,有通过MR大数据结合人工智能算法来实现天线接反识别的人工智能应用:“天线接反是网络优化中最常见的天馈问题之一,普通的天线接反识别是用一套算法来适配实际千变万化的场景,准确性难以保证。天线接反智能识别,利用天线与信号相匹配的业务特征,将业务特征抽样为相应的业务图形,借鉴了手写识别的机器学习算法(卷积神经网络)思路来解决分类问题,使用了20000张带标签的图形来训练模型。通过天线接反模型验证的识别准确率超过95%,天线接反识别由人工识别转向机器自动识别,识别效率提升10倍。”这些信息肯定会让不做这个工作的人看了很兴奋,因为人工智能有了应用突破。但实际上,天线接反是RF领域射频通道场景的最简单问题。按照基本的业务规则,天线接反有常规的单站验证机制在基站入网的时候控制住。少量遗漏的,也可以在后续通过基于常规切换话统的轻量级核查工具(切换话统与MR的数据体积完全不在一个层次)来完成核查与修正。这个问题归属RF的射频通道场景,天线接反问题是其中最简单、最明显的,早就不是关键障碍了,麻烦的是射频通道场景的其他的是各种线缆部分交叉、各种干扰、各种通道硬件与连接质量类等问题。在这里,是否还有必要基于海量数据采集、基于复杂算法与计算平台来处理这类特征明显、基于已有话统与单兵工具本已经可以支撑的简单问题?
最近,我承担的一个关于网络指数建模的课题也碰到了数据与算法的困扰。与大学的大数据挖掘研究团队合作,想办法采集了多个网络的海量数据,试图结合号称领先的基因工程网络模型与分类、回归等关键算法,完成相关性分析、特征提取、赋权等关键工作,然后实现网络特征的数字化呈现。遗憾的是当前基于模型与算法给出的结果很多了偏离的基本常识,远不如靠人的经验给出的结果,甚至结果还完全不合理。参与客户很不客气的说,什么模型与算法,还不如随便找个懂网络的工程师拍一下更加合理。大学那边也很委屈,说没有想到数据会那么多、那么乱,光理解数据与做数据预处理就花了很多时间。同时所需要的数据在时间维度、空间维度、变量维度都不够,样本数量与质量都不行,所以在应用的时候出现了很大的偏差。要解决的话,首先得解决数据上的问题,需要有匹配模型与算法需要的高质量数据输入。这仿佛有点死循环了,结果不好是因为数据不行,数据不行又变成了网络提供的数据质量不行,而网络提供的数据质量不行最终就成了网络数据的可供给与可采集问题。
数据,在多个专题的尝试中成了电信领域人工智能技术应用的关键障碍。确实,人工智能的关键技术往往就是基于满足要求的数据之上的,没有数据也不会有人工智能。但问题又是,电信领域天生又是产生海量数据的地方,网络产生的数据不已经仅仅是海量,还会以海量的平方不断海量递增,这对未来的大数据架构与数字化模式都提出了极大的挑战。实际上电信领域的数据不是没有,而是太多了。这仿佛成了一个对立的矛盾体,一方面每天产生海量的数据,另外一方面,这海量的数据到用的时候发现又用不了。按照无线术语来说的话,这就是信号干扰噪声比太差signal to interference plus noise ratio(简称:SINR),对人工智能来说,网络提供的很多都不是数据了,而是是干扰、噪声了。
那么,有没有可能在电信网络数据海洋里面找到有用信号,而不是信号干扰一把抓,一步就朝着无监督、基于大数据的深度学习发展呢?
三、电信网络常规问题的特征分析
“我所接触的医疗影像、生物信息类的数据,能采集到的样品数据,相对于商业数据动则几万上亿来说,基本上都少的可怜。研究项目其一,与某种特定手术有关的脑影像,数据质量过关的就22例。项目其二与生物信号有关,受到目前数据采集设备的限制,同一批次最多不过300多样本。实验室其他疾病相关脑影像,少的14、36、72,多的顶天400、1500,全部都在用机器学习尝试解决问题。生物信息、生物医学邻域现状如此,大量的样本难收集不是特例而是常态。”
这是一位生命科学领域研究人员的声音,可以看到不少领域小样本基本上是常态,往往也只能基于小样本来实现突破。
如果我们再回过头来看医疗领域,以内科为例,常规的诊断过程其实就是一个典型的小样本特征工程,一般就体温,咽喉,血液,大不了再加一个透视等寥寥几项检查项目,以致于医生看一个普通病例也就是几分钟的事情(当然要排除等待与化验时间)。而基本的化验,如血液化验也仅仅一页小纸条的一、二十项检查项目。基于此,基本上80%以上的常规内科病症就这样快速的处理了。当然,如果到了复杂的疑难杂症,就需要更多的检查与会诊了,但这个时候专家团都还不一定解决的了,需要现在就靠机器搞定吗?
这个场景是不是有点像前面的对于电信网络的描述?数据实际上很多,但多数场景下能快速采用或者需要的样本却有限。常规的问题是主流,基本的套路分析就足够了,复杂问题是少数,但往往需要是会诊、尝试。
同时,电信领域与IT领域有着很大的独特特征。IT是基于IP连接的基础上百花齐放,以致于同一个业务实现,都可以五花八门,比如共享单车,摩拜与ofo就是完全不同的两种实现方式。简单来说,每个人,每个组织都会按照自己喜欢的方式在IP连接的基础上完成自己设定的功能。
但是电信领域却是另外一套复杂的标准化体系。因为电信本身就是基于机器,要求机器之间按照要求完成任务,因此从其诞生之日就是一个标准化的体系架构,必需通过提前定义好的标准体系来实现机器之间的互通与动作,以实现定义好的服务。在电信领域,网络设备是标准化的,其中的网元、网元功能模块、接口等名称也是指定好的,不能乱叫,而接口上承载的通信协议,更是连消息名称、字段、字段取值都是定义好的,如果违背了这些标准,导致的结果就是兼容性问题而出现接网元对接不上。同时电信领域所提供的所有业务,从基本业务、补充业务到增值业务,可以多到几百个业务,都没有离开标准体系的框架,都是提前定义好的,业务要由哪些网元共同实现,之间是通过哪些消息进行交互,消息的名称、字段以及字段取值,甚至失败原因码都是提前定义好的,虽然有时也有保留取值范围,但典型取值与含义都早就在协议标准中明确清楚了。随着社会与技术的发展,标准体系也在演进加强,比如移动网络在3G时间还有3GPP、3GPP2等好几个标准体系,但到了4G、5G,都大一统成了3GPP一个体系了,标准化更强了。
在标准化的基础上,尽管实现标准的硬件、连接、配置等具体实现上可能的方式、组合很多,但也是需要从最初的设计就明确最佳路径的设计原则、标准与规范。路径再多,但只会选择最好的,其他的可能不用管。上周在讨论中就听到了说无线基站智能设计太复杂了,比如BBU的配置有很多种,天线的型号也有很多种,最终导致的组合就太多了。但实际上,这都是有设计规范约束的,最终可选的范围是有限的,一个BBU设计实例如下图:
所有硬件的位置都是确定的、有规则的,如2G主控板GTMU的位置,3G4G主控板UMPT的位置,基带板BBP的位置,甚至起始的槽位位置都是有规范的,这能保证后续平滑演进扩容,不会出现扩容还得调整现有单板、改变现有连接。特别是现在SRAN演进以后,不仅仅主控板、接口板共用了,连基带板也变成UBBP通用了,相应的设计原则与规范就此会进一步简化。
如果再结合前面章节的内容,我们可以看到,电信网络的典型特征就是标准化,相应的规划、设计等也是有原则与规范约束的,产生的问题也具有常规化、场景化与具体化特质的。那么我们的应用是不是可以先对准这些占主流的常规场景、常规问题?通过标准、规则,减少对于数据的需求,减少对于学习算法与框架的依赖?找到一条更适合电信网络这类场景的模型?当然,复杂的电信网络也会还有一些其他场景,在大数据提供容易的情况下,采用基于大数据框架下的深度学习方法。
四、标准化的电信网络与有监督的小样本学习
机器学习是人工智能的核心,而机器学习往往又有监督学习、强化学习、深度学习与无监督学习。其中监督学习常见的应用场景如分类问题与回归问题,其输入数据被称为训练数据,明确的标识或结果,在学习过程中,将预测结果与训练数据的实际结果仅需比较,不断的挑战预测模式,直到模型的预测结果达到一个预期的准确率。
另外,小样本也是样本的一种,是指与“大样本”相对。在现在的研究中,通常指样本容量小于或等于30的样本(小样本理论也有说法是50)。必须使用统计量的精确分布来进行统计推断。
那么,什么又是小样本学习呢?
“小样本学习”的概念依然是太广了,而且也不是什么新概念,这个研究思路比神经网络的出现还要早很多年。通常所提到的“小样本学习”,核心就是贝叶斯规划学习(Bayesian Program Learning,BPL),为了与深度学习(Deep Learning,DL)相区分,一般称为BPL方法。BPL方法是利用参数的先验分布,由小样本信息求来的后验分布,直接求出总体分布。这种方法使用概率去表示所有形式的不确定性,通过概率规则来实现学习和推理过程。而深度学习往往是基于大数据通过多层网络实现机器自动识别的有效的特征,一般数据越多其效果相对就会越好,在没有大数据的情况下,深度学习的效果将会显著下降。
深度学习近年来取得了举世瞩目的成就,被广泛应用在许多领域,例如内容搜索、语音识别、图像识别等。但是现在看来,在一些场景上似乎贝叶斯规划学习要比深度学习的表现更好一点,因为这种方法更加适合我们人类适应环境的方式。当然,两种学习方法在不同的任务上还是独具特色,各领风骚,假如能彼此借鉴,相互融合,一定能够大幅提升人工智能的水平。当数据量巨大但较混乱的情况下,深度学习能发挥优势。在数据量较少而清晰的情况下,贝叶斯规划学习也许能占领上风。
因此,在数据量少,规则性明显的场景下,有监督小样本学习,也可以作为机器学习的另一条途径,通过由相关领域内的专家人工提取出有用的特征,配合少量的数据进行机器学习。同时作为小样本学习核心的贝叶斯方法中的一个重要特性就是先验知识可以与观察数据一起决定假设的最终概率。
那么,我们回到电信领域,以上小样本的描述是不是适合当前电信领域的不少场景?以问题处理为例,前面大量篇幅已经描述过其典型特征,比如大部分问题都是常规或重复的问题。参考下图的小样本学习初步规划:
通过这段时间的方案审视与思考,我个人越来越感觉到电信领域,因为标准化、规则化、具体化以及最优原则的存在,实际上在诸如规划设计、问题处理等典型场景就可以是一个典型的小样本学习(当前还需要基于有监督,以后能否到半监督、无监督?)的模式。
随便举一个例子,以3G最基本的RTWP问题为例,经过那么多年的该类问题处理,实际上早就可以提炼出这个维度的“棋谱”以及更进一步的“定式”。比如影响RTWP的几个关键因素:负荷、干扰、硬件、配置、工程质量等等,以上几大类问题,每类问题都有自己的问题现象表征,有自己的检查办法,当然更不用说已具备的诸多的典型案例与解决方案,而且在这个专题场景,现有的经验绝对可以覆盖90%以上的问题。
因此,按照小样本定义,如果每个典型场景有30个典型案例,那基本能搞定80%以上的问题了。且不需要海量的数据需求,不需要复杂的建模,不需要厚重的平台。
当然,这些都还只是假设与猜想,是鉴于大数据的深度学习碰到了数据困难、平台厚重难度下的反思。基于经验的有监督的小样本学习,是否会成为电信网络人工智能的一条突破性快速通道呢?
五、附录:纷纷扰扰的人工智能能告诉我们什么
2017年,火爆的IBM Watson似乎出现了麻烦。在GE的Predix、Google的AlphaGo横空出世前,Watson一直是人工智能的代名词。2013年,IBM与世界顶级的肿瘤治疗与研究机构MD安德森癌症中心宣布合作,用Watson辅助医生开展抗癌药物的临床测试。在当时看来,一扇新的大门正在对人类敞开,门后是AI与现代医疗结合的无限可能。对此,福布斯发表了题为《在MD安德森癌症中心,IBM Watson解决了临床测试难题》的社论。而2017年福布斯的新文章,标题则是 《Watson 是不是一个笑话?》。而MD安德森,也在当年中断了与IBM的合作。前后反差,令人唏嘘。有意思的是,MD安德森向IBM支付了3900万美元,然而所有使用过Watson的医生都不愿谈及此事。2017年,随着双方的分道扬镳。IBM营收停止增长,股价起起落落,分析师甚至开始质疑:沃森真能带来更多价值吗?知名科技投资人 Chamath Palihapitiya 在2017年5月接受 CNBC 采访时表示:“沃森就是一个笑话。”
Watson 的一则商业广告描绘了一家乡村医院的两名医生如何通过智能黑匣子来进行基因组分析。但是一名 IBM Watson Health 的前研究员兼 UX 设计师表示 ,他们与曾经听说过 Watson的患者交谈过,这些患者也会询问 Watson什么时候能帮助到他们。“作为一名设计师,听到这些是一件令人心碎的事,因为我亲眼见过 Watson for Oncology 到底是怎样的,而且我也痛苦地认识到它的局限性。”这名设计师说道,“这种感觉非常糟糕,这些病人的希望都是 IBM 的营销带来的,但是我所知道的产品却是实现不了的。”报道认为,IBM对于目前沃森所处的水平太过乐观,这才招来批评。如果说现在还没有取得很大的成就,那么最大的障碍于数据,IBM需要特定类型的数据,用来训练系统。在多种环境下,数据供应严重不足,很难获得。
2018年3月22日,一篇数字化转型失败,美国通用电器包里了哪些问题的新闻报道在朋友圈里面开始传送。百年老店GE在七年烧完40亿美金之后,随着杰夫.伊梅尔 特的离去和公司股价的大幅下滑迎来新的挑战。在报道里,GE Digital不仅放慢了脚步,甚至后退了一步。其旗下最重要的“产品”之一GE Predix已经暂时放弃了工业物联网的宏伟计划,而是把触角缩回到GE未来利润所在的航空、医疗和能源系统三个领域。GE的最初目标是让开源的Predix平台称为工业物联网领域的安卓,但是绝大部分的应用开发都是GE工程师完成的;当合作伙伴对Predix平台表示兴趣的时候,GE Digital的重点是如何敲定一笔短期收入。在被称为大众点评公司版的雇主评价网站Galssdoor.com上,GE Digital的平均得分只有2.9(满分为5分),管理和架构混乱、糟糕的项目和产品管理是其中被提及最多的一些关键词。一位已经离职的高级顾问在1月27日给出了1分的最低评分,并留言说“CEO和他的直接下属根本不知道他们究竟在做什么”
2018年4月11日,一篇“腾讯AI翻译搞砸成博鳌亚洲论坛笑话”的新闻报道又横空出世,其中一段被点名的同传译文为“我想如果你能回答,很抱歉,如果你能在我们失去我们的耳朵之前回答这两个问题,然后,然后我们会,然后我们会来找你”。同时还出现了“腾讯AI翻译博鳌论坛出错求助人工同传”之类的乌龙报道,腾讯之后紧急解释说找的人工同传不是用于海南博鳌现场,而是北京的直播间专业报道。但是在腾讯AI同传宣传的描述却是:“与传统的基于短语的机器翻译不通,腾讯翻译君通过神经网络机器翻译技术提升了腾讯同传翻译系统的翻译质量”。2周以后,4月28日,一篇“GMIC展现中国示例!机器翻译世界冠军引来全球“AI教父”关注”的新闻又刷新了视线,表示,承担本次全球互联网大会主论坛翻译工作的搜狗同传做出了高效的识别与翻译,准确率令人满意。同时该报道也提出了AI机器同传在前不久的博鳌论坛上翻了车,本次搜狗同传在GMIC大会的稳定发挥,无疑是一次对于AI翻译技术的及时救场。
如果再回到电信领域,这段时间也有不少报道。比如海南移动宣称,将大数据分析、人工智能等新技术应用到通信网络,首创基于故障模型提前的特征保留投影分析,完成了预测预防性课题的成功实践,预测准确率达到85%以上,处理效率提高60%以上;湖北移动宣称中国移动湖北公司创新研发的无线网络AI(人工智能)智能优化平台已正式在武汉部分地区投入使用。作为国内首创的智能网络优化技术,该项技术的成功应用能有效提高网络优化效率,解决信号弱覆盖等问题。海外则是无人网管中心、一个人优化监督的Elisa的网络自动化运维案例,在网优雇佣军论坛成为了网红。当然,Elisa的案例更是基于SON的自动化,并没有宣称人工智能。在文章中,Elisa表示,他们的SON网络就像装备了魔棒一样发挥着神奇的魔力,每天自动执行超过300万次网络体验和3000次网络配置和参数修改,而这项庞大工程仅需一名优化工程师监督完成即可。
先不管新闻报道中的纷纷扰扰,也不管里面可能存在的作秀成分。首先我们得致敬那些有情怀的先行者,虽然先驱也许会成为先烈,但正因为有这些先行者在追求的道路上不断的思考、尝试与突破,才驱动了人类文明的一步步的革命式发展。当然,我们也深刻知道了这条路的艰辛与挑战,不是靠情怀、靠砸钱靠投入就能搞定的。尽管现在也能看到一些场景下的应用突破,但同时也无法忽视在基于数据的高维应用上依然还需要持续的探索与关键的突破,这不仅仅是需要基础算法的突破,也许还需要回归业务本质的视图,不浮夸,不冲动,对准业务需求,实现脚踏实地的场景分析与模型突破,以及面向数据科学的突破。
本文来自:“人工智能园地”
- 点赞
- 收藏
- 关注作者
评论(0)