《Spark机器学习进阶实战》——1.4 机器学习综合应用
【摘要】 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.4.1节,作者是马海平、于俊、吕昕、向海。
1.4 机器学习综合应用
机器学习的应用贯穿古今,《草船借箭》是三国赤壁之战里的著名桥段,借箭由周瑜故意提出(限十天造十万支箭),机智的诸葛先生一眼识破这是一条害人之计,却淡定表示“只需要三天”。后来,有大雾天帮忙,诸葛——亮再利用曹操多疑的性格,调了几条草船诱敌,终于借足十万支箭,立下奇功,如图1-6所示。
图1-6 草船借箭与大数据
“草船借箭”和大数据有什么关系呢?
首先它涉及数据收集,收集多元化的“非结构”类型的数据;其次涉及数据分析,基于对风、云、温度、湿度、光照和所处节气的综合分析得到大雾天的预测,便于实施草船借箭。
机器学习已经“无处不在”,应用遍及人工智能的各个领域,包括数据挖掘、计算机视觉、自然语言处理、语音和手写识别、生物特征识别、搜索引擎、医学诊断、信用卡欺诈检测、证券市场分析、汽车自动驾驶、军事决策等。
下面我们从异常检测、用户画像、广告点击率预估、企业征信大数据应用、智慧交通大数据应用等方面介绍大数据的综合应用。
1.4.1 异常检测
异常是指某个数据对象由于测量、收集或自然变异等原因变得不同于正常的数据对象的场景,找出异常的过程,称为异常检测。根据异常的特征,可以将异常分为以下三类:点异常、上下文异常、集合异常。
异常检测的训练样本都是非异常样本,假设这些样本的特征服从高斯分布,在此基础上估计出一个概率模型,用该模型估计待测样本属于非异常样本的可能性。异常检测步骤包括数据准备、数据分组、异常评估、异常输出等步骤。
使用某新闻App用户行为数据进行异常检测实践,详见第9章。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)