深度学习核心技术精讲100篇(五十一)-Spark平台下基于LDA的k-means算法实现
【摘要】
本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到:
文本挖掘的基本流程
LDA主题模型算法
K-means算法
Spark平台下LDA主题模型实现
Spark平台下基于LDA的K-means算法实现
1.文本挖掘模块设计
1....
本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到:
-
文本挖掘的基本流程
-
LDA主题模型算法
-
K-means算法
-
Spark平台下LDA主题模型实现
-
Spark平台下基于LDA的K-means算法实现
1.文本挖掘模块设计
1.1文本挖掘流程
文本分析是机器学习中的一个很宽泛的领域,并且在情感分析、聊天机器人、垃圾邮件检测、推荐系统以及自然语言处理等方面得到了广泛应用。
文本聚类是信息检索领域的一个重要概念,在文本挖掘领域有着广泛的应用。文本聚类能够自动地将文本数据集划分为不同的类簇,从而更好地组织文本信息,可以实现高效的知识导航与浏览。
本文选择主题模型LDA(Latent Dirichlet Allocation)算法对文档进行分类处理,选择在Spark平台上通过Spark MLlib实现LDA算法,其中Spark Mllib是Spark提供的机器学习库,该库提供了常用的机器学习算法。其基本设计思路如下图所示:
1.2文本挖掘流程分析
首先是数据源部分,主要的数据包括文档数据和互联网爬虫数据。然后是数据抽取
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/108463640
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)