- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

深度学习核心技术精讲100篇（五十一）-Spark平台下基于LDA的k-means算法实现

格图洛书发表于 2021/11/19 01:05:04 2021/11/19

【摘要】本文主要在Spark平台下实现一个机器学习应用，该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到：文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1....

本文主要在Spark平台下实现一个机器学习应用，该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到：

文本挖掘的基本流程
LDA主题模型算法
K-means算法
Spark平台下LDA主题模型实现
Spark平台下基于LDA的K-means算法实现

1.文本挖掘模块设计

1.1文本挖掘流程

文本分析是机器学习中的一个很宽泛的领域，并且在情感分析、聊天机器人、垃圾邮件检测、推荐系统以及自然语言处理等方面得到了广泛应用。

文本聚类是信息检索领域的一个重要概念，在文本挖掘领域有着广泛的应用。文本聚类能够自动地将文本数据集划分为不同的类簇，从而更好地组织文本信息，可以实现高效的知识导航与浏览。

本文选择主题模型LDA(Latent Dirichlet Allocation)算法对文档进行分类处理，选择在Spark平台上通过Spark MLlib实现LDA算法，其中Spark Mllib是Spark提供的机器学习库，该库提供了常用的机器学习算法。其基本设计思路如下图所示：

1.2文本挖掘流程分析

首先是数据源部分，主要的数据包括文档数据和互联网爬虫数据。然后是数据抽取

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/108463640

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

深度学习核心技术精讲100篇（五十一）-Spark平台下基于LDA的k-means算法实现

1.文本挖掘模块设计

1.1文本挖掘流程

1.2文本挖掘流程分析

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

深度学习核心技术精讲100篇（五十一）-Spark平台下基于LDA的k-means算法实现

1.文本挖掘模块设计

1.1文本挖掘流程

1.2文本挖掘流程分析

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品