大数据研修
大数据建模、分析、挖掘技术应用研修
2022年8月5日 — 2022年8月9日
1.掌握大数据建模分析与使用方法。
2.掌握大数据平台技术架构。
3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。
4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。
5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。
6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。
7.掌握常见的机器学习算法。
课程
时间安排 |
课程大纲 |
详细内容 |
实践训练 |
第一天 |
一、大数据概述 |
1.大数据及特点分析 2.大数据关健技术 3.大数据计算模式 4.大数据应用实例 |
|
二、大数据处理架构Hadoop |
1.Hadoop项目结构 2.Hadoop安装与使用 3.Hadoop集群的部署与使用 4.Hadoop 代表性组件 |
1.Hadoop Single Node Cluster 2. Hadoop Multi Node Cluster |
|
三、分布式文件系统HDFS |
1.HDFS体系结构 2.HDFS存储 3.HDFS数据读写过程 |
1.创建与查看HDFS目录 2.从本地计算复制文件到HDFS 3.将HDFS文件复制到本地计算机 4.复制与删除HDFS文件 5.Hadoop HDFS Web浏览HDFS |
|
四、分布式数据库HBase |
1.HBase访问接口 2.HBase数据类型 3.HBase实现原理 4.HBase运行机制 5.HBase应用 |
|
|
第二天 |
五、MapReduce |
1.MapReduce体系结构 2.MapReduce工作流程 3.资源管理调度框架YARN 4.MapReduce应用 |
|
六、Spark |
1.Spark生态与运行架构 2.Spark SQL 3.Spark部署与应用方式 |
1.Python Spark 安装 2.本地运行pyspark程序 3.在Hadoop YARN 运行pyspark 4.Spark Web UI |
|
七、IPython Notebook运行Python Spark程序 |
1.Anaconda 2.IPython Notebook使用Spark 3.使用IPython Notebook在Hadoop YARN模式运行 |
1.在不同模式运行IPython Notebook运行Python Spark命令 2.Python 程序开发 |
|
八、Python Spark集成开发环境 |
1.Python Spark集成开发环境部署配置 2.Spark数据分析库MLlib的开发部署 |
Spark MLlib应用程序示例 |
|
第三天 |
九、Python Spark决策树二分类与多分类 |
1.决策树原理 2.大数据问题 3.决策树二分类 4.决策树多分类 |
1.搜集数据 2.数据准备:导入并转换数据、提取特征字段、提取标签 3. Python Spark建模,训练模型 4.预测数据 5.评估数据,给出评价指标并得到评估结果 |
十、Python Spark支持向量机 |
1.支持向量机SVM 原理与算法 2.Python Spark SVM程序设计 |
1.数据准备 2.建立SVM模型,训练模型 3.评估参数并找出最优参数 4.根据模型进行预测 |
|
十一、Python Spark 贝叶斯模型 |
1.朴素贝叶斯模型原理 2.Python Spark贝叶斯模型程序设计 |
1.建模贝叶斯模型,并进行对参数估计 2.训练模型,得到最优参数 3.根据模型进行预测 |
|
十二、Python Spark逻辑回归 |
1.逻辑回归原理 2.Python Spark逻辑回归程序设计 |
1.Python Spark逻辑回归建模 2.根据模型进行分类 |
|
第四天 |
十三、Python Spark回归分析 |
1.大数据分析 2.数据集介绍 3.Python Spark回归程序设计 |
1.数据准备 2.训练回归模型 3.建立评估指标 4.训练回归模型,并找到最优参数 5.根据模型进行预测 |
十四、Spark ML Pipeline 机器学习流程分类 |
1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等 2.使用Spark ML Pipeline 机器学习流程分类程序设计 |
1.数据准备 2.建立机器学习Pipeline流程 3.使用Pipeline流程训练 4.使用PipelineModel预测 5.评估模型准备率 |
|
十五、Python Spark 创建推荐引擎 |
1.推荐算法 2.推荐引擎大数据分析使用场景 3.推荐引擎设计 |
1.搜索数据 2.准备数据 3.训练模型 4.使用模型进行推荐 |
|
十六、项目实践 |
1.日志分析系统与日志挖掘项目实践 a、Hadoop,Spark,ELK技术构建日志数据仓库 b、互联网微博日志分析系统项目 1.推荐系统项目实践 a、电影数据分析与个性化推荐关联分析项目 |
关注“人工智能技术与咨询”,了解更多资讯!
- 点赞
- 收藏
- 关注作者
评论(0)