大数据研修

举报
ssdandan 发表于 2022/08/01 10:32:58 2022/08/01
【摘要】 大数据建模、分析、挖掘技术应用研修2022年8月5日 — 2022年8月9日1.掌握大数据建模分析与使用方法。2.掌握大数据平台技术架构。3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。6.掌握基于Hadoop大数据平...

大数据建模分析挖掘技术应用研修

2022年8月5日 2022年8月9日

1.掌握大数据建模分析与使用方法。

2.掌握大数据平台技术架构。

3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。

4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。

5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。

6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。

7.掌握常见的机器学习算法。

课程

时间安排

课程大纲

详细内容

实践训练

第一天


一、大数据概述

1.大数据及特点分析

2.大数据关健技术

3.大数据计算模式

4.大数据应用实例


二、大数据处理架构Hadoop

1.Hadoop项目结构

2.Hadoop安装与使用

3.Hadoop集群的部署与使用

4.Hadoop 代表性组件

1.Hadoop Single Node Cluster

2. Hadoop Multi Node Cluster

三、分布式文件系统HDFS

1.HDFS体系结构

2.HDFS存储

3.HDFS数据读写过程

1.创建与查看HDFS目录

2.从本地计算复制文件到HDFS

3.将HDFS文件复制到本地计算机

4.复制与删除HDFS文件

5.Hadoop HDFS Web浏览HDFS

四、分布式数据库HBase

1.HBase访问接口

2.HBase数据类型

3.HBase实现原理

4.HBase运行机制

5.HBase应用


第二天


五、MapReduce

1.MapReduce体系结构

2.MapReduce工作流程

3.资源管理调度框架YARN

4.MapReduce应用


六、Spark

1.Spark生态与运行架构

2.Spark SQL

3.Spark部署与应用方式

1.Python Spark 安装

2.本地运行pyspark程序

3.在Hadoop YARN 运行pyspark

4.Spark Web UI

七、IPython Notebook运行Python Spark程序

1.Anaconda

2.IPython Notebook使用Spark

3.使用IPython Notebook在Hadoop YARN模式运行

1.在不同模式运行IPython Notebook运行Python Spark命令

2.Python 程序开发

八、Python Spark集成开发环境

1.Python Spark集成开发环境部署配置

2.Spark数据分析库MLlib的开发部署

Spark MLlib应用程序示例

第三天


九、Python Spark决策树二分类与多分类

1.决策树原理

2.大数据问题

3.决策树二分类

4.决策树多分类

1.搜集数据

2.数据准备:导入并转换数据、提取特征字段、提取标签

3. Python Spark建模,训练模型

4.预测数据

5.评估数据,给出评价指标并得到评估结果

十、Python Spark支持向量机

1.支持向量机SVM 原理与算法

2.Python Spark SVM程序设计

1.数据准备

2.建立SVM模型,训练模型

3.评估参数并找出最优参数

4.根据模型进行预测

十一、Python Spark 贝叶斯模型

1.朴素贝叶斯模型原理

2.Python Spark贝叶斯模型程序设计

1.建模贝叶斯模型,并进行对参数估计

2.训练模型,得到最优参数

3.根据模型进行预测

十二、Python Spark逻辑回归

1.逻辑回归原理

2.Python Spark逻辑回归程序设计

1.Python Spark逻辑回归建模

2.根据模型进行分类

第四天


十三、Python Spark回归分析

1.大数据分析

2.数据集介绍

3.Python Spark回归程序设计

1.数据准备

2.训练回归模型

3.建立评估指标

4.训练回归模型,并找到最优参数

5.根据模型进行预测

十四、Spark ML Pipeline 机器学习流程分类

1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

1.数据准备

2.建立机器学习Pipeline流程

3.使用Pipeline流程训练

4.使用PipelineModel预测

5.评估模型准备率

十五、Python Spark 创建推荐引擎

1.推荐算法

2.推荐引擎大数据分析使用场景

3.推荐引擎设计

1.搜索数据

2.准备数据

3.训练模型

4.使用模型进行推荐

十六、项目实践

1.日志分析系统与日志挖掘项目实践

a、Hadoop,Spark,ELK技术构建日志数据仓库

b、互联网微博日志分析系统项目

1.推荐系统项目实践

a、电影数据分析与个性化推荐关联分析项目

关注人工智能技术与咨询”,了解更多资讯

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。