微认证 - 大数据板块 -《基于Spark实现车主驾驶行为分析》 - 学习分享

高级云网管 发表于 2022/06/19 16:36:05 2022/06/19
【摘要】 课程简介:未来城市交通是智能交通融合的场景,车与周围环境是一个紧密联系的实体,基于此背景,我们使用华为云MRS服务中的Spark组件来分析统计指定时间内,车主急加速、急刹车、空挡滑行、超速、疲劳驾驶等违法行为的次数。结合实际的案例,能够让我们更好的掌握Spark及MRS的使用


什么是微认证?


          华为云微认证是基于线上学习与在线实践,快速获得场景化技能提升的认证。


微认证清单 - 大数据


          前景概述:该课程的考试内容部分来自于 微认证课程《车联网大数据驾驶行为分析》,因为这是该课程的早期前身版本,车联网的概述介绍等


基于Spark实现车主驾驶行为分析


     课程简介:未来城市交通是智能交通融合的场景,车与周围环境是一个紧密联系的实体,基于此背景,我们使用华为云MRS服务中的Spark组件来分析统计指定时间内,车主急加速、急刹车、空挡滑行、超速、疲劳驾驶等违法行为的次数。结合实际的案例,能够让我们更好的掌握Spark及MRS的使用。


     课程结构:

车联网的背景及案例 4 了解车联网的背景及应用场景
华为车联网常用EI服务介绍 31 了解华为车联网EI服务,包括OBS和MRS
Spark车主驾驶行为分析实验介绍 18 掌握MRS服务的使用,学习Spark程序的执行过程


1、车联网的背景及案例


      汽车技术重大变革的历程


     技术革命引爆出行方式变革,智能、网联成就智慧出行


    未来场景驱动汽车行业数字化转型


       


     典型应用1 - 车辆监控及历史信息的统计分析

     典型应用2 - 站点、班线、任务、区域管理

2、华为车联网常用EI服务介绍


     对象存储服务 OBS(基础服务)

          一个基于对象的存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,使用时无需考虑容量限制,并且提供多种存储类型供选择,满足客户各类业务场景诉求

        业务模型 

          每个租户在OBS只能创建100给桶(所以区域桶个数之和不超过100),桶的名字在OBS系统内唯一,如果租户准备使用的桶名已经被其他租户使用需要更换桶名使用。 


        可靠性


        数据可靠性保证机制 


          冗余分片分别放在不同服务器中,小于冗余个数的服务器故障业务完全不受影响; EC算法替代3副本,存储利用率从33%提升到80%+; 一个对象会被拆分为2048~4096个条带,单对象理论峰值带宽:2400 MB/s ~ 4800 MB/s。 


          多AZ冗余算法使磁盘利用率达到55%,同时支持1个AZ完全故障 为了减少AZ间恢复流量,每个AZ有2份AZ内冗余数据,AZ内故障两给服务器,数据恢复能在AZ内完成。 


          服务器或者硬盘故障时,后台会以2 TB/s的速度触发重构,确保数据在最短时间内恢复到正常状态。 


        存算分离方案 


     MapReduce服务 MRS
 
          为客户提供Hudi、ClickHouse、Spark、Flink、Kafka、HBase等Hadoop生态的高性能大数据组件,支持数据湖、数据仓库、BI、AI融合等能力。

          MRS同时支持混合云和公有云两种形态:

            混合云版本,一个架构实现离线、实时、逻辑三种数据湖,以云原生架构助力客户智能升级;

            公有云版本,协助客户快速构建低成本、灵活开放、安全可靠的一站式大数据平台。


        架构图

        产品优势

     Spark



        Spark简介

          2009年诞生于美国加州大学伯克利分校AMP实验室。

          Apache Spark是一种基于内存的快速、通用、可扩展的大数据计算引擎。

          Spark 是一站式解决方案,集批处理(Spark Core )、实时流处理(Spark Streaming )、交互式查询(Spark SQL )、图计算(GraphX )与机器学习(MLLib )于一体。 



        Spark应用场景 

          批处理可用于ETL (抽取、转换、加载)。

          机器学习可用于自动判断淘宝的买家评论是好评还是差评。

          交互式分析可用于查询Hive数据仓库。

          流处理可用于页面点击流分析,推荐系统,舆情分析等实时业务。 



        Spark架构



        Spark特点

        SparkSQL

          Spark SQL是Spark中用于结构化数据处理的模块。

          在Spark应用中,可以无缝的使用SQL语句亦或是DataFrame API对结构化数据进行查询。 

        SparkStreaming

          Spark Streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据。

动手实验:

实验避坑分享:论 《基于Spark实现车主驾驶行为分析》 实验避坑,100%完成_华为云开发者学堂_华为云论坛 (huaweicloud.com)


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。