21天晋级大数据-DAY16 海量数据云上数据仓库在线分析(一)

举报
tengyun 发表于 2018/12/15 00:01:56 2018/12/15
【摘要】 21天晋级大数据-DAY16 海量数据云上数据仓库在线分析

一.主要完成作业二

作业2:根据下面提供的资料与提示,进行Dota2比赛分析

(1)下载数据

https://www.kaggle.com/devinanzelmo/dota-2-matches

spacer.gif1.png

(2)(https://support.huaweicloud.com/devg-dws/import_from_obs_0001.html )根据导入指导,将数据导入以创建好的数据仓库

(3)用户可根据自己的爱好,对dota2的比赛数据进行分析,步骤可以参照第

一天的操作文档。不强制要求将所有的表上传并分析,用户可根据自己的实际

情况,上传几张表即可。

1、 创建OBS桶:

obs-hfdota/

华北一

公共

2、导入数据到OBS桶中:

2.png

dota2的比赛数据较大,可解压后上传几个样表即可。

3、在DWS集群中创建数据库:

第一部分像DAY15中那样,在DataStudio中分析。Tableau分析放在第二部分。

create database dota encoding 'utf8' template template0;

3.png



4、数据库中创建表:

操作文档第一、二行错误,需要将day15的“traffic_data”修改为“dota_data”:


create schema dota_data;

set current_schema=dota_data;

drop table if exists DOTA;

CREATE TABLE DOTA

(

   ability_id       VARCHAR(20),

   ability_name VARCHAR(50)

)

with (orientation = column, COMPRESSION=MIDDLE)    distribute by hash(ability_id);

5、 创建外表;

注意copy的pdf中含有空格,“DOTA _OBS”需要手工删除。

create schema tpchobs;

set current_schema = 'tpchobs';

drop FOREIGN table if exists DOTA_OBS;

CREATE FOREIGN TABLE DOTA_OBS

(

like dota_data.DOTA

)SERVER gsmpp_server

OPTIONS

(

encoding 'utf8',

location 'obs://obs-xxdota/ability_upgrades.csv',

format 'text',

delimiter ',',

access_key 'XXXXXXXXXXXXXXXI‘,

secret_access_key 'XXXXXXXXXXXXXXXXX',

chunksize '64',

IGNORE_EXTRA_DATA 'on'

);

spacer.gif

6导入数据

操作文档漏了数据导入,需要创建了外表之后,还要执行导入数据语句:

insert into dota_data.DOTA select * from tpchobs.DOTA_OBS;

待数据导入成功后再执行下步查询

7、查询数据样例:

Analyze;

set current_schema = dota_data;

select count(*) from dota_data.DOTA;

spacer.gif4.png

select * from dota_data.DOTA;

5.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。