参加《21天晋级大数据实战营》——DAY11 让编排变的简单-数据湖工厂实验小结

举报
richblue88 发表于 2018/12/09 12:55:53 2018/12/09
【摘要】 1、创建桶2、获取原始数据https://grouplens.org/datasets/movielens/ 将ml-latest-small.zip解压3、将原始数据movies.csv、ratings.csv上传到桶4、创建数据表新建DLI SQLcreate table movie(movieId int,title varchar(256),genres varchar(256)) ...

1、创建桶

blob.png

blob.png

blob.png


blob.png



2、获取原始数据

https://grouplens.org/datasets/movielens/

blob.png

将ml-latest-small.zip解压

blob.png


3、将原始数据movies.csv、ratings.csv上传到桶

blob.png



blob.png


4、创建数据表

blob.png


blob.png



blob.png


blob.png


blob.png


blob.png

blob.png

blob.png

blob.png

新建DLI SQL

blob.png

create table movie(movieId int,title varchar(256),genres varchar(256)) using csv options (path 's3a://obs-movies-richblue88/movies.csv'); 

create table rating(userId int,movieId int,rating float,rating_date long) using csv options (path 's3a://obs-movies-richblue88/ratings.csv'); 

create table top_rating_movie(title varchar(256),avg_rating float,rating_user_number int); 

create table top_active_movie(title varchar(256),avg_rating float,rating_user_number int);

blob.png



blob.png


5、分析数据:评分最高Top20电影

blob.png


insert overwrite table top_rating_movie 

select 

a.title, 

b.ratings / b.rating_user_number as avg_rating, 

b.rating_user_number 

 

from 

movie a, 

select 

movieId, 

sum(rating) ratings, 

count(1) as rating_user_number  

from 

rating 

group by 

movieId 

) b 

where 

rating_user_number > 100 

and a.movieId = b.movieId 

order by 

avg_rating desc 

limit 

20

blob.png



blob.png


blob.png


blob.png



6、分析数据(最活跃Top20电影)

blob.png


insert overwrite table top_active_movie    

select * from  

select  

  a.title,  

  b.ratingSum / b.rating_user_number as avg_rating,  

  b.rating_user_number  

from  

  movie a,  

  (  

    select  

      movieId,  

      sum(rating) ratingSum,  

      count(1) as rating_user_number  

    from  

      rating  

    group by  

      movieId  

  ) b  

where   

  a.movieId = b.movieId  

  ) t 

  where  

  t.avg_rating > 3.5  

order by  

  rating_user_number desc  

limit  

  20


blob.png


blob.png



blob.png


blob.png


blob.png


7、创建作业

blob.png


blob.png



image.png



image.png




image.png



image.png


测试运行

image.png




image.png


调度配置

image.png

image.png

image.png


image.png


image.png



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。