生活中的大数据分析(三)
利用hql进行数据分析
第三组;电话属性统计
描述:通过对电话属性的描述,可以得到机主打电话的频率,次数,通过此可以猜测机主最关系的人。
优点:分别通过月份,电话,统计出了机主最关心的前五个电话,前五个地区,地区电话一比较,就可以找去每个地方最关心的人
7.统计每个电话的总通话时间,输出城市,电话,总时间,按照总时间排序,输出时间前五个。
insert overwrite directory "/user/15"
select dd.city,cc.phone_number,sum(cc.call_duration) as shijian from
(select *,substr(phone_number,1,7) as m from call_records )cc
left join (select *,substr(number_bigint,2,7) as n from number_field)dd
on cc.m=dd.n where dd.city is not null group by cc.phone_number,dd.city order by shijian desc limit 5;
描述:找出通话总时间最多前五个,根据此可以猜测,这些电话号码,肯定是与机主联系密切的人。
优点:利用聚合函数sum,联立双表查询。
8.统计每个电话的通话次数,输出城市,电话,总次数,按照总次数排序,输出前五个。
insert overwrite directory "/user/15"
select dd.city,cc.phone_number,count(cc.phone_number) as cishi from
(select *,substr(phone_number,1,7) as m from call_records )cc
left join (select *,substr(number_bigint,2,7) as n from number_field)dd
on cc.m=dd.n where dd.city is not null group by cc.phone_number,dd.city order by cishi desc limit 5;
描述:找出通话次数最多前五个,根据此可以猜测,这些电话号码,肯定是与机主联系密切的人。
优点:利用聚合函数count,联立双表查询。
第四组:话费查询
描述:分时间,分地域的统计机主产生的话费(假设没有通话套餐服务,呼入呼出皆收费)
优点:统计每个地方,每个时段的时间,可以和通话次数,通话时间一起佐证机主联系最多的人,对于服务商,可以根据此推荐套餐服务。
9.统计每个电话所产生的话费
insert overwrite directory "/user/15"
select dd.city,cc.phone_number,cc.huafei from
(select phone_number,substr(phone_number,1,7) as m,sum(call_duration)/60*0.12 as huafei from call_records group by phone_number )cc
left join (select *,substr(number_bigint,2,7) as n from number_field)dd
on cc.m=dd.n where dd.city is not null ;
描述:统计花在每个电话的话费,清楚了解到机主的流量话费,根据此向机主推荐流量套餐。
优点:利用聚合函数sum,双表联立,思路新。
10.查询每个城市上花费的电话费
insert overwrite directory "/user/15"
select dd.city,sum(call_duration)/60*0.12 from
(select phone_number,call_duration,substr(phone_number,1,7) as m from call_records)cc
left join (select *,substr(number_bigint,2,7) as n from number_field)dd
on cc.m=dd.n where dd.city is not null group by dd.city;
描述:统计花在每个城市的话费,清楚了解到机主的流量话费,根据此向机主推荐流量套餐,而且可以猜测出机主与那个城市的联系更加密切。
优点:利用聚合函数sum,双表联立,思路新。
11.查询每个月的电话费
insert overwrite directory "/user/15"
select substr(phone_data,0,7),sum(call_duration)/60*0.12 as huafei from call_records group by substr(phone_data,0,7);
描述:统计花在每个月的话费,清楚了解到机主的流量话费,根据此向机主推荐流量套餐,而且可以猜测出机主的工作是否有潮汐期。
优点:利用聚合函数sum,双表联立,思路新,推理结果新颖。
- 点赞
- 收藏
- 关注作者
评论(0)