作者小头像 Lv.3
更多个人资料
254 成长值
1 关注
14 粉丝
+ 关注 私信

个人介绍

华为云云享专家 华为认证大数据HCIE

感兴趣或擅长的领域

人工智能、大数据、数据库、微服务架构、编程语言
个人勋章
TA还没获得勋章~
成长雷达
210
24
0
0
20

个人资料

个人介绍

华为云云享专家 华为认证大数据HCIE

感兴趣或擅长的领域

人工智能、大数据、数据库、微服务架构、编程语言

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
揭秘hive常见面试题(六)-20道
为什么创建类 DataWritable? 【揭秘hive常见面试题(一)-13】 如何实现统计手机流量? 【揭秘hive常见面试题(一)-13】 对比 hive 与 mapreduce 统计手机流量的区别? 【揭秘hive常见面试题(一)-13】 如今有 10 个文件夹,每个文件夹都有 1000000 个 url.如今让你找出top1000000url 不思考歪斜,功能,运用 ...
作者小头像 百忍成金的虚竹
1642
0
0
2021-03-26 01:19:18
999+
0
0
揭秘hive常见面试题(二)-20道
1你们数据库怎么导入 hive 的,有没有出现问题 使用 sqoop 导入,我们公司的数据库中设计了 text 字段,导致导入的时候出现了缓存 不够的情况(见云笔记),开始解决起来感觉很棘手,后来查看了 sqoop 的文档,加上 了 limit 属性,解决了 2Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细) Redis 是缓存,围绕着内存和缓存说 H...
作者小头像 百忍成金的虚竹
1818
0
0
2021-03-29 00:52:50
999+
0
0
HIVE 优化(一)-COUNT DISTINCT
1.少用COUNT DISTINCT 数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换: SELECT day, COUNT(DISTINCT id) AS uv ...
作者小头像 百忍成金的虚竹
1688
0
0
2021-03-25 23:53:05
999+
0
0
Hive优化(九)-表优化
Join原则: 1)小表Join大表, 2)大表Join大表 3)MapJoin 4)Group by 5)Count(Disthinct)去重统计 6)笛卡尔积 7)行列过滤 8)动态分区调整 9)分桶 10)分区 1)小表Join大表, 将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用Group让小的维度...
作者小头像 百忍成金的虚竹
1626
0
0
2021-03-26 01:16:43
999+
0
0
Hive优化(六)-使用分区剪裁、列剪裁-查询速度快
在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。 在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤,比如: 环境准备: create table ori(id bigint, time bigint, uid string, keyword string, url_rank int, clic...
作者小头像 百忍成金的虚竹
1502
0
0
2021-03-29 00:57:35
999+
0
0
Hive优化(七)-动态分区调整
动态分区调整 关系型数据库中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。 说白了就是以第一个表的分区规则,来对应第二个表的分区规则,将第一个表的所有分区,全部拷贝到第二个表中来,第二个表在加载数据的时候...
作者小头像 百忍成金的虚竹
1724
0
0
2021-03-26 00:24:48
999+
0
0
Hive优化(十)-控制hive任务中的map数和reduce数
合理设置Map数 (1)通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 2)举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该...
作者小头像 百忍成金的虚竹
1610
0
0
2021-03-26 01:12:50
999+
0
0
Hive优化(十四)- Fetch抓取(Hive可以避免进行MapReduce)
Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fetch.task.conver...
作者小头像 百忍成金的虚竹
1534
0
0
2021-03-26 00:31:26
999+
0
0
Hive优化(十七)-严格模式
严格模式 Hive提供了一个严格模式,可以防止用户执行那些可能意向不到的不好的影响的查询。 通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。 <property> <name>hive.mapred.mode</name> <value>...
作者小头像 百忍成金的虚竹
1524
0
0
2021-03-25 23:49:49
999+
0
0
Hive优化(十七)-并行执行
并行执行 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。不过,如果有更多的...
作者小头像 百忍成金的虚竹
2344
0
0
2021-03-26 00:57:32
999+
0
0
总条数:209
  • 1
  • ...
  • 16
  • 17
  • 18
  • ...
  • 21
到第 页

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注 私信