作者小头像 Lv.1
更多个人资料
29 成长值
1 关注
8 粉丝
+ 关注 私信

个人介绍

我是不温卜火

感兴趣或擅长的领域

大数据、编程语言、云计算
个人勋章
TA还没获得勋章~
成长雷达
0
9
0
0
20

个人资料

个人介绍

我是不温卜火

感兴趣或擅长的领域

大数据、编程语言、云计算

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
Hive快速入门系列(11) | Hive的自定义函数
  本次博主为大家带来的是Hive的自定义函数。 目录 一. 系统内置函数二. 自定义函数三. 自定义UDF函数四. 通过reflect调用java方法 一. 系统内置函数 查看系统自带的函数 hive> show functions; 1   我们可以看到hive自带的函数就有两百多个,但我们平时经常用到的可能就那么几个,并且自带的函数功...
作者小头像 不温卜火
1640
0
0
2020-12-03 00:06:14
999+
0
0
Hive快速入门系列(13) | Hive的数据存储格式
  此次博主为大家带来的是Hive的数据存储格式。 目录 1. 列式存储和行式存储2. TextFile格式3. Orc格式4. Parquet格式5. 主流文件存储格式对比实验5.1 存储文件的压缩比测试5.2 存储文件的查询速度测试 H i v e 支 持 的 存 储 数 据 的 格 式 主 要 有 : T E X T F I L E 、 ...
作者小头像 不温卜火
1845
0
0
2020-12-02 23:12:31
999+
0
0
Hive快速入门系列(16) | Hive性能调优 [三] 数据倾斜
  此次博主为大家带来的是Hive性能调优中的数据倾斜。 目录 一. 合理设置Map及Reduce数二. 复杂文件增加Map数三. 小文件进行合并四. 合理设置Reduce数4.1 调整reduce个数方法一4.2 调整reduce个数方法二4.3 reduce个数并不是越多越好 一. 合理设置Map及Reduce数 1.通常情况下,作业会...
作者小头像 不温卜火
1845
0
0
2020-12-02 23:57:19
999+
0
0
Hive快速入门系列(17) | Hive性能调优 [四] 并行执行
  此次博主为大家带来的是Hive性能调优中的并行执行。   Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并...
作者小头像 不温卜火
1738
0
0
2020-12-02 23:30:39
999+
0
0
Hive快速入门系列(19) | Hive性能调优 [六] JVM重用
  此次博主为大家带来的是Hive性能调优中的JVM重用。   JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。   Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的j...
作者小头像 不温卜火
1888
0
0
2020-12-02 00:20:39
999+
0
0
Hive快速入门系列(18) | Hive性能调优 [五] 严格模式
  此次博主为大家带来的是Hive性能调优中的严格模式。 Hive提供了一个严格模式,可以防止用户执行那些可能意想不到的不好的影响的查询。   通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。 <property> <...
作者小头像 不温卜火
1794
0
0
2020-12-02 22:23:10
999+
0
0
Hive快速入门系列(20) | Hive性能调优 [七] 推测执行
  此次博主为大家带来的是Hive性能调优中的推测执行。   在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其他所有任务已经运行完毕),则这些任务会拖慢作业的整体执行进度。为了避免这种...
作者小头像 不温卜火
1772
0
0
2020-12-01 22:30:14
999+
0
0
Hive项目实战系列(2) | 分析前准备(创建表与插入数据)
  此次博主为大家带来的是Hive项目实战系列的第二部分。 目录 一 启动hive二. 创建表2.1 拿到原始数据(日志数据| ori表 )2.2 把数据导入到hive中进行处理(创建两张orc表)2.3 向ORC表插入数据 一 启动hive .1 启动hiveserver2服务 [bigdata@hadoop002 hive]$ bin/...
作者小头像 不温卜火
1576
0
0
2020-12-03 00:18:41
999+
0
0
Flume快速入门系列(7) | Flume监控之Ganglia的安装与部署
  这篇文章我们讲解的是Flume监控之Ganglia的安装与部署。 目录 1. Ganglia的安装与部署2. 操作Flume测试监控 1. Ganglia的安装与部署 1. 安装httpd服务与php [bigdata@hadoop002 flume]$ sudo yum -y install httpd php 1 2. 安装其他依赖...
作者小头像 不温卜火
1991
0
0
2020-12-03 00:06:42
999+
0
0
Flume快速入门系列(8) | 如何自定义Source
  这篇文章我们讲解的是如何自定义Source。 目录 1. Source的简单介绍2. 需求/分析3. 编码3.1 导入pom依赖3.2 编写代码 4. 测试 1. Source的简单介绍   Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、...
作者小头像 不温卜火
1961
0
0
2020-12-01 22:29:38
999+
0
0
总条数:198
  • 1
  • ...
  • 8
  • 9
  • 10
  • ...
  • 20
到第 页

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注 私信