- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Spark Hive自定义函数使用解析

雪中独狼发表于 2020/08/31 10:02:56 2020/08/31

【摘要】 Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF，UDTF，UDAF三种类型的自定义函数。UDF使用场景：输入一行，返回一个结果，一对一，比如定义一个函数，功能是输入一个IP地址，返回一个对应的省份。UDTF使用场景: 输入一行，返回多行(hive),一对多, 而sparkSQL中没有UDTF， spark中用flatMap即可实现该功能。UDAF: 输入多...

Spark Hive自定义函数使用解析

1. 简介

Spark目前支持UDF，UDTF，UDAF三种类型的自定义函数。UDF使用场景：输入一行，返回一个结果，一对一，比如定义一个函数，功能是输入一个IP地址，返回一个对应的省份。UDTF使用场景: 输入一行，返回多行(hive),一对多, 而sparkSQL中没有UDTF， spark中用flatMap即可实现该功能。UDAF: 输入多行,返回一行, aggregate(主要用于聚合功能，比如groupBy，count，sum), 这些是spark自带的聚合函数,但是复杂相对复杂。

Spark底层其实以CatalogFunction结构封装了一个函数，其中FunctionIdentifier描述了函数名字等基本信息，FunctionResource描述了文件类型（jar或者file）和文件路径；Spark的SessionCatalog提供了函数注册，删除，获取等一些列接口，Spark的Executor在接收到函数执行sql请求时，通过缓存的CatalogFunction信息，找到CatalogFunction中对应的jar地址以及ClassName, JVM动态加载jar，并通过ClassName反射执行对应的函数。

图1. CatalogFunction结构体

图2. 注册加载函数逻辑

Hive的HiveSessionCatalog是继承Spark的SessionCatalog，对Spark的基本功能做了一层装饰以适配Hive的基本功能，其中包括函数功能。HiveSimpleUDF对应UDF，HiveGenericUDF对应GenericUDF，HiveUDAFFunction对应AbstractGenericUDAFResolve以及UDAF，HiveGenericUDTF对应GenericUDTF

图3. Hive装饰spark函数逻辑

2. UDF

UDF是最常用的函数，使用起来相对比较简单，主要分为两类UDF：简单数据类型，继承UDF接口；复杂数据类型，如Map，List，Struct等数据类型，继承GenericUDF接口。

简单类型实现UDF时，可自定义若干个名字evaluate为的方法，参数和返回类型根据需要自己设置。因为UDF接口默认使用DefaultUDFMethodResolver去方法解析器获取方法，解析器是根据用户输入参数和写死的名字evaluate去反射寻找方法元数据。当然用户也可以自定义解析器解析方法。

图4. 自定义UDF简单示例

图5.默认UDF方法解析器

3. UDAF

UDAF是聚合函数，目前实现方式主要有三种：实现UDAF接口，比较老的简答实现方式，目前已经被废弃；实现UserDefinedAggregateFunction，目前使用比较普遍方式，按阶段实现接口聚集数据；实现AbstractGenericUDAFResolver，实现相对UserDefinedAggregateFunction方式稍微复杂点，还需要实现一个计算器Evaluator（如通用计算器GenericUDAFEvaluator），UDAF的逻辑处理主要发生在Evaluator。

UserDefinedAggregateFunction定义输入输出数据结构，实现初始化缓冲区（initialize），聚合单条数据（update），聚合缓存区（merge）以及计算最终结果（evaluate）。

图6.自定义UDAF简单示例

4. UDTF

UDTF简单粗暴的理解是一行生成多行的自动函数，可以生成多行多列，又被称为表生成函数。目前实现方式是实现GenericUDTF接口，实现2个接口，initialize接口参数校验，列的定义，process接口接受一行数据，切割数据。

图7.自定义UDTF简单示例

spark自定义函数使用解析.docx

337.83KB 下载次数：2次

附件下载

spark自定义函数使用解析.docx 337.83KB 下载次数：2次

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Spark Hive自定义函数使用解析

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Spark Hive自定义函数使用解析

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品