UDF函数，hive调用java包简单方法

UDF函数，是hadoop在强大的大数据批量导入导出操作之余，为了满足复杂的数据逻辑操作留下的接口

核心思想：不管是UDF函数还是自定义处理jar包，都是要放置在hadoop服务器上的，相当于hadoop多出了一个自定义的处理数据的方法

1）其中调用的不管是参数还是数据库都是以hadoop本身的服务器环境路径为本地路径，而不是自己操作的java环境

2）

现在记录下2种近期使用过的简单方法，非常简单。

1、函数调用

1）导入UDF架包，保证引用UDF时不会编译报错

2）java中建任意类继承UDF，然后重写其evaluate方法，参数为你想操作的字段的值

-- 建议单一修改字段值时但是hive自带函数不满足条件时使用不建议处理复杂操作

3）将写好的java类编译为.class文件可以使用eclipse或者intelij等IDE工具直接获取，或者使用jdk编译方式

-- jdk编译方式，将写好的java类拷贝出来放在1个路径简单的位置， win+R --cmd 打开命令窗口 cd到jdk的bin目录下

javac + java文件位置回车运行即可，若报错检查bin目录下是否缺少javac组件或者文件路径是否写错

4）打包仍然可以使用eclipse或者intelij等IDE工具直接打包也可以使用jar命令打包方式保证2种方式打出来的包结构相同即可

-- jar打包方式新建文件夹，名称英文即可，此处假设为com。将3)步生成好的class文件放入假设为test.class

cd 到com的同级目录使用命令 jar -cvf testUdf.jar com 运行后会在com的同级目录中出现名称testUdf.jar的包

5）将包上传到hadoop服务器上你可以找到的位置假设为 /home/hadoop/soft/file/testUdf.jar

6）将包加入hive 进入hive环境，输入命令：add jar /home/hadoop/soft/file/testUdf.jar;

1> 临时方式：create temporary function testFunction as 'com.test'; -- 只对当前session起效，即退出hive后，下次要使用需要再次创建

2>永久生效：

《1》上传到 hdfs，使用命令：hdfs dfs -put /home/hadoop/soft/file/testUdf.jar /lib

《2》创建函数 create function functionTest as 'com.test' using jar 'hdfs:///lib/testUdf.jar';

2、比较实用的包jar调用，使用sh的脚本调用方式实现方法更加简单

1）不用实现UDF，直接像写正常的java类那样写一个你要处理数据的类，包含1个main函数即可

2）入参从main函数的 args中取，可以为任意类型，第1个为args[0],第2个为args[1] 以此类推

3）将写好的java程序打包，

这里需要注意的是：除了jdk的架包外，若还需要其他架包一起打包进jar‘。一般若是作数据处理是不需要其他包的，若有

需要特别处理的方法，可以自己写一个工具类然后把整个函数拷贝进去

4）将打好的包上传到hadoop上自己熟悉的位置，使用sh脚本调用jar包，带上自己要使用的参数即可

5）sh调用方式：暂无

需要引起注意的地方： 1》 hadoop我使用的环境是原先配置的有jdk，若使用者没有需要自己配置

　　　　　　　　 2》此方法适用于使用参数查询 hive数据进行复杂算法逻辑