hive 中自定义UDF函数和自定义UDTF函数步骤

一 、自定义UDF函数

前期准备

  在maven工程中导入依赖

<dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>1.2.1</version>
        </dependency>
</dependencies>



<!-- 打包的配置 -->
<build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin </artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>wccount.MyWcDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

代码走起

注意点:1、类需要继承org.apache.hadoop.hive.ql.UDF

    2、方法名必须是evaluate,支持重载;

    3、必须要有返回类型,可以返回null,但是返回类型不能为void;

public class MYUDF extends UDF {
    public int evaluate (int num ){
        return num + 10;
    }
}

hive中配置

1、首先利用maven打包,把jar包放入hive目录下的auxlib文件夹下(自己新建,如果是其他名字hive重启后会读不到,需要每次都重新add jar)

2、进入hive,添加jar包

add jar linux_jar_path//jar包绝对路径

3、创建函数

create [temporary] function [dbname.]function_name AS class_name;
--temporary,是否创建临时函数
--dbname.   用户自定义的函数是以库为单位的,在其他库要想调用函数需要    库名.函数名   来使用
--class_name    指的是编写类的全类名

注意点:

当要修改jar包时,需要替换旧jar包,然后重启Hive客户端即可!!

二、自定义UDTF函数

代码走起

重点:1、类要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

   2、需要重写 initialize(),process(),close()三个方法

public class MyUDTF extends GenericUDTF {

    private ArrayList<String> outList = new ArrayList<>();

    @Override
    public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {


        //1.定义输出数据的列名和类型(固定格式)
        List<String> fieldNames = new ArrayList<>();
        List<ObjectInspector> fieldOIs = new ArrayList<>();

        //2.添加输出数据的列名和类型
        fieldNames.add("lineToWord");
        //字符串的固定格式
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
    }

    @Override
    public void process(Object[] args) throws HiveException {
        
        //1.获取原始数据
        String arg = args[0].toString();

        //2.获取数据传入的第二个参数,此处为分隔符
        String splitKey = args[1].toString();

        //3.将原始数据按照传入的分隔符进行切分
        String[] fields = arg.split(splitKey);

        //4.遍历切分后的结果,并写出
        for (String field : fields) {

            //集合为复用的,首先清空集合
            outList.clear();
            /**
这里也需要把结果写进集合或数组里再输出
*/
            //将每一个单词添加至集合
            outList.add(field);

            //将集合内容写出
            forward(outList);
        }
    }

    @Override
    public void close() throws HiveException {

    }
}
                                

其他步骤同上

自定义UDAF

参考链接    https://blog.csdn.net/weixin_38750084/article/details/82780461

原文地址:https://www.cnblogs.com/yangxusun9/p/12451548.html