sparksql udf的运用----scala及python版(2016年7月17日前完成)

问:udf在sparksql 里面的作用是什么呢?

答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义;

第二个问题udf是怎么实现的呢?

registerFunction(namef,  returnType=StringType)

  • name – name of the UDF
  • f – python function
  • returnType – a DataType object

首先我们从官网的例子去理解:

>>> from pyspark.sql.types import IntegerType
>>> sqlContext.registerFunction("stringLengthInt", lambda x: len(x), IntegerType())
>>> sqlContext.sql("SELECT stringLengthInt('test')").collect()
[Row(_c0=4)]

Ps:除了用registerFunction之外还可以用udf函数是实现例子如下:

>>> from pyspark.sql.types import IntegerType
>>> sqlContext.udf.register("stringLengthInt", lambda x: len(x), IntegerType())
>>> sqlContext.sql("SELECT stringLengthInt('test')").collect()
[Row(_c0=4)]

这里提到一个问题是如果是有多个变量的时候,那么这个例子又是怎么去实现呢?感觉有点像数学推理哈,从一个推理到多个

原文地址:https://www.cnblogs.com/xyt-cathy/p/5664387.html