sparksql udf的运用----scala及python版（2016年7月17日前完成）

问：udf在sparksql 里面的作用是什么呢？

答：oracle的存储过程会有用到定义函数，那么现在udf就相当于一个在sparksql用到的函数定义；

第二个问题udf是怎么实现的呢？

registerFunction(name, f, returnType=StringType)

name – name of the UDF
f – python function
returnType – a DataType object

首先我们从官网的例子去理解：

>>> from pyspark.sql.types import IntegerType
>>> sqlContext.registerFunction("stringLengthInt", lambda x: len(x), IntegerType())
>>> sqlContext.sql("SELECT stringLengthInt('test')").collect()
[Row(_c0=4)]

Ps：除了用registerFunction之外还可以用udf函数是实现例子如下：

>>> from pyspark.sql.types import IntegerType
>>> sqlContext.udf.register("stringLengthInt", lambda x: len(x), IntegerType())
>>> sqlContext.sql("SELECT stringLengthInt('test')").collect()
[Row(_c0=4)]

这里提到一个问题是如果是有多个变量的时候，那么这个例子又是怎么去实现呢？感觉有点像数学推理哈，从一个推理到多个