算法应用思考

1、为什么要用spark

     分布式、集群计算快

2、为什么不用mahout

     社区开发进度慢,与spark发展脱轨

3、为什么要用scikit learn

     资料齐全,接口易用

4、spark ml的算法不满足实际需求怎么办

    ①直接扩展ml的算法,优势是继续可以利用spark的分布式优势,底层优化的优势,就是比较困难

    ②扩展scikit learn,通过pyspark将扩展的算法引入spark,容易实现,可能不能发挥spark的优点

    ③不使用常用的算法,使用硬编码

原文地址:https://www.cnblogs.com/cenglinjinran/p/7765082.html