H2O

https://s3.amazonaws.com/h2o-release/h2o/master/4315/docs-website/h2o-docs/downloading.html#install-in-python
https://blog.csdn.net/yaphat/category_6476184.html

http://h2o-release.s3.amazonaws.com/h2o/rel-xu/4/docs-website/h2o-py/docs/modeling.html
http://h2o-release.s3.amazonaws.com/h2o/rel-turchin/9/docs-website/h2o-docs/index.html
http://h2o-release.s3.amazonaws.com/h2o/rel-xu/4/docs-website/h2o-py/docs/intro.html

H2O是开源的，分布式的，基于内存的，可扩展的机器学习和预测分析框架，适合在企业环境中构建大规模机器学习模型。H2O核心代码使用Java编写，数据和模型通过分布式 Key/Value 存储在各个集群节点的内存中。H2O的算法使用Map/Reduce框架实现，并使用了Java Fork/Join框架来实现多线程。
H2O是个机器学习平台，H2O的核心优势在于其紧密集成的高性能机器学习组件。它支持最常用的统计及机器学习算法，同时内置自动机器学习功能。
H2O的核心代码用Java编写，其REST API（应用程序编程接口创建方式）允许从外部程序或脚本访问H2O的所有功能。平台上有用于R、Python、Scala、Java、JSON和CoffeeScript / JavaScript的接口，以及内置网页端界面Flow

Sparkling Water：可扩展的H2O的机器学习算法与Spark的功能相结合。使用Sparkling Water，用户可以从Scala / R / Python驱动计算，并利用H2O Flow UI，为应用程序开发人员提供了理想的机器学习平台。
如果用户需管理大型集群以满足数据处理需求，并想在Spark和H2O平台互相传输数据，该工具将十分有用。

H2O4GPU 是一个开源的GPU加速机器学习包;H2O Driverless AI 是H2O.ai旗下自动机器学习的旗舰产品;
H2O-3是H2O的最新版本;

H2O支持通过R与Python进行引入包的方式进行模型的开发:可以使用在Python或R中引入H2O包的形式进行该工具的使用，也可以下载软件在UI界面进行托拉拽的操作。

使用H2O之前请读者务必在服务器或本地安装Java

AUC是指随机给定一个正样本和一个负样本，分类器输出该正样本为正的那个概率值比分类器输出该负样本为正的那个概率值要大的可能性
AUC越大，表明方法效果越好。

https://cloud.tencent.com/developer/article/1420651:自动训练，分布式打分

若使用sklearn这样的经典机器学习包在训练完模型后，模型本身是不支持在Hive集群进行分布式打分的。当需要打分的数据集过大的时候，没有办法一次性将其读入内存并进行打分，因此只能通过batch读取的方式按批次来进行预测打分，这样一来就需要用户花时间来写一些Python或者bash的脚本。H2O提供了一个非常好的模型部署流程，模型的打分在集群上就是分布式的，速度会非常快

==============https://baijiahao.baidu.com/s?id=1636305706753330522&wfr=spider&for=pc ：H2O全家桶
所有python新会话开始时都要创建python客户端与H2O集群的连接。集群指一组协作的H2O节点，作业上传至集群时，集群内所有节点都会处理一部分作业。
启动H2O集群：
import h2o
h2o.init()
关闭集群：
h2o.shutdown()

默认情况下，H2O实例将占用所有内核和约25％的系统内存。但若想为其分配一块固定内存，可以在init函数中指定。比如说，想使用4GB内存，那么只需2个内核，函数如下所示：
h2o.init(nthreads=2,max_mem_size=4)

H2O一旦启动并运行，只需将浏览器转到页面即可进入Flow的用户界面。