微博平台架构

　　本次阅读到一篇关于微博的深度学习的架构，觉得很有益处，现记录下来，希望有所帮助。

　　深度学习框架是进行深度学习的工具。简单来说，一套深度学习框架就是一套积木，各个组件就是某个模型或算法；开发者通过简单设计和组装就能获得自己的一套方案。深度学习框架的出现降低了深度学习门槛。开发者不需要编写复杂的神经网络代码，只需要根据自己的数据集，使用已有模型通过简单配置训练出参数。

　　TensorFlow、Caffe和MXNet是三大主流的深度学习开源框架：TensorFlow的优势是社区最活跃，开源算法和模型最丰富；Caffe则是经典的图形领域框架，使用简单，在科研领域占有重要地位；MXNet在分布式性能上表现优异。PaddlePaddle、鲲鹏、Angel则是百度、阿里、腾讯分别推出的分布式计算框架。

　　深度学习平台就是整合深度学习各环节，为开发者提供一体化服务的平台。深度学习平台能够加快深度学习的开发速度，缩减迭代周期；同时，深度学习平台能够将计算能力、模型开发能力共享，提升开发效率和业务效果，也能够将资源合理调度，提高资源利用率。

　　百度深度学习平台是一个面向海量数据的深度学习平台，基于PaddlePaddle和TensorFlow开源计算框架，支持GPU运算，为深度学习技术的研发和应用提供可靠性高、扩展灵活的云端托管服务。通过百度深度学习平台，不仅可以轻松训练神经网络，实现情感分析、机器翻译、图像识别，也可以利用百度云的存储和虚拟化产品直接将模型部署至应用环境。

机器学习工作流WeiFlow

WeiFlow的设计初衷就是将微博机器学习流的开发简单化、傻瓜化，让业务开发人员从纷繁复杂的数据处理、特征工程、模型工程中解脱出来，将宝贵的时间和精力投入到业务场景的开发和优化当中，彻底解放业务人员的生产力，大幅提升开发效率。

控制中心WeiCenter

控制中心WeiCenter的目标就是简单、方便、易用，让大家便利地使用微博深度学习平台。下面将介绍控制中心的作业管理、数据管理和调度管理等部分。

作业管理：我们在进行深度学习、大规模机器学习、实时处理的过程中，由于需要各种不同框架的配合使用共同完成一个任务，比如TensorFlow适合进行高性能学习、Spark适合大规模亿维特征训练、Storm或者Flink适合实时特征生成以及实时模型生成等，将这些结合到一起才能完成从离线训练到线上实时预测。以前这需要开发者去学习各种框架复杂的底层开发，现在通过控制中心选择不同的作业类型，可以方便地生成各种类型的作业任务。用户只需要在可视化UI上进行作业类型选择、数据源选择、输出目的地选择或者使用WeiFlow进行编程，就能生成一个高大上的深度学习或机器学习作业。
数据管理：当大数据的数据量，每天按P级增长，使用人员每天上百人时，数据管理就显得尤为重要。如果模型训练的集群和数据所在的集群，不是同一个集群，如何高效地将数据同步到模型训练的集群是一个难点。并且在完成模型训练后，能自动根据训练结果作出评估，对训练数据进行删除。由于使用集群的开发人员素质不齐，你会发现总是有很多冗余数据没删除，而且总有无用数据生成，这个时候需要一个统一的数据管理平台，去约束大家生成数据的同时删除数据，去各个平台上探测长时间无访问的数据并进行确认清理。
调度管理：作业有多种分类，按重要程度分：高、中、低；按占用资源量分：占用多、占用一般、占用少；按调度器分：Yarn、Mesos、Kubernetes等。Spark、Hadoop利用Yarn调度解决了优先级高的作业和资源占用多作业之间的矛盾；TensorFlow利用成熟的Kubernetes或Mesos调度TensorFlow节点进行GPU集群化任务管理；普通离线作业和服务部署利用Mesos进行资源调度。控制中心集成了多种调度器，利用各种成熟的解决方案，简化了作业负责调度这一难题。