CAD& CG 2020 胡事民教授—开源框架Jittor的创新与探索

题目：深度学习框架“计图”的创新与探索

报告人：胡事民

报告人简介：胡事民，清华大学计算机系教授，主要研究方向为计算机图形学、虚拟现实、智能信息处理和系统软件等。

报告简介：深度学习框架是现代人工智能算法开发和应用的基本支撑框架，自主可控的深度学习框架是推动中国人工智能更好发展的必然要求。国外主流深度学习框架基于开源开放的生态环境，已经构建起了完整的产业链和庞大用户群体。计图是国内首个由高校主导的开源深度学习框架。计图基于所提出的“统一计算图”，创新地使用了元算子融合和动态编译技术，目前在多种任务性能上超越国外主流平台。除此之外，计图框架还在易用性、灵活性以及模型算法覆盖度上做了大量改进，旨在降低用户学习成本，吸引更多用户，构建自己的开源深度学习生态。本报告拟介绍计图（Jittor）平台的整体架构和多项创新技术，分享计图框架的开源历程和发展思路，并探讨中国开源深度学习框架的未来发展。

机器学习框架(平台)是人工智能的核心技术
- 负责机器学习模型的训练和推理
- 管理着人工智能应用所需要的大规模数据和模型
- 负责底层计算设备调度以及资源申请

机器学习平台的难度在哪里?
- 对机器学习算法的深刻理解
- 对图形图像应用的精准把握
- 对底层系统软件的巧妙应用

创新点一：统一计算图
- 结合静态图高效和动态图易用的特点
  - 静态图（TensorFlow）：一次性把全图发送到计算设备上运行
  - 动态图（Pytorch）：将算子动态地发送到计算设备上运行
- 动态切分 => 静态子图，静态子图做优化
- 统一计算图是完成了多种统一的计算图
  - 统一动态图和静态图，易用、同时高效
  - 统一管理前向反向图，支持高阶导数
  - 统一管理CPU-GPU内存，突破GPU显存限制
  - 统一同步异步运行接口，使得数据读取，内存拷贝，模型计算可以同时进行，提升性能
  - 统一管理多次迭代的计算图，使得框架可以实现跨迭代的融合优化
创新点二：18个元算子、元算子融合
- Tensorflow算子数量: 2000+，PyTorch算子数量: 700+；庞大的算子库维护，
  优化困难
- 将三类元算子（重索引、重索引化简、元素级）进行融合形成深度学习所需要的算子
  - 重索引算子（一对多）——广播、填补、切分
  - 重索引化简算子（多对一）——累乘、累加、取均值
  - 元素级算子（一对一）
- 元算子是反向传播闭包(元算子的反向传播也是元算子)
  - 在反向传播过程中，算子可自动对应生成，重索引算子—重索引化简算子、元素级算子—元素级算子
- 元算子可以覆盖绝大多数深度学习算子，对于元算子无法覆盖的算子，计图提供Code算子（Python中内联C++代码），完成100%算子覆盖
6 大特色
- 动态编译
  - 内置的元算子编译器，可将Python代码动态编译高性能C++代码
  - 内置LLVM兼容的优化编译遍(Pass)，根据硬件设备，自动优化动态编译的代码
- 统一内存
  - 将显存和CPU内存统一，当深度学习模型将显存耗尽时，将使用CPU内存来弥补。
- 骨干网络
  - 已经支持的骨干网络：AlexNet；VGG；ResNet；SqueezeNet；Incept ion；Goog leNet；Shuff leNet；Mobi leNet；MnasNet；Res2Net
- 模型库
  - 2020年将发布27中主流GAN、语义分割、检测库、3D点云库、3D网格库等
- 模型转换
  - 提供工具可以将Pytorch代码一键转码为Jittor
- 分布式
  - 无需修改训练代码，只需修改启动命令；自动数据并行，实现多卡训练。
最新进展
- Res2Net、PointNet++，DeepFaceDrawing
图形学新的机遇
- 可微编程（可微光栅化渲染、可微蒙特卡洛光线追踪、可微物理模拟）