胡说八道

hugging face 是怎么起家的？

开源创业公司
最初是做机器人聊天服务的
当初复现并开源了 google bert 的 tensorflow 版本，而声名鹊起。
现在有开源的 nlp 社群，提供很多 pretrained language model。
只需要安装 transformers 包，指定模型的地址，就可以用他们的模型。

还有啥创业公司

AI INFRA
- 弱监督标注系统：snorkel ?
  - https://zhuanlan.zhihu.com/p/72531604
  - 感觉很适用于金融系统？因为标签少。可能有相悖的样本？
  - 也适用于 nlp 这种人为标注，比较主观的多人标签上？
  - 可以快速生成训练数据的弱监督系统。
  - 在 tweet 情感分析的任务中，适用snorkel 的标签，比直接平均效果要好。
- grid .AI / pytorch lightening
  - 深度学习管道！pipeline!
  - 最少修改的情况下，提升内存利用率。加快实验扩展性和迭代速度。减少潜在速度
  - 那 feature engineering 有没有 pipeline?
    - 用 sklearn 的话，是可以 pipeline 形成流水线的。这样可以结合 grid search 进行自动化调参。
    - https://www.cnblogs.com/jasonfreak/p/5448462.html
    - https://zhuanlan.zhihu.com/p/42368821
  - pytorch lightening 的学习，建议先读，这个有人总结了 template，是对 pytorch lightening 进一步抽象：https://zhuanlan.zhihu.com/p/353985363
- chatBot rasa
  - 聊天机器人的机器学习框架
- milvus
  - 这个视频组用过。20年的时候他们还是踩了一些坑的。
  - 向量数据库，可以在秒内实现十亿级的向量搜索。对 faiss ivf 索引进行了深度优化，提升了向量搜索性能。支持CPU, GPU。
  - 应用场景广泛：声音，视频，图片，自然语言。（但应该都会进行向量化的存储）
  - 开发者友好：python/c++/java...
  - https://milvus.io/cn/docs/overview.md
  - 向量搜索还有其他产品：jina（只有python)，faiss, SPTAG, proxima... https://zhuanlan.zhihu.com/p/364923722
- streamlit
  - 一个用于构建机器学习，数据可视化的 python 框架。
  - ！！感觉可以用来装逼！！
    - 可以直观地将数据展示给其他小伙伴。
    - 也可以做些小事情，比如自动化处理文件，不用暴露代码。所以是个 web app。
  - https://zhuanlan.zhihu.com/p/163927661
- iterative
  - data version control （DVC）用于机器学习的数据版本。其实类似 github 对代码的版本控制。
  - 但把数据托管到仓库，会不会涉及数据泄露？？
  - https://github.com/iterative/dvc
- tecton