胡说八道

hugging face 是怎么起家的?

  • 开源创业公司
  • 最初是做机器人聊天服务的
  • 当初复现并开源了 google bert 的 tensorflow 版本,而声名鹊起。
  • 现在有开源的 nlp 社群,提供很多 pretrained language model。
  • 只需要安装 transformers 包,指定模型的地址,就可以用他们的模型。

还有啥创业公司

  • AI INFRA
    • 弱监督标注系统:snorkel ?
      • https://zhuanlan.zhihu.com/p/72531604
      • 感觉很适用于金融系统?因为标签少。可能有相悖的样本?
      • 也适用于 nlp 这种人为标注,比较主观的多人标签上?
      • 可以快速生成训练数据的弱监督系统。
      • 在 tweet 情感分析的任务中,适用snorkel 的标签,比直接平均效果要好。
    • grid .AI / pytorch lightening
      • 深度学习管道!pipeline! 
      • 最少修改的情况下,提升内存利用率。加快实验扩展性和迭代速度。减少潜在速度
      • 那 feature engineering 有没有 pipeline?
        • 用 sklearn 的话,是可以 pipeline 形成流水线的。这样可以结合 grid search 进行自动化调参。
        • https://www.cnblogs.com/jasonfreak/p/5448462.html
        • https://zhuanlan.zhihu.com/p/42368821
      • pytorch lightening 的学习,建议先读,这个有人总结了 template,是对 pytorch lightening 进一步抽象 :https://zhuanlan.zhihu.com/p/353985363
    • chatBot rasa
      • 聊天机器人的机器学习框架
    • milvus
      • 这个视频组用过。20年的时候他们还是踩了一些坑的。
      • 向量数据库,可以在秒内实现十亿级的向量搜索。对 faiss ivf 索引进行了深度优化,提升了向量搜索性能。支持CPU, GPU。
      • 应用场景广泛:声音,视频,图片,自然语言。(但应该都会进行向量化的存储)
      • 开发者友好:python/c++/java...
      • https://milvus.io/cn/docs/overview.md
      • 向量搜索还有其他产品:jina(只有python),faiss, SPTAG, proxima... https://zhuanlan.zhihu.com/p/364923722
    • streamlit
      • 一个用于构建机器学习,数据可视化的 python 框架。
      • !!感觉可以用来装逼!!
        • 可以直观地将数据展示给其他小伙伴。
        • 也可以做些小事情,比如自动化处理文件,不用暴露代码。所以是个 web app。
      • https://zhuanlan.zhihu.com/p/163927661
    • iterative
      • data version control (DVC)用于机器学习的数据版本。其实类似 github 对代码的版本控制。
      • 但把数据托管到仓库,会不会涉及数据泄露??
      • https://github.com/iterative/dvc
    • tecton
原文地址:https://www.cnblogs.com/toonice/p/15528267.html