NLP界鼎鼎大名的Hugging Face(抱抱脸)公司刚刚完成4000万美元B轮融资。
投资者除Betaworks等著名孵化机构外,NBA球星里的投资鬼才凯文·杜兰特也在其中。
Hugging Face在2016年以娱乐型聊天机器人起家,当时只有5人。
后转型成专注NLP的技术公司,在GitHub上发布了开源NLP库Transformers,2年多来已获4.2万星。
2020年,Hugging Face开始做面向企业的定制NLP模型,包括其客户包括彭博社和高通等100多家公司,并且今年以来一直处于正现金流状态。
Hugging Face总融资额已达到6000万美元,据称,上一轮1500万美元中的90%至今还躺在银行里。
除了在商业和开源领域的成功外他们的论文也登上过ICLR、NeurIPS 、EMNLP等国际顶会。
如此厉害的公司,到现在也只有30名员工。
想做机器学习界的GitHub
Hugging Face的CEO与联合创始人Clement Delangue认为,大部分资源都集中在几个大机构手中是机器学习领域面临的一大问题。技术的民主化是确保小型机构也能受益于人工智能的关键。
Hugging Face也曾收到过来自大型公司的收购意向,但一直坚持独立运行,并把精力投入到运营开源社区上。
目前,Hugging Face开源社区中,已有超过6000个模型和近800个数据集,涵盖300多种语言。
Hugging Face还曾一口气发布1000多个机器翻译模型,涵盖140种不同语言组合,为小语种NLP做出巨大贡献。
迁移学习是未来的关键
迁移学习,通过对预训练模型做出微调就能用于解决相似的问题,而不必从头开始训练。增加了可用数据资源的范围,减少训练成本。
在NLP领域,使训练模型不必依靠难以大量获取的已标注数据,而可以利用互联网上不断产生的未标注数据。
预训练NLP模型在性能测试中的表现已超过人类基准。
Hugging Face认为迁移学习和预训练模型彻底改变了NLP,也在改变着计算机视觉和语音文字转换等其他AI相关领域。
最终,迁移学习将为整个机器学习提供动力。
而Hugging Face想成为这些迁移学习模型的动力。
在去年底发布了自动训练NLP模型的开源工具AutoNLP后,Hugging Face准备将业务扩展到计算机视觉等其他领域。并打算把机器学习上的投入增加到原来的三倍。
参考链接:
[1]https://venturebeat.com/2021/03/11/hugging-face-triples-investment-in-open-source-machine-learning-models/
[2]https://techcrunch.com/2021/03/11/hugging-face-raises-40-million-for-its-natural-language-processing-library/
“