这家不到三岁的中国AI研究院，要和世界最牛同行同台竞技？-品玩

本文来自微信公众号“硅星人”（guixingren123），作者：光谱杜晨

要论 AI 基础科研哪家强，相信业内人士都会想到谷歌、OpenAI、DeepMind，以及那几家由深度学习三剑客领衔的顶级大学和研究院。

特别是 OpenAI，最近几年进展突飞猛进，去年发布了文本生成模型 GPT-3，有着天文数字级别的1,750亿参数量，应用在各种场景下的效果之优秀，令人震惊。OpenAI 汇集了许多AI大神，还锁定了10亿美元投资承诺，是当之无愧的全球 AI 基础科研领域领头羊。

然而，就在这周，一家创立至今还不足三年的中国研究院，居然想要和 OpenAI 同台竞技。

北京智源人工智能研究院（以下简称 BAAI），一家2018年成立的新型研发机构，本周发布了“悟道2.0”——中国首个+世界最大超大规模预训练模型，达到了前所未有的1.75万亿参数。

悟道2.0训练的1.75万亿参数量，达到了此前最优的 GPT-3 的足足十倍，也超越了今年年初谷歌1.6万亿参数量的超大模型 Switch Transformers。
在国际公认的9项的机器学习任务“跑分”项目上，悟道2.0都取得了优异成绩，超过了 GPT-3、Google ALIGN 等领域内同类技术。

悟道2.0不仅能够像 GPT-3 那样生成各种形态的文本，还可以完成多种图像生成的任务。
更重要的是，由于训练参数量极大，悟道2.0已经体现出对多种任务的适应能力，可以比其它模型更加轻松地“迁移”到新的任务上，而不仅限于文本和图像生成——朝着通用人工智能迈出了一大步。

这个模型到底有多神奇？BAAI 又是一家怎样的机构？让我们来深入了解一下：

巨模型、快算法、大数据集：中文版AI“全家桶”

悟道2.0是一个多模态模型，多个子模型在算法、训练数据上同源，但在不同方向上取得了优秀的成绩，推动着深度学习技术和通用人工智能这一终极目标之间的边界。

“传统”的深度学习神经网络模型，往往只适合做同一类型的任务，比如图像识别、语音识别、文字生成等，在跨“专业”上的表现一般不会太理想；而悟道2.0可以同时处理文字生成和图像生成这两种方向完全不同、内在原理迥异的困难任务。

在本周举办的年度学术和行业大会上，BAAI 方面演示了悟道2.0已经具备了写诗、对联、策论、图生文、文生图等多种生成式能力，并且透露，模型在一些困难任务上已经接近于击败图灵测试的水平。

硅星人作者在现场体验了三项测试，每项5道题，题目的格式是区分出两段文字或者两张生成的图片当中，谁的作者是真人，谁的是机器——我们的成绩是5/5（诗词）、1/5（策论）和 1/5（文生图）。

图灵测试更偏主观，而在各项 Benchmark 上击败此前最优模型，确实是悟道2.0取得的客观成就。

目前，悟道2.0已经在 ImageNet 图像零样本上取得了最优成绩，超越OpenAI 的 CLIP 技术；在 MSCOCO 数据集上文字生成图片任务中，悟道2.0的40亿参数量子模型 CogView，攻克了“上下溢收敛”这一关键难题，性能超越了具有130亿参数量，被誉为第三代深度学习技术代表的 OpenAI DALL-E 模型。

在多语言图文检索、完形填空、知识探索其它多项任务的 benchmark 当中，悟道2.0也击败了 Google、微软、加州大学等顶尖机构开发的当前性能最优模型。

悟道2.0的能力，源自于史无前例般巨大的训练参数量。1.75万亿参数这个级别，即使采用最新的专门深度学习计算硬件和分布式计算方法，也非常艰难。而悟道2.0实现壮举的背后有两大功勋：1）独创式的训练算法 FastMoE，2）中国超级计算机的计算力量。

FastMoE 是 BAAI 团队自主开发的高性能混合专家层系统 (Mixture of Experts, MoE) ，包含480个专家层，从而实现了1.75万亿参数量。

简单来说，MoE 是谷歌2017年提出的，一种能够让神经网络训练参数量显著增长的核心技术，也是今年年初谷歌发布的 Switch Transformers 模型——第一个万亿级参数量神经网络模型——的核心。

但是谷歌的 MoE 技术依赖谷歌自己的 TPU 硬件和训练框架，对于外部机构来说使用起来门槛颇高。

所以 BAAI 团队开发并开源了 FastMoE 算法，支持目前最为主流的 PyTorch 框架，并且包含专门优化的 CUDA 代码，让 AI 研究者和开发者用 GPU 也可以借助 MoE 的力量训练模型。

另外，悟道2.0本身的训练过程，也获得了中国超级计算机项目的帮助。事实上，它也是中国团队首次在100%国产的超级计算机上训练出来的深度神经网络模型。

中国已经成为世界超算领域的强国。例如采用全国产 CPU 的神威计算速度高达93 PFlops，截至2019年6月世界排名第三。

悟道2.0是首次在国产CPU集群上实现万亿级别参数量的模型训练，整个计算完全在 CPU 上做，面临很多难题和新的问题，所以团队把整个低层的代码重写，实现了 Transformer 计算。

在100%国产化超算上部署 FastMoE 算法，使得悟道2.0训练参数量显著提升，并且仍能够高效训练，实现突破。国产超算+FastMoE，从硬件平台到软件平台实现了国产化，是悟道2.0的显著特征。

“大家说我们成本非常高，既是对的又是错的，”悟道项目负责人唐杰表示，“对的，我们确实成本非常高；错的，已经不像原来要（训练）动辄好几个月。我们现在可以在更大的算力上跑很短的时间。”

除了新模型、新算法之外，实现万亿参数的深度神经网络也需要新的数据。更好、更大的数据集的公布，一直都是 AI 技术演进的重要基石，在这一点领域内也是共识。比如 ImageNet 的发布，助推了计算机视觉技术在之后几年的长足进步。

同样，BAAI 这次秀出的不止新模型、新算法，还为深度学习研究者送上了悟道2.0训练所用的数据集 WuDaoCorpora2.0。它包含了目前全球最大的中文文本数据集、多模态数据集和中文对话数据集，由1.2TB中文数据、1.2TB英文数据，以及2.5TB的图文数据，共计数据量达到了惊人的4.9TB。

WuDaoCorpora2.0 的到来，对于外部研究者进行中文的自然语言处理、对话式AI和多模态模型的研发，都能够提供更多帮助。至于 BAAI 自己，也在扩大基础数据的量级，未来也会继续训练更大的模型。

未满三岁的 BAAI，如何追赶世界顶尖水平

2015年创立的 OpenAI，一直被誉为是深度学习学术和业界的翘楚，距离实现通用人工智能最近的一支团队。该机构去年发布的 GPT-3，挑战了人们对于 AI 能力和创造力认知的极限。

OpenAI 的明星投资人阵容包括 Sam Altman (CEO)、Reid Hoffman、Peter Thiel、马斯克等，现任和前任员工包括多名深度学习领域的知名专家，如 Ilya Sutskever, Andrej Karpathy, Wojciech Zaremba 等。事实上，OpenAI 成立初期的研究员阵容，来自深度学习三剑客之一的 Yoshua Bengio 列出的一份“最强研究员名单”。尽管据传 OpenAI 给这些顶级研究员的工资并没有 Facebook、Google 等大厂高，一些现任员工也曾表示，选择 OpenAI 是看重它的伟大使命。

（当然，后来 OpenAI 成立了有限合伙，一部分目的也是为了更方便的融资，并且给优秀的员工开出期权。）

面对实力如此强大的 OpenAI，为何BAAI 作为后来者，能够和它同台竞技？它到底是一家怎样的机构？

BAAI 全称北京智源人工智能研究院 Beijing Academy of Artificial Intelligence, 这个中文名称源于“北京智源行动计划”，启动于2018年11月。

考虑到 AI 是新一轮科技创新革命和产业变革的重要驱动力，而北京在 AI 方面占据地利人和，驻有国内顶尖的学府、研究机构、创新企业、投资机构，和大量专业人才。在科技部和北京市的支持下，这些企业、高校、科研院所共同提出了智源行动计划，而正是在这个计划下，BAAI 得以成立。

成立不到三年，就发表了迄今为止最大参数量的多模态神经网络模型悟道2.0，这也显著提升了 BAAI 在 AI 基础科研领域的受关注度。本周的年度学术大会，甚至吸引到了2018年图灵奖得主 Yoshua Bengio、2017年图灵奖得主 David Patterson、Michael I. Jordan，以及自动驾驶之父 Sebastian Thrun 等国际上深度学习领域的顶尖学者远程参与。并且，Jordan 本人也是 BAAI 学术顾问委员会的成员之一。

对于外籍学者的支持和引入，也体现了 BAAI 一直以来坚持的开放学术交流的理念。

毫无疑问，BAAI 在研究方向、机构属性等诸多方面，和 OpenAI 颇有相似。

首先，从悟道2.0的介绍中可以看出，BAAI 的AI 基础研究方向，和 OpenAI 多有重合：

OpenAI 的超大规模语言模型 GPT-3 主打文本生成，并且泛化能力强，可以用于多种任务；BAAI 的悟道2.0则直接同时涉及了文本和图像（甚至在其它合作公司的帮助下，还可以加入语音合成、音乐生成等能力）。
悟道2.0包括一个子项目文溯，针对超大规模蛋白质序列预测工作而开发预训练模型，目前号称基本达到世界上最好的蛋白质序列处理能力——这一项目也和谷歌旗下的 DeepMind 开发的 AlphaFold 项目直接对标，而 OpenAI 成立时也曾被认为是 DeepMind 的有力竞争对手。

BAAI 的创始人兼理事长是张宏江，美国计算机学会 ACM 院士、前金山软件 CEO、微软亚洲研究院联合创始人之一，目前担任源码资本投资合伙人。张宏江是多媒体世界大会第一位担任技术委员会主席的华人，也是开创了计算机视频检索领域的专家之一。

和 OpenAI 的非营利理事会类似，BAAI 也有一个理事会治理架构，构成人员同样来自中国科技界的顶级公司和研究型院校，而且构成人员更聚焦 AI。理事成员包括：

院长兼副理事长黄铁军是图像识别和视频编码领域的专家，相关国家标准制定者之一，之前曾担任北大计算机系主任，今年四月刚入选中国工程院2021院士增选有效候选人名单；
崔宝秋，美国纽约州立大学石溪分校计算机博士，现任小米集团副总裁、集团技术委员会主席，是小米的云计算-大数据-AI发展路线的制定者；
孙剑，旷视首席科学家、研究院院长、开发了微软 ResNet 技术的团队领头人，计算机视觉方面专家、连续四年担任计算机视觉顶会 CVPR 领域主席；
王海峰，百度首席技术官，兼任深度学习技术及应用国家工程实验室理事长，是自然语言处理领域国际顶级学术组织 ACL 的首位华人主席；
朱松纯，清华和北大讲席教授、北大人工智能研究院院长，也是计算机视觉和模式识别方面的专家，曾获得马尔奖、亥姆霍兹奖等顶级奖项；
徐波，中科院自动化所所长、科技部新一代人工智能战略咨询委员会专家委员，长期从事语音语言信息处理研究，是中文语音识别方面的国际级专家，指导发表了数十篇顶会论文。

在具体团队方面，BAAI 的员工聚集了来企业、学术等不同背景的专家，集合了一支包括清华、人大、北大等知名学府不同专业方向的团队，也有各合作企业的员工进驻。

但和 OpenAI 略有不同的是，BAAI 更为清晰的定义它的四类人才：首席科学家、研究项目经理、研究员，和青年科学家。在每一个研究不同技术方向的子团队当中，都有不同资深程度、专业和技能方向、供职背景的成员，员工构成非常多元化。目前仅悟道团队就已经有100+名AI科学家。

特别是在年轻学者的扶持方面，张宏江透露，年轻一代研究员的成长速度很快，现在正是他们最有创意的时候。而国内缺乏资源，BAAI 所做的就是通过同行推荐的方式将优秀的年轻研究员挖掘出来，“给他们学者称号，和科研上的资助，使他们少花时间到各方面找钱，而是能够聚焦自己做的事情。这一代人才是我们的希望所在，我们的未来所在。”

BAAI 采用灵活的民办非企业运作模式。黄铁军表示这种模式让 BAAI 在运营层面更加的清晰，可以“集中力量办大事”，没有漫长的立项、申请、审批等流程。同时，这种模式理论上也赋予了 BAAI 在人才招募上更大的灵活性，可以吸引更多目前在海外工作的华人研究员，甚至优秀的外籍学者。

最终，BAAI 并不满足于通过深度学习这一条路径实现通用人工智能。在过去的一年里，该机构已经组建了聚焦强化学习和类脑计算等其它重要方向的团队。

据黄铁军透露，BAAI 接下来还将着力研发生命智能模型“天演”、物理模型“天道”，从而让生命科学和理论物理这两个重要的基础科学方向，也能受益于超大模型、算力和算法，帮助中国和全人类实现更多基础科学突破。

必须用计算的力量，去探索这些全新的、很大程度上未知的领域，人类才能离通用人工智能更近一点。