【揭秘】全球首个手机AI芯片华为麒麟970是怎么来的？有什么用？-品玩

2015 年 3 月 12 日，水木社区发布了一条不起眼的招聘信息，“中科院计算所-华为联合项目招聘 20 名智能芯片方向实习生”：

招聘部门：计算机体系结构国家重点实验室
招聘岗位：实习生
招聘人数：20
岗位职责：参加华为联合项目新一代智能芯片方向的设计开发工作
岗位要求：
1、计算机相关专业或集成电路相关专业，在读研究生；
2、有集成电路逻辑设计/物理设计/测试/封装/流片等相关工程经验者优先。
3、有扎实的计算机专业基础知识；
4、有较强的工程能力，良好的团队合作意识，较强的沟通能力，以及敬业和钻研精神；
5、对人工智能方向感兴趣，长期实习者优先；

信息后半部分补充了招聘部门的详细资料，也披露了华为人工智能芯片的未来规划：

中国科学院计算技术研究所（简称计算所）创建于 1956 年，是中国第一个专门从事计算机科学技术综合性研究的学术机构。计算所研制成功了中国第一台通用数字电子计算机。计算所体系结构国家重点实验室是计算所最核心实验室之一，今年（注：2015 年）来先后产生十几位院士，孵化了联想、曙光等知名计算机企业。
华为联合项目新一代智能芯片，旨在开发新一代的用于人工智能方向的计算机芯片，主要用于大数据、搜索、语音等当前人工智能应用以及作为未来智能设备终端的核心部件。

计算所和华为的这一联合项目，直接催生了柏林 IFA 展上华为消费业务 CEO 余承东捏在手里供人膜拜的全球首款手机 AI 芯片——麒麟 970。粗略计算，这款芯片的开发历时两年半。此研发周期也可以反过来佐证近来流传的麒麟 980 已开始流片、麒麟 990 启动研发的消息。

实际上，华为和中科院计算所的合作由来已久，业界多有传言，华为早已成为中科院计算所的大金主。2011 年，双方便规划成立联合实验室，具体由先进计算机系统研究中心承担，该中心主要从事云计算、操作系统和体系结构的研究。它此前是从高性能计算机研究中心独立出来的。与华为合作的同年，先进计算机系统研究中心开始挂靠计算机体系结构国家重点实验室下，于 2014 年成为正式独立部门。

不过麒麟 970 的 AI 芯片并非来自于这一联合实验室，而是它此前曾挂靠的计算机体系结构国家重点实验室。更确切地说，麒麟 970 的 AI 技术授权来源于该实验室后来孵化出的全球首个 AI 领域的独角兽——中科寒武纪科技有限公司，简称寒武纪。

寒武纪由计算所体系结构国家重点实验室的两位研究员陈云霁和陈天石联合创立。两名创始人是亲兄弟，陈云霁生于 1983 年出生，陈天石生于 1985 年，均毕业于中科大少年班，都称得上是“天才”。进入计算机所后，哥哥主攻芯片，是研究“龙芯”的成员，目前仍在计算机所担任研究员，弟弟主攻人工智能，成立公司后任 CEO 一职。

2016 年 3 月份，寒武纪-1A（Cambricon-1A）问世，这也是全球首个商用深度神经网络处理器 IP（Intellectual Property），可集成至各类终端 SoC 芯片中，并在 11 月召开的世界互联网大会上获颁“领先科技成果”。官方表示，这款处理器每秒可处理 160 亿个虚拟神经元，每秒峰值运算能力达 2 万亿虚拟突触，性能比通用处理器高两个数量级，功耗降低了一个数量级（仅有原来的 1/10）。同期接受《中国科学报》采访时，陈天石透露，“寒武纪芯片在一年半左右的时间就会进入市场。”

在两个月后的一次演讲中，陈天石介绍了寒武纪的一系列研究成果：

PC 时代，CPU 做图形渲染能力不够，于是就诞生了 GPU。信号处理能力不够，于是就有了 DSP。同样，在智能时代，我们也会需要有一类专门的智能处理器芯片，而寒武纪公司就是这个领域的先行者。
寒武纪团队在 2013 年研制了全球首个深度学习处理器，相关工作获得了处理器架构领域顶级会议 ASPLOS 的最佳论文奖，是亚洲机构首次获得这样的荣誉。
2014 年，我们发表了全球首个多核深度学习处理器架构，再次拿到了处理器架构领域顶级会议 MICRO 的最佳论文奖，创造了国际学术界的新纪录。
2015 年，我们推出摄像头芯片上的视觉识别 IP。
2016 年将推出全球首个神经网络指令集——电脑语。我们的目标是通过这个全新的完全自主的指令集，构建未来智能时代的 x86 生态。

做个类比，寒武纪所采用的推广方式类似于 ARM，通过授权的方式推广 AI 指令集，短时内快速推动市场发展。数天前，寒武纪刚刚对外公布了 A 轮一亿美元的融资消息，由国投创业（A 轮领投方），阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点（天使轮领投方）、涌铧投资（天使轮投资方）联合投资，并称 2016 年便已盈利，营收规模在 1 亿元人民币。

而首款集成寒武纪芯片的商用产品就是麒麟 970，华为把它称之为 NPU（Neural Network Processing Unit）计算单元。NPU 也是继 CPU、GPU、Modem、ISP、RAM、ROM、协处理器、SE 后，移动 SoC 中的新模块。

对你来说，AI 芯片意味着什么？

寒武纪芯片可以看作是一款集成了常量运算、向量运算、矩阵运算、逻辑运算、数据转换以及控制指令等功能的深度神经网络加速芯片架构，主要用于语音识别、图像识别和编辑等等。用具体的应用场景来解读可能更容易理解。

在麒麟 970 之前，华为在自主研发 SoC 的道路上走了十年，K3V2 沿用两年的窘境至今还常被拿来说事儿。

新品的规格，终于不再落于人后。由台积电（TSMC）代工，采用最新的 10nm 制程工艺。根据官方公布的消息，其集成的晶体管数量达到了 55 亿，而堆砌晶体管往往是提升性能表现的一个简单粗暴的手段。作为对比，2017 年初发布的高通骁龙 835 晶体管数量为 30 亿， 2016 年 9 月随着 iPhone 7/7 Plus 亮相的苹果 A10 Fusion 晶体管规模为 33 亿。

CPU 继续沿用大小核设计，由 4×Cortex A73@2.4GHz，加上 4×Cortex A53@1.8GHz，相比上一代 16nm 工艺的麒麟 960 能效提升 20%。由于核心架构的设计上并未有大的变化，依旧为 A73+A 53 组合，能效的提升应该主要来自于制程工艺的升级。华为海思并未像去年那样首发 ARM 的最新架构。今年 5 月底发布的 A75/A55 应该要在明年的高通骁龙 845 和麒麟 980 上才能看到了。

GPU 部分则是首发 Mali G72 MP12，图形处理性能提升了 20%，能效提升近 50%。同时它还集成了 4.5G LTE Cat.18 基带芯片，峰值速度高达 1.2Gbps。

当然了，麒麟 970 支持 UFS 2.1 和 LPDDR 4X。

麒麟 970，华为 Mate 10 见

发布会末尾，华为给观众留了一个不算悬念的悬念，麒麟 970 将会由 Mate 10 首发，10 月 16 日问世，同样是在柏林。上面华为公布这些性能升级，尤其是 AI 性能届时也可以在 Mate 10 上验证。

自此，手机芯片正式进入了一个新的时代。过去数年间，我们也见证了手机芯片性能的飙涨：

制程工艺稳步提升，28nm、20nm、14nm、10nm；
主频越来越高，800MHz、1.2GHz、2.0GHz、2.4GHz；
核心数也是越堆越多，双核、四核、八核，更有甚者直接上三丛十核心。

至少在上游芯片厂商、下游手机品牌的合谋下，账面上的数据漂亮得一塌糊涂，流行的跑分软件安兔兔输出的成绩终于也从数以千计来到了十数万的规模，搭载高通骁龙 835 的一加 5 跑分高达 18 万，作为对比，2012 年底发布的 Nexus 4 跑分 17700 左右。

就像英特尔的摩尔定律一样，手机芯片的性能也渐渐遇到了瓶颈，SoC 的集成度与日俱增，内置基带的速度也很快超过了运营商网络所能负载的上限，跑分上的增速开始放缓。于是竞争的方向很快调转向了 AI，此时原本看似过剩的性能成了阻碍移动 AI 发展的最大掣肘。专用硬件的出现也属必然。

而和华为早前在手机芯片上用小步快跑策略追赶老牌芯片巨头一样，它凭借敏锐的嗅觉和长远的战略眼光在手机 AI 芯片上占得一丝先机。其实各巨头都没有闲着。

2016 年苹果招募卡内基梅隆大学的 AI 专家 Ruslan Salakhutdinov 担任 AI 研究主管，并在今年的开发者大会上公布了机器学习框架 OpenML，与此同时也在研究独立的 AI 芯片，称之为 Neural Engine，神经引擎。

Google 2016 年就正式透露了自主人工智能芯片 TPU 的研究，今年 I/O 大会上 Google CEO 桑达尔·皮柴 (Sundar Pichai) 发布了第二代产品，一块具有 4 个 TPU 计算核心的主板，理论算力达到了 180 TFlops（万亿次浮点计算）。

核武器厂商英伟达 NVIDIA 2016 年 4 月便推出了一款号称研发费用超过 20 亿美金的人工智能和深度学习芯片 Tesla P100，以及全球首款面向深度学习的超级计算机 NVIDIA DGX-1。

当然智能手机芯片领域的王者高通在 AI 领域也有自己的布局，它收购了机器学习公司 Scyfer。坐拥全产业链资源的三星同样悄悄投资了 AI 芯片设计公司 Graphcore。

上面这些巨头中，成型的产品要么是在服务器端，要么还处在前期预研阶段，麒麟 970 成了第一个可量产的人工智能移动芯片。

手机用上 AI 芯片的好处不必多言，专用 AI 芯片或许可以解决华为前期试水手机人工智能时遭遇的用户隐私问题。寒武纪联合创始人陈云霁早前接受采访时表示：

寒武纪 1A 可以解决两个方面的问题：一是显著提升计算机系统在人工智能领域的运算效能，可以超过传统中央处理器和图形处理器芯片两个数量级；二是终端产品的离线智能化，“尤其是后者，让很多用户数据不必上传，保证了信息安全。”