Meta 推自研芯片计划，切分英伟达蛋糕-品玩

Meta 公布了自研芯片的进展。名为Meta Training and Inference Accelerator，即Meta 训练和推理加速芯片，简称MTIA。它预计将于2025年发布。

Meta 宣称 MTIA 是提高效率和水平的重要工具，定制化的 MTIA 采用 ASIC 架构，可并行执行多个任务，适用于AI加速计算，从而成为 Meta 人工智能训练和推理芯片家族中重要的组成部分。

Meta强调，虽然芯片的内存和网络等功能还需要进一步优化，但MTIA在每瓦性能方面“显著”提升了效率，可以帮助Meta更好探索人工智能前沿技术。

此外Meta还表示，MTIA将专注于人工智能推理，而不是训练。

第一代MTIA 由 Meta 在2020年创建，使用了7纳米工艺，在Meta自己设计的性能测试中，它被认为在“中低复杂度”的AI模型方面相比GPU具有优势。

除了MTIA，Meta还在开发另一种芯片，被称为Meta可扩展视频处理器（MSVP），顾名思义，MSVP主要的工作是将视频内容——不管是短视频还是直播，都尽量通过MSVP来加载整合，满足不同平台渠道对码率、分辨率和低延迟等需求，避免让基础视频需求采用软件编码形式处理，进而加速整个视频工作流程。

Meta 在几个月前成立了生成式AI团队，据说扎克伯格，CTO Andrew Bosworth 花了大量的时间和这个团队讨论Meta在人工智能领域能做些什么。上周他们刚推出了针对广告客户的内容设计工具。

Meta 在人工智能的进展过去集中在审核过滤和广告推荐算法这些领域，许多时候这些负载是使用CPU组合运行的，再加上定制的专门用于加速的AI芯片。

随着生成式AI的爆发，Meta已经采购了大量的英伟达芯片，原来的芯片方案已经被放弃。

Meta 基础设施副总裁Alexis Bjorlin在TechCrunch的采访中将自研芯片形容为“构建对堆栈所有层面的控制能力”，这和百度的AI战略思路很相似，从数据中心设计到训练框架再到数据集和算法，Meta试图在AI方面追上竞争对手，开始进行对本身AI全链条资源的整合。

自研芯片紧锣密鼓提上日程，形成对比的是现在所有人都还在依赖英伟达的芯片。

Meta目前训练大模型所使用的是名为Research SuperCluster (RSC)的超级计算机，它内置了2000个英伟达DGX A100系统，包括16000块A100 GPU。

谷歌和微软也都有自己的超级计算机，微软把它整合在了自己的Azure云上（然后又和OpenAI结合在一起，后者使用微软的资源训练大模型），谷歌的超算则有26000块H100 GPU。

超算资源直接和大模型开发训练以及推理的进度有关，但也意味着会受到英伟达产能的“卡脖子”，因此各家都在推动自研芯片进展。

Google很早就研发了名为TPU的训练芯片，AlphaGo就由其驱动。上个月有消息传出，微软在秘密研发自己的AI芯片，合作伙伴是英伟达对手AMD。

Meta 走向自研之路是顺理成章的，强化在AI领域的垂直整合能力不仅可以降低成本，定制芯片还能方便根据自家业务需求定制功能，更容易打造差异化竞争点。

如果Meta的大模型一方面能在传统的社交业务上支撑内容广告营销（这部分具体的运行模式Meta自己承认也还在探索中），另一方面将生成式AI接入元宇宙，帮助用户生成数字孪生形象和相关的代码，那么其增长潜力将会极其巨大，扎克伯格在2月份就表示要致力于提高Meta的人工智能算力，押注AI的未来看上去是必由之路，Meta 的自研芯片是向这条道路进发的最新尝试。