Open AI说：给我一句话，我能编出一本书-品玩

阅读理解只有小学生水平，GPT-2写假新闻却是一把好手。

你也许听说过会作诗的机器学习模型，也对人工智能写新闻这事儿稍有耳闻——今天我们要介绍的这项 AI 科研进展，比上面这些更超前了一步。

近日，享有盛名的研究机构OpenAI，宣布了一项新的生成式语言模型 GPT-2 (Generative Pre-Trained Transformer-2)[1]。

这是一个基于 Transformer，约有15亿个参数的文本生成模型，采用来自互联网上总共800万个网页、超过40GB的文字资料，无监督学习训练而成。（GPT 初代结合了无监督学习和监督式学习。）

在以往，同类模型需要特定专业的语料去训练，才能得到可接受的效果。简单来说，写诗的 AI 得用大量的诗歌去训练；写新闻的 AI，用的数据集也是写好的新闻素材。

而 GPT-2 的厉害之处在于：在未经专门类别语料训练的前提下，这个模型已经可以用于多种跟语言相关的任务，结果令人惊讶。

扩写能力极强，会写“假新闻”

GPT-2 最核心的就是基于上文生成下文的能力，效果比使用专业语料库（比如维基百科、新闻、图书）训练的其它模型（基于RNN、CNN 等）更好。

OpenAI 提供的案例显示，在第一次尝试中，上文仅仅给了一句《指环王》，GPT-2 就自己写出了一大段下文。

这可真是：给它一句话，编出一本书了。

但说实话，生成的文字，与原著小说毫无关联并且意思破碎不堪——但在文本上仍然非常连贯。

硅星人找了个没看过小说也没看过电影的朋友读了一下，告诉我”不是原著？看着挺像那么回事的。“

写小说不难，可是完整还原原著，对于这个 AI 来说是不可能的。因为它的训练目标很单纯：按照上文，预测并生成下一个最合理的单词。

GPT-2 is trained with a simple objective: predict the next word, given all of the previous words within some text.

在另一个新闻瞎编续写的案例中，GPT-2的表现好得多：

让我们看看 GPT-2 都瞎编了些什么，顺便挑挑错。

喂给语料：今天，一节载有管制核反应材料的火车在辛辛那提失窃，至今下落不明。

机器生成（第一次尝试）：

事件发生在科文顿和阿什兰站之间，经过市中心的线路上。
在发布给俄亥俄州媒体的电子邮件中，美国能源部表示正与联邦铁路局合作寻找盗窃犯。
”这种核反应材料的失窃，将对公共和环境健康、劳动力以及国家经济造成重大负面影响，“美国能源部长汤姆·希克斯 (Tom Hicks)在声明中表示，”我们的首要任务是找到失窃 (secure the theft)，并确保不再发生。
（美国历任能源部长没有叫汤姆·希克斯的。）
（首要任务是找到失窃属于语法错误或者语义不详，正确的用法应该是找到失窃材料 secure the stolen material.）
根据能源部员工提供的新闻稿，失窃的材料来自辛辛那提大学三角研究园(Research Triangle Park) 核研究基地。
（三角研究园位于北卡罗来纳州，该地并没有属于辛辛那提大学的核研究基地，美国环保局 EPA 倒是在这个研究园里。）
美国核管理委员会尚未公布任何信息。
根据新闻稿，美国能源部核材料安全和安保 (Security) 办公室正在领导调查团队。
（能源部确实有这个办公室，但是”安保“二字并非 Security，而是 Safeguard.）
“人民，环境和国家核储备的安全，是我们的首要任务，”希克斯说。 “我们将彻查此事，不找任何借口。“

如果不看挑出来的这些错，是不是像真的新闻一样？

如果这样的 AI 写出的内容被放到网上，披上伪装，阅读者没有一定敏感度的话，真的被骗也不好说。

不过今天，硅星人不想把假新闻作为重点拿来批判。不妨说说，这个AI 为什么写出来的新闻以假乱真，却也漏洞百出。

因为 GPT-2 背后的 Transformer 技术，采用的是一种生成式、关注度的逻辑。它不停地回溯前面的每一个词，按照和接下来将要写出的词之间的关系，为这些词打一个关注度得分 (attention)，预测出下一个词应该是什么，循环往复。

举一个很肤浅的例子：如果一句话已经有了“我要”，模型经过大量计算最终发现，我、要与“吃”关注关系，比我、要与“睡觉”更好，所以写下了我要吃。这里，最终的结果跟上文肯定有关，比方说上文里可能有跟食物、饥饿等有关的文本。

或许在写到 "secure the" 的时候，模型认为前面所有的词与 “theft” 的关注度比与其它词的关注度更高。它其实不算错的太离谱，大部分人看到都能明白，是要找回失窃（的材料）。至于原因是什么，有一种可能性是，“核材料”不是新闻的核心，“核材料的失窃”才是。

前面这两个案例，都是初次尝试的结果。

同样条件输入多次训练之后，GPT-2 能取得更加以假乱真的效果……

具体大家可以看[2]。这个案例里，模型按照一段给定的“人类在安第斯山脉发现会说英语的独角兽”，硬是生编胡诌出一篇相当可信的“新闻”……

Zero-shot“阅读理解”能力，却只有小学水平

前面提到，GPT-2 可以用于其他比较常见的阅读理解类任务。比如回答问题、填空、缩写、翻译等等。

在这些任务上，GPT-2 的强大之处在于，它采用无监督训练，没有使用专门面向这些任务的数据进行训练。

这种训练条件叫做 Zero-shot。在这样的条件下，GPT-2的阅读理解能力已达到小学生水平。

1）回答问题：研究人员喂了一段北京奥运会火炬传递的语料给 GPT-2，然后问它“总共多远”、“起始地点”、“他们接下来去了哪”之类的，带有次序、非直接提问和上下文指代的问题。GPT-2 的准确率达到了55%。

如果没有语料，直接上自然语言问题，比如”美国土地面积最大的州是哪个“，GPT-2 的准确率就降至5%以下了，而且参数提高没看到多大效果——这并不令人感到意外。

2）填空：任务是填出这段话的最后一个单词。案例语料是一段讲述吃早饭的文字，传达的意思是吃的应有尽有，喝的却只有”冷冽的水“，暗示没有咖啡，最后一个单词应该为”咖啡“。GPT-2 填了“食物”，违反了语料里给定的场景。

但是如果你再看一遍语料（下图），可能会察觉到，如果只看最后两句，那么确实是有“没有食物只能喝水”的意思。研究人员指出，如果提高计算量，增加参数，准确度会进一步提高。

3）缩写：表现一般，参数增加后准确度反而降低了。

4）翻译：在扩写任务上展示惊人能力之前，翻译被认为是 Transformer 类模型最适合的任务，因为其关注模型本身很适合。GPT-2 在翻译任务上表现的很不错，未来参数增加到一定程度，大有赶超现有统计机器翻译 (SMT) 技术的希望。

总的来看，GPT-2 初步展示了 Transformer 类模型，以及其背后的关注机制，在自然语言处理类任务上所具备的潜力。它能够取得state-of-the-art 的结果，并且训练所需的时间更短。

但是在 AI 领域，类似的进步总是双刃剑。刚才提到，在扩写等特定的任务上，如果 GPT-2 以及 Transformer 模型被心怀不轨的人滥用，恐怕将意味着更多假新闻出现。

OpenAI 在网站上也主动提到了这件事，而且他们本次并没有放出训练的数据集、全部代码等关键资料。在 GitHub 上 OpenAI 选择了”阉割式开源“，放出来的的是一个更小的，只有1.17亿参数的 GPT-2 版本，而论文中的最大参数量超过了15亿个。

”我们明白，某些研究者有技术实力，可以复现并且开源我们的训练结果。我们认为现在采取的发布策略可以限制这类人或机构的数量。这样，我们就能有更多时间让 AI 社区去探讨这类技术的应用，“OpenAI 在官网上写道。

OpenAI 还建议，政府应该针对滥用 AI 技术者建立惩罚机制。

[1] https://blog.openai.com/better-language-models/

[2] https://blog.openai.com/better-language-models/#sample1