XLNet基本思想简介以及为什么它优于BERT
本文发布于2019年6月28日。
前几天刚刚发布的XLNet彻底火了,原因是它在20多项任务中超越了BERT。这是一个非常让人惊讶的结果。之前我们也说过,在斯坦福问答系统中,XLNet也取得了目前单模型第一的成绩(总排名第四,前三个模型都是集成模型)。
下图给出了XLNet的一些对比结果。

本文主要介绍XLNet模型的基本思想,并与BERT做了简单的对比。原文发表在Medium上。我们做了翻译,并对其中一部分难以理解的地方做了一点修改。
什么是XLNet?
首先,XLNet是一个与BERT有点像的模型,并非完全的一个新东西。 但XLNet是一个非常有前途的模型。简单来说,XLNet是一种通用的自回归预训练方法。
那么什么是自回归(AR)语言模型?
AR语言模型是一种使用情景信息(context,也可以说是上下文)来预测下一个词的模型。注意,情景信息通常有两个方向,一个是前向的,一个是后向的。以一句话为例:
“我 爱 吃 大 苹果”
假如这里的目标是“吃”,那么它的前向情景就是“我”和“爱”。后向就是“大”和“苹果”。


前段时间的GPT和GPT-2都是AR语言模型。
AR语言模型非常适合生成式NLP任务。但是AR模型有一个非常大的缺点,它只能利用前向情景的信息,这显然不符合实际。那么XLNet的提出就是希望把后向信息也利用起来。




