谷歌大脑CMU联手推出XLNet,20项任务全面超越BERT-电子发烧友网

谷歌大脑和CMU联合团队提出面向NLP预训练新方法XLNet，性能全面超越此前NLP领域的黄金标杆BERT，在20个任务上实现了性能的大幅提升，刷新了18个任务上的SOTA结果，可谓全面屠榜！

近日，谷歌大脑主任科学家Quoc V. Le在Twitter上放出一篇重磅论文，立即引发热议：

这篇论文提出一种新的NLP模型预训练方法XLNet，在20项任务上(如SQuAD、GLUE、RACE) 的性能大幅超越了此前NLP黄金标杆BERT。

XLNet：克服BERT固有局限，20项任务性能强于BERT

本文提出的XLNet是一种广义自回归预训练方法，具有两大特点：（1）通过最大化分解阶的所有排列的预期可能性来学习双向语境，（2）由于其自回归的性质，克服了BERT的局限性。

此外，XLNet将最先进的自回归模型Transformer-XL的创意整合到预训练过程中。实验显示，XLNet在20个任务上的表现优于BERT，而且大都实现了大幅度性能提升，并在18个任务上达到了SOTA结果，这些任务包括问答、自然语言推理、情感分析和文档排名等。

与现有语言预训练目标相比，本文提出了一种广义的自回归方法，同时利用了AR语言建模和AE的优点，同时避免了二者的局限性。首先是不再像传统的AR模型那样，使用固定的前向或后向分解顺序，而是最大化序列的预期对数似然性分解顺序的所有可能排列。每个位置的上下文可以包含来自该位置前后的令牌，实现捕获双向语境的目标。

作为通用AR语言模型，XLNet不依赖于数据损坏。因此，XLNet不会受到BERT受到的预训练和微调后的模型之间差异的影响。同时以自然的方式使用乘积规则，分解预测的令牌的联合概率，从而消除了在BERT中做出的独立性假设。

除了新的预训练目标外，XLNet还改进了预训练的架构设计。 XLNet将Transformer-XL的分段重复机制和相对编码方案集成到预训练中，从而凭经验改进了性能，对于涉及较长文本序列的任务效果尤其明显。

图1：在给定相同输入序列x，但分解顺序不同的情况下，对置换语言建模目标的预测结果

图2：（a）：内容流注意力机制，与标准的自注意力机制相同。（b）查询流注意力，其中不含关于内容xzt的访问信息。（c）：使用双信息流注意力机制的置换语言建模训练示意图。

全面屠榜：大幅刷新18项任务数据集SOTA性能

表1：与阅读理解任务RACE测试集的最新结果的比较。 *表示使用聚集模型。 RACE中的“Middle”和“High”是代表初中和高中难度水平的两个子集。所有BERT和XLNet结果均采用大小相似的模型（又称BERT-Large），模型为24层架构。我们的XLNet单一模型在精确度方面高出了7.6分