Pre-Trained Models: Past, Present and Future论文翻译
摘要
BERT and GPT 等Large-scale pre-trained models(PTM)最近取得了巨大成功,成为人工智能(AI)领域的里程碑。由于复杂的预训练目标和巨大的模型参数,大规模 PTM 可以有效地从大量label和unlabel数据中获取知识。通过将知识存储到巨大的参数中并在特定任务上进行微调,隐藏在巨大参数中的丰富知识可以使各种下游任务受益,这已通过实验验证和经验分析得到广泛证明。现在 AI 社区的共识是采用 PTM 作为下游任务的骨干,而不是从头开始学习模型。在本文中,我们深入研究了预训练的历史,特别是它与迁移学习(transfer learning)和自我监督学习(self-supervised learning)的特殊关系,以揭示 PTM 在人工智能发展领域的关键地位。此外,我们全面回顾了 PTM 的最新突破。这些突破是由计算能力的激增和数据可用性的增加推动的,朝着四个重要方向发展:设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后,我们讨论了 PTMs 的一系列开放性问题和研究方向,希望我们的观点能够启发和推动 PTMs 的未来研究。
1 简介
深度神经网络,例如卷积神经网络 (CNN) (Krizhevsky et al., 2012; Kim, 2014; Kalchbrenner et al., 2014; He et al., 2016)、循环神经网络 (RNN) (Sutskever et al. , 2014; Donahue et al., 2015; Liu et al., 2016; Wu et al., 2016),图神经网络 (GNNs) (Kipf and Welling, 2016; Velickovic et al., 2018; Schlichtkrull et al., 2018) 和注意力神经网络 (Jaderberg et al., 2015; Wang et al., 2017) 近年来已广泛应用于各种人工智能 (AI) 任务。与之前主要依赖手工特征和统计方法的非神经模型不同,神经模型可以从数据中自动学习低维连续向量(又称分布式表示)作为特定于任务的特征,从而摆脱复杂的特征工程。尽管深度神经网络取得了成功,但许多研究发现,它们面临的关键挑战之一是数据匮乏。由于深度神经网络通常具有大量参数,因此在没有足够训练数据的情况下,它们容易过拟合且泛化能力较差(Belkin et al., 2019; Xu et al., 2021)。
考虑到这个问题,在开发深度神经网络的同一时期,大量努力致力于为人工智能任务手动构建高质量的数据集(Deng et al., 2009; Lin et al., 2014; Bojar et al., 2014),使得学习针对特定任务的有效神经模型成为可能,这些模型优于传统的非神经模型。但是,手动标注大规模数据既昂贵又耗时。例如,利用众包来分割图像每张图像的成本约为 6.4 美元(Liu et al.,2020b)。一些需要专家标注的复杂任务可能会收取更多费用来构建他们的数据集。视觉识别 (Deng et al., 2009) 和机器翻译 (Bojar et al., 2014) 等多项任务拥有包含数百万样本的数据集,但不可能为所有 AI 任务构建如此大规模的数据集。更一般地,特定 AI 任务的数据集通常具有有限的大小。因此,直到现在很长一段时间,它一直是一个关键的研究问题:如何在有限的人工标注数据的情况下为特定任务训练有效的深度神经模型。
这个问题的一个里程碑是迁移学习的引入(Thrun and Pratt,1998;Pan and Yang,2009)。人类可以学习用很少的样本来解决新问题,而不是从头开始用大量数据训练模型。这一惊人的学习过程的动机是人类可以使用以前学到的知识来处理新问题。受此启发,迁移学习形式化了一个两阶段的学习框架:从一个或多个源任务中获取知识的pre-training阶段,以及将获取的知识转移到目标任务的fine-tuning阶段。由于在pre-training阶段获得了丰富的知识,fine-tuning阶段可以使模型能够很好地处理样本有限的目标任务。
迁移学习为缓解数据饥饿(data hungry)的挑战提供了一种可行的方法,并很快被广泛应用于计算机视觉(CV)领域。在人工标注的视觉识别数据集 ImageNet (Deng et al. , 2009)。受益于 ImageNet 中分布的强大视觉知识,使用少量任务特定数据fine-tuning这些预训练的 CNN 可以在下游任务上表现良好。这引发了深度学习时代探索预训练模型 (PTM) 的第一波浪潮。在这波浪潮中,PTM 被用于几乎所有的 CV 任务,例如图像分类 (He et al., 2016)、目标检测 (Sermanet et al., 2014; Ren et al., 2016)、图像分割 (Long et al. , 2015) 和图像字幕 (Vinyals et al., 2015)。
自然语言处理 (NLP) 社区也意识到了 PTM 的潜力,并开始为 NLP 任务开发 PTM (Qiu et al., 2020)。为了充分利用大规模unlabel语料库为 NLP 任务提供通用的语言知识,NLP 社区采用自我监督(self-supervised)学习 (Liu et al., 2020b) 来开发 PTM。自我监督(self-supervised)学习的动机是利用文本中的内在相关性作为监督信号而不是人工监督。例如,给定句子“北京是中国的首都”,我们将句子中的最后一个词Mask,然后要求模型用“中国”这个词来预测被Mask的位置。通过自我监督学习,可以利用大量unlabel的文本数据来捕获通用语言知识,而无需劳动密集型工作量。这种自我监督的设置本质上遵循着well-known的语言模型学习(Bengio et al.,2003)。
图 2:图 2(a) 显示了关键词“语言模型”的出版物数量以及它们在不同年份的引用。 图 2(b) 显示了用于 NLP 任务的大规模 PTM 的参数大小,并且预训练数据大小每年增加 10 倍。 从这些数字中我们可以发现,2018年之后,当大规模的NLP PTMs开始探索时,越来越多的精力投入到了这个领域,PTMs使用的模型规模和数据量也越来越大。
长期以来,梯度消失(vanishing gradients)或爆炸(exploding gradients)的问题(Bengio et al., 1994)是使用深度神经网络进行 NLP 任务的痛点。因此,当 CV 社区推进深度 PTM 的研究时,NLP 社区的早期探索主要集中在预训练浅层网络以捕获单词的语义含义,例如 Word2Vec (Mikolov et al., 2013b,a,c) and GloVe (Pennington et al.,2014 年)。尽管这些预训练的词嵌入在各种 NLP 任务中发挥着重要作用,但它们仍然面临着在不同上下文中表示多义词的主要限制,因为每个词仅由一个密集向量表示。 NLP 中的一个著名例子是,“bank”一词在“开设银行账户”和“在河岸上”这两个句子中具有完全不同的含义。这促使预训练 RNN 提供上下文化的词嵌入(Melamud et al.,2016;Peters et al.,2018;Howard and Ruder,2018),但这些模型的performance仍然受到模型大小和深度的限制。
随着 NLP 社区中深度神经网络的发展,Transformers (Vaswani et al., 2017) 的引入使得为 NLP 任务训练非常深的神经模型成为可能。以 Transformers 为架构,语言模型学习为目标,2018 年针对 NLP 任务提出了深度 PTMs GPT (Radford and Narasimhan, 2018) 和 BERT (Devlin et al., 2019)。从 GPT 和 BERT 中我们可以发现,当PTM 的规模变得更大,具有数亿个参数的大规模 PTM 可以从文本中捕获多义消歧、词汇和句法结构以及事实知识。通过使用相当多的样本对大规模 PTM 进行微调,PTM 丰富的语言知识在下游 NLP 任务上带来了出色的performance。如图 1(a) 和图 1(b) 所示,大规模 PTM 在过去几年中在语言理解和语言生成任务上都表现良好,甚至取得了比人类表现更好的结果。如图 2(a) 所示,NLP 社区的所有这些努力和成就让大规模 PTM 成为 AI 研究的重点,这是在上一波 PTM 允许 CV 社区取得巨大进步之后。
到目前为止,已经有各种努力致力于探索大规模 PTM,无论是用于 NLP(Radford et al., 2019; Liu et al., 2020d; Raffel et al., 2020; Lewis et al., 2020a),还是对于 CV(Lu et al.,2019;Li et al.,2019;Tan and Bansal,2019)。为特定的 AI 任务微调大规模 PTM,而不是从头开始学习模型也已成为共识(Qiu et al.,2020)。如图 2(b) 所示,随着分布式计算设备和策略的广泛使用,计算能力不断提高,我们可以进一步将 PTM 的参数规模从百万级提升到十亿级(Brown et al., 2020; Lepikhin et al., 2021; Zeng et al., 2021; Zhang et al., 2020c, 2021a) 甚至万亿级(Fedus et al., 2021)。而拥有数千亿参数的 GPT-3 (Brown et al., 2020) 的出现,让我们得以一窥海量模型参数中分布的潜势,尤其是像小样本学习这样的强大能力人类(如图 3 所示)。
图 3:具有 1750 亿个参数的 GPT-3 使用 560 GB 数据和 10,000 个 GPU 进行训练。 它展示了学习世界知识、常识和逻辑推理的能力。
现有的大规模 PTM 提升了模型在各种 AI 任务上的performance,甚至颠覆了我们目前对深度学习模型performance的认知。然而,关于 PTM 的几个基本问题仍然存在:我们仍然不清楚隐藏在大量模型参数中的本质,训练这些庞然大物的巨大计算成本也阻碍了我们进一步探索。目前,这些 PTM 已将我们的 AI 研究人员推到了一个十字路口,有许多开放的方向要走。
“罗马不是一天建成的”——PTM 在取得最新成功之前也经历了漫长的发展。为此,我们试图追溯 PTMs 的发展历史,并勾勒出它们在 AI 频谱(spectrum)中的位置,这可以让我们对 PTMs 的核心研究问题有一个清晰的认识。然后,我们介绍了各种最新 PTM 的细节,遵循目前正在推进的四个重要方面,包括设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。通过将 PTM 的当前发展整合到历史范围的背景下,我们讨论了几个未解决的问题并总结了 PTM 的有希望的未来方向。我们希望我们在本文中的努力能够推动 PTM 的进一步发展。接下来,我们将在第 2 节和第 3 节介绍预训练的背景,第 4 节介绍 PTM 的模型架构,第 5 节介绍 PTM 的多源异构数据,第 6 节介绍 PTM 的计算效率优化,以及第 7 节中对 PTM 的理论分析。最后,我们将简要讨论一系列未解决的问题以及未来更好的 PTM 的有希望的方向。
2 背景
尽管有效的 PTM 最近引起了研究人员的关注,但预训练并不是一种新颖的机器学习工具。事实上,预训练已经发展了几十年,作为一种典型的机器学习范式。在本节中,我们将介绍 AI 频谱中预训练的发展,从早期的监督预训练到当前的自我监督预训练,从而可以简要了解 PTM 的背景。
2.1 迁移学习和监督预训练
预训练的早期努力主要涉及迁移学习(Thrun and Pratt,1998)。迁移学习的研究很大程度上是因为人们可以依靠以前学到的知识来解决新问题,甚至取得更好的结果。更正式地说,迁移学习旨在从多个源任务中获取重要知识,然后将这些知识应用于目标任务。
在迁移学习中,源任务和目标任务可能具有完全不同的数据域和任务设置,但处理这些任务所需的知识是一致的(Pan and Yang,2009)。因此,选择一种可行的方法将知识从源任务转移到目标任务非常重要。为此,已经提出了各种预训练方法作为源任务和目标任务之间的桥梁。具体来说,这些方法首先在多个源任务的数据上预训练模型以对知识进行预编码(pre-encode),然后将预编码(pre-encode)的知识转移到目标任务的模型训练中。
通常,迁移学习中广泛探索了两种预训练方法:特征迁移和参数迁移。特征迁移方法预训练有效的特征表示以预编码跨领域和任务的知识(Johnson and Zhang,2005;Evgeniou and Pontil,2007;Dai et al.,2007;Raina et al.,2007)。通过将这些预训练的表示注入目标任务,可以显着提高目标任务的模型performance。参数传递方法遵循一个直观的假设,即源任务和目标任务可以共享模型参数或超参数的先验分布。因此,这些方法将知识预编码为共享模型参数(Lawrence and Platt,2004;Evgeniou and Pontil,2004;Williams et al.,2007;Gao et al.,2008),然后通过使用目标任务的数据微调预训练参数来传递知识。
在某种程度上,表示传递和参数传递都为 PTM 奠定了基础。广泛用作 NLP 任务输入的词嵌入是建立在特征迁移的框架之上的。受参数转移的启发,预训练的 CNN 被用作大多数最先进的 CV 模型的主干。最近一些著名的 PTM 也基于表示传递和参数传递,例如 ELMo (Peters et al., 2018) and BERT 分别应用了表示传递和参数传递。
自 AlexNet (Krizhevsky et al., 2012) 以来,已经为 AI 任务开发了一系列深度神经网络。与那些传统的机器学习模型相比,深度神经模型具有更多的参数,并且表现出更好的拟合复杂数据的能力。因此,从 AlexNet 到后来的 VGG (Simonyan and Zisserman, 2015) and GoogleNet (Szegedy et al., 2015),这些神经网络的架构越来越深,其performance也随之越来越好。尽管网络深度很重要,但训练一个深度网络并不容易,因为堆叠更多的网络层不可避免地会带来梯度消失或爆炸的问题(Bengio et al., 1994)。除了梯度问题外,模型performance可能很快就会达到上限,然后随着网络深度的不断增加而迅速下降。
通过对参数初始化 (LeCun et al., 2012; Saxe et al., 2013) 和隐藏状态(hidden states) (Ioffe and Szegedy, 2015) 添加归一化(normalization),并引入带有残差层(residual layers)的快捷连接,ResNet (He et al., 2016) 有效解决这些问题。正如我们之前提到的,深度神经网络需要大量数据进行训练。为了提供足够的数据来训练深度模型,还建立了一些大规模的监督数据集(Russakovsky et al., 2015; Lin et al., 2014; Krishna et al., 2017; Chen et al., 2015; Cordts et al., 2016),其中最具代表性的是 ImageNet。 ImageNet 包含数百万张图像,分为数千个类别,代表各种各样的日常对象。基于有效模型 ResNet、信息量大的数据集 ImageNet 以及成熟的知识转移方法的结合,一波标记数据的预训练模型应运而生。
CV 社区从这波浪潮中受益匪浅。通过应用在 ImageNet 上预训练的 ResNet 作为主干,各种 CV 任务得到了快速推进,如图像分类(image classification) (He et al., 2016; Lee et al., 2015)、目标检测(object detection) (Ren et al., 2016; Sermanet et al.,2014;Gidaris and Komodakis,2015),图像分割(image segmentation)(Long et al.,2015;Zheng et al.,2015),图像说明(image caption)(Vinyals et al.,2015;Johnson et al.,2016),视觉问答(visual question answering)(Antol et al., 2015; Gao et al., 2015; Xiong et al., 2016)等。事实证明,利用 ResNet50 $ ^1$ 等 PTM 是在大多数 CV 任务上获得高度准确结果的关键步骤。受 PTM 在 CV 任务上的成功启发,一些 NLP 研究人员也探索了有监督的预训练,其中最具代表性的工作是 CoVE (McCann et al., 2017)。 CoVE 采用机器翻译(machine translation)作为其预训练目标。经过预训练后,源语言的编码器可以作为下游 NLP 任务的强大主干。
图 4:从迁移学习、自监督学习到最新的预训练神经模型的预训练方法谱
2.2 自监督学习和自监督预训练
如图 4 所示,迁移学习可以分为四个子设置,归纳迁移学习(Lawrence and Platt,2004;Mihalkova et al.,2007;Evgeniou and Pontil,2007)、转导迁移学习(Shimodaira,2000;Zadrozny , 2004; Daume III and Marcu, 2006)、自学学习 (Raina et al., 2007; Dai et al., 2008) 2 和无监督迁移学习 (Wang et al., 2008)。
在这四种设置中,归纳和转导设置是研究的核心,因为这两种设置旨在将知识从有监督的源任务转移到目标任务。虽然监督学习一直是机器学习研究的核心问题之一,但未标注(unlabele)数据的规模远大于人工标注的数据。最近,越来越多的研究人员注意到了大规模未标记数据的重要性,并致力于从未标记数据中提取信息。自监督学习被提出通过利用输入数据本身作为监督来从大规模未标记数据中提取知识。
自监督学习和无监督学习在设置上有许多相似之处。在一定程度上,自监督学习可以看作是无监督学习的一个分支,因为它们都应用了未标记的数据。然而,无监督学习主要侧重于检测数据模式(例如,聚类、社区发现和异常检测),而自监督学习仍处于监督设置的范式(例如,分类和生成)(Liu et al., 2020b )。
自监督学习的发展使得对大规模无监督数据进行预训练成为可能。与深度学习时代作为 CV 基石的有监督预训练相比,自监督预训练在 NLP 领域取得了巨大进步。尽管 CoVE 等一些有监督的预训练方法在 NLP 任务上取得了可喜的成果,但要注释像 ImageNet 这样大的文本数据集几乎是不可能的,因为注释文本数据远比注释图像复杂。因此,应用自监督学习来利用未标记的数据成为为 NLP 任务预训练模型的最佳选择。 PTMs 最近的惊人突破主要是针对 NLP 任务,更具体地说是预训练的语言模型。
用于 NLP 任务的早期 PTM 以众所周知的词嵌入形式存在(Collobert and Weston,2008;Mikolov et al.,2013b;Pennington et al.,2014),它们应用自我监督方法将词转换为分布式表示.由于这些预训练的词表示捕获文本中的句法和语义信息,它们通常被用作 NLP 模型的输入嵌入(input embeddings)和初始化参数,并提供对随机初始化参数的显着改进 (Turian et al., 2010)。由于这些词级模型经常受到单词多义的影响,Peters et al. (2018)进一步采用序列级神经模型来捕获不同语言上下文中的复杂单词特征,并生成上下文感知词嵌入。使用词嵌入作为神经模型的输入几乎已经成为 NLP 任务的常用模式。
在 Vaswani et al.(2017)提出 Transformers 来处理序列数据之后,用于 NLP 任务的 PTM 进入了一个新阶段,因为与传统的 CNN and RNN 相比,它可以训练更深的语言模型。与那些用作输入特征的词级 PTM 不同,GPT and BERT 等基于 Transformer 的 PTM 可以用作各种特定任务的模型主干。在大规模文本语料库上对这些基于 Transformer 的 PTM 进行预训练后,PTM 的架构和参数都可以作为特定 NLP 任务的起点,即只需针对特定 NLP 任务微调 PTM 的参数即可获得有竞争力的性能。到目前为止,这些基于 Transformer 的 PTM 在几乎所有 NLP 任务上都取得了最先进的结果。受 GPT and BERT 的启发,还提出了许多更有效的用于 NLP 任务的 PTM,如 XLNET(Yang et al.,2019)、RoBERTa(Liu et al.,2020d)、BART(Lewis et al.,2020a)和T5(Raffel et al.,2020)。
随着最近用于 NLP 任务的 PTM 的进步,将基于 Transformer 的 PTM 作为 NLP 任务的骨干应用已成为标准程序。受 NLP 中自我监督学习和 Transformers 成功的启发,一些研究人员探索了自我监督学习(Wu et al., 2018; Chen et al., 2020d; Chen and He, 2020; He et al., 2020)和用于 CV 任务的Transformers(Carion et al.,2020;Liu et al.,2021c)。这些初步努力表明,自我监督学习和 Transformer 可以胜过传统的监督 CNN。此外,还提出了基于 Transformer 的多模态 PTM(Lu et al.,2019;Li et al.,2019;Tan and Bansal,2019)并显示出可喜的结果。在上一波监督预训练之后,自监督预训练成为当前 AI 研究的重点。
回顾 AI 频谱中的预训练,不难发现,预训练已经发展了几十年,专注于如何为各种下游任务获取通用知识。接下来,我们将全面介绍这一波自监督预训练中 PTMs 的最新突破。考虑到几乎所有最新的 PTM 都与预训练的语言模型有关,以下章节中的“PTM”指的是预训练的语言模型或多模态模型。对于那些基于监督预训练的传统 PTM,我们参考 He et al. (2019) and Zoph et al. (2020 年)的论文。
3 Transformer and Representative PTMs
正如我们之前提到的,最近 PTM 成功的关键是自监督学习和 Transformer 的集成。因此,本节从主要的基本神经架构 Transformer 开始。然后,我们将介绍两个具有里程碑意义的基于 Transformer 的 PTM,GPT and BERT。这两个 PTM 分别使用自回归语言建模和自编码语言建模作为预训练目标。所有后续的 PTM 都是这两个模型的变体。本节的最后部分简要回顾了 GPT and BERT 之后的典型变体,以揭示 PTM 的最新发展。
3.1 Transformer
在 Transformer 之前,RNN 长期以来一直是处理序列数据的典型工具,尤其是处理自然语言。由于 RNN 具有顺序性,它们在每个时间步按顺序读取一个单词。对于每个单词,RNN 参考其先前单词的所有隐藏状态来处理它。这种机制被认为难以利用高性能计算设备(例如 GPU and TPU)的并行能力。
如图 5 所示,Transformer 是一种非循环序列到序列 (seq2seq) 架构,由编码器和解码器组成。 Transformer 的编码器和解码器都由几个相同的块堆叠而成。每个编码器块由一个多头自注意力层和一个位置前馈层组成。与编码器块相比,每个解码器块都有一个额外的交叉注意力层,因为解码器需要将编码器的输出视为生成的上下文。在神经层之间,使用了残差连接(He et al., 2016)和层归一化(Ba et al., 2016),使得训练深度 Transformer 成为可能。
Figure 5: The architecture of Transformer, GPT, and BERT.
Attention Layer. 自注意力层是 Transformer 成功的关键。 形式上,给定一个query set , 一个key set , 一个value set ,每个查询向量 ,每个关键向量 ,每个值向量 ,缩放的点积(dot-product)注意力定义为:
直观地说, 是计算注意力(attention)的向量集, 是计算注意力的向量集。 作为点积乘法的结果,我们可以得到权重 来表示查询向量 针对关键向量 的注意程度(how attended)。 最后,我们可以计算值向量的加权平均值作为注意力层的最终结果。 请注意,屏蔽(Mask)函数 ATT-Mask(·) 用于限制每个查询向量可以注意的键值对。 如果我们不希望 注意 ,则 ,否则 。
通过分别将 、、 打包成矩阵表示 、 、 ,注意力可以简化为:
其中 以逐行方式应用, 是注意力矩阵, 是结果。
Transformer 没有使用普通缩放的点积注意力,而是应用了如下定义的多头注意力层,
其中 是头数。 分别用于将输入 投影到第 个 head attention 的特征空间中。 在通过 连接所有头输出后,多头注意力层应用 将连接投影到最终输出空间。
Position-Wise Feed-Forward Layer. 除了注意力层,Transformer 的每个块还包含一个位置前馈层。 给定压缩输入矩阵 表示一组输入向量, 是向量维数,位置前馈层定义为:
其中 是激活函数(通常是 ReLU 函数 )。 , , , 都是投影的可学习参数。 是前馈层的最终结果。 根据经验, 设置为等于 , 设置为远大于 和 。
Residual Connection and Normalization 正如我们之前提到的,Transformer 在各个神经层之间应用了残差连接和层归一化,使得 Transformer 的架构可以变得很深。 形式上,给定神经层 ,残差连接和归一化层定义为
其中 表示层归一化操作。
如图 5 所示,Transformer 中的多头注意力有三种变体:
(1)在编码器中使用Self-attention,它将前一层的输出作为。在编码阶段,给定一个单词,Self-attention通过将其与输入序列中的所有单词进行比较来计算其注意力分数。这样的注意力分数表明每个其他单词在给定单词的下一个表示中应该做出多大贡献。我们在图6中给出了一个例子,其中自注意力准确地捕获了" Jack “和” he "之间的引用关系,生成了最高的注意力分数。
图 6:Transformer 的自注意力机制示意图。 上图是对“he”这个词进行编码时的selfattention结果,其中方块颜色越深,对应的attention score就越大。
(2)decoder中使用Masked self-attention,其attention矩阵满足。 这种attention有利于自回归语言建模。 在解码阶段,self-attention 与编码类似,只是它一次只从左到右解码一种表示。 由于解码阶段的每一步仅参考先前解码的结果,因此我们需要将掩蔽功能添加到自注意力中。
(3)解码器中也使用了交叉注意力(Cross-attention),它使用前一个解码器块的输出作为Q以及编码器的输出作为K和V。这样的过程本质上是对整个输入序列信息的聚合,并将应用于解码阶段生成的所有单词。 利用输入上下文对于机器翻译和文本摘要等一些 seq2seq 任务具有重要意义。
有关 Transformer 的更多详细信息,请参阅其原始论文 (Vaswani et al., 2017) 和调查论文 (Lin et al., 2021)。 由于突出的性质,Transformer 逐渐成为自然语言理解和生成的标准神经结构。 此外,它还作为后续派生的 PTM 的骨干神经结构。 接下来,我们将介绍两个完全打开通往大规模自监督 PTM 时代之门的地标,GPT 和 BERT。 总的来说,GPT 擅长自然语言生成,而 BERT 更侧重于自然语言理解。
图 7:GPT 和 BERT 在自注意力机制和预训练目标上的区别。
3.2 GPT
如第 2 节所述,PTM 通常由两个阶段组成,预训练阶段和微调阶段。 由Transformer解码器作为骨干,GPT应用了生成式预训练和判别式微调。 从理论上讲,与 PTM 的先例相比,GPT 是第一个结合现代 Transformer 架构和自监督预训练目标的模型。 根据经验,GPT 在几乎所有 NLP 任务上都取得了显着的成功,包括自然语言推理、问答、常识推理、语义相似性和分类。
给定没有标签的大规模语料库,GPT 优化标准的自回归语言建模,即通过将所有单词的先前单词作为上下文来最大化所有单词的条件概率。 在 GPT 的预训练阶段,每个词的条件概率通过 Transformer 进行建模。 如图 5 和图 7 所示,对于每个单词,GPT 通过对其先前的单词应用掩码多头自注意力操作来计算其概率分布。 形式上,给定一个由标记(tokens) ,GPT 通过最大化以下对数似然来应用标准语言建模目标:
其中 是窗口大小,概率 由带有参数 的 Transformer 解码器建模, 是特殊标记 [CLS], 是特殊标记 [SEP]。
GPT 对特定任务的适应过程是微调,通过使用 GPT 的预训练参数作为下游任务的起点。 在微调阶段,将输入序列通过 GPT,我们可以获得 GPT Transformer 最后一层的表示。 通过使用最后一层和特定任务标签的表示,GPT 使用简单的额外输出层优化下游任务的标准目标。 由于 GPT 有上亿个参数,所以它在 8 个 GPU 上训练了 1 个月,这在 NLP 历史上第一个相当“大规模”PTM。 而毫无疑问,GPT 的成功为后续一系列大型 PTM 的兴起铺平了道路。 下一部分,我们将介绍另一个最具代表性的模型BERT。
3.3 BERT
BERT的出现也极大地推动了PTM领域的发展。 从理论上讲,与 GPT 相比,BERT 使用双向深度 Transformer 作为主要结构。 还有两个单独的阶段可以使 BERT 适应特定任务,即预训练和微调(参见图 5 和图 8)。
Figure 8: The pre-training and fine-tuning phases for BERT.
在预训练阶段,BERT 应用自编码语言建模,而不是 GPT 中使用的自回归语言建模。 更具体地说,受完形填空(Taylor,1953)的启发,设计了客观掩码语言建模(masked language modeling)(MLM)。 如图 7 所示,在 MLM 过程中,token 被一个特殊的 token [MASK] 随机掩蔽,目的是用上下文预测掩蔽位置的单词。 与标准的单向自回归语言建模相比,MLM 可以导致所有标记的深度双向表示。 形式上,给定一个由标记(tokens),BERT 随机屏蔽 中的 个标记,然后最大化以下对数似然:
其中概率 由带有参数 的 Transformer 编码器建模, 是对 中的一些令牌进行掩码(token)后的结果, 是第 个掩码位置, 是该位置的原始token。
除了 MLM,还采用下一句预测(NSP)的目标来捕获句子之间的话语关系,用于一些具有多个句子的下游任务,例如自然语言推理和问答。 对于此任务,使用二元分类器来预测两个句子是否连贯。 在预训练阶段,MLM 和 NSP 协同工作以优化 BERT 的参数。
经过预训练后,BERT 可以获得用于下游任务的鲁棒参数。通过使用下游任务的数据修改输入和输出,BERT 可以针对任何 NLP 任务进行微调。如图 8 所示,BERT 可以有效地处理那些输入单个句子或句子对的应用程序。对于输入,其模式是与特殊标记 [SEP] 连接的两个句子,可以表示:(1)释义(paraphrase)中的句子对,(2)蕴涵(entailment)中的假设-前提对,(3)问答(question answering)中的问题-段落对, 和 (4) 用于文本分类(text classification)或序列标记(sequence tagging)的单个句子。对于输出,BERT 将为每个标记(token)生成一个标记级(token-level)表示,可用于处理序列标记或问题回答,并且可以将特殊标记 [CLS] 馈送到额外的层进行分类。在 GPT 之后,BERT 在 17 个不同的 NLP 任务上进一步取得了显着提升,包括 SQuAD(优于人类表现)、GLUE(7.7% 点绝对提升)、MNLI(4.6% 点绝对提升)等。
3.4 After GPT and BERT
在 GPT 和 BERT 之后,他们提出了一些改进,例如 RoBERTa 和 ALBERT。 RoBERTa(Liu et al., 2020d) 是 BERT 的成功变种之一,主要有四个简单有效的变化:(1)去除 NSP 任务; (2) 更多的训练步骤,更大的batch size和更多的数据; (3) 更长的训练句; (4)动态改变[MASK]模式。 RoBERTa 在 BERT 的基础上取得了令人印象深刻的实证结果。而且,RoBERTa 曾指出 NSP 任务对于 BERT 的训练是比较无用的。 ALBERT(Lan et al., 2019) 是 BERT 的另一个重要变体,它提供了一些关于减少参数的有趣观察。首先,它将输入的词嵌入矩阵分解为两个较小的矩阵。其次,它强制所有 Transformer 层之间的参数共享以显着减少参数。第三,它提出了句子顺序预测(SOP)任务来替代 BERT 的 NSP 任务。作为对其空间效率的牺牲,ALBERT 的微调和推理速度较慢。
如图 9 所示,除了 RoBERTa 和 ALBERT,近年来还提出了各种 PTM,以更好地从未标记的数据中获取知识。一些工作改进了模型架构并探索了新的预训练任务,例如 XLNet (Yang et al., 2019)、UniLM (Dong et al., 2019)、MASS (Song et al., 2019)、SpanBERT (Joshi et al., 2019)。 , 2020) 和 ELECTRA (Clark et al., 2020)。此外,整合丰富的数据源也是一个重要的方向,例如利用多语言语料库、知识图谱和图像。由于模型规模是 PTM 成功的关键因素,研究人员还探索构建更大的模型以达到上千亿参数,例如 GPT 系列(Radford et al., 2019; Brown et al., 2020), Switch Transformer (Fedus et al., 2021),同时对训练 PTM 进行计算效率优化 (Shoeybi et al., 2019; Rajbhandari et al., 2020; Ren et al., 2021)。在以下部分中,我们将进一步详细介绍 PTM 的所有这些努力。
图 9:最近的典型 PTM 系列,包括预训练的语言模型和多模态模型
4 设计有效的架构(Designing Effective Architectures)
在本节中,我们将深入探讨 BERT 之后的 PTM。基于 Transformer 的 PTM 的成功激发了一系列用于为自然语言及其他语言建模序列的新颖架构。一般来说,所有用于语言预训练的 BERT 之后的 Transformer 架构都可以根据两个动机进行分类:统一序列建模和认知启发式架构。此外,我们还将在第三小节中了解其他重要的 BERT 变体,这些变体主要集中在提高自然语言理解上。
4.1 统一序列建模(Unified Sequence Modeling)
为什么 NLP 如此具有挑战性?根本原因之一是它具有多种下游任务和应用程序,通常可以分为三种类型:
-
自然语言理解:包括语法分析、句法分析、词/句/段落分类、问答、事实/常识知识推理等。
-
开放式语言生成:包括对话生成、故事生成、数据转文本生成等。
-
非开放式语言生成:包括机器翻译、摘要概括、填空等。
尽管如此,它们之间的差异并不那么显着。正如费曼所说,“What I cannot create, I do not understand”。一方面,不能理解的模型一定不能流畅生成;另一方面,我们可以轻松地将理解任务转化为生成任务(Schick 和 Schütze,2020)。最近的研究还表明,与 BERT 相比,GPT 在理解基准方面可以达到相似甚至更好的性能(Liu et al.,2021b)。理解和生成之间的界限是模糊的。
根据观察,许多新颖的架构一直在寻求用一个 PTM 来统一不同类型的语言任务。我们将回顾它的发展,并讨论它们为统一的自然语言处理基础带来的启发。
Combining Autoregressive and Autoencoding Modeling. 将 GPT 式单向生成和 BERT 式双向理解统一起来的先驱工作是 XLNet (Yang et al., 2019),它提出了置换语言建模(permutated language modeling)。 BERT 中的 masked-recover 策略自然与其下游应用相矛盾,后者的输入句子中没有 [MASK]。 XLNet通过在预训练中排列token的顺序,然后应用自回归预测范式(paradigm)来解决这个问题,这赋予了XLNet理解和生成的能力。置换语言建模的一个重要追随者是 MPNet(Song et al.,2020),它修正了 XLNet 的差异,即在预训练时 XLNet 不知道句子的长度,而在下游它知道。
除了置换语言建模之外,另一个流是多任务训练。 UniLM (Dong et al., 2019) 提出联合训练不同的语言建模目标,包括单向、双向和 seq2seq 目标。这可以通过更改 Transformers 中的注意力掩码来实现。 UniLM 在生成式问答和抽象摘要方面表现出色。
最近,GLM (Du et al., 2021) 提出了一种更优雅的方法来结合自回归和自编码。给定一个可变长度的掩码跨度,而不是像 BERT 和 SpanBERT(Joshi et al.,2020)那样提供要建模的 [MASK] 的数量,GLM 要求 Transformer 块自回归生成掩码令牌。并且为了保留[MASK]的编号信息,GLM提出了一种2D位置编码策略。 GLM 是第一个在包括自然语言理解、条件生成和无条件生成在内的所有类型任务上同时实现最佳性能的模型。
Applying Generalized Encoder-Decoder. 在 GLM 之前,无论是编码器结构(例如 BERT)还是解码器结构(例如 GPT)都无法解决一个重要问题:以可变长度填充空白(Du et al., 2021; Shen et al., 2020b)。基于解码器的模型不能成功,因为它们只能在序列末尾生成,而基于编码器的模型也不能,因为 [MASK] 的数量会泄漏信息(leak information)。一个自然的想法是转向最初为机器翻译设计的编码器 - 解码器架构,这将产生以源为条件的可变长度的目标序列。
这一流派的先驱是 MASS(Song et al.,2019),它将掩码预测策略引入到编码器-解码器结构中。但是,MASS 并没有涉及填充可变长度空白的问题。 T5 (Raffel et al., 2020) 通过仅使用一个掩码标记掩码文本中可变长度的跨度来解决该问题,并要求解码器恢复整个掩码序列。 BART (Lewis et al., 2020a) 引入了一个有趣的想法,即通过截断、删除、替换、改组和掩码等多种操作来破坏源序列,而不仅仅是掩码。在典型的 seq2seq 任务中指定了以下工作,例如 PEGASUS (Zhang et al., 2020a) 和 PALM (Bi et al., 2020)。
然而,编码器-解码器架构面临着几个挑战。首先,与单个编码器/解码器相比,编码器-解码器引入了更多的参数。虽然这个问题可以通过编码器和解码器的参数共享来缓解,但它的参数效率仍然值得怀疑。其次,编码器-解码器结构通常在自然语言理解方面表现不佳。尽管据报道比类似大小的普通 BERT 有所改进,但训练有素的 RoBERTa 或 GLM 编码器的性能(performs)要好得多。
表 1:三种基本类型的框架及其合适的下游任务。 “NLU”指的是自然语言理解。 “Cond. Gen.” 和“Uncond. Gen.” 分别指有条件和无条件的文本生成。 “”表示“擅长”,“”表示“可以适应”,“”表示“不能直接适用”。 我们将无条件生成定义为在标准语言模型中无需进一步训练即可生成文本的任务,而条件生成是指诸如文本摘要之类的 seq2seq 任务。 取自 (Du et al., 2021)。
4.2 认知启发式架构(Cognitive-Inspired Architectures)
现在的 Transformer 是否足够好地实现了人类的认知系统?当然不是。注意力机制,Transformer 架构中的核心模块,灵感来自于人类认知系统的微观和原子操作,只负责感知功能。然而,人类水平的智能远比仅仅理解不同事物之间的关联要复杂得多。
为了追求人类水平的智能,理解我们认知功能的宏观架构,包括决策、逻辑推理、反事实推理和工作记忆(Baddeley,1992)是至关重要的。在本小节中,我们将了解受认知科学进步启发的新尝试,尤其是在可维持工作记忆和可持续长期记忆方面。
Maintainable Working Memory. Transformer 的一个自然问题是其固定的窗口大小(fixed window size )和二次空间复杂度(quadratic space complexity),这严重阻碍了它在长文档理解和生成中的应用。
尽管对二次增长的逐点注意(pointwise attention)的近似计算进行了大量修改(Tay et al., 2020),但问题是我们人类并没有呈现出如此长距离的注意机制。作为替代方案,认知科学家发现人类可以保持工作记忆(Baddeley,1992;Brown,1958;Barrouillet et al.,2004;Wharton et al.,1994),它不仅可以记忆和组织,还可以忘记。传统的长短期记忆 (LSTM) 网络是这种哲学的典型实践。
对于基于 Transformer 的架构,Transformer-XL (Dai et al., 2019) 是第一个引入分段级递归(segment-level recurrence)和相对位置编码(relative positional encoding)来实现这一目标的。然而,递归只是隐含地模拟工作记忆。作为更明确的解决方案,CogQA (Ding et al., 2019) 提出在多跳阅读中维护认知图。它由两个系统组成:基于 PTM 的系统 1 和基于 GNN 的系统 2,用于对认知图进行建模以实现多跳理解。
CogQA 的一个限制是它对 System 1 的使用仍然基于固定的窗口大小。为了赋予工作记忆理解长文档的能力,CogLTX (Ding et al., 2020) 利用 MemRecall 语言模型来选择应该在工作记忆和任务特定模块中维护的句子以进行回答或分类。
可持续的长期记忆。 GPT-3 的成功以及最近关于语言模型回忆事实知识能力的研究(Petroni et al.,2019;Wang et al.,2020a;Liu et al.,2021b)揭示了 Transformers 可以记忆的事实。Transformers是怎么做到的?
在 Lample et al.中。 (2019),作者提供了一些关于Transformers如何记忆的鼓舞人心的证据。他们用大型键值记忆网络(key-value memory networks)替换了 Transformer 层中的前馈网络(feed-forward networks),并发现它工作得很好。这在某种程度上证明了 Transformers 中的前馈网络等价于记忆网络(memory networks)。
然而,Transformers中的内存容量非常有限。对于人类智能而言,除了用于决策(deciding)和推理(reasoning)的工作记忆外,长期记忆(long-term memory)在回忆事实(facts)和经验(experiences)方面也起着关键作用。 REALM (Guu et al., 2020) 是探索如何为Transformers构建可持续外部记忆的先驱。作者逐句张量(tensorize)整个维基百科,并检索相关句子作为masked预训练的上下文。对于给定数量的训练步骤,张量化的 Wikipedia 会异步更新。 RAG (Lewis et al., 2020b) 将masked预训练扩展到自回归生成,这可能比抽取式问答更好。
除了对文本语料库进行张量外,(Verga et al.,2020;Févry et al.,2020)建议对现有知识库中的实体和三元组进行张量。当实体出现在上下文中时,它们会将实体令牌(tokens)在内部 Transformer 层中的嵌入替换为来自外部记忆网络(memory networks)的嵌入。 (Dhingra et al., 2020; Sun et al., 2021) 从零开始维护虚拟知识(virtual knowledge),并在其上提出可微分推理训练目标。所有这些方法都在许多开放域问答基准上取得了很好的改进。
4.3 现有 PTM 的更多变体(More Variants of Existing PTMs)
除了统一序列建模和构建认知启发式架构的实践外,当前的大多数研究都集中在优化 BERT 的架构以提高语言模型在自然语言理解方面的性能。
一系列工作旨在改进掩蔽策略,这可以被视为某种数据增强(Gu et al.,2020)。 SpanBERT (Joshi et al., 2020) 表明,使用跨度边界目标 (SBO) 掩盖连续随机长度的令牌(tokens)跨度可以提高 BERT 的性能。在 ERNIE (Sun et al., 2019c,d)(整个实体被屏蔽)、NEZHA (Wei et al., 2019) 和 Whole Word Masking (Cui et al., 2019) 中也探索了类似的想法。
另一种有趣的做法是将掩蔽预测目标更改为更难的目标。 ELECTRA (Clark et al., 2020) 将 MLM 转换为替换标记检测 (RTD) 目标,其中生成器将替换原始序列中的标记,而鉴别器将预测标记是否被替换。
5 利用多源数据(Utilizing Multi-Source Data)
在本节中,我们将介绍一些利用多源异构数据(multi-source heterogeneous data)的典型 PTM,包括多语言(multilingual) PTM、多模态(multimodal) PTM 和知识增强(knowledge-enhanced) PTM。
5.1 多语种预训练(Multilingual Pre-Training)
在大规模英语语料库上训练的语言模型在许多基准测试中取得了巨大成功。然而,我们生活在一个多语言的世界,为每种语言训练一个大型语言模型并不是一个优雅的解决方案,因为成本和所需的数据量。事实上,尽管来自世界各地的人们使用不同的语言,但他们可以表达相同的意思。这可能表明语义独立于符号系统。此外,一些研究人员发现,与训练几种单语模型相比,用多种语言训练一个模型时,他们可以在基准测试中获得更好的性能(Lample 和 Conneau,2019;Huang et al.,2020b)。因此,训练一个模型来学习多语言表示而不是单语言表示可能是更好的方法。
在 BERT 之前,一些研究人员已经探索了多语言表示。学习多语言表示主要有两种方法。一种方法是通过参数共享来学习。例如,将多语言 LSTM 与多个语言对一起训练可以实现多语言翻译。另一种方法是学习与语言无关的约束,例如利用 WGAN (Arjovsky et al., 2017) 框架将语言表示解耦为特定语言和语言无关的表示。这两种方式都可以使模型应用于多语言场景,但仅限于特定任务。他们每个人的模型从头到尾都是用一个特定的任务训练的,跨语言知识不能推广到其他任务。因此,对于任何其他多语言任务,仍然需要从头开始训练新模型。从头开始学习新模型需要大量特定于任务的数据。
BERT 的出现表明,用一般的自监督任务进行预训练,然后在特定的下游任务上进行微调的框架是可行的。这促使研究人员设计任务来预训练通用的多语言模型。多语言任务根据任务目标可分为理解任务和生成任务。理解任务侧重于句子级或词级分类,有助于自然语言推理等下游分类任务(Conneau et al., 2018b)。生成任务专注于句子生成,在机器翻译等下游生成任务中至关重要。
一些理解任务首先用于在非并行多语言语料库上预训练多语言 PTM。例如 Devlin et al.(2019)发布的多语言 BERT(mBERT)使用 104 种语言的非并行多语言 Wikipedia 语料库对多语言掩码语言建模 (MMLM) 任务进行了预训练。 Pires et al. (2019) 进行的研究。表明 mBERT 具有在零样本场景中泛化跨语言知识的能力。这表明即使使用相同的 BERT 结构,使用多语言数据也可以使模型学习跨语言表示。 XLM-R (Conneau et al., 2020) 构建了一个名为 CC-100 的非并行多语言数据集,支持 100 种语言。 CC-100 的规模远大于 mBERT 使用的 Wikipedia 语料库,尤其是对于那些资源匮乏的语言。 XLM-R 在 CC-100 上使用 MMLM 作为唯一任务进行了预训练,并且在多个基准测试中获得了比 mBERT 更好的性能,这表明更大规模的多语言语料库可以带来更好的性能。
然而,MMLM 任务不能很好地利用并行语料库。事实上,并行语料库(parallel corpora)对于机器翻译等一些 NLP 任务非常重要。直观地说,并行语料库对于直接学习具有相同含义的不同语言的句子的跨语言表示非常有帮助。从这一点来看,XLM (Lample and Conneau, 2019) 利用双语句子对来执行翻译语言建模 (TLM) 任务。与 BERT 中的 MLM 类似,TLM 将两个语义匹配的句子合二为一,并在两个部分中随机屏蔽标记。与 MLM 相比,TLM 需要模型根据双语上下文预测掩码标记。这鼓励模型将两种语言的表示对齐在一起。
除了 TLM,还有一些其他有效的方法可以从并行语料库中学习多语言表示。 Unicoder (Huang et al., 2019a) 提供了两个基于并行语料库的新颖预训练任务:跨语言单词恢复 (CLWR) 和跨语言释义分类 (CLPC)。 CLWR 通过利用注意力机制使用目标语言嵌入来表示源语言嵌入,其目标是恢复源语言嵌入。此任务使模型能够学习不同语言之间的单词级别对齐。 CLPC 将对齐的句子视为正对,将未对齐的句子作为负对进行采样,以执行句子级别的分类,让模型预测输入对是否对齐。使用 CLPC,模型可以学习不同语言之间的句子级对齐。 ALM (Yang et al., 2020) 自动从平行句子(parallel sentences)中生成代码转换序列(code-switched sequences)并对其进行 MLM,这迫使模型仅根据其他语言的上下文进行预测。 InfoXLM (Chi et al., 2020b) 从信息论的角度分析 MMLM 和 TLM,鼓励模型在对比学习的框架下区分对齐的句子对和未对齐的负例。 HICTL (Wei et al., 2021) 扩展了使用对比学习来学习句子级和单词级跨语言表示的想法。 ERNIE-M (Ouyang et al., 2020) 提出回译掩码语言建模(BTMLM),通过回译机制扩大平行语料的规模。这些工作表明,利用并行语料库可以为学习跨语言表示带来很大帮助。
研究还广泛探索了多语言 PTM 的生成模型。通常,生成模型由 Transformer 编码器和 Transformer 解码器组成。例如,MASS(Song et al.,2019)将 MLM 扩展到语言生成。它随机屏蔽输入句子中的一段标记,并以自回归方式预测被屏蔽的标记。去噪自动编码(DAE)是一种典型的生成任务,它将噪声函数应用于输入句子,然后用解码器恢复原始句子。 DAE 的噪声函数通常包含两个操作:用掩码令牌替换令牌范围以及排列令牌的顺序。 mBART (Liu et al., 2020c) 通过添加特殊符号扩展了 DAE 以支持多种语言。它在编码器输入的末尾和解码器输入的开头都添加了一个语言符号。这使模型能够知道要编码和生成的语言。
尽管 mBART (Liu et al., 2020c)中的 DAE使用多种语言进行训练,但编码输入和解码输出始终使用相同的语言。这导致模型捕获语言符号(language symbols)和生成的句子之间的虚假相关性。换句话说,模型可能会忽略给定的语言符号,并直接以与输入相同的语言生成句子。为了解决这个问题,XNLG (Chi et al., 2020a) 提出了跨语言自动编码 (XAE) 任务。与DAE不同,XAE的编码输入和解码输出是不同的语言,类似于机器翻译。此外,XNLG 以两阶段的方式优化参数。它在第一阶段用 MLM 和 TLM 任务训练编码器。然后,它在第二阶段修复编码器并使用 DAE 和 XAE 任务训练解码器。通过这种方式,所有参数都得到了很好的预训练,并且也填补了使用 MLM 进行预训练和使用自回归解码进行微调之间的差距。
5.2 多模式预训练(Multimodal Pre-Training)
大规模的预训练及其下游应用已经将有影响力的研究和开发与不同的现实世界模式串联起来。作为人类,我们接触到不同的形式——我们看到物体、听到声音和说语言。形式,如音频、视频、图像和文本,指的是某事如何发生或被体验。近年来,人们对涉及多种模式的跨模式任务的兴趣日益高涨。最近,大规模 PTM 增强了对多模态交叉的研究兴趣,例如图像和文本的交叉,或视频和文本的交叉。考虑到图像和视频属于视觉,而文本和语音(音频)属于语言,大多数这些跨模态作品可以归类为视觉和语言(V&L)。具体来说,V&L 任务可以根据使用的具体方式进一步分为基于图像文本的任务、基于视频文本的任务和基于视频音频的任务。在本节中,我们概述了现有的 V&L 模式预训练工作。现有的跨模式预训练 PTM 主要集中在(1)改进模型架构,(2)利用更多数据,以及(3)设计更好的预训练任务。
对于基于图像文本的 PTM,目前大多数工作都是基于视觉语言(visual-linguistic) BERT 的架构。主要挑战在于统一语义空间(semantic space)中视觉和文本内容的对齐(i.e. V&L grounding)。为此,主要有两种模型架构设计:双流(two-stream)和单流(single-stream)。作为双流模型的代表作,ViLBERT (Lu et al., 2019) 使用两个独立的流处理图像区域和文本标记,并将它们与专门设计的共同注意力转换器块融合在一起。相比之下,LXMERT (Tan and Bansal, 2019) 首先分别处理两种模态,然后使用跨模态编码器进行后期融合。在 VisualBERT (Li et al., 2019)、Unicoder-VL (Li et al., 2020a)、B2T2 (Alberti et al., 2019) 等单流模型中,图像区域特征和词嵌入通常是串联的并馈入单个变压器。研究人员尚未就 V&L 接地能力上哪种设计更好达成共识(Lu et al., 2019; Su et al., 2020)。考虑到模型的简单性和参数效率,目前的工作主要采用单流设计。
在跨模态预训练中,数据资源也具有至关重要的意义。最广泛使用的语料库是从 Web 收集的图像-文本对,包括概念字幕 (Sharma et al., 2018)、SBU 字幕 (Ordonez et al., 2011) 或为特定任务设计的现有 V&L 数据集,包括 COCO (Lin et al. , 2014)、Flicker30K (Plummer et al., 2015)、GQA (Hudson and Manning, 2019)、VQA (Antol et al., 2015) 和 Visual Genome (Krishna et al., 2017)。直接增加图像-文本数据的规模有助于更好的V&L基础。 UNITER (Chen et al., 2020f) 结合了上述几个数据集,产生了 560 万对图像-文本进行训练。充足的训练数据有助于 UNITER 在下游任务上取得令人印象深刻的成绩。在架构和预训练任务上与 UNITER 类似,ImageBERT (Qi et al., 2020) 进一步构建了一个包含 1000 万个网络图像-文本对的数据集,并将其用作预训练数据集,从而在图像-文本检索任务。除了并行的图像-文本数据,VL-BERT (Su et al., 2020) 发现合并额外的纯文本语料库,如 BooksCorpus (Zhu et al., 2015) 和 Wikipedia 有助于文本理解,尤其是对于具有长而复杂的句子,如视觉常识推理。与仅使用易于收集的数据(如图像文本对或文本语料库)的作品不同,Lu et al. (2020)通过对几乎所有类型的 V&L 任务进行联合多任务训练来确定专用数据集的贡献。
给定数据资源,设计相应的预训练任务或策略以有效利用信息也很重要。对于 V&L 理解任务,最广泛使用的预训练任务是 MLM、句子图像对齐(sentence-image alignment) (SIA)、掩蔽区域分类(masked region classification) (MRC)、掩蔽区域特征回归(masked region feature regression) (MRFR),以及直接合并下游任务。与 NLP 的 MLM 类似,V&L 的 MLM 旨在借助视觉和文本上下文恢复字幕中的掩码标记。 SIA 旨在判断图像-文本对是否匹配。 MRC 可以被认为是视觉 MLM,需要 V&L 模型来预测蒙面对象的类别。 MRFR 还需要 V&L 模型来恢复被掩蔽对象区域的视觉特征。也有模型在预训练阶段直接进行下游 V&L 理解任务。例如,LXMERT 使用 VQA 作为预训练任务。 Lu et al. (2020) 联合训练所有下游任务。为了学习图像区域和单词之间的细粒度对齐,UNITER 进一步提出了 Optimal Transport(Chen et al., 2020c) 方式的单词-区域对齐任务,首先找到图像区域和单词之间的稀疏匹配,并且然后最小化对齐距离。然而,这些工作中的大多数都忽略了对象标签(object tags)作为图像区域和文本标记之间的一种明确桥梁的功能。因此,Oscar (Li et al., 2020e) 提出将对象标签(object tags)与原始图像-文本对作为锚点(anchors)来学习 V&L 模态之间的对齐,并设计了一种新的图像标签序列-标题对齐判断的预训练任务。通过这种方式,与上述模型相比,Oscar 在大多数 V&L 任务上都取得了 SOTA 的结果,无论是在 V&L 理解还是生成任务上。除了为 V&L 理解任务设计的预训练任务外,还有一些针对 V&L 生成任务的预训练任务。例如,VLP (Zhou et al., 2020a) 和 X-GPT (Xia et al., 2020) 使用 seq2seq MLM 作为他们的预训练任务。
近期的工作(works) CLIP (Radford et al., 2021) 和 WenLan (Huo et al., 2021) 没有设计精细的预训练任务,而是选择在简单和整体的机制中掌握 V&L 基础能力。他们将图像和字幕编码成整体的视觉和文本表示,而不是分离的区域特征(region features)和词嵌入,然后只进行图像-文本检索任务。这种整体对齐的成功很大程度上归功于网络数据(web data)规模的扩大,CLIP为4亿图文对,WenLan为3000万。
上面提到的以前的工作专门用于 V&L 理解或仅图像字幕任务,但不能生成图像。最近,DALLE (Ramesh et al., 2021) 和 CogView (Ding et al., 2021a) 在条件图像生成方面迈出了更大的一步。 DALLE 是第一个基于transformer的文本到图像 PTM,具有大约 100 亿个参数。它显示了多模态 PTM 在弥合(bridging)文本描述和图像生成之间的差距方面的潜力,尤其是在组合不同对象方面的出色能力,例如“鳄梨形状的扶手椅”。CogView 进一步提高了数值精度和训练通过引入夹层变换器(sandwich transformer)和稀疏注意力机制(sparse attention mechanism)来提高稳定性,并且在模糊 COCO 上的 Fréchet Inception Distance (FID) (Heusel et al., 2017) 中超过了 DALLE。
除了图像文本 PTM 之外,还有其他形式的 PTM,例如视频和音频。 VideoBERT (Sun et al., 2019a) 对 Cooking312K 视频数据集 (Sun et al., 2019a) 进行预训练,并在零样本(zero-shot)动作分类(action classification)任务和视频字幕(video captioning)任务上验证模型。 SpeechBERT (Chuang et al., 2019) 首先将连续音频信号编码为几个语音语义词嵌入,然后在文本和音频模态上使用 MLM 作为预训练任务。预训练后,使用口语问答(SQA)任务进行评估。
5.3 知识增强预训练(Knowledge-Enhanced Pre-Training)
PTM 可以从大量数据中提取大量统计信息。此外,外部知识,如知识图谱、特定领域数据和预训练数据的额外标注(extra annotations),是人类智慧的产物,可以很好地先于统计建模。在本小节中,我们根据知识格式对外部知识进行分类,并介绍几种尝试将知识与 PTM 相结合的方法。
结构化知识的典型形式是知识图谱。许多工作试图通过整合实体和关系嵌入来增强 PTM(Zhang et al.,2019b;Liu et al.,2020a;Peters et al.,2019;Sun et al.,2020;Rosset et al.,2020;Qin et al., 2021) 或它们与文本的对齐方式 (Xiong et al., 2019; Sun et al., 2019c)。然而,像 Wikidata 这样的现实世界知识图谱包含的信息比实体和关系更多。Wang et al. (2021b)基于维基数据实体的描述预训练模型,通过将语言模型损失和知识嵌入损失结合在一起以获得知识增强的表示。有些工作将知识图谱中的路径甚至子图视为一个整体,直接对它们和对齐的文本进行建模,以保留更多的结构信息。由于将实体和关系与原始文本对齐通常很麻烦,并且会在数据预处理中引入噪声,因此另一方面工作(Bosselut et al., 2019; Guan et al., 2020; Chen et al., 2020e)可以直接转换结构化知识到序列化文本中,让模型自己学习知识-文本对齐。一个有趣的尝试是 OAGBERT (Liu et al., 2021a),它在开放学术图 (OAG) (Zhang et al., 2019a) 中集成了异构结构知识,涵盖了 7 亿个异构实体和 20 亿个关系。
与结构化知识相比,非结构化知识更完整,但也更嘈杂。如何从数据中有效地对这类知识进行建模也是值得探索的。特定领域或任务的数据可以被视为一种非结构化知识。许多工作(Beltagy et al.,2019;Lee et al.,2020)进一步对这些数据的通用 PTM 进行预训练,以获得更好的特定领域或特定任务模型。由于有一些特定领域和特定任务的人工标注(human annotations),Ke et al. (2020) 合并这些额外的标注以获得更好的特定领域和特定任务的语言表示。对于所有上述工作,知识都隐含在它们的模型参数中。为了以更可解释的方式对外部知识进行建模,一些工作(Lewis et al.,2020b;Guu et al.,2020)设计了基于检索的方法,以在下游任务中使用结构化知识。另一种工作(Wang et al., 2020b)可以使用在不同知识源上训练的适配器(adapters),并带有额外的标注来区分知识的来源。
6 提高计算效率(Improving Computational Efficiency)
如第 1 节所述,PTM 的一个主要趋势是参数的数量越来越大。增加神经网络的大小通常会提高准确性,但也会增加训练模型的内存和计算要求。在本节中,我们将从以下三个方面介绍如何提高计算效率:系统级优化、高效学习算法和模型压缩策略。
6.1 系统级优化(System-Level Optimization)
图 10:ZeRO-Offload 和带有延迟参数更新的 ZeRO-Offload 示意图。
减少计算需求的一种有效且实用的方法是针对计算效率和内存使用进行系统级优化。系统级优化方法通常与模型无关,不会改变底层学习算法。因此,它们被广泛用于训练大规模 PTM。一般来说,这些方法可以分为单设备优化方法和多设备优化方法。
Single-Device Optimization. 当前的大规模 PTM 通常会花费大量内存进行预训练。这主要是由于浮点数的冗余表示。现代深度学习系统主要基于单精度浮点格式(FP32)。然而,模型的权重通常落在一个有限的范围内,使用半精度浮点格式 (FP16) 可以完成大部分计算而几乎没有精度损失 (Gupta et al., 2015)。
但是,在某些情况下,FP16 中的训练模型可能会因为浮点截断和溢出而失败。为了解决这个问题,已经提出了混合精度训练方法(Micikevicius et al.,2018),它在 FP32 中保留一些关键权重以避免浮点溢出,并使用动态损失缩放操作来摆脱浮点截断。充分的实验表明,混合精度的训练方法比在 FP16 中直接训练模型更稳定。尽管混合精度训练方法可以显着减少训练时间和内存使用量,但它们仍然面临一些挑战。当模型参数没有很好地初始化时,混合精度方法仍然可能导致训练不稳定。所有这些挑战仍有待进一步探索。
除了浮点数的冗余表示之外,为计算梯度而保存的激活状态也是冗余的。例如,在基于 Transformer 的模型中,除了注意力层(attention layers)和线性层(linear layers)的权重之外,计算设备还存储每一层的隐藏状态,以提高梯度反向传播中使用的链式法则的效率。与模型参数相比,这些隐藏状态会消耗更多的内存。为了处理冗余激活状态,梯度检查点方法 (Rasley et al., 2020) 已被用于通过在前向传递后仅存储部分激活状态来节省内存。如有必要,在后退步骤中重新计算丢弃的激活状态。
在对最近的大规模 PTM 进行预训练时,内存消耗可能太大而无法容纳在单个 GPU 中。因此,一些工作(Huang et al., 2020a)试图用 CPU 内存而不是 GPU 内存来存储模型参数和激活状态,因为 CPU 内存通常要大得多。如图 10 所示,ZeRO-Offload (Ren et al., 2021) 等一些工作设计了巧妙的策略来调度 CPU 内存和 GPU 内存之间的交换,从而使内存交换和设备计算尽可能重叠。
Multi-Device Optimization. 最近,分布式训练普遍用于预训练,其中分布在许多计算节点中的多个 GPU 一起用于训练单个模型。数据并行 (Li et al., 2020d) 是一种简单有效的加速模型训练的方法。
图 11:16 个节点的数据并行和模型并行示意图。
如图 11 所示,当我们使用数据并行时,大批量被划分到不同的节点,因此可以并行化前向传递。在后向传递中,不同节点上的梯度应该通过 all-reduce 操作进行聚合,以确保参数优化的一致性,这可能会引入额外的通信开销。
在对具有数十亿到数万亿个参数的模型进行预训练时,传统的数据并行性带来了将整个模型参数拟合到单个 GPU 中的挑战,即使是半精度或混合精度训练也是如此。虽然这个问题可以通过使用更大内存的 GPU 来解决,但费用可能难以承受,限制了普通研究人员对 PTM 的使用。模型并行是解决这个问题的有效方法(Shazeer et al.,2018)。如图 11 所示,在进行模型并行时,模型参数可以分布到多个节点。这些节点之间的通信操作,如reduce-scatter和all-gather,保证了前向传播和后向传播的正确性。 MegatronLM (Shoeybi et al., 2019) 对基于 Transformer 的 PTM 采用模型并行性。它将自注意力头和前馈层拆分到不同的 GPU 中,从而减少了单个 GPU 的内存负担。 Mesh-Tensorflow (Shazeer et al., 2018) 还允许用户沿任何张量维度拆分张量,这可以为模型并行性带来更多自定义选项。
虽然模型并行性使不同的计算节点能够存储模型参数的不同部分,但它必须在前向传递和后向传递过程中插入集体通信原语(collective communication primitives),不能被设备计算重叠。相反,数据并行中的 all-reduce 集体通信操作通常可以被反向计算重叠。因此,只要能克服对内存容量的过高要求,数据并行是首选。在数据并行的标准实现中,优化器状态通常沿着不同的节点复制,以保证跨数据并行单元的同步优化。这种冗余会导致 GPU 内存的额外开销,尤其是在以混合精度方式训练模型时,因为优化器需要存储这些模型的 32 位主状态以确保准确性。为了消除优化器状态和参数带来的冗余,ZeRO 优化器 (Rajbhandari et al., 2020) 方法将优化器状态平均划分并分发到数据并行的每个节点,使得每个节点只更新与其分区对应的优化器状态。在训练步骤结束时,跨数据并行节点收集所有优化器状态。
图 12:具有 4 个节点和 4 个微批次的管道并行性示意图。
上述模型并行技术主要侧重于跨不同节点的矩阵运算的分区和并行化。如图 12 所示,模型并行的另一种有效方法是流水线并行,它将深度神经网络划分为多个层,然后将不同的层放在不同的节点上。在每个节点的计算之后,输出被发送到下一个节点,在该节点进行下一层计算。由于流水线并行只需要在执行流水线相邻阶段的节点之间传递中间激活状态,因此通信成本相对较小。现有的管道方法包括 GPipe (Huang et al., 2019b),它可以将小批量中的较小部分样本发送到不同的节点,以及 TeraPipe (Li et al., 2021),它可以将令牌级(token-level)管道机制应用于 Transformer-基于模型使序列中的每个令牌(token)由不同的节点处理。这两种流水线方法都加速了大规模 PTM。但是,它们应该在每批结束时停止,直到梯度反向传播完成,这可能导致管道气泡(pipeline bubbles)。
6.2 高效的预训练( Efficient Pre-Training)
除了一些系统级的优化方法外,人们还致力于探索更有效的预训练方法,以便我们能够以较低成本的解决方案预训练大规模 PTM。
Efficient Training Methods. 传统的预训练任务可能样本效率低下。例如,对于广泛用于预训练最近 PTM 的 MLM,需要模型根据上下文预测掩码标记。掩码标记通常是输入标记的子集(通常为 15%),即模型只能从一小组输入标记中学习。为了解决这个问题,ELECTRA (Clark et al., 2020) 应用了替换令牌检测(replace token detection)任务。此任务强制模型区分输入标记是否被生成器替换。此任务可以利用来自每个样本的更多监督信息,因为需要区分所有输入标记。当达到与那些 MLM 模型相似的性能时,ELECTRA 所需的预训练步骤要少得多。此外,传统的 MLM 会随机掩盖文档中的标记以进行预测。由于预测不同token的难度差异很大,随机掩蔽策略使得训练过程漫无目的且效率低下。因此,一些工作根据它们在反向传播中的重要性(Gu et al., 2020)或梯度(Chen et al., 2020b)选择性地掩盖令牌,以加快模型训练。
除了预训练任务之外,当前的预训练动态也是次优的。最近的大规模 PTM 通常需要大批量(large batch size)。但在一项早期工作(Goyal et al.,2017)中,研究人员发现天真地增加批量大小(batch size)可能会导致优化(optimization)困难。因此,他们提出了一种预热策略(warmup strategy),在训练开始时线性增加学习率。这种策略通常用于最近的大型 PTM。最近 PTM 的另一个特点是它们通常由多个堆栈(stacks)组成,例如 Transformer。传统的训练范式使用相同的超参数同时优化每一层。然而,最近的一些工作研究了基于 Transformer 的模型,并声称不同的层可以共享相似的自注意力模式(self-attention patterns)。因此,可以先训练浅层模型,然后复制构建深层模型(Gong et al.,2019)。在训练过程中也可以丢弃一些层,以降低反向传播和权重更新的复杂性(Zhang 和 He,2020)。另外,You et al. (2017)和You et al. (2020) 发现在不同层自适应地使用不同的学习率也可以在批量较大时加快收敛速度。
Efficient Model Architectures. 除了有效的预训练方法外,更多的模型架构变体也可以降低计算复杂度,从而提高训练 PTM 的效率。对于大多数基于 Transformer 的 PTM,随着它们的输入序列变长,由于其序列长度的二次时间(quadratic time)和空间复杂度(space complexity),它们的效率受到注意力权重计算的限制。因此,许多工作试图降低 Transformer 的复杂性。一些工作(Peng et al., 2021; Choromanski et al., 2021; Wang et al., 2020c; Katharopoulos et al., 2020)设计了低秩内核(low-rank kernels)以在理论上逼近原始注意力权重并导致线性复杂度。一些工作(Child et al.,2019)通过将每个令牌(token)的视图(view)限制为固定大小并将令牌(token)分成几个块,从而将注意力权重的计算在每个单独的块中进行,而不是在完整的序列中进行,从而将稀疏性引入注意力机制.与预定义的块相比,一些工作(Roy et al., 2021; Kitaev et al., 2020)发现使用可学习的参数将标记分配到块中会产生更好的性能。另一种方法(Guo et al.,2019;Lee et al.,2019;Beltagy et al.,2020;Ainslie et al.,2020;Zaheer et al.,2020)结合全局和局部注意力机制,然后使用全局节点按顺序收集令牌。通过这种方式,将长序列压缩为少量元素,从而降低复杂度。
保持与原始 Transformer 相同的理论计算复杂度,模型结构的更多变体也可以加速模型收敛。专家混合 (MoE) 已被早期证明 (Shazeer et al., 2017) 可以增加深度神经模型的参数,同时保持计算开销几乎不变。最近,Switch Transformers (Fedus et al., 2021) 在预训练中采用了这种技术。他们在Transformers的每一层都添加了多名专家。在每个前向(forward)和反向(backward)步骤中,他们只选择一个专家进行计算,因此训练和推理时间与没有专家的普通 Transformer 相似。一些实验结果表明,由于多位专家带来的模型容量明显增大,基于 MoE 的模型比普通模型收敛得更快。还开发了一些高效的开源工具包(He et al.,2021)来训练基于 MoE 的大规模模型。
6.3 模型压缩(Model Compression)
提高 PTM 效率的另一个重要方法是模型压缩。在这种情况下,大型模型被压缩为小型模型,以满足在资源受限设备上进行更快推理和部署的需求。
Parameter Sharing. PTM 可以通过在相似单元之间共享参数进行压缩。 ALBERT (Lan et al., 2019) 使用分解嵌入参数化和跨层参数共享来减少 PTM 的参数。在所有 Transformer 层上使用相同的权重,ALBERT 在 BERT 模型的基础上实现了显着的参数减少,同时具有相同甚至更好的性能。这表明 PTM 可能被过度参数化。
Model Pruning. 为了更好地利用当前 PTM 的过度参数化特性,另一种减少模型参数的方法是模型剪枝,即剪掉 PTM 中一些无用的部分,以在保持性能的同时实现加速。在 (Fan et al., 2019) 中,Transformer 层在训练期间被选择性地丢弃,从而在推理期间导致模型更浅。在 (Michel et al., 2019)、(Voita et al., 2019) 和 (Zhang et al., 2021b) 中,研究人员研究了 Transformers 中注意力头的冗余,发现只有一小部分就足够很棒的performance。这些heads中的大部分都可以移除,而对准确性的影响很小。 CompressingBERT (Gordon et al., 2020) 等其他试验试图修剪注意力层和线性层的权重,以减少 PTM 中的参数数量,同时保持与原始模型相当的性能(performance)。
Knowledge Distillation. 尽管 ALBERT 节省了 PTM 的内存使用量,但它的推理时间并没有显着减少,因为特征仍然需要通过与原始模型相同数量的层。知识蒸馏旨在训练一个小型模型来重现大型教师模型的行为。使用小型蒸馏模型进行推理时,内存使用量和时间开销都降低了。有一些将知识蒸馏用于 PTM 的典型作品,例如 DistillBERT (Sanh et al., 2019)、TinyBERT (Jiao et al., 2019)、BERTPKD (Sun et al., 2019b) 和 MiniLM (Wang et al., 2020d)。在这些作品中,训练一个小型学生模型以在预训练和微调阶段模仿大型教师模型的输出概率、隐藏状态和注意矩阵。通过知识蒸馏,教师模型中的模型被转移到学生模型中,与单独训练学生模型相比,这可以提高性能。然而,上述知识蒸馏方法需要用于预训练教师模型的数据,考虑到数据版权和隐私,通常不会发布这些数据。此外,教师模型需要对整个预训练数据进行转发,以产生用于知识蒸馏的 logits 或中间表示,从而导致更长的训练时间。
Model Quantization. 为了获得更压缩的模型,模型量化也是一种有用的技术,它在一些基于 CNN 的模型中得到了广泛的探索(Stock et al., 2020; Polino et al., 2018)。模型量化是指将高精度浮点参数压缩为低精度浮点参数。传统的 PTM 通常用 32 位或 16 位表示,而量化后的模型可以用 8 位甚至 1 或 2 位表示。对于最近基于 Transformer 的模型,8 位量化已被证明对 Q8BERT 中的模型压缩有效(Zafrir et al.,2019),对模型性能的影响很小。尽管如此,由于模型容量显着下降,训练 1 或 2 位模型仍然具有挑战性。为了减轻性能下降,也可以采用其他方法来保持准确性。 Q-BERT (Shen et al., 2020a) 使用混合比特(mixed-bits)量化,其中 Hessian 谱较高的参数需要更高的精度,而 Hessian 谱较低的参数需要较低的精度。 TernaryBERT (Zhang et al., 2020b) 将知识蒸馏应用于量化,迫使低位模型模仿全精度模型。 Q-BERT 和 TernaryBERT 都产生超低位模型。然而,低位表示是一种与硬件高度相关的技术,这意味着量化通常需要特定的硬件,并且不能推广到其他设备。
7 解释与理论分析(Interpretation and Theoretical Analysis)
除了 PTM 在各种 NLP 任务上的卓越性能外,研究人员还探索解释 PTM 的行为,包括了解 PTM 如何工作和揭示 PTM 捕获的模式。这些工作涵盖了 PTM 的几个重要属性:知识、鲁棒性和结构稀疏性/模块化。此外,在构建 PTM 的理论分析方面也有一些开创性的工作。
7.1 PTM 知识(Knowledge of PTMs)
PTMs捕获的隐性知识大致可以分为两类:语言知识(linguistic knowledge)和世界知识(world knowledge)。
Linguistic Knowledge. PTMs 的语言知识在所有PTMs 解释的话题中引起了最多的关注。与传统的神经模型(如 CNN 和 RNN)相比,它们的层数和参数更少,大规模 PTM 可以从海量的预训练数据中学习到丰富的语言知识。为了研究 PTM 的语言知识,研究人员设计了几种方法: (1) 表示探测(Representation Probing):固定 PTM 的参数并在 PTM 的隐藏表示(hidden representations)上训练一个新的线性层,用于特定的探测任务。这是最流行的方法,因为它可以很容易地适应任何探测任务而无需特殊设计。 (2) 表示分析(Representation Analysis):使用 PTM 的隐藏表示来计算一些统计量,例如距离或相似度。根据这些统计数据,我们可以构建不同单词、短语或句子之间的关系。 (3)注意力分析( Attention analysis):与表示分析类似,注意力分析计算注意力矩阵的统计量,更适合发现文本的层次结构。 (4) 生成分析(Generation Analysis):使用语言模型直接估计不同序列或单词的概率。在某些语言现象中,目标文本可能是正确的或不正确的。
表征探测已广泛应用于分析从词嵌入到 PTM 的 NLP 神经模型(Köhn,2015;Ettinger et al.,2016;Shi et al.,2016;Adi et al.,2017;Conneau et al.,2018a;Hewitt和 Manning,2019 年;Glavaš 和 Vulic´,2021 年)。Liu et al. (2019) 对 11 个语言任务进行了全面的探索实验,发现与以前的特定任务模型相比,大规模 PTM 给出的表示具有竞争力,这表明这些模型已经学习了关于标记(tokens)、块(chunks)和成对关系(pairwise relations)的知识。为了进一步研究 PTM 如何表示有关句法(syntactic)、语义(semantic)、本地(local)和远程信息(longrange information)的句子结构,Tenney et al. (2019b)设计了一个新的边缘探测任务,并在广泛的子句任务套件上检查 PTM,并表明 PTM 具有强大的句法信息编码能力,而它们对语义任务几乎没有改进。同样,一些工作也揭示了 PTM 的强句法编码(Vilares et al.,2020;Warstadt 和 Bowman,2020;Hewitt 和 Manning,2019)。为了分析不同层的功能,Jawahar et al. (2019a) 和 Tenney et al. (2019a)表明,PTM 对语言信息进行编码,底部是短语特征,中间是句法特征,顶部是语义特征。与非上下文表示(例如 word2vec)相比,PTM 的表示在编码句子级属性方面更好(Miaschi 和 Dell’Orletta,2020)。此外,Manning et al. (2020) 探索使用 PTM嵌入(embeddings)的线性变换来重建语言学家给出的句子树结构,并取得可喜的成果。
除了 representation probing 之外,研究人员还试图揭示不同表征之间的结构和关系。Kim et al. (2020)提出利用句法距离的概念从单词表示中构建句子的成分树(constituency trees)。 Rosa and Marecek ˇ (2019) 分析了句子中一个词的删除如何改变其他词的表示,以揭示一个词对其他词的影响。
还有一些关于通过注意力矩阵解释 PTM 的工作。Lin et al. (2019)定量评估主谓一致和anaphor-antecedent依赖的注意力矩阵,并表明 PTM 倾向于在较低层编码位置信息并在较高层捕获层次信息。为了更好地描述 PTM 的注意力矩阵的行为,Htut et al. (2019)提出取最大注意力权重并计算最大生成树作为两个统计量。根据实验结果,他们发现微调对自注意力模式的影响很小。
由于 PTM 可以直接用于生成标记(tokens)或估计不同句子的概率,因此基于生成构建分析任务是直观的(Goldberg,2019)。 Perturbed Masking (Wu et al., 2020) 在没有任何额外参数的情况下从 PTM 中恢复句法树,并且 PTM 给出的结构在某些下游任务中与人工设计的依赖模式(human-designed dependency schema)具有竞争力。为了分析预训练在估计不符合语法的单词概率方面的效果,Schijndel (Schijndel et al., 2019) 表明,扩大训练语料库会产生递减效果,并且训练语料库需要非常大才能使 PTM 与人类表现相匹配。
World Knowledge. 除了语言知识,PTM 还从预训练中学习到丰富的世界知识,主要包括常识知识(commonsense knowledge)和事实知识(factual knowledge)(Zhou et al., 2020b; Bouraoui et al., 2020)。
对于常识性知识,Ettinger (Ettinger, 2020) 首先评估了 PTMs 在心理语言学家方面的知识,发现模型在共享类别(shared category)或角色反转(role reversal)的情况下表现良好,但在具有挑战性的推理(inferences)和基于角色的事件(role-based event)中表现不佳。然后,为了从 PTM 中提取常识,Davison et al. (2019) 提出首先将关系三元组转换为掩码句子,然后根据 PTM 给出的互信息(mutual information)对这些句子进行排序。在实验中,无需进一步训练的基于 PTM 的提取方法甚至比当前的监督方法具有更好的泛化能力。同样,Da 和 Kasai (2019) 也发现 PTM 基于一系列探测任务在其表示空间中学习了各种常识特征。除了常识特征/属性外,不同属性之间的隐含关系(implicit relations)也很重要,Forbes et al. (2019) 表明当前 PTM 的表示不能很好地模拟隐式关系(implicit relations),这需要进一步探索。
对于事实知识,Petroni et al. (2019)提出将关系知识生成表述为填空语句的完成。根据实验结果,他们发现 PTM 在此任务上显着优于以前的监督基线,无需任何微调。但是,这些填空语句的构造并非易事。为了从 PTM 中提取更多的事实知识,LPAQA (Jiang et al., 2020b) 被提议通过基于挖掘(mining-based)和基于释义(paraphrasing-based)的方法自动搜索更好的语句/提示。 AutoPrompt (Shin et al., 2020) 建议训练离散提示(discrete prompts)以进行知识探索。在 P-tuning (Liu et al., 2021b) 中,作者发现更好的提示(prompts)在于连续嵌入空间( continuous embedding space),而不是离散空间(discrete space)。 P-tuning 将 LAMA 上的 P@1 性能提升到 64%,比 AutoPrompt 高 20%。此外,Roberts et al. (2020) 为开放域(open-domain)问答任务微调 PTM,并发现微调可以进一步有利于 PTM 的知识生成。然而,Pörner et al. (2020) 发现知识生成的成功可能依赖于学习神经刻板联想(neural stereotypical associations),即 PTM 将一个听起来像意大利语的人预测为意大利语。为了理解文本中的数字,Wallace et al. (2019c) 发现 ELMo 对所有预训练方法(这是一个基于字符的模型)捕获的计算能力(numeracy)最好,但使用子词(sub-word)单元的 BERT 不太准确。 (Wang et al., 2020a) 研究存储在 Transformer 的前馈注意矩阵(feed-forward attention matrices)中的知识,并提出了一个使用 PTM 构建开放知识图谱的框架。
7.2 PTM 的鲁棒性(Robustness of PTMs)
最近的工作已经使用对抗性(adversarial)示例确定了 PTM 中严重的鲁棒性问题。对抗性攻击旨在通过对原始输入的小扰动来生成被模型错误分类的新样本。例如,PTM 很容易被同义词替换所愚弄(Jin et al., 2020; Zang et al., 2020; Wang et al., 2021a)。同时,不相关的人工制品(例如形式词)会误导 PTM 做出错误的预测(Niven and Kao,2019;Wallace et al.,2019a)。目前的工作主要利用模型的模型预测、预测概率和模型梯度来搜索对抗样本。但是,很难保持机器生成的对抗样本的质量。最近,人类在环方法(human-in-the-loop)(Wallace et al., 2019b; Nie et al., 2020)已被应用于生成更自然、有效和多样化的对抗样本,这带来了更大的挑战并暴露了更多的属性和问题的 PTM。总之,当人们为实际应用部署 PTM 时,PTM 的稳健性已成为严重的安全威胁。
7.3 PTM 的结构稀疏性(Structural Sparsity of PTMs)
继 BERT 之后,大多数 PTM 都采用 Transformer 作为架构主干。虽然人们可以很容易地训练一个深度的 Transformer,并在使用 CNN 和 RNN 之前的工作中取得显着改进,但 Transformer 遇到了过度参数化的问题。研究人员表明,多头注意力结构在机器翻译 (Michel et al., 2019)、抽象摘要 (Baan et al., 2019) 和语言理解 (Kovaleva et al., 2019) 的任务中是多余的,即,当去除部分注意力头时,我们可以获得更好的性能。这种现象与 (Clark et al., 2019) 中的观察结果一致,他们发现同一层中的大多数头部具有相似的自我注意模式。此外,Kovaleva et al. (2019) 对 PTM 头部编码的信息进行定性和定量分析。他们的研究结果表明,不同头部的注意力行为可以分为一组有限的模式(patterns)。除了多头注意力之外,其他几项工作也在探索识别参数的稀疏性。Gorden et al. (2020) 表明,低水平的修剪 (30-40%) 根本不会影响预训练损失或下游任务的性能。在微调期间针对稀疏性,Prasanna et al. (2020) 验证了 PTM 上的彩票假设,并发现有可能找到实现与完整模型相当的性能的子网络。令人惊讶的是,Kao et al. (2020)表明我们可以通过简单地复制一些隐藏层来增加模型容量来提高性能,这表明冗余参数(redundant parameters)可能有利于微调。
7.4 PTM的理论分析
由于预训练在深度学习方面取得了巨大成功,研究人员试图研究预训练的工作原理,尤其是无监督预训练。在深度学习的早期,人们发现通过贪婪的逐层无监督预训练和监督微调来训练深度信念网络(deep belief network)是有效的(Hinton et al.,2006)。最近,基于包括语言建模在内的对比学习(contrast learning)的预训练已成为主流方法。在本节中,我们将介绍一些用于预训练的理论解释性假设或框架。
Erhan et al. (2010) 提出了两个假设来解释预训练的效果:(1)更好的优化和(2)更好的正则化。在更好的优化方面,与随机初始化的模型相比,预训练的网络更接近全局最小值。在更好的正则化方面,PTMs的训练误差不一定比随机模型好,而PTMs的测试误差更好,这意味着更好的泛化能力(generalization ability)。然后,实验结果倾向于第二个假设。他们发现 PTM 并没有降低训练误差。此外,与 L1/L2 等其他正则化方法相比,无监督预训练正则化要好得多。
针对预训练目标的最新发展,Saunshi et al. (2019)对对比无监督表示学习进行了理论分析。对比学习将出现在相同上下文中的文本/图像对视为语义相似的对,将随机采样的对视为语义不同的对。然后,相似对之间的距离应该很近,而异种对之间的距离应该很远。在语言建模的预测过程中,上下文和目标词是相似对,其他词是负样本(Kong et al.,2020)。 Saunshi et al. (2019)首先提供了一个新的概念框架来弥合预训练和微调之间的差距。具体来说,他们引入了潜在类(latent classes)的概念,语义相似的对来自同一个潜在类。例如,潜在类可以是“'快乐”以包括所有文本,包括快乐情绪。潜在类涵盖所有可能的类,下游任务定义的类来自潜在类集合。然后,他们证明了对比学习的损失是下游损失的上限。因此,在优化预训练损失时,我们可以预期下游任务的损失会更低。
8 未来方向(Future Directions)
至此,我们已经全面回顾了 PTM 的前世今生。未来,在现有工作的基础上,PTMs可以从以下几个方面进一步发展:架构和预训练方法(8.1节)、多语言和多模态预训练(8.2节)、计算效率(8.3节)、理论基础(第 8.4 节)、模型边缘学习(第 8.5 节)、认知学习(第 8.6 节)和新应用(第 8.7 节)。事实上,研究人员在上述方向上已经做出了很多努力,我们在前几节中也介绍了最新的突破。然而,在这些方向上仍有一些悬而未决的问题需要进一步解决。在本节中,我们主要集中讨论这些未解决的问题。
8.1 架构和预训练方法(Architectures and Pre-Training Methods)
从架构和预训练方法方面,我们认为以下问题值得进一步探索:
New Architectures. Transformers 已被证明是一种有效的预训练架构。然而,Transformers 的主要限制是其计算复杂性。受 GPU 内存的限制,当前大多数 PTM 无法处理包含超过 512 个令牌(token)的序列。因此,重要的是寻找更有效的模型架构来捕获更远范围的上下文信息。然而,深度架构的设计具有挑战性,我们可能会寻求一些自动方法的帮助,例如神经架构搜索(NAS)。此外,虽然较大的 PTM 通常可以带来更好的性能,但一个实际问题是如何在一些特殊场景中利用这些巨大的 PTM,例如低容量(low-capacity)设备和低延迟(low-latency)应用程序,其中 PTM 的效率是关键因素。此外,不同的下游任务更喜欢不同的架构。例如,Transformer 编码器适用于自然语言理解任务,而 Transformer 解码器适用于自然语言生成任务。因此,我们可能需要根据下游任务的类型仔细设计特定于任务的架构。
New Pre-Training Tasks. 通用 PTM 一直是我们学习语言内在通用知识(甚至世界知识)的追求。然而,这样的 PTM 通常需要更深的架构、更大的语料库和具有挑战性的预训练任务。所有这些要求进一步导致更高的训练成本。此外,训练庞大的模型也是一个具有挑战性的问题,需要复杂高效的训练技术,如分布式训练、混合精度训练等。因此,更实际的方向是设计更高效的自监督预训练任务和根据现有硬件和软件的能力的训练方法。 ELECTRA (Clark et al., 2020) 是朝着这个方向进行的一次很好的尝试。
Beyond Fine-Tuning. 目前,微调是将 PTM 的知识转移到下游任务的主要方法,但一个缺点是其参数效率低下:每个下游任务都有自己的微调参数。一种改进的解决方案是固定 PTM 的原始参数,并为特定任务添加小的微调适应模块。因此,我们可以使用共享的 PTM 服务于多个下游任务。最近,随着 GPT-3 的出现,一种新颖的模型调优流派,即快速调优(prompt tuning),越来越受到关注。通过设计、生成和搜索离散的(Petroni et al., 2019; Gao et al., 2021; Hu et al., 2021)或连续的(Liu et al., 2021b; Han et al., 2021; Lester et al., 2021; Lester et al., 2021) , 2021) 提示(prompts)并将 MLM 用于特定的下游任务,这些模型可以 (1) 弥合预训练和微调之间的差距,从而在下游任务上表现更好; (2) 减少微调大量参数的计算成本。总而言之,快速调优(prompt tuning))是激发 PTM 中分布的语言和世界知识的一种很有前途的方法。
Reliability. 随着 PTM 在生产系统中的广泛使用,PTM 的可靠性也成为备受关注的问题。针对 PTM 的对抗性攻击(adversarial attacks)(Li et al., 2020b,c; Zhang et al., 2021c)的研究通过充分暴露其漏洞帮助我们了解它们的能力。 PTM 的对抗性防御(Adversarial defenses)(Si et al., 2020; Yao et al., 2021; Li and Qiu, 2021)也很有前景,它可以提高 PTM 的鲁棒性并使其免受对抗性攻击。总体而言,作为许多 NLP 应用中的关键组成部分,PTMs 的可解释性和可靠性仍有待进一步探索,这将有助于我们了解 PTMs 的工作原理,并为更好地使用和进一步改进 PTMs 提供指导。
8.2 多语言多模式预训练
尽管多模式和多语言 PTM 在过去两年中取得了许多进展,但它们仍然有以下正在进行的研究方向:
More Modalities. 除了图像和文本之外,还可以利用视频和音频进行多模式预训练。因此,主要挑战在于如何对这两种模式中涉及的时间上下文进行建模。特别是,对于视频-文本对的大规模预训练,传统的自监督学习方法由于其高计算成本而不适合。为了解决这个问题,重要的是为更复杂的模式开发更有效和高效的自我监督学习方法。
More Insightful Interpretation. 目前尚不清楚为什么桥接视觉和语言会起作用。例如,不管多模态预训练带来的优势,它是否会导致对单一模态(图像或文本)的任何伤害?如果答案是肯定的,我们能否在多模式预训练期间克服这个缺点?沿着这条研究路线,可以利用最新的深度学习可视化工具来解释多模态预训练。
More Downstream Applications. 众所周知,多模态预训练可以应用于图文检索、图文生成、文图生成等下游任务。然而,为多模式预训练找到一个“真实”的真实应用场景仍然具有挑战性,因为可以利用许多有效的工程技巧(即使成本更低)。因此,需要与行业进行更密切的合作。
Transfer Learning. 目前,为了使多模式多语言模型处理不同的语言,在预训练期间需要每种语言的数据。在预训练期间添加看不见的语言是不灵活的。因此,应该探索一种新的预训练框架,以轻松适应那些看不见的语言。此外,当前的多模式多语言模型无法处理音频数据。例如,要将英文音频翻译成中文音频,我们需要先通过额外的语音识别系统将英文音频转换为英文文本。使用跨语言模型翻译后,我们需要通过额外的文本转语音工具进一步将中文文本转换为中文音频。如何通过多模态多语言 PTM 将源语言音频直接转换为目标语言文本或目标语言音频也值得探索。
8.3 计算效率(Computational Efficiency)
近年来,深度学习模型变得越来越复杂和庞大(Devlin et al., 2019; Brown et al., 2020; Kaplan et al., 2020; Fedus et al., 2021)。大规模深度学习模型的新要求给现有的深度学习框架带来了严峻的挑战,如 TensorFlow (Abadi et al., 2016) 和 PyTorch (Paszke et al., 2019) 等早期设计的框架没有最初的设计预见新出现的需求,例如大型模型的模型/管道( model/pipeline)并行性(Brown et al.,2020;Huang et al.,2019b;Wang et al.,2019)。为了开发更有效的框架,以下方向很有帮助。
Data Movement. 开发高效的分布式深度学习框架面临着各种挑战。必须仔细管理设备之间的数据移动,否则可能会成为性能瓶颈(performance bottleneck)(Narayanan et al.,2019;Jiang et al.,2020a)。通过最小化通信成本、最大化计算和内存资源以及优化计算-通信重叠,需要一个明确定义的并行策略来在互连设备上放置和调度计算任务。在最好的情况下,这种高效的并行策略可以自动生成。
Parallelism Strategies. 特别是并行策略的选择,数据并行、模型并行、管道并行(pipeline parallelism)以及各种混合并行方法可以根据神经网络的结构和硬件配置找到它们的最佳用途(Ben-Nun 和 Hoefler,2019)。数据并行性特别适用于参数集相对较少(通常少于千万个参数)的深度学习模型,当反向传播与梯度/参数(gradient/parameter)通信最大程度重叠时,可以实现近线性加速。(Hashemi et al.,2019;Peng et al.,2019;Jiang et al.,2020a)。模型并行性和管道并行性适用于具有更多参数的模型,这些参数可能无法放入单个设备中。在当前实践中,用户必须彻底考虑给定深度学习模型的网络结构和设备间通信带宽(communication bandwidth),以决定最合适的并行策略或在不同策略之间切换(Shazeer et al.,2018)。
Large-Scale Training. 鉴于现有深度学习框架对模型并行性和管道并行性的支持不佳,一些新兴的开源项目开发了用于大规模训练的专用框架。例如,HugeCTR (Oldridge et al., 2020) 用于大规模点击率估计。 MegatronLM (Shoeybi et al., 2019; Narayanan et al., 2021) 和 DeepSpeed (Rajbhandari et al., 2021, 2020) 旨在训练大规模 NLP PTM。 InsightFace (ins, 2021) 训练大规模人脸识别模型。但是,这些框架仅限于有限的应用案例,不能作为通用解决方案。此外,由于兼容性问题,这些方法不能一起工作以构成完整的解决方案。
Wrappers and Plugins. 如果没有支持模型并行和管道并行的机制,就必须通过在现有框架之上的计算操作之间手动插入数据路由操作来开发各种专用于某些特定算法的库。此外,通信和计算需要手动重叠以最大化系统吞吐量。手动编程通信操作非常复杂,只能逐个解决问题,这导致将并行策略应用于新的深度学习模型存在重大障碍。如果可以通过深度学习框架对用户透明地自动管理通信操作,那么更多的模型和应用程序可以从分布式训练中受益。
为了支持更复杂的并行策略,许多方案被用作基于一些主流深度学习框架(如 TensorFlow 和 PyTorch)的包装器(wrappers)或插件(plugins)。 Mesh-TensorFlow (Shazeer et al., 2018)、FlexFlow (Jia et al., 2019)、OneFlow (one, 2021)、MindSpore (min, 2021) 和 GShard (Lepikhin et al., 2021) 为开发人员提供 API为深度神经模型的不同组件表达广泛的并行计算模式。 OneFlow 中的 SBP 配置可能仍然过于复杂,用户无法设置。然而,直接使用通信原语为不同类型的并行编程更复杂。 OneFlow 将手动编程转换为仅设置 SBP 签名。此外,在 OneFlow 中,用户可以只设置操作子集的 SBP 签名,而不是整个集合,其余的 SBP 由用户提供的启发式方法(如 GShard (Lepikhin et al., 2021))推断一些初始注释(annotations)或使用默认注释作为种子,然后算法将分片信息传播到未注释的张量。 FlexFlow 中的方法(Jia et al.,2019)也可以在这里使用。并行策略的自动调度是未来分布式训练的趋势。
8.4 理论基础(Theoretical Foundation)
在本小节中,我们以更基本的方式分析未来的方向。在理论基础方面,我们讨论以下研究问题。
Uncertainty. PTM(以及其他深度神经网络)的一个未得到解决的问题是它们通常对预测过于自信,即这些模型不知道他们不知道什么。例如,GPT-3 可用于回答在基准数据集上具有良好性能的问题。然而,如果你问一个简单的问题,比如“我的脚有几只眼睛?”,GPT-3 肯定会得出“你的脚有两只眼睛”这样的答案,这看起来违反直觉。 当然,上述问题一般人并不经常问。在机器学习中处理这种分布外(out-of-distribution) (OOD) 数据通常是一项具有挑战性的任务。
为了应对上述挑战,一个有希望的方向是采用贝叶斯方法,探索概率工具来捕捉数据和模型的不确定性(也分别称为任意不确定性(aleatoric uncertainty)和认知不确定性(epistemic uncertainty))(Der Kiureghian 和 Ditlevsen,2009)或进行一些测试统计数据。这种不确定性或统计数据有助于检测异常值(Wang et al.,2020f)。最近,在贝叶斯深度学习的理论、算法和编程库方面已经做了很多工作,它结合了贝叶斯方法和深度网络(例如,参见 (Shi et al., 2017) 了解更多详细信息)。这种进展可以进一步扩展到大规模 PTM,以正确表征不确定性并避免过度自信的输出。当然,提高贝叶斯深度学习的计算效率是应对上述挑战的关键因素。
Generalization and Robustness. PTM 的另一个重要问题是泛化。作为深度学习的重要进步,它继承了深度神经网络的优点和挑战。据观察,经典学习理论不足以理解深度网络的行为(Zhang et al.,2017),因此需要学习理论的新工具。至于 PTM,除了对神经模型本身(例如 Transformer 和 BERT)的理论理解之外,还出现了新的问题。例如,从理论上理解预训练在提高下游任务泛化方面的作用很重要。最近的工作(Saunshi et al.,2019)为理解具有特定假设的对比学习提供了富有成效的尝试。然而,在更现实的环境下分析 PTM 仍然在很大程度上是开放的。
正如我们之前提到的,对抗性鲁棒性也提出了新的问题。在之前的工作中,表明需要更高的样本复杂度才能实现神经网络的对抗鲁棒性(Schmidt et al., 2018)。这种分析激发了进一步的改进(例如,(Pang et al.,2020))。然而,通常不知道大规模 PTM 在这方面有何帮助。有没有有效的方法来探索 PTM 作为额外的数据资源来提高下游任务的鲁棒性?此外,如前所述,PTM 本身的鲁棒性(robustness)是一个未解决的问题。
8.5 模型边学习(Modeledge Learning)
如第 7 节所述,PTM 可以在广泛的 NLP 任务中实现大幅改进,因为它们从大型未标记(unlabeled)语料库中学习通用知识。与人类可解释的离散符号表示的知识相反,存储在 PTM 中的知识表示为实值向量(real-valued vectors)。例如,给定知识图中的三元组 ,很容易知道头部实体 与尾部实体 有关系 。相反,您似乎很难知道 PTM 生成的表示是什么意思。因此,我们可以将存储在 PTM 中的知识称为“模型边(modeledge)”,以区别于人类形式化的离散符号知识。
Knowledge-Aware Tasks. 虽然符号知识的使用是有效的,但手动组织这些离散的知识,例如建立各种知识库,是耗时和劳动密集型的。随着 PTM 研究的快速推进,出现了 GPT、BERT 和 BART 等各种 PTM。越来越多的研究人员探索了 PTM 从数据中学到了哪些知识,以及为什么它们在下游任务中表现如此出色(Jawahar et al.,2019b;Ethayarajh,2019)。Petroni et al. (2019) 指出 PTM 可以被视为知识库,并研究如何将 PTM 应用于知识完成任务(knowledge completion task)。 Ethayarajh (2019) 还声称 PTM 将是开放的知识图谱,并提出了一种基于 PTM 构建知识图谱的无监督方法。从所有这些知识感知任务中,我们可以发现大量的人类知识被 PTM 捕获并以模型边(modeledge)的形式存储。如何激发 PTM 的模型优势值得未来进一步探索。
Modeledge Storage and Management. 由于现有的 PTM 建立在不同的架构上,并且可能使用不同的语料库进行训练,它们包含不同的模型边。因此,如何在 PTM 中存储和管理各种连续的模型边(modeledge)成为一个新的挑战。有两种直截了当的想法。首先是在超大规模数据上预训练一个巨大的模型。届时,PTM 将具有覆盖现有 PTM 中几乎所有模型边的非凡能力。这种方法简单有效,但需要极高的计算能力和存储资源。例如,GPT-3 使用了大约 1750 亿个参数。二是在专家混合(MoE)的基础上将多个模型组合成一个大模型(Jacobs et al.,1991)。例如,Fedus et al. (2021) 改进教育部以提出Switch Transformers。这种方法很容易包含新模型,但是随着模型数量的增加,对内存的需求也会增加。
考虑到现有 PTM 之间既有相似之处,也有不同之处,我们有一个重要的问题需要回答:是否有可能建立一个通用连续知识库(universal continuous knowledge base)(UCKB)来存储来自各种 PTM 的模型边缘(modeledge)? UCKB 不仅可以存储从现有 PTM 导入的连续 modeledge,还可以融合不同的 modeledge,然后将融合的 modeledge 导出到模型中,使其更强大。Chen et al. (2020a)首先提出了UCKB的概念,并进行了一些初步探索。他们将神经网络视为参数化函数,并使用知识蒸馏(Hinton et al.,2014)来导入和导出模型边缘。 UCKB克服了模型存储的冗余,将各种模型的modeledge存储到一个公共的连续知识库中。然而,如何为 UCKB 的存储和接口设计更有效的架构仍然是一个挑战。
8.6 认知和知识学习(Cognitive and Knowledgeable Learning)
让 PTM 更有知识是 PTM 未来的一个重要主题。我们将知识型 PTM 的未来发展分为以下三种方法:
Knowledge Augmentation. 对于输入文本,有丰富的相关外部知识,可用于扩充输入。考虑到知识和纯文本的格式差异很大,重要的是要弥合文本表示和知识表示(包括符号或向量)之间的差距,并将它们的信息统一用作输入。解决这个问题需要统一的模型架构和知识引导的预训练目标。
Knowledge Support. 当前的模型架构是手动设计的,通常非常规则。有了输入的先验知识,我们可以训练不同的子模块来处理不同类型的输入,这样可以加快训练和推理的过程,有利于模型的效率。这个过程类似于人类行为,不同的大脑区域对应不同的活动功能。
Knowledge Supervision. 知识库存储大量结构数据,可在预训练期间用作补充来源。通过从知识库和大规模语料库中学习,与仅使用纯文本相比,PTM 可以具有更好的语言理解和生成能力。通过这三个方向,我们希望未来的 PTM 能够轻松理解词外的含义,并在各种下游任务上取得更好的性能。
在认知 PTM 方面,我们认为以下方法会有所帮助:
Cognitive Architecture. 由于神经网络受到人类神经系统微观结构的启发,因此有望看到人类认知系统的宏观功能和组织如何启发下一代智能系统的设计,例如全球工作理论(Global Working Theory)(GWT) )。 CogQA 和 CogLTX 的成功可能会为这一挑战提供一些思路。
Explicit and Controllable Reasoning. 虽然深度学习在许多感知任务中取得了成功,但如何进行复杂的决策制定和高效的多步推理仍然没有解决,这可能需要机器自动将决策制定过程规划成认知图,并对其中的因素进行显式推理。像人类一样绘制图表。诸如 InversePrompting (Zou et al., 2021) 等在控制与主题相关的文本生成方面表现出卓越能力的方法将提供一些思考。
Interactions of Knowledge. 尽管我们的 PTM 变得越来越大、越来越通用,但它从预训练中学到的知识在很大程度上是未经探索的。此外,由于我们的大脑正在与不同功能区的协作工作,因此了解我们的 PTM 是否形成了不同的内部功能模块以及它们如何相互作用是很重要的。
8.7 应用
PTM 已成功应用于各种领域和任务。在本节中,我们将重点介绍其中一些应用程序。
Natural Language Generation. 许多自然语言生成任务都由 PTM 主导,例如 GPT-2、BART、T5、UniLM 等等。这些任务包括机器翻译、摘要、对话生成、故事生成、诗歌生成和其他长文本生成。由于 PTM 的流行趋势,主干模型已经从 CNN/RNN 转移到transformers或transformer-based PTM。 PTM 也已成功应用于多模式生成。这些模型在文本图像(text-image)并行数据上进行了训练,在视觉问答、图像到文本生成和文本到图像生成等应用中表现出色。由于大规模的 PTM 已经在如此大规模的数据上进行了训练,它们在自然语言生成方面具有先天优势,特别是资源不足的自然语言生成。
Dialog Systems. 许多最近的开放域对话系统都是建立在大型transformer结构上的。这些例子包括 Meena (Adiwardana et al., 2020)、Blender (Roller et al., 2021)、CDial-GPT (Wang et al., 2020e)、Plato (Bao et al., 2020) 和 Plato-2 (Bao et al., 2021),它们在大规模对话数据上进行训练,通常使用 seq2seq 框架。这些模型显示了提供自然和引人入胜的对话的能力,其中一些已被报道接近人类水平的表现(Adiwardana et al.,2020)。然而,与其他应用程序的预训练任务相比,对话特定的预训练任务还有待探索。
Domain-Specific PTMs. 当大规模的特定领域语料库可以廉价获得时,我们可以在这些数据上训练特定领域的 PTM。一些著名的作品包括 BioBERT (Lee et al., 2020) 和 SciBERT (Beltagy et al., 2019),它们分别接受了生物和科学文献文本的训练。与在一般文本上训练的模型相比,这些模型预计并经过验证可以学习更多特定领域的知识和语言使用。这种领域专业知识通常被认为对于解决许多特定领域的问题很重要。
Domain Adaptation and Task Adaptation. 大规模 PTM 从大规模通用文本中学习通用知识,为通过微调或其他技术进一步学习特定领域的知识提供了良好的起点。尽管 PTM 变得越来越大,但特定领域的数据总是有限的。因此,域适应对于特定域的应用程序变得至关重要。很明显,大规模 PTM 的简单微调对于特定领域的应用来说是不够的(Gururangan et al., 2020; Ke et al., 2020)。最根本的原因是分布偏移(distribution shift):特定域中的数据分布(data distribution)可能与一般预训练文本中的数据分布有很大不同。特定领域应用程序成功的另一个重要问题是任务适配(task adaptation)。大多数情况下,领域应用程序有一小部分标记数据,这可以使监督学习更有效地学习领域专业知识。然而,对于超大型 PTM,简单地对标记数据进行微调似乎在计算上效率低下,在性能上也无效。因此,如何弥合预训练和特定任务微调之间的差距变得至关重要。此外,高效且有效的特定任务微调也是 PTM 未来应用的重要研究方向(Soares et al., 2019; Ding et al., 2021b)。
9 结论
在本文中,我们回顾了预训练的历史,指出了 PTMs 的核心问题,同时揭示了 PTMs 在 AI 发展光谱中的关键地位。此外,我们全面回顾了为更好的 PTM 所做的最新努力,包括设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。所有这些工作都促成了最近一波开发 PTM 的浪潮。尽管现有的 PTMs 已经取得了可喜的成果,尤其是那些在zero/few-shot 学习场景中表现出惊人能力的大规模 PTMs,但接下来如何开发 PTMs 仍然是一个悬而未决的问题。 PTMs中存储的知识被表示为实值向量,这与人类形式化的离散符号知识有很大不同。我们将这种连续且机器友好的知识命名为“模型边缘(modeledge)”,并相信它有望以更有效和高效的方式捕获模型边缘,并为特定任务激发模型边缘。我们希望我们的观点能够激发该领域的更多努力,推动 PTM 的发展。
注意和贡献
This paper originates from a 3-day closed-door workshop initiated by Jie Tang, Ji-Rong Wen and Minlie Huang held in Beijing WTown from January 1 to January 3, 2021, supported by China Computer Federation (CCF). All authors of this paper organized or participated in this workshop, and this paper can be regarded as a summary and extension of the discussion in the workshop.
The contributions of all authors are listed as follows: Zhiyuan Liu and Xu Han designed the structure of this paper; Xu Han drafted the abstract, Section 1, Section 2; Ning Ding and Xu Han drafted Section 3; Xiao Liu and Jiezhong Qiu drafted Section 4; Yuqi Huo, Yuan Yao, Ao Zhang and Liang Zhang drafted Section 5; Yuxian Gu drafted Section 6; Zhengyan Zhang drafted Section 7. All faculty authors drafted various topics in Section 8, including Xipeng Qiu for Section 8.1, Ji-Rong Wen, Ruihua Song and Yang Liu for Section 8.2, Jinhui Yuan and Wentao Han for Section 8.3, Jun Zhu and Yanyan Lan for Section 8.4, Yang Liu for Section 8.5, Jie Tang and Zhiyuan Liu for Section 8.6, Minlie Huang and Jie Tang for Section 8.7. Wayne Xin Zhao, Xipeng Qiu provided comments to the manuscript, and Xu Han, Ning Ding and Zhengyan Zhang proofread the whole paper.
参考
2021 . Insightface project. https://github.com/ deepinsight/insightface.
2021 . MindSpore Deep Learning Framework. https: //github.com/mindspore-ai/mindspore.
2021 . OneFlow Deep Learning Framework. https: //github.com/Oneflow-Inc/oneflow.
Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, Manjunath Kudlur, Josh Levenberg, Rajat Monga, Sherry Moore, Derek G. Murray, Benoit Steiner, Paul Tucker, Vijay Vasudevan, Pete Warden, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng. 2016. Tensorflow: A system for large-scale machine learning.In Proceedings of OSDI, pages 265–283.
Yossi Adi, Einat Kermany, Yonatan Belinkov, Ofer Lavi, and Yoav Goldberg. 2017. Fine-grained analysis of sentence embeddings using auxiliary prediction tasks. In Proceedings of ICLR.
Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al. 2020. Towards a human-like open-domain chatbot. arXiv preprint arXiv:2001.09977.
Joshua Ainslie, Santiago Ontanon, Chris Alberti, Philip Pham, Anirudh Ravula, and Sumit Sanghai. 2020.ETC: Encoding long and structured inputs in transformers. In Proceedings of EMNLP, pages 268–284.
Chris Alberti, Jeffrey Ling, Michael Collins, and David Reitter. 2019. Fusion of detected objects in text for visual question answering. In Proceedings of EMNLP-IJCNLP, pages 2131–2140.
Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. 2015. Vqa: Visual question answering. In Proceedings of ICCV, pages 2425– 2433.
Martin Arjovsky, Soumith Chintala, and Léon Bottou.2017. Wasserstein generative adversarial networks.In Proceedings of ICML, pages 214–223.
Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. 2016. Layer normalization. In Proceedings of NeurIPS.
Joris Baan, Maartje ter Hoeve, Marlies van der Wees, Anne Schuth, and Maarten de Rijke. 2019. Understanding multi-head attention in abstractive summarization. arXiv preprint arXiv:1911.03898.
Alan Baddeley. 1992. Working memory. Science, 255(5044):556–559.
Siqi Bao, Huang He, Fan Wang, Hua Wu, and Haifeng Wang. 2020. PLATO: Pre-trained dialogue generation model with discrete latent variable. In Proceedings of ACL.
Siqi Bao, Huang He, Fan Wang, Hua Wu, Haifeng Wang, Wenquan Wu, Zhen Guo, Zhibin Liu, and Xinchao Xu. 2021. Plato-2: Towards building an open-domain chatbot via curriculum learning. In Proceedings of ACL.
Pierre Barrouillet, Sophie Bernardin, and Valérie Camos. 2004. Time constraints and resource sharing in adults’ working memory spans. Journal of Experimental Psychology: General, 133(1):83–100.
Mikhail Belkin, Daniel Hsu, Siyuan Ma, and Soumik Mandal. 2019. Reconciling modern machinelearning practice and the classical bias–variance trade-off. PNAS, 116(32):15849–15854.
Iz Beltagy, Kyle Lo, and Arman Cohan. 2019. Scibert: A pretrained language model for scientific text. In Proceedings of EMNLP-IJCNLP, pages 3615–3620.
Iz Beltagy, Matthew E Peters, and Arman Cohan.2020. Longformer: The long-document transformer.arXiv preprint arXiv:2004.05150.
Tal Ben-Nun and Torsten Hoefler. 2019. Demystifying parallel and distributed deep learning: An indepth concurrency analysis. ACM Computing Surveys (CSUR), 52(4):1–43.
Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Janvin. 2003. A neural probabilistic language model. JMLR, 3:1137–1155.
Yoshua Bengio, Patrice Simard, and Paolo Frasconi.1994. Learning long-term dependencies with gradient descent is difficult. IEEE TNNLS, 5(2):157–166.
Bin Bi, Chenliang Li, Chen Wu, Ming Yan, and Wei Wang. 2020. Palm: Pre-training an autoencoding&autoregressive language model for contextconditioned generation. In Proceedings of EMNLP, pages 8681–8691.
Ondˇrej Bojar, Christian Buck, Christian Federmann, Barry Haddow, Philipp Koehn, Johannes Leveling, Christof Monz, Pavel Pecina, Matt Post, Herve Saint-Amand, et al. 2014. Findings of the 2014 workshop on statistical machine translation. In Proceedings of WMT, pages 12–58.
Antoine Bosselut, Hannah Rashkin, Maarten Sap, Chaitanya Malaviya, Asli Celikyilmaz, and Yejin Choi.2019. Comet: Commonsense transformers for automatic knowledge graph construction. In Proceedings of ACL, pages 4762–4779.
Zied Bouraoui, José Camacho-Collados, and Steven Schockaert. 2020. Inducing relational knowledge from BERT. In Proceedings of AAAI, pages 7456– 7463.
John Brown. 1958. Some tests of the decay theory of immediate memory. Quarterly journal of experimental psychology, 10(1):12–21.
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei.2020. Language models are few-shot learners. In Proceedings of NeurIPS, pages 1877–1901.
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. 2020. End-to-end object detection with transformers. In Proceedings of ECCV, pages 213– 229.
Gang Chen, Maosong Sun, and Yang Liu. 2020a. Towards a universal continuous knowledge base. arXiv preprint arXiv:2012.13568.
Liang Chen, Tianyuan Zhang, Di He, Guolin Ke, Liwei Wang, and Tie-Yan Liu. 2020b. Variance-reduced language pretraining via a mask proposal network.arXiv preprint arXiv:2008.05333.
Liqun Chen, Zhe Gan, Yu Cheng, Linjie Li, Lawrence Carin, and Jingjing Liu. 2020c. Graph optimal transport for cross-domain alignment. In Proceedings of ICML, pages 1542–1553. PMLR.
Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 2020d. A simple framework for contrastive learning of visual representations. In Proceedings of ICML, pages 1597–1607.
Wenhu Chen, Yu Su, Xifeng Yan, and William Yang Wang. 2020e. Kgpt: Knowledge-grounded pretraining for data-to-text generation. In Proceedings of EMNLP, pages 8635–8648.
Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, and C Lawrence Zitnick. 2015. Microsoft coco captions: Data collection and evaluation server. arXiv preprint arXiv:1504.00325.
Xinlei Chen and Kaiming He. 2020. Exploring simple siamese representation learning. arXiv preprint arXiv:2011.10566.
Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. 2020f. Uniter: Universal image-text representation learning. In Proceedings of ECCV, pages 104–120.
Zewen Chi, Li Dong, Furu Wei, Wenhui Wang, XianLing Mao, and Heyan Huang. 2020a. Cross-lingual natural language generation via pre-training. In Proceedings of AAAI, pages 7570–7577.
Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, XianLing Mao, Heyan Huang, and Ming Zhou. 2020b.Infoxlm: An information-theoretic framework for cross-lingual language model pre-training. arXiv preprint arXiv:2007.07834.
Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. 2019. Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509.
Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, et al. 2021. Rethinking attention with performers. In Proceedings of ICLR.
Yung-Sung Chuang, Chi-Liang Liu, Hung-Yi Lee, and Lin-shan Lee. 2019. Speechbert: An audioand-text jointly learned language model for endto-end spoken question answering. arXiv preprint arXiv:1910.11559.
Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher D Manning. 2019. What does bert look at? an analysis of bert’s attention. In Proceedings of BlackboxNLP, pages 276–286.
Kevin Clark, Minh-Thang Luong, Quoc V Le, and Christopher D Manning. 2020. Electra: Pre-training text encoders as discriminators rather than generators. In Proceedings of ICLR.
Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of ICML, pages 160–167.
Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Édouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. 2020. Unsupervised cross-lingual representation learning at scale. In Proceedings of ACL, pages 8440–8451.
Alexis Conneau, Germán Kruszewski, Guillaume Lample, Loïc Barrault, and Marco Baroni. 2018a. What you can cram into a single $&!#* vector: Probing sentence embeddings for linguistic properties. In Proceedings of ACL, pages 2126–2136.
Alexis Conneau, Ruty Rinott, Guillaume Lample, Adina Williams, Samuel Bowman, Holger Schwenk, and Veselin Stoyanov. 2018b. Xnli: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP, pages 2475–2485.
Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele.2016. The cityscapes dataset for semantic urban scene understanding. In Proceedings of CVPR, pages 3213–3223.
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. 2019.Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101.
Jeff Da and Jungo Kasai. 2019. Cracking the contextual commonsense code: Understanding commonsense reasoning aptitude of deep contextual representations. In Proceedings of EMNLP Workshop.
Wenyuan Dai, Gui-Rong Xue, Qiang Yang, and Yong Yu. 2007. Co-clustering based classification for out-of-domain documents. In Proceedings of KDD, pages 210–219.
Wenyuan Dai, Qiang Yang, Gui-Rong Xue, and Yong Yu. 2008. Self-taught clustering. In Proceedings of ICML, pages 200–207.
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V Le, and Ruslan Salakhutdinov. 2019.Transformer-xl: Attentive language models beyond a fixed-length context. In Proceedings of ACL, pages 2978–2988.
Hal Daume III and Daniel Marcu. 2006. Domain adaptation for statistical classifiers. JAIR, 26:101–126.
Joe Davison, Joshua Feldman, and Alexand er M. Rush.2019. Commonsense knowledge mining from pretrained models. In Proceedings of EMNLP-IJCNLP, pages 1173–1178.
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A large-scale hierarchical image database. In Proceedings of CVPR, pages 248–255.
Armen Der Kiureghian and Ove Ditlevsen. 2009.Aleatory or epistemic? does it matter? Structural safety, 31(2):105–112.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT, pages 4171–4186.
Bhuwan Dhingra, Manzil Zaheer, Vidhisha Balachandran, Graham Neubig, Ruslan Salakhutdinov, and William W Cohen. 2020. Differentiable reasoning over a virtual knowledge base. In Proceedings of ICLR.
Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, et al. 2021a. Cogview: Mastering text-to-image generation via transformers. arXiv preprint arXiv:2105.13290.
Ming Ding, Chang Zhou, Qibin Chen, Hongxia Yang, and Jie Tang. 2019. Cognitive graph for multi-hop reading comprehension at scale. In Proceedings of ACL, pages 2694–2703.
Ming Ding, Chang Zhou, Hongxia Yang, and Jie Tang.2020. Cogltx: Applying bert to long texts. In Proceedings of NeurIPS, volume 33, pages 12792– 12804.
Ning Ding, Xiaobin Wang, Yao Fu, Guangwei Xu, Rui Wang, Pengjun Xie, Ying Shen, Fei Huang, Hai-Tao Zheng, and Rui Zhang. 2021b. Prototypical representation learning for relation extraction. In Proceedings of ICLR.
Jeffrey Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell. 2015. Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of CVPR, pages 2625–2634.
Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, and Hsiao-Wuen Hon. 2019. Unified language model pre-training for natural language understanding and generation. In Proceedings of NeurIPS.
Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, and Jie Tang. 2021. All nlp tasks are generation tasks: A general pretraining framework. arXiv preprint arXiv:2103.10360.
Dumitru Erhan, Aaron Courville, Yoshua Bengio, and Pascal Vincent. 2010. Why does unsupervised pretraining help deep learning? In Proceedings of AISTATS, pages 201–208.
Kawin Ethayarajh. 2019. How contextual are contextualized word representations? comparing the geometry of bert, elmo, and gpt-2 embeddings. In Proceedings of EMNLP-IJCNLP, pages 55–65.
Allyson Ettinger. 2020. What BERT is not: Lessons from a new suite of psycholinguistic diagnostics for language models. TACL, 8:34–48.
Allyson Ettinger, Ahmed Elgohary, and Philip Resnik.2016. Probing for semantic evidence of composition by means of simple classification tasks. In Proceedings of RepEval, pages 134–139.
An Evgeniou and Massimiliano Pontil. 2007. Multitask feature learning. In Proceedings of NeurIPS.
Theodoros Evgeniou and Massimiliano Pontil. 2004.Regularized multi–task learning. In Proceedings of KDD, pages 109–117.
Angela Fan, Edouard Grave, and Armand Joulin. 2019.Reducing transformer depth on demand with structured dropout. In Proceedings of ICLR.
William Fedus, Barret Zoph, and Noam Shazeer. 2021.Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. arXiv preprint arXiv:2101.03961.
Thibault Févry, Livio Baldini Soares, Nicholas FitzGerald, Eunsol Choi, and Tom Kwiatkowski. 2020. Entities as experts: Sparse memory access with entity supervision. In Proceedings of EMNLP, pages 4937–4951.
Maxwell Forbes, Ari Holtzman, and Yejin Choi. 2019.Do neural language representations learn physical commonsense? In Proceedings of CogSci, pages 1753–1759.
Haoyuan Gao, Junhua Mao, Jie Zhou, Zhiheng Huang, Lei Wang, and Wei Xu. 2015. Are you talking to a machine? dataset and methods for multilingual image question answering. In Proceedings of NeurIPS, pages 2296–2304.
Jing Gao, Wei Fan, Jing Jiang, and Jiawei Han. 2008.Knowledge transfer via multiple model local structure mapping. In Proceedings of KDD, pages 283– 291.
Tianyu Gao, Adam Fisch, and Danqi Chen. 2021.Making pre-trained language models better few-shot learners. In Proceedings of ACL.
Spyros Gidaris and Nikos Komodakis. 2015. Object detection via a multi-region and semantic segmentation-aware cnn model. In Proceedings of ICCV, pages 1134–1142.
Goran Glavaš and Ivan Vulic. 2021. Is supervised syn- ´ tactic parsing beneficial for language understanding tasks? an empirical investigation. In Proceedings of EACL, pages 3090–3104.
Yoav Goldberg. 2019. Assessing bert’s syntactic abilities. arXiv preprint arXiv:1901.05287.
Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, and Tieyan Liu. 2019. Efficient training of BERT by progressively stacking. In Proceedings of ICML, pages 2337–2346.
Mitchell A. Gordon, Kevin Duh, and Nicholas Andrews. 2020. Compressing BERT: studying the effects of weight pruning on transfer learning. In Proceedings of RepL4NLP, pages 143–155.
Priya Goyal, Piotr Dollár, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, and Kaiming He. 2017. Accurate, large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677.
Yuxian Gu, Zhengyan Zhang, Xiaozhi Wang, Zhiyuan Liu, and Maosong Sun. 2020. Train no evil: Selective masking for task-guided pre-training. In Proceedings of EMNLP, pages 6966–6974.
Jian Guan, Fei Huang, Zhihao Zhao, Xiaoyan Zhu, and Minlie Huang. 2020. A knowledge-enhanced pretraining model for commonsense story generation.TACL, 8:93–108.
Qipeng Guo, Xipeng Qiu, Pengfei Liu, Yunfan Shao, Xiangyang Xue, and Zheng Zhang. 2019. Startransformer. In Proceedings of HLT-NAACL, pages 1315–1325.
Suyog Gupta, Ankur Agrawal, Kailash Gopalakrishnan, and Pritish Narayanan. 2015. Deep learning with limited numerical precision. In Proceedings of ICML, pages 1737–1746.
Suchin Gururangan, Ana Marasovic, Swabha ´ Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A. Smith. 2020. Don’t stop pretraining: Adapt language models to domains and tasks. In Proceedings of ACL.
Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Ming-Wei Chang. 2020. Realm: Retrievalaugmented language model pre-training. arXiv preprint arXiv:2002.08909.
Xu Han, Weilin Zhao, Ning Ding, Zhiyuan Liu, and Maosong Sun. 2021. Ptr: Prompt tuning with rules for text classification. arXiv preprint arXiv:2105.11259.
Sayed Hadi Hashemi, Sangeetha Abdu Jyothi, and Roy H Campbell. 2019. Tictac: Accelerating distributed deep learning with communication scheduling. In Proceedings of MLSys.
Jiaao He, Jiezhong Qiu, Aohan Zeng, Zhilin Yang, Jidong Zhai, and Jie Tang. 2021. Fastmoe: A fast mixture-of-expert training system. arXiv preprint arXiv:2103.13262.
Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. 2020. Momentum contrast for unsupervised visual representation learning. In Proceedings of CVPR, pages 9729–9738.
Kaiming He, Ross Girshick, and Piotr Dollár. 2019.Rethinking imagenet pre-training. In Proceedings of ICCV, pages 4918–4927.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of CVPR, pages 770–778.
Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. 2017. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30.
John Hewitt and Christopher D. Manning. 2019. A structural probe for finding syntax in word representations. In Proceedings of NAACL-HLT, pages 4129–4138.
Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. 2014.Distilling the knowledge in a neural network. In Proceedings of NeurIPS.
Geoffrey E Hinton, Simon Osindero, and Yee-Whye Teh. 2006. A fast learning algorithm for deep belief nets. Neural Computation, 18(7):1527–1554.
Jeremy Howard and Sebastian Ruder. 2018. Universal language model fine-tuning for text classification. In Proceedings of ACL, pages 328–339.
Phu Mon Htut, Jason Phang, Shikha Bordia, and Samuel R Bowman. 2019. Do attention heads in bert track syntactic dependencies? arXiv preprint arXiv:1911.12246.
Shengding Hu, Ning Ding, Huadong Wang, Zhiyuan Liu, Juanzi Li, and Maosong Sun. 2021. Knowledgeable prompt-tuning: Incorporating knowledge into prompt verbalizer for text classification. arXiv preprint arXiv:2108.02035.
Chien-Chin Huang, Gu Jin, and Jinyang Li. 2020a.Swapadvisor: Pushing deep learning beyond the gpu memory limit via smart swapping. In Proceedings of ASPLOS, page 1341–1355.
Haoyang Huang, Yaobo Liang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, and Ming Zhou. 2019a.Unicoder: A universal language encoder by pretraining with multiple cross-lingual tasks. In Proceedings of EMNLP-IJCNLP, pages 2485–2494.
Haoyang Huang, Lin Su, Di Qi, Nan Duan, Edward Cui, Taroon Bharti, Lei Zhang, Lijuan Wang, Jianfeng Gao, Bei Liu, et al. 2020b. M3p: Learning universal representations via multitask multilingual multimodal pre-training. arXiv preprint arXiv:2006.02635.
Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Mia Xu Chen, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V Le, Yonghui Wu, et al. 2019b.Gpipe: Efficient training of giant neural networks using pipeline parallelism. In Proceedings of NeurIPS, pages 103–112.
Drew A Hudson and Christopher D Manning. 2019.Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of CVPR, pages 6700–6709.
Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, et al. 2021.Wenlan: Bridging vision and language by largescale multi-modal pre-training. arXiv preprint arXiv:2103.06561.
Sergey Ioffe and Christian Szegedy. 2015. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In Proceedings of ICML, pages 448–456.
Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991. Adaptive mixtures of local experts. Neural Computation, 3:79–87.
Max Jaderberg, Karen Simonyan, Andrew Zisserman, and Koray Kavukcuoglu. 2015. Spatial transformer networks. In Proceedings of NeurIPS, pages 2017– 2025.
Ganesh Jawahar, Benoît Sagot, and Djamé Seddah.2019a. What does BERT learn about the structure of language? In Proceedings of ACL, pages 3651– 3657.
Ganesh Jawahar, Benoît Sagot, and Djamé Seddah.2019b. What does bert learn about the structure of language? In Proceedings of ACL, pages 3651– 3657.
Zhihao Jia, Matei Zaharia, and Alex Aiken. 2019. Beyond data and model parallelism for deep neural networks. In Proceedings of MLSys.
Yimin Jiang, Yibo Zhu, Chang Lan, Bairen Yi, Yong Cui, and Chuanxiong Guo. 2020a. A unified architecture for accelerating distributed DNN training in heterogeneous gpu/cpu clusters. In Proceedings of OSDI, pages 463–479.
Zhengbao Jiang, Frank F. Xu, Jun Araki, and Graham Neubig. 2020b. How can we know what language models know. TACL, 8:423–438.
Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu.2019. Tinybert: Distilling bert for natural language understanding. In Proceedings of EMNLP, pages 4163–4174.
Di Jin, Zhijing Jin, Joey Tianyi Zhou, and Peter Szolovits. 2020. Is bert really robust? a strong baseline for natural language attack on text classification and entailment. In Proceedings of AAAI, pages 8018–8025.
Justin Johnson, Andrej Karpathy, and Li Fei-Fei.2016. Densecap: Fully convolutional localization networks for dense captioning. In Proceedings of CVPR, pages 4565–4574.
Rie Johnson and Tong Zhang. 2005. A highperformance semi-supervised learning method for text chunking. In Proceedings of ACL, pages 1–9.
Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S Weld, Luke Zettlemoyer, and Omer Levy. 2020. Spanbert: Improving pre-training by representing and predicting spans. TACL, 8:64–77.
Nal Kalchbrenner, Edward Grefenstette, and Phil Blunsom. 2014. A convolutional neural network for modelling sentences. In Proceedings of ACL, pages 655– 665.
Wei-Tsung Kao, Tsung-Han Wu, Po-Han Chi, ChunCheng Hsieh, and Hung-Yi Lee. 2020. Further boosting bert-based models by duplicating existing layers: Some intriguing phenomena inside bert.arXiv preprint arXiv:2001.09309.
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, and François Fleuret. 2020. Transformers are rnns: Fast autoregressive transformers with linear attention. In Proceedings of ICML, pages 5156–5165.
Pei Ke, Haozhe Ji, Siyang Liu, Xiaoyan Zhu, and Minlie Huang. 2020. Sentilare: Linguistic knowledge enhanced language representation for sentiment analysis. In Proceedings of EMNLP, pages 6975–6988.
Taeuk Kim, Jihun Choi, Daniel Edmiston, and Sanggoo Lee. 2020. Are pre-trained language models aware of phrases? simple but strong baselines for grammar induction. In Proceedings of ICLR.
Yoon Kim. 2014. Convolutional neural networks for sentence classification. In Proceedings of EMNLP, pages 1746–1751.
Thomas N Kipf and Max Welling. 2016. Semisupervised classification with graph convolutional networks. In Proceedings of ICLR.
Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya.2020. Reformer: The efficient transformer. In Proceedings of ICLR.
Arne Köhn. 2015. What’s in an embedding? analyzing word embeddings through multilingual evaluation. In Proceedings of EMNLP, pages 2067–2073.
Lingpeng Kong, Cyprien de Masson d’Autume, Lei Yu, Wang Ling, Zihang Dai, and Dani Yogatama. 2020.A mutual information maximization perspective of language representation learning. In Proceedings of ICLR.
Olga Kovaleva, Alexey Romanov, Anna Rogers, and Anna Rumshisky. 2019. Revealing the dark secrets of BERT. In Proceedings of EMNLP-IJCNLP, pages 4364–4373.
Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A Shamma, et al.2017. Visual genome: Connecting language and vision using crowdsourced dense image annotations.IJCV, 123:32–73.
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 2012. ImageNet classification with deep convolutional neural networks. In Proceedings of NeurIPS, pages 1097–1105.
Guillaume Lample and Alexis Conneau. 2019. Crosslingual language model pretraining. Proceedings of NeurIPS.
Guillaume Lample, Alexandre Sablayrolles, Marc’Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou. 2019. Large memory layers with product keys. In Proceedings of NeurIPS, pages 8546–8557.
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut.2019. Albert: A lite bert for self-supervised learning of language representations. In Proceedings of ICLR.
Neil D Lawrence and John C Platt. 2004. Learning to learn with the informative vector machine. In Proceedings of ICML.
Yann A LeCun, Léon Bottou, Genevieve B Orr, and Klaus-Robert Müller. 2012. Efficient backprop. In Neural networks: Tricks of the trade, pages 9–48.Springer.
Chen-Yu Lee, Saining Xie, Patrick Gallagher, Zhengyou Zhang, and Zhuowen Tu. 2015. Deeplysupervised nets. In Proceedings of AISTATS, pages 562–570.
Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. 2020. Biobert: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4):1234–1240.
Juho Lee, Yoonho Lee, Jungtaek Kim, Adam Kosiorek, Seungjin Choi, and Yee Whye Teh. 2019.Set transformer: A framework for attention-based permutation-invariant neural networks. In Proceedings of ICML, pages 3744–3753.
Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, and Zhifeng Chen. 2021.Gshard: Scaling giant models with conditional computation and automatic sharding. In Proceedings of ICLR.
Brian Lester, Rami Al-Rfou, and Noah Constant. 2021.The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691.
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer.2020a. BART: Denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension. In Proceedings of ACL, pages 7871–7880.
Patrick Lewis, Ethan Perez, Aleksandara Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. 2020b. Retrieval-augmented generation for knowledge-intensive nlp tasks. In Proceedings of NeurIPS, pages 9459–9474.
Gen Li, Nan Duan, Yuejian Fang, Ming Gong, and Daxin Jiang. 2020a. Unicoder-vl: A universal encoder for vision and language by cross-modal pretraining. In Proceedings of AAAI, pages 11336– 11344.
Linyang Li, Ruotian Ma, Qipeng Guo, Xiangyang Xue, and Xipeng Qiu. 2020b. BERT-ATTACK: Adversarial attack against bert using bert. In Proceedings of EMNLP, pages 6193–6202.
Linyang Li and Xipeng Qiu. 2021. Token-aware virtual adversarial training in natural language understanding. In Proceedings of AAAI, pages 8410–8418.
Linyang Li, Yunfan Shao, Demin Song, Xipeng Qiu, and Xuanjing Huang. 2020c. Generating adversarial examples in chinese texts using sentence-pieces.arXiv preprint arXiv:2012.14769.
Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. 2019. VisualBERT: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557.
Shen Li, Yanli Zhao, Rohan Varma, Omkar Salpekar, Pieter Noordhuis, Teng Li, Adam Paszke, Jeff Smith, Brian Vaughan, Pritam Damania, and Soumith Chintala. 2020d. Pytorch distributed: Experiences on accelerating data parallel training. In Proceedings of PVLDB, page 3005–3018.
Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al. 2020e. Oscar: Objectsemantics aligned pre-training for vision-language tasks. In Proceedings of ECCV, pages 121–137.
Zhuohan Li, Siyuan Zhuang, Shiyuan Guo, Danyang Zhuo, Hao Zhang, Dawn Song, and Ion Stoica. 2021.Terapipe: Token-level pipeline parallelism for training large-scale language models. arXiv preprint arXiv:2102.07988.
Tianyang Lin, Yuxin Wang, Xiangyang Liu, and Xipeng Qiu. 2021. A survey of transformers. arXiv preprint arXiv:2106.04554.
Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. 2014. Microsoft coco: Common objects in context. In Proceedings of ECCV, pages 740–755.
Yongjie Lin, Yi Chern Tan, and Robert Frank. 2019.Open sesame: Getting inside bert’s linguistic knowledge. In Proceedings of BlackboxNLP, pages 241– 253.
Nelson F. Liu, Matt Gardner, Yonatan Belinkov, Matthew E. Peters, and Noah A. Smith. 2019. Linguistic knowledge and transferability of contextual representations. In Proceedings of NAACL-HLT, pages 1073–1094.
Pengfei Liu, Xipeng Qiu, and Xuanjing Huang. 2016.Recurrent neural network for text classification with multi-task learning. In Proceedings of IJCAI, pages 2873–2879.
Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, and Ping Wang. 2020a. K-bert: Enabling language representation with knowledge graph. In Proceedings of AAAI, pages 2901–2908.
Xiao Liu, Da Yin, Xingjian Zhang, Kai Su, Kan Wu, Hongxia Yang, and Jie Tang. 2021a. Oag-bert: Pretrain heterogeneous entity-augmented academic language model. arXiv preprint arXiv:2103.02410.
Xiao Liu, Fanjin Zhang, Zhenyu Hou, Zhaoyu Wang, Li Mian, Jing Zhang, and Jie Tang. 2020b. Selfsupervised learning: Generative or contrastive.arXiv preprint arXiv:2006.08218.
Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, and Jie Tang. 2021b. Gpt understands, too. arXiv preprint arXiv:2103.10385.
Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020c. Multilingual Denoising Pre-training for Neural Machine Translation. TACL, 8:726–742.
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2020d.Roberta: A robustly optimized bert pretraining approach. In Proceedings of ICLR.
Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo.2021c. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030.
Jonathan Long, Evan Shelhamer, and Trevor Darrell.2015. Fully convolutional networks for semantic segmentation. In Proceedings of CVPR, pages 3431–3440.
Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. 2019. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In Proceedings of NeurIPS Reproducibility Challenge.
Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, and Stefan Lee. 2020. 12-in-1: Multi-task vision and language representation learning. In Proceedings of CVPR, pages 10437–10446.
Christopher D Manning, Kevin Clark, John Hewitt, Urvashi Khandelwal, and Omer Levy. 2020. Emergent linguistic structure in artificial neural networks trained by self-supervision. PNAS, 117(48):30046– 30054.
Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. 2017. Learned in translation: Contextualized word vectors. In Proceedings of NeurIPS, pages 6294–6305.
Oren Melamud, Jacob Goldberger, and Ido Dagan.2016. context2vec: Learning generic context embedding with bidirectional lstm. In Proceedings of CoNLL, pages 51–61.
Alessio Miaschi and Felice Dell’Orletta. 2020. Contextual and non-contextual word embeddings: an in-depth linguistic investigation. In Proceedings of RepL4NLP, pages 110–119.
Paul Michel, Omer Levy, and Graham Neubig. 2019.Are sixteen heads really better than one? In Proceedings of NeurIPS, pages 14014–14024.
Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, et al. 2018. Mixed precision training. In Proceedings of ICLR.
Lilyana Mihalkova, Tuyen Huynh, and Raymond J Mooney. 2007. Mapping and revising markov logic networks for transfer learning. In Proceedings of AAAI, pages 608–614.
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013a. Efficient estimation of word representations in vector space. In Proceedings of ICLR Workshop.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013b. Distributed representations of words and phrases and their compositionality. In Proceedings of NeurIPS.
Tomáš Mikolov, Wen-tau Yih, and Geoffrey Zweig.2013c. Linguistic regularities in continuous space word representations. In Proceedings of NAACLHLT, pages 746–751.
Deepak Narayanan, Aaron Harlap, Amar Phanishayee, Vivek Seshadri, Nikhil R. Devanur, Gregory R.Ganger, Phillip B. Gibbons, and Matei Zaharia.2019. Pipedream: Generalized pipeline parallelism for dnn training. In Proceedings of SOSP.
Deepak Narayanan, Mohammad Shoeybi, Jared Casper, Patrick LeGresley, Mostofa Patwary, Vijay Korthikanti, Dmitri Vainbrand, Prethvi Kashinkunti, Julie Bernauer, Bryan Catanzaro, Amar Phanishayee, and Matei Zaharia. 2021. Efficient largescale language model training on gpu clusters. arXiv preprint arXiv:2104.04473.
Yixin Nie, Adina Williams, Emily Dinan, Mohit Bansal, Jason Weston, and Douwe Kiela. 2020. Adversarial nli: A new benchmark for natural language understanding. In Proceedings of ACL, pages 4885– 4901.
Timothy Niven and Hung-Yu Kao. 2019. Probing neural network comprehension of natural language arguments. In Proceedings of ACL, pages 4658–4664.
Even Oldridge, J. Perez, Ben Frederickson, Nicolas Koumchatzky, M. Lee, Z.-H. Wang, Lei Wu, F. Yu, Rick Zamora, O. Yılmaz, Alec M. Gunny, Vinh Phu Nguyen, and S. Lee. 2020. Merlin: A gpu accelerated recommendation framework. In Proceedings of IRS.
Vicente Ordonez, Girish Kulkarni, and Tamara Berg.2011. Im2text: Describing images using 1 million captioned photographs. Advances in neural information processing systems, 24:1143–1151.
Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. 2020.ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora. arXiv preprint arXiv:2012.15674.
Sinno Jialin Pan and Qiang Yang. 2009. A survey on transfer learning. IEEE TKDE, 22(10):1345–1359.
Tianyu Pang, Kun Xu, Yinpeng Dong, Chao Du, Ning Chen, and Jun Zhu. 2020. Rethinking softmax crossentropy loss for adversarial robustness. In Proceedings of ICLR.
Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. 2019. Pytorch: An imperative style, high-performance deep learning library. In Proceedings of NeurIPS.
Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A Smith, and Lingpeng Kong. 2021.Random feature attention. In Proceedings of ICLR.
Yanghua Peng, Yibo Zhu, Yangrui Chen, Yixin Bao, Bairen Yi, Chang Lan, Chuan Wu, and Chuanxiong Guo. 2019. A generic communication scheduler for distributed dnn training acceleration. In Proceedings of SOSP, pages 16–29.
Jeffrey Pennington, Richard Socher, and Christopher D Manning. 2014. Glove: Global vectors for word representation. In Proceedings of EMNLP, pages 1532– 1543.
Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations. In Proceedings of NAACL-HLT, pages 2227–2237.
Matthew E Peters, Mark Neumann, Robert L Logan IV, Roy Schwartz, Vidur Joshi, Sameer Singh, and Noah A Smith. 2019. Knowledge enhanced contextual word representations. In Proceedings of EMNLP-IJCNLP, pages 43–54.
Fabio Petroni, Tim Rocktäschel, Sebastian Riedel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, and Alexander Miller. 2019. Language models as knowledge bases? In Proceedings of EMNLP-IJCNLP, pages 2463–2473.
Telmo Pires, Eva Schlinger, and Dan Garrette. 2019.How multilingual is multilingual BERT? In Proceedings of ACL, pages 4996–5001.
Bryan A Plummer, Liwei Wang, Chris M Cervantes, Juan C Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. 2015. Flickr30k entities: Collecting region-to-phrase correspondences for richer imageto-sentence models. In Proceedings of ICCV, pages 2641–2649.
Antonio Polino, Razvan Pascanu, and Dan Alistarh.2018. Model compression via distillation and quantization. In Proceedings of ICLR.
Nina Pörner, Ulli Waltinger, and Hinrich Schütze. 2020.E-BERT: efficient-yet-effective entity embeddings for BERT. In Proceedings of EMNLP, pages 803– 818.
Sai Prasanna, Anna Rogers, and Anna Rumshisky.2020. When BERT plays the lottery, all tickets are winning. In Proceedings of EMNLP, pages 3208– 3229.
Di Qi, Lin Su, Jia Song, Edward Cui, Taroon Bharti, and Arun Sacheti. 2020. Imagebert: Crossmodal pre-training with large-scale weak-supervised image-text data. arXiv preprint arXiv:2001.07966.
Yujia Qin, Yankai Lin, Ryuichi Takanobu, Zhiyuan Liu, Peng Li, Heng Ji, Minlie Huang, Maosong Sun, and Jie Zhou. 2021. Erica: Improving entity and relation understanding for pre-trained language models via contrastive learning. In Proceedings of ACL.
Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. 2020. Pre-trained models for natural language processing: A survey.Science China Technological Sciences, 63:1872—- 1897.
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sand hini Agarwal, Girish Sastry, Amand a Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. OpenAI Blog.
Alec Radford and Karthik Narasimhan. 2018. Improving language understanding by generative pretraining. OpenAI Blog.
Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language models are unsupervised multitask learners. OpenAI Blog.
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. JMLR, 21:1–67.
Rajat Raina, Alexis Battle, Honglak Lee, Benjamin Packer, and Andrew Y Ng. 2007. Self-taught learning: transfer learning from unlabeled data. In Proceedings of ICML, pages 759–766.
Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, and Yuxiong He. 2020. Zero: Memory optimizations toward training trillion parameter models. In Proceedings of SC.
Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, and Yuxiong He. 2021. Zero-infinity: Breaking the gpu memory wall for extreme scale deep learning. arXiv preprint arXiv:2104.07857.
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. 2021. Zero-shot text-to-image generation. arXiv preprint arXiv:2102.12092.
Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase, and Yuxiong He. 2020. Deepspeed: System optimizations enable training deep learning models with over 100 billion parameters. In Proceedings of KDD, pages 3505–3506.
Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, and Yuxiong He. 2021. Zerooffload: Democratizing billion-scale model training.arxiv preprint arXiv:2101.06840.
Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. 2016. Faster r-cnn: towards real-time object detection with region proposal networks. IEEE PAMI, 39(6):1137–1149.
Adam Roberts, Colin Raffel, and Noam Shazeer. 2020.How much knowledge can you pack into the parameters of a language model? In Proceedings of EMNLP, pages 5418–5426.
Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Eric Michael Smith, Y-Lan Boureau, and Jason Weston. 2021. Recipes for building an open-domain chatbot. In Proceedings of EACL.
Rudolf Rosa and David Marecek. 2019. Inducing syn- ˇ tactic trees from bert representations. arXiv preprint arXiv:1906.11511.
Corby Rosset, Chenyan Xiong, Minh Phan, Xia Song, Paul Bennett, and Saurabh Tiwary. 2020.Knowledge-aware language model pretraining.arXiv preprint arXiv:2007.00655.
Aurko Roy, Mohammad Saffar, Ashish Vaswani, and David Grangier. 2021. Efficient content-based sparse attention with routing transformers. TACL, 9:53–68.
Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al.2015. Imagenet large scale visual recognition challenge. IJCV, 115(3):211–252.
Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 2019. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. In Proceedings of NeurIPS.
Nikunj Saunshi, Orestis Plevrakis, Sanjeev Arora, Mikhail Khodak, and Hrishikesh Khand eparkar.2019. A theoretical analysis of contrastive unsupervised representation learning. In Proceedings of ICML, pages 5628–5637.
Andrew M Saxe, James L McClelland, and Surya Ganguli. 2013. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. arXiv preprint arXiv:1312.6120.
Timo Schick and Hinrich Schütze. 2020. It’s not just size that matters: Small language models are also few-shot learners. arXiv preprint arXiv:2009.07118.
Marten Van Schijndel, Aaron Mueller, and Tal Linzen.2019. Quantity doesn’t buy quality syntax with neural language models. In Proceedings of EMNLPIJCNLP, pages 5830–5836.
Michael Sejr Schlichtkrull, Thomas N Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, and Max Welling. 2018. Modeling relational data with graph convolutional networks. In Proceedings of ESWC, pages 593–607.
Ludwig Schmidt, Shibani Santurkar, Dimitris Tsipras, Kunal Talwar, and Aleksander Madry. 2018. Adversarially robust generalization requires more data. In Proceedings of NeurIPS.
Pierre Sermanet, David Eigen, Xiang Zhang, Michaël Mathieu, Rob Fergus, and Yann LeCun. 2014. Overfeat: Integrated recognition, localization and detection using convolutional networks. In Proceedings of ICLR.
Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. 2018. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In Proceedings of ACL), pages 2556–2565.
Noam Shazeer, Youlong Cheng, Niki Parmar, Dustin Tran, Ashish Vaswani, Penporn Koanantakool, Peter Hawkins, HyoukJoong Lee, Mingsheng Hong, Cliff Young, et al. 2018. Mesh-tensorflow: Deep learning for supercomputers. In Proceedings of NeurIPS.
Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. 2017. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. In Proceedings of ICLR.
Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W Mahoney, and Kurt Keutzer. 2020a. Q-bert: Hessian based ultra low precision quantization of bert. In Proceedings of AAAI, pages 8815–8821.
Tianxiao Shen, Victor Quach, Regina Barzilay, and Tommi Jaakkola. 2020b. Blank language models. In Proceedings of EMNLP, pages 5186–5198.
Jiaxin Shi, Jianfei. Chen, Jun Zhu, Shengyang Sun, Yucen Luo, Yihong Gu, and Yuhao Zhou. 2017.ZhuSuan: A library for Bayesian deep learning.arXiv preprint arXiv:1709.05870.
Xing Shi, Inkit Padhi, and Kevin Knight. 2016. Does string-based neural MT learn source syntax? In Proceedings of EMNLP, pages 1526–1534.
Hidetoshi Shimodaira. 2000. Improving predictive inference under covariate shift by weighting the loglikelihood function. Journal of statistical planning and inference, 90(2):227–244.
Taylor Shin, Yasaman Razeghi, Robert L Logan IV, Eric Wallace, and Sameer Singh. 2020. Autoprompt: Eliciting knowledge from language models with automatically generated prompts. In Proceedings of EMNLP, pages 4222–4235.
Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. 2019. Megatron-lm: Training multi-billion parameter language models using model parallelism.arXiv preprint arXiv:1909.08053.
Chenglei Si, Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Qun Liu, and Maosong Sun.2020. Better robustness by more coverage: Adversarial training with mixup augmentation for robust fine-tuning. arXiv preprint arXiv:2012.15699.
Karen Simonyan and Andrew Zisserman. 2015. Very deep convolutional networks for large-scale image recognition. In Proceedings of ICLR.
Livio Baldini Soares, Nicholas FitzGerald, Jeffrey Ling, and Tom Kwiatkowski. 2019. Matching the blanks: Distributional similarity for relation learning. In Proceedings of ACL.
Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and TieYan Liu. 2019. Mass: Masked sequence to sequence pre-training for language generation. In Proceedings of ICML, pages 5926–5936.
Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and TieYan Liu. 2020. Mpnet: Masked and permuted pretraining for language understanding. In Proceedings of NeurIPS, pages 16857–16867.
Pierre Stock, Armand Joulin, Rémi Gribonval, Benjamin Graham, and Hervé Jégou. 2020. And the bit goes down: Revisiting the quantization of neural networks. In Proceedings of ICLR.
Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, and Jifeng Dai. 2020. Vl-bert: Pretraining of generic visual-linguistic representations.In Proceedings of ICLR.
Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. 2019a. Videobert: A joint model for video and language representation learning. In Proceedings of ICCV, pages 7464– 7473.
Haitian Sun, Pat Verga, Bhuwan Dhingra, Ruslan Salakhutdinov, and William W Cohen. 2021. Reasoning over virtual knowledge bases with open predicate relations. arXiv preprint arXiv:2102.07043.
Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. 2019b.Patient knowledge distillation for bert model compression. In Proceedings of EMNLP-IJCNLP, pages 4323–4332.
Tianxiang Sun, Yunfan Shao, Xipeng Qiu, Qipeng Guo, Yaru Hu, Xuanjing Huang, and Zheng Zhang.2020. Colake: Contextualized language and knowledge embedding. In Proceedings of COLING, pages 3660–3670.
Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, and Hua Wu. 2019c. Ernie: Enhanced representation through knowledge integration. In Proceedings of ACL, pages 1441–1451.
Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, and Haifeng Wang. 2019d. Ernie 2.0: A continual pre-training framework for language understanding. arXiv preprint arXiv:1907.12412.
Ilya Sutskever, Oriol Vinyals, and Quoc V Le. 2014.Sequence to sequence learning with neural networks.In Proceedings of NeurIPS, pages 3104–3112.
Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich.2015. Going deeper with convolutions. In Proceedings of CVPR, pages 1–9.
Hao Tan and Mohit Bansal. 2019. LXMERT: Learning cross-modality encoder representations from transformers. In Proceedings of EMNLP-IJCNLP, pages 5103–5114.
Yi Tay, Mostafa Dehghani, Dara Bahri, and Donald Metzler. 2020. Efficient transformers: A survey.arXiv preprint arXiv:2009.06732.
Wilson L Taylor. 1953. Cloze procedure: A new tool for measuring readability. Journalism quarterly, 30(4):415–433.
Ian Tenney, Dipanjan Das, and Ellie Pavlick. 2019a.BERT rediscovers the classical NLP pipeline. In Proceedings of ACL, pages 4593–4601.
Ian Tenney, Patrick Xia, Berlin Chen, Alex Wang, Adam Poliak, R Thomas McCoy, Najoung Kim, Benjamin Van Durme, Sam Bowman, Dipanjan Das, and Ellie Pavlick. 2019b. What do you learn from context? probing for sentence structure in contextualized word representations. In Proceedings of ICLR.
Sebastian Thrun and Lorien Pratt. 1998. Learning to learn: Introduction and overview. Springer Science & Business Media.
Joseph Turian, Lev Ratinov, and Yoshua Bengio. 2010.Word representations: a simple and general method for semi-supervised learning. In Proceedings of ACL, pages 384–394.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Proceedings of NeurIPS, pages 5998– 6008.
Petar Velickovi ˇ c, Guillem Cucurull, Arantxa Casanova, ´ Adriana Romero, Pietro Lio, and Yoshua Bengio.2018. Graph attention networks. In Proceedings of ICLR.
Pat Verga, Haitian Sun, Livio Baldini Soares, and William W Cohen. 2020. Facts as experts: Adaptable and interpretable neural memory over symbolic knowledge. arXiv preprint arXiv:2007.00849.
David Vilares, Michalina Strzyz, Anders Søgaard, and Carlos Gómez-Rodríguez. 2020. Parsing as pretraining. In Proceedings of AAAI, pages 9114–9121.
Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. 2015. Show and tell: A neural image caption generator. In Proceedings of CVPR, pages 3156–3164.
Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, and Ivan Titov. 2019. Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. In Proceedings of ACL, pages 5797–5808.
Eric Wallace, Shi Feng, Nikhil Kand pal, Matt Gardner, and Sameer Singh. 2019a. Universal adversarial triggers for attacking and analyzing nlp. In Proceedings of EMNLP-IJCNLP, pages 2153–2162.
Eric Wallace, Pedro Rodriguez, Shi Feng, Ikuya Yamada, and Jordan Boyd-Graber. 2019b. Trick me if you can: Human-in-the-loop generation of adversarial examples for question answering. TACL, 7:387– 401.
Eric Wallace, Yizhong Wang, Sujian Li, Sameer Singh, and Matt Gardner. 2019c. Do NLP models know numbers? probing numeracy in embeddings. In Proceedings of EMNLP-IJCNLP, pages 5306–5314.
Chenguang Wang, Xiao Liu, and Dawn Song. 2020a.Language models are open knowledge graphs.arXiv preprint arXiv:2010.11967.
Dong Wang, Ning Ding, Piji Li, and Hai-Tao Zheng.
2021a. Cline: Contrastive learning with semantic negative examples for natural language understanding. In Proceedings of ACL.
Fei Wang, Mengqing Jiang, Chen Qian, Shuo Yang, Cheng Li, Honggang Zhang, Xiaogang Wang, and Xiaoou Tang. 2017. Residual attention network for image classification. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3156–3164.
Minjie Wang, Chien-chin Huang, and Jinyang Li.2019. Supporting very large models using automatic dataflow graph partitioning. In Proceedings of EuroSys.
Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Cuihong Cao, Daxin Jiang, Ming Zhou, et al. 2020b. K-adapter: Infusing knowledge into pre-trained models with adapters. arXiv preprint arXiv:2002.01808.
Sinong Wang, Belinda Li, Madian Khabsa, Han Fang, and Hao Ma. 2020c. Linformer: Selfattention with linear complexity. arXiv preprint arXiv:2006.04768.
Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, and Ming Zhou. 2020d. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers. In Proceedings of NeurIPS.
Xiaozhi Wang, Tianyu Gao, Zhaocheng Zhu, Zhengyan Zhang, Zhiyuan Liu, Juanzi Li, and Jian Tang.2021b. Kepler: A unified model for knowledge embedding and pre-trained language representation.TACL, 9:176–194.
Yida Wang, Pei Ke, Yinhe Zheng, Kaili Huang, Yong Jiang, Xiaoyan Zhu, and Minlie Huang. 2020e. A large-scale chinese short-text conversation dataset.In NLPCC.
Zheng Wang, Yangqiu Song, and Changshui Zhang.2008. Transferred dimensionality reduction. In Proceedings of ECML-PKDD, pages 550–565.
Ziyu Wang, Bin Dai, David Wipf, and Jun Zhu. 2020f.Further analysis of outlier detection with deep generative models. In Proceedings of NeurIPS.
Alex Warstadt and Samuel R. Bowman. 2020. Can neural networks acquire a structural bias from raw linguistic data? In Proceedings of CogSci.
Junqiu Wei, Xiaozhe Ren, Xiaoguang Li, Wenyong Huang, Yi Liao, Yasheng Wang, Jiashu Lin, Xin Jiang, Xiao Chen, and Qun Liu. 2019.Nezha: Neural contextualized representation for chinese language understanding. arXiv preprint arXiv:1909.00204.
Xiangpeng Wei, Yue Hu, Rongxiang Weng, Luxi Xing, Heng Yu, and Weihua Luo. 2021. On learning universal representations across languages. In Proceedings of ICLR.
Charles M Wharton, Keith J Holyoak, Paul E Downing, Trent E Lange, Thomas D Wickens, and Eric R Melz.1994. Below the surface: Analogical similarity and retrieval competition in reminding. Cognitive Psychology, 26:64–101.
Chris Williams, Edwin V Bonilla, and Kian M Chai.2007. Multi-task gaussian process prediction. In Proceedings of NeurIPS, pages 153–160.
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. 2016. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.
Zhirong Wu, Yuanjun Xiong, Stella X Yu, and Dahua Lin. 2018. Unsupervised feature learning via nonparametric instance discrimination. In Proceedings of CVPR, pages 3733–3742.
Zhiyong Wu, Yun Chen, Ben Kao, and Qun Liu. 2020.Perturbed masking: Parameter-free probing for analyzing and interpreting BERT. In Proceedings of ACL, pages 4166–4176.
Qiaolin Xia, Haoyang Huang, Nan Duan, Dongdong Zhang, Lei Ji, Zhifang Sui, Edward Cui, Taroon Bharti, Xin Liu, and Ming Zhou. 2020. Xgpt: Crossmodal generative pre-training for image captioning.arXiv preprint arXiv:2003.01473.
Caiming Xiong, Stephen Merity, and Richard Socher.2016. Dynamic memory networks for visual and textual question answering. In Proceedings of ICML, pages 2397–2406.
Wenhan Xiong, Jingfei Du, William Yang Wang, and Veselin Stoyanov. 2019. Pretrained encyclopedia: Weakly supervised knowledge-pretrained language model. In Proceedings of ICLR.
Keyulu Xu, Jingling Li, Mozhi Zhang, Simon S Du, Ken-ichi Kawarabayashi, and Stefanie Jegelka.2021. How neural networks extrapolate: From feedforward to graph neural networks. In Proceedings of ICLR.
Jian Yang, Shuming Ma, D. Zhang, Shuangzhi Wu, Zhou jun Li, and M. Zhou. 2020. Alternating language modeling for cross-lingual pre-training. In Proceedings of AAAI, pages 9386–9393.
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V Le.2019. Xlnet: Generalized autoregressive pretraining for language understanding. In Proceedings of NeurIPS.
Yuan Yao, Haoxi Zhong, Zhengyan Zhang, Xu Han, Xiaozhi Wang, Chaojun Xiao, Guoyang Zeng, Zhiyuan Liu, and Maosong Sun. 2021. Adversarial language games for advanced natural language intelligence.In Proceedings of AAAI.
Yang You, Igor Gitman, and Boris Ginsburg. 2017.Scaling sgd batch size to 32k for imagenet training.arXiv preprint arXiv:1708.03888.
Yang You, Jing Li, Sashank Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, and Cho-Jui Hsieh.2020. Large batch optimization for deep learning: Training bert in 76 minutes. In Proceedings of ICLR.
Bianca Zadrozny. 2004. Learning and evaluating classifiers under sample selection bias. In Proceedings of ICML.
Ofir Zafrir, Guy Boudoukh, Peter Izsak, and Moshe Wasserblat. 2019. Q8bert: Quantized 8bit bert. In Proceedings of NeurIPS.
Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, et al. 2020. Big bird: Transformers for longer sequences. In Proceedings of NeurIPS, pages 17283– 17297.
Yuan Zang, Fanchao Qi, Chenghao Yang, Zhiyuan Liu, Meng Zhang, Qun Liu, and Maosong Sun. 2020.Word-level textual adversarial attacking as combinatorial optimization. In Proceedings of ACL, pages 6066–6080.
Wei Zeng, Xiaozhe Ren, Teng Su, Hui Wang, Yi Liao, Zhiwei Wang, Xin Jiang, ZhenZhang Yang, Kaisheng Wang, Xiaoda Zhang, et al. 2021. Pangualpha: Large-scale autoregressive pretrained chinese language models with auto-parallel computation. arXiv preprint arXiv:2104.12369.
Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. 2017. Understanding deep learning requires rethinking generalization.In Proceedings of ICLR.
Fanjin Zhang, Xiao Liu, Jie Tang, Yuxiao Dong, Peiran Yao, Jie Zhang, Xiaotao Gu, Yan Wang, Bin Shao, Rui Li, et al. 2019a. Oag: Toward linking largescale heterogeneous entity graphs. In Proceedings of KDD, pages 2585–2595.
Jingqing Zhang, Yao Zhao, Mohammad Saleh, and Peter Liu. 2020a. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization.In Proceedings of ICML, pages 11328–11339.
Minjia Zhang and Yuxiong He. 2020. Accelerating training of transformer-based language models with progressive layer dropping. In Proceedings of NeurIPS, pages 14011–14023.
Wei Zhang, Lu Hou, Yichun Yin, Lifeng Shang, Xiao Chen, Xin Jiang, and Qun Liu. 2020b. Ternarybert: Distillation-aware ultra-low bit bert. In Proceedings of EMNLP, pages 509–521.
Zhengyan Zhang, Yuxian Gu, Xu Han, Shengqi Chen, Chaojun Xiao, Zhenbo Sun, Yuan Yao, Fanchao Qi, Jian Guan, Pei Ke, Yanzheng Cai, Guoyang Zeng, Zhixing Tan, Zhiyuan Liu, Minlie Huang, Wentao Han, Yang Liu, Xiaoyan Zhu, and Maosong Sun. 2021a. Cpm-2: Large-scale cost-efficient pretrained language models.
Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, and Qun Liu. 2019b. Ernie: Enhanced language representation with informative entities. In Proceedings of ACL, pages 1441–1451.
Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, et al. 2020c. Cpm: A large-scale generative chinese pre-trained language model. arXiv preprint arXiv:2012.00413.
Zhengyan Zhang, Fanchao Qi, Zhiyuan Liu, Qun Liu, and Maosong Sun. 2021b. Know what you don’t need: Single-Shot Meta-Pruning for attention heads.AI Open, 2:36–42.
Zhengyan Zhang, Guangxuan Xiao, Yongwei Li, Tian Lv, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Xin Jiang, and Maosong Sun. 2021c. Red alarm for pre-trained models: Universal vulnerabilities by neuron-level backdoor attacks. arXiv preprint arXiv:2101.06969.
Shuai Zheng, Sadeep Jayasumana, Bernardino RomeraParedes, Vibhav Vineet, Zhizhong Su, Dalong Du, Chang Huang, and Philip HS Torr. 2015. Conditional random fields as recurrent neural networks. In Proceedings of ICCV, pages 1529–1537.
Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason Corso, and Jianfeng Gao. 2020a. Unified vision-language pre-training for image captioning and vqa. In Proceedings of AAAI, pages 13041– 13049.
Xuhui Zhou, Yue Zhang, Leyang Cui, and Dand an Huang. 2020b. Evaluating commonsense in pretrained language models. In Proceedings of AAAI, pages 9733–9740.
Yukun Zhu, Ryan Kiros, Rich Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. 2015. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. In Proceedings of ICCV, pages 19–27.
Barret Zoph, Golnaz Ghiasi, Tsung-Yi Lin, Yin Cui, Hanxiao Liu, Ekin Dogus Cubuk, and Quoc Le.2020. Rethinking pre-training and self-training.Proceedings of NeurIPS, 33.
Xu Zou, Da Yin, Qingyang Zhong, Hongxia Yang, Zhilin Yang, and Jie Tang. 2021. Controllable generation from pre-trained language models via inverse prompting. arXiv preprint arXiv:2103.10685.