当前位置: 首页 > news >正文

嘉兴企业网站富德生命人寿保险公司官方网站保单查询

嘉兴企业网站,富德生命人寿保险公司官方网站保单查询,中建集团的重要事件,wordpress中title一只小狐狸带你解锁 炼丹术NLP 秘籍作者#xff1a;JayLou娄杰来源#xff1a;https://zhuanlan.zhihu.com/p/115014536预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日#xff0c;邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-tr… 一只小狐狸带你解锁 炼丹术NLP 秘籍作者JayLou娄杰来源https://zhuanlan.zhihu.com/p/115014536预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trained Models for Natural Language Processing: A Survey》这是一篇全面的综述系统地对PTMs进行了归纳分类。本文以此篇综述论文为主要参考通过借鉴不同的归纳方法进行总结同时也整合了专栏之前已经介绍过的《nlp中的词向量对比》和《nlp中的预训练语言模型总结》两篇文章以QA形式对PTMs进行全面总结归纳。获取总结图片下载以及单模型精读请到下面的github地址希望为大家的学习工作提供一些帮助。https://github.com/loujie0822/Pre-trained-Models笔者注本文总结与原综述论文也有一些不同之处详见文末如有错误或不当之处请指正。很多总结归纳的点不太好拿捏大家多给意见为什么要进行预训练深度学习时代为了充分训练深层模型参数并防止过拟合通常需要更多标注数据喂养。在NLP领域标注数据更是一个昂贵资源。PTMs从大量无标注数据中进行预训练使许多NLP任务获得显著的性能提升。总的来看预训练模型PTMs的优势包括在庞大的无标注数据上进行预训练可以获取更通用的语言表示并有利于下游任务为模型提供了一个更好的初始化参数在目标任务上具备更好的泛化性能、并加速收敛是一种有效的正则化手段避免在小数据集上过拟合一个随机初始化的深层模型容易对小数据集过拟合词嵌入和分布式表示词嵌入是自然语言处理NLP中语言模型与表征学习技术的统称。概念上而言它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中每个单词或词组被映射为实数域上的向量这也是分布式表示向量的每一维度都没有实际意义而整体代表一个具体概念。分布式表示相较于传统的独热编码one-hot表示具备更强的表示能力而独热编码存在维度灾难和语义鸿沟不能进行相似度计算等问题。传统的分布式表示方法如矩阵分解SVD/LSA、LDA等均是根据全局语料进行训练是机器学习时代的产物。PTMs也属于分布式表示的范畴本文的PTMs主要介绍深度学习时代、自NNLM[2]以来的 “modern” 词嵌入。PTMs两大范式PTMs的发展经历从浅层的词嵌入到深层编码两个阶段按照这两个主要的发展阶段我们归纳出PTMs两大范式「浅层词嵌入」和「预训练编码器」。浅层词嵌入浅层词嵌入这一类PTMs范式是我们通常所说的“词向量”其主要特点是学习到的是上下文独立的静态词嵌入其主要代表为NNLM[2]、word2vecCBOW[3]、Skip-Gram[3]、Glove等。这一类词嵌入通常采取浅层网络进行训练而应用于下游任务时整个模型的其余部分仍需要从头开始学习。因此对于这一范式的PTMs没有必要采取深层神经网络进行训练采取浅层网络加速训练也可以产生好的词嵌入。浅层词嵌入的主要缺陷为词嵌入与上下文无关每个单词的嵌入向量始终是相同因此不能解决一词多义的问题。通常会出现OOV问题为了解决这个问题相关文献提出了字符级表示或sub-word表示如CharCNN[5] 、FastText[6]和 Byte-Pair Encoding[7]。图1给出了三种常见的浅层词嵌入之间的对比Glove可以被看作是更换了目标函数和权重函数的全局word2vec。此外相关文献也提出了句子和文档级别的嵌入方式如 Skip-thought[8]、Context2Vec[9]等。预训练编码器第二类PTMs范式为预训练编码器主要目的是通过一个预训练的编码器能够输出上下文相关的词向量解决一词多义的问题。这一类预训练编码器输出的向量称之为「上下文相关的词嵌入」。图2给出了NLP各种编码器间的对比。PTMs中预训练编码器通常采用LSTM和TransformerTransformer-XL其中Transformer又依据其attention-mask方式分为Transformer-Encoder和Transformer-Decoder两部分。此外Transformer也可看作是一种图神经网络GNN[10]。这一类「预训练编码器」范式的PTMs主要代表有ELMO[11]、GPT-1[12]、BERT[13]、XLNet[14]等。PTMs按照任务类型分类PTMs按照任务类型可分为2大类监督学习 和 无监督学习/自监督学习。监督学习在NLP-PTMs中的主要代表就是CoVe[15]CoVe作为机器翻译的encoder部分可以应用于多种NLP下游任务。除了CoVe外NLP中的绝大多数PTMs属于自监督学习。自监督学习是无监督学习的一种方法[16]自监督学习[17]主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息通过这种构造的监督信息对网络进行训练从而可以学习到对下游任务有价值的表征。因此从“构造监督信息”这个角度来看自监督也可看作是监督学习和无监督学习的一种融合[1]。严格地讲从是否由人工标注来看自监督学习属于无监督学习的范畴。综合各种自监督学习的分类方式笔者将NLP-PTMs在自监督学习中分为两种类型[17]基于上下文Context Based和基于对比Contrastive Based。基于上下文Context Based基于上下文的PTMs主要基于数据本身的上下文信息构造辅助任务在NLP中我们通常引入语言模型作为训练目标。PTMs中的语言模型主要分为三大类第一类自回归语言模型LM优点语言模型language modelLM联合概率的无偏估计即为传统的语言模型考虑被预测单词之间的相关性天然适合处理自然生成任务缺点联合概率按照文本序列顺序拆解从左至右分解无法获取双向上下文信息表征代表模型ELMO、GPT-1、GPT-2[18]、ULMFiT[19]、SiATL[20]第二类自编码语言模型DAE优点本质为降噪自编码(DAE)特征表示通过引入噪声[MASK]构建MLM(Masked language model)获取双向上下文信息表征本文将自编码语言模型统一称为DAE旨在采用部分损坏的输入旨在恢复原始的未失真输入如果当前token被预测则 否则 为原始文本被替换后的输入。缺点引入独立性假设为语言模型联合概率的有偏估计没有考虑预测token之间的相关性预训练时的「MASK」噪声在finetune阶段不会出现造成两阶段不匹配问题为解决这一问题在15%被预测的token中80%被替换为「MASK」10%被随机替换10%被替换为原词。代表模型BERT、MASS [21]、T5[22]、RoBERTa[23]、UniLM[24]、XLM[25]、SpanBERT[26]、ERNIE-Baidu[27][28]、E-BERT[29]、ERNIE-THU[30]、BART[31]。BERT[13]是自编码语言模型的一个典型代表但其采用的MLM策略和Transformer-Encoder结构导致其不适合直接处理生成任务。为了解决这一问题也可采用基于Seq2Seq MLM方法encoder部分采取masked策略而decoder部分以自回归的方式预测encoder部分被mask的token。此外还有很多基于自编码语言模型的PTMs提出了不同的MLM增强策略称之为 Enhanced Masked Language Modeling (E-MLM) [1]。上述DAE具体的PTMs方法见图4。第三类排列语言模型PLM排列语言模型综合了LM和DAE-LM两者的优点。严格来讲PLM和LM是标准的自回归语言模型注PLM是一种广义的自回归方法[14]而MLM不是一个标准的语言模型其引入独立性假设隐式地学习预测tokenmask部分本身的强相关性之间的关系。如果衡量序列中被建模的依赖关系的数量标准的自回归语言模型可以达到上界不依赖于任何独立假设。LM和PLM能够通过自回归方式来显式地学习预测token之间的关系。然而LM无法对双向上下文进行表征借鉴 NADE[32]的思想PLM将这种传统的自回归语言模型LM进行推广将顺序拆解变为随机拆解从左至右分解产生上下文相关的双向特征表示。PLM最为典型的代表就是XLNet[14]这是对标准语言模型的一个复兴[33]提出一个框架来连接标准语言模型建模方法和预训练方法。一个关键问题为什么PLM可以实现双向上下文的建模PLM的本质就是语言模型联合概率的多种分解机制的体现其将LM的顺序拆解推广到随机拆解。PLM没有改变原始文本序列的自然位置只是定义了token预测的顺序。PLM只是针对语言模型建模不同排列下的因式分解排列并不是词的位置信息的重新排列。最后我们对基于上述三类语言模型的PTMs进行总结基于对比Contrastive Based基于对比Contrastive Based不同于Context Based主要基于数据本身的上下文信息构造辅助任利用Contrastive Based主要利用样本间的约束信息构造辅助任务这类方法也是 Contrastive learning[34]CTL。CTL假设观察到的文本对正样本在语义上比随机采样的文本负样本更相似。CTL 背后的原理是「在对比中学习」。相较于语言建模CTL 的计算复杂度更低因而在预训练中是理想的替代训练标准。CTL通过构建正样本positive和负样本negative然后度量正负样本的距离来实现自监督学习[17]:可以使用点积的方式构造距离函数然后构造一个 softmax 分类器以正确分类正样本和负样本。鼓励相似性度量函数将较大的值分配给正例将较小的值分配给负例相似性度量函数通常可采取两种方式或第一类Deep InfoMax (DIM)DIM方法来源于CV领域对于全局的特征编码器最终的输出和局部特征编码器中间层的特征DIM需要判断全局特征和局部特征是否来自同一图像[17]。InfoWord [35]将DIM引入到NLP中用Mutual Information的一个下界InfoNCE来重新解释BERT和XLNET的objective并提出一个新的DIM objective以最大化一个句子的global representation和其中一个ngram的local representation之间的Mutual Information。第二类Replaced Token Detection (RTD)噪声对比估计Noise-Contrastive EstimationNCE[36]通过训练一个二元分类器来区分真实样本和假样本可以很好的训练词嵌入。RTD于与 NCE 相同根据上下文语境来预测token是否替换 。word2vec[3]中的negative sampling可看作是RTD负样本从词表中进行带权采样。ELECTRA[37]提出了一种新的预训练任务框架构建生成器-判别器生成器通过MLM任务对被mask的token进行预测迭代器判断原始句子中的每个token是否被replace过。生成器相当于对输入进行了筛选使判别器的任务更难从而学习到更好的表示。生成器-判别器共享embedding生成器部分采用small-bert判别器部分对每一个token采用sigmoid计算loss。finetune阶段只采用判别器部分。RTD也被看作解决MLM中「MASK」在预训练和finetune间差异的一种手段。WKLM[38]在实体level进行替换替换为具有相同实体类型的实体名称。第三类Next Sentence Prediction (NSP)NSP 区分两个输入句子是否为训练语料库中的连续片段第二个句子50%为第一句子实际的连续片段50%从其他语料随机选择。NSP可以引导模型理解两个输入句子之间的关系从而使对此信息敏感的下游任务受益如QA任务。而RoBERTa[23]表明NSP在对单个文档中的文本块进行训练时去除NSP任务或在下游任务上可以稍微提高性能。第四类Sentence Order Prediction (SOP)SOP 使用同一文档中的两个连续片段作为正样本而相同的两个连续片段互换顺序作为负样本。NSP融合了主题预测和相关性预测主题预测更容易这使得模型进行预测时仅依赖于主题学习。与NSP不同SOP使用同一文档中的两个连续段作为正样本但顺序互换为负样本。采取SOP任务的PTMs有ALBERT[39]、StructBERT[40]、BERTje[41]。图5对上述基于对比Contrastive Based的四类PTMs进行了总结PTMs有哪些拓展引入知识PTMs通常从通用大型文本语料库中学习通用语言表示但是缺少特定领域的知识。PTMs中设计一些辅助的预训练任务将外部知识库中的领域知识整合到PTMs中被证明是有效的[1]。ERNIE-THU[30]将在知识图谱中预先训练的实体嵌入与文本中相应的实体提及相结合以增强文本表示。由于语言表征的预训练过程和知识表征过程有很大的不同会产生两个独立的向量空间。为解决上述问题在有实体输入的位置将实体向量和文本表示通过非线性变换进行融合以融合词汇、句法和知识信息。LIBERT[42]语言知识的BERT通过附加的语言约束任务整合了语言知识。SentiLR[43]集成了每个单词的情感极性以将MLM扩展到标签感知MLMLA-MLMABSA任务上都达到SOTA。SenseBERT[44] 不仅能够预测被mask的token还能预测它们在给定语境下的实际含义。使用英语词汇数据库 WordNet 作为标注参照系统预测单词在语境中的实际含义显著提升词汇消歧能力。KnowBERT[45] 与实体链接模型以端到端的方式合并实体表示。KG-BERT[46]显示输入三元组形式采取两种方式进行预测构建三元组识别和关系分类共同优化知识嵌入和语言建模目标。这些工作通过实体嵌入注入知识图的结构信息。K-BERT[47]将从KG提取的相关三元组显式地注入句子中以获得BERT的扩展树形输入。K-Adapter[48]通过针对不同的预训练任务独立地训练不同的适配器来注入多种知识从而可以不断地注入知识以解决注入多种知识时可能会出现灾难性遗忘问题。此外这类PTMs还有WKLM[38]、KEPLER[49]和[50]等。模型压缩由于预训练的语言模型通常包含至少数亿个参数因此很难将它们部署在现实应用程序中的在线服务和资源受限的设备上。模型压缩是减小模型尺寸并提高计算效率的有效方法。5种PTMs的压缩方法为pruning剪枝将模型中影响较小的部分舍弃。如Compressing BERT[51]还有结构化剪枝 LayerDrop [52]其在训练时进行Dropout预测时再剪掉Layer不像知识蒸馏需要提前固定student模型的尺寸大小。quantization量化将高精度模型用低精度来表示如Q-BERT[53]和Q8BERT[54]量化通常需要兼容的硬件。parameter sharing 参数共享相似模型单元间的参数共享ALBERT[39]主要是通过矩阵分解和跨层参数共享来做到对参数量的减少。module replacing模块替换BERT-of-Theseus[55]根据伯努利分布进行采样决定使用原始的大模型模块还是小模型只使用task loss。knowledge distillation 知识蒸馏通过一些优化目标从大型、知识丰富、fixed的teacher模型学习一个小型的student模型。蒸馏机制主要分为3种类型从软标签蒸馏DistilBERT [56]、EnsembleBERT[57]从其他知识蒸馏TinyBERT[58]、BERT-PKD、MobileBERT[59] 、 MiniLM[60] 、DualTrain[61]蒸馏到其他结构Distilled-BiLSTM[62]多模态随着PTMs在NLP领域的成功许多研究者开始关注多模态领域的PTMs主要为通用的视觉和语言特征编码表示而设计。多模态的PTMs在一些庞大的跨模式数据语料库带有文字的语音、视频、图像上进行了预训练如带有文字的语音、视频、图像等主要有 VideoBERT[63]、CBT[64] 、UniViLM[65]、 ViL-BERT[66] 、 LXMERT[67]、 VisualBERT [68]、 B2T2[69] 、Unicoder-VL[70] 、UNITER [71]、 VL-BERT[72] 、 SpeechBERT[73]。领域预训练大多数PTM都在诸如Wikipedia的通用语料中训练而在领域化的特定场景会收到限制。如基于生物医学文本的BioBERT[74]基于科学文本的SciBERT[75]基于临床文本的Clinical-BERT[76]。一些工作还尝试将PTMs适应目标领域的应用如医疗实体标准化[77]、专利分类PatentBERT [78]、情感分析SentiLR[79]关键词提取[80]。多语言和特定语言学习跨语言共享的多语言文本表示形式对于许多跨语言的NLP任务起着重要的作用。Multilingual-BERT[81]在104种 Wikipedia文本上进行MLM训练共享词表每个训练样本都是单语言文档没有专门设计的跨语言目标也没有任何跨语言数据M-BERT也可以很好的执行跨语言任务。XLM [25]通过融合跨语言任务翻译语言模型改进了M-BERT该任务通过拼接平行语料句子对进行MLM训练。Unicoder[82]提出了3种跨语言预训练任务1)cross-lingual word recovery2) cross-lingual paraphrase classification;3) cross-lingual masked language model.虽然多语言的PTMs在跨语言上任务表现良好但用单一语言训练的PTMs明显好于多语言的PTMs。此外一些单语言的PTMs被提出BERT[83]ZEN[84],NEZHA[85], ERNIE-Baidu[27][28], BERTje[86], CamemBERT[87], FlauBERT[88], RobBERT [89]。对PTMs进行迁移学习PTMs从大型语料库中获取通用语言知识如何有效地将其知识适应下游任务是一个关键问题。迁移学习的方式主要有归纳迁移顺序迁移学习、多任务学习、领域自适应转导迁移、跨语言学习等。NLP中PTMs的迁移方式是顺序迁移学习。如何迁移1选择合适的预训练任务语言模型是PTM是最为流行的预训练任务同的预训练任务有其自身的偏置并且对不同的任务会产生不同的效果。例如NSP任务可以使诸如问答QA和自然语言推论NLI之类的下游任务受益。2选择合适的模型架构例如BERT采用的MLM策略和Transformer-Encoder结构导致其不适合直接处理生成任务。3选择合适的数据下游任务的数据应该近似于PTMs的预训练任务现在已有有很多现成的PTMs可以方便地用于各种特定领域或特定语言的下游任务。4选择合适的layers进行transfer主要包括Embedding迁移、top layer迁移和all layer迁移。如word2vec和Glove可采用Embedding迁移BERT可采用top layer迁移Elmo可采用all layer迁移。5特征集成还是fine-tune对于特征集成预训练参数是freeze的而fine-tune是unfreeze的。特征集成方式却需要特定任务的体系结构fine-tune方法通常比特征提取方法更为通用和方便。fine-tune策略通过更好的微调策略进一步激发PTMs性能两阶段fine-tune策略如第一阶段对中间任务或语料进行finetune第二阶段再对目标任务fine-tune。第一阶段通常可根据特定任务的数据继续进行fine-tune预训练。多任务fine-tuneMTDNN[90]在多任务学习框架下对BERT进行了fine-tune这表明多任务学习和预训练是互补的技术。采取额外的适配器fine-tune的主要缺点是其参数效率低每个下游任务都有自己的fine-tune参数。因此更好的解决方案是在固定原始参数的同时将一些可fine-tune的适配器注入PTMs。逐层阶段逐渐冻结而不是同时对所有层进行fine-tune也是一种有效的fine-tune策略。PTMs还有哪些问题需要解决本部分来自[91]有删减和修正虽然 PTMs已经在很多 NLP 任务中显示出了他们强大的能力然而由于语言的复杂性仍存在诸多挑战。综述论文给出了五个未来 PTMs发展方向的建议。PTMs的上限目前PTMs并没有达到其上限。大多数的PTMs可通过使用更长训练步长和更大数据集来提升其性能。目前NLP中的SOTA也可通过加深模型层数来更进一步提升。这将导致更加高昂的训练成本。因此一个更加务实的方向是在现有的软硬件基础上设计出更高效的模型结构、自监督预训练任务、优化器和训练技巧等。例如ELECTRA [37]就是此方向上很好的一个解决方案。面向任务的预训练和模型压缩在实践中不同的目标任务需要 PTMs拥有不同功能。而 PTMs与下游目标任务间的差异通常在于两方面模型架构与数据分布。尽管较大的PTMs通常情况下会带来更好的性能表现但在低计算资源下如何使用是一个实际问题。例如对于 NLP 的 PTM 来说对于模型压缩的研究只是个开始Transformer 的全连接架构也使得模型压缩具有挑战性。PTMs的架构设计对于PTMsTransformer 已经被证实是一个高效的架构。然而 Transformer 最大的局限在于其计算复杂度输入序列长度的平方倍。受限于 GPU 显存大小目前大多数 PTM 无法处理超过 512 个 token 的序列长度。打破这一限制需要改进 Transformer 的结构设计例如 Transformer-XL[92]。finetune中的知识迁移finetune是目前将 PTM 的知识转移至下游任务的主要方法但效率却很低每个下游任务都需要有特定的finetune参数。一个可以改进的解决方案是固定PTMs的原始参数并为特定任务添加小型的finetune适配器这样就可以使用共享的PTMs 服务于多个下游任务。PTMs 的解释性与可靠性PTMs 的可解释性与可靠性仍然需要从各个方面去探索它能够帮助我们理解 PTM 的工作机制为更好的使用及性能改进提供指引。写在最后本文总结与原综述论文[1]的一些不同之处本文定义了PTMs两大范式浅层词嵌入和预训练编码器。不同于原文XLNet在原综述论文中被归为Transformer-Encoder本文认为将其归为Transformer-XL更合适。本文PTMs按照自监督学习的分类不同于原文。本文按照 基于上下文Context Based和基于对比Contrastive Based两种方式归类将原文的LM、MLM、DAE、PLM归为Context Based本文将原文MLM和DAE统一为DAE其他1在3.1.2的E-MLM段落中可以将StructBERT拿出来只放在SOP23.1.5对ELECTRA的描述应采取ELECTRA原文中的主要方法参数共享两阶段的方法只是一种实验尝试3在puring部分可以补充LayerDrop4应将UniLM归为MLM可能喜欢斯坦福大学最甜网剧知识图谱CS520面向大众开放啦Google|突破瓶颈打造更强大的TransformerACL2020|对话数据集Mutual论对话逻辑BERT还差的很远ACL2020|FastBERT放飞BERT的推理速度LayerNorm是Transformer的最优解吗夕小瑶的卖萌屋_关注星标小夕带你解锁AI秘籍订阅号主页下方「撩一下」有惊喜哦参考文献[1] Pre-trained Models for Natural Language Processing: A Survey https://arxiv.org/abs/2003.08271v2[2] A neural probabilistic language model.[3] Distributed representations of words and phrases and their compositionality.[4] GloVe: Global vectors for word representation[5] Character-aware neural language models.[6] Enriching word vectors with subword information.[7] Neural machine translation of rare words with subword units.[8] Skip-thought vectors[9] Context2Vec: Learning generic context embedding with bidirec- tional LSTM.[10] https://zhuanlan.zhihu.com/p/110805093[11] Deep contextualized word representations.[12] Improving language understanding by generative pre-training.[13] abBERT: pre-training of deep bidirectional trans- formers for language understanding[14] abcXLnet: Generalized Autoregressive Pretraining for Language Understanding[15] Learned in translation: Contextualized word vectors.[16] abSelf-supervised Visual Feature Learning with Deep Neural Networks: A Survey[17] abcdSelf-supervised Learning 再次入门 https://zhuanlan.zhihu.com/p/108906502[18] Language models are unsuper- vised multitask learners[19] ULMFiTUniversal Language Model Fine-tuning)[20] SiATLAn Embarrassingly Simple Approach for Transfer Learning from Pretrained Language Models[21] MASS: masked sequence to sequence pre-training for language generation.[22] Exploring the limits of transfer learning with a uni- fied text-to-text transformer[23] abRoBERTa: A ro- bustly optimized BERT pretraining approach[24] Unified language model pre-training for natural language un- derstanding and generation.[25] abCross-lingual lan- guage model pretraining.[26] SpanBERT: Improving pre- training by representing and predicting spans.[27] ERNIE: enhanced representation through knowledge integration[28] ERNIE 2.0: A continual pre-training framework for language understanding[29] BERT is not a knowledge base (yet): Factual knowledge vs. name-based reasoning in unsupervised QA[30] ERNIE: enhanced language representation with informative entities[31] BART: denoising sequence-to- sequence pre-training for natural language generation, transla- tion, and comprehension.[32] Neural autoregressive distribution estimation[33] 他们创造了横扫NLP的XLNet专访CMU博士杨植麟[34] A theoretical analysis of contrastive unsupervised representation learning.[35] A mutual information maximization perspective of language representation learning[36] Noise-contrastive estimation: A new estimation principle for unnormalized sta- tistical models.[37] ELECTRA: Pre-training text encoders as discriminators rather than generators[38] Pretrained encyclopedia: Weakly supervised knowledge-pretrained language model[39] aALBERT: A lite BERT for self-supervised learning of language representations.[40] StructBERT: Incorporating language struc- tures into pre-training for deep lanuage understanding[41] BERTje: A dutch BERT model[42] Informing unsupervised pre- training with external linguistic knowledge[43] Sentilr: Linguistic knowledge enhanced lan- guage representation for sentiment analysis[44] SenseBERT: Driving some sense into BERT[45] Knowledge enhanced contextual word representations[46] KG-BERT: BERT for Knowledge Graph Completion[47] K-BERT: Enabling lan- guage representation with knowledge graph[48] K-adapter: Infusing knowledge into pre-trained models with adapters[49] KEPLER: A unified model for knowledge embedding and pre-trained language representation[50] Enhancing pre-trained language representations with rich knowledge for machine reading comprehension.[51] Compressing BERT: Studying the effects of weight pruning on transfer learning[52] REDUCING TRANSFORMER DEPTH ON DEMAND WITH STRUCTURED DROPOUT[53] Q- BERT: Hessian based ultra low precision quantization of BERT.[54] Q8BERT: Quantized 8bit BERT.[55] BERT-of-Theseus: Compressing BERT by pro- gressive module replacing[56] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter.[57] MT-DNNImproving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding[58] TinyBERT: Distilling BERT for natural language understanding[59] MobileBERT: Task-agnostic com- pression of BERT by progressive knowledge transfer[60] MiniLM: Deep self-attention distillation for task-agnostic compression of pre-trained transformers.[61] Extreme language model compression with optimal subwords and shared projections[62] Distilling task-specific knowledge from BERT into simple neural networks[63] VideoBERT: A joint model for video and language representation learning[64] Contrastive bidirectional transformer for temporal representation learning[65] Univilm: A unified video and language pre-training model for multimodal under- standing and generation.[66] ViL- BERT: Pretraining task-agnostic visiolinguistic representa- tions for vision-and-language tasks[67] LXMERT: learning cross- modality encoder representations from transformers.[68] VisualBERT: A simple and performant base- line for vision and language.[69] Fusion of detected objects in text for visual question answering.[70] Unicoder-vl: A universal encoder for vision and language by cross-modal pre-training[71] UNITER: learning universal image-text representations[72] VL-BERT: pre-training of generic visual- linguistic representations[73] SpeechBERT: Cross-modal pre-trained language model for end-to-end spoken question answering.[74] BioBERT: a pre-trained biomedical language representation model for biomedical text mining.[75] SciBERT: A pre- trained language model for scientific text[76] Clin-icalBERT: Modeling clinical notes and predicting hospital readmission.[77] BERT-based rank- ing for biomedical entity normalization.[78] PatentBERT: Patent clas- sification with fine-tuning a pre-trained BERT model.[79] SentiLR: Linguistic knowledge enhanced lan- guage representation for sentiment analysis.[80] Progress notes clas- sification and keyword extraction using attention-based deep learning models with BERT.[82] Unicoder: A universal language encoder by pre-training with multiple cross-lingual tasks.[83] Pre-training with whole word masking for chinese BERT[84] ZEN: pre-training chinese text encoder enhanced by n-gram representations.[85] NEZHA: Neural contextualized representa- tion for chinese language understanding[86] BERTje: A dutch BERT model.[87]  CamemBERT: a tasty french language model[88] FlauBERT: Unsupervised language model pre-training for french[89] Rob-BERT: a dutch RoBERTa-based language model.[90] Multi-task deep neural networks for natural language understanding.[91] https://zhuanlan.zhihu.com/p/114785639[92] Transformer-XL: Atten- tive language models beyond a fixed-length context.
http://www.lebaoying.cn/news/49598.html

相关文章:

  • 文山专业网站建设公司网站的方案
  • 深圳网站开发外包哪家好顶呱呱网站建设
  • 学校网站网页模板还有人用asp做网站吗
  • 宇宙设计网站推荐论坛源码
  • 黑龙江住房和城乡建设局网站长沙网站开发推荐
  • 郑州市二七区建设局 网站创意设计师是做什么的
  • 福州响应式网站本地电脑做服务器 建网站
  • 安康有建网站的公司吗贵州今天刚刚发生的新闻
  • 网站建设安全吗简单手机网站
  • 时尚网站首页设计怎样制作一个网站步骤
  • 营销网站的建立大连本地服务信息网
  • 画册做的比较好的网站推广展示类网站
  • 汕头网站开发服务怎么做谷歌推广
  • 小红书网站开发费用手机端百度收录入口
  • 值得买网站模板高端大气公司名称
  • 自己能否建立公司网站怎样建网站 步骤
  • o2o网站电商网站开发商
  • 自己做众筹网站新郑网络推广公司
  • 问答类咨询网站的建设企业网站建设方案论文
  • 网站开发验收报告wordpress 4.4.7
  • 东莞建设网 东莞市住房和城乡建设局门户网站环保局网站建设
  • 福建省城乡建设厅网站dsicuz做的网站
  • 易语言可以做网站嘛营销型网站网站设计
  • 山东省建设厅网站多少河南郑州
  • wordpress 主题语言包关键词优化易下拉效率
  • 关于网站关停的申请专题网站建设总要求
  • 怎样用ps做网站的效果图网站建设jiq
  • 商城网站建设报2008 iis wordpress
  • 网站忘了怎么办wordpress lampp建站
  • 如何利用网站做demowordpress自动生成文章