语录网短语说说 短语树库(短语结构树介绍)

短语树库(短语结构树介绍)

以下文章来自NewBeeNLP作者Lucy

NewBeeNLP

永远有料,永远有趣

官方账户专栏作家@露西

北航博士阅读·文本挖掘/事件提取方向

本系列文章总结了自然语言处理(NLP)中最基本和最常用的"文本分类"任务,主要包括以下几个部分:概述(调查)深度学习模型(深度学习模型)浅层学习模型(浅层学习模型)数据集(数据集)评估指标(评估指标)未来研究挑战(未来研究挑战)实用工具和Repos(工具和Repos)

全文5万字,分为几篇文章,后续将整理成PDF与大家分享,欢迎继续关注!(文末,下次预览,不要错过)

所有参与评审的文本分类论文列表,我们已经为您整理打包,订阅号后台回复《文本分类》即可获取~

文本分类

文本分类研究综述:从浅层到深度学习,2020[1]

文本分类是自然语言处理中最基础、最重要的任务,由于深度学习的成功,近十年来该领域的相关研究剧增,鉴于已有文献提出了许多方法、数据集和评估指标,更有必要对上述内容进行全面总结。

本文通过回顾1961年到2020年的最新方法填补了这一空白,主要关注从浅层学习模型到深度学习模型。我们首先根据方法涉及的文本,以及用于特征提取和分类的模型,构建对不同方法进行分类的规则。然后我们将详细讨论每个类别的方法,涉及与方法和基准数据集相关的预测技术的发展。

短语树库(图15)

此外,本综述还提供了不同方法之间的综合比较,并确定了各种评估指标的优缺点。最后,我们总结了该研究领域的关键影响因素、未来的研究方向和面临的挑战。

深度学习模型

这一部分按时间顺序整理了与文本分类任务相关的深度模型。

用于预测情感分布的半监督递归自编码器[2]

针对句子级情感标签分布预测引入了一种基于递归自动编码器的新型机器学习框架,该方法学习多单词短语的向量空间表示,在情感预测任务中,这些表示在不使用任何预定义的情感字典或极性转换规则的情况下,优于常规数据集(如电影评论)上的其他最新方法。

论文还将基于对实证项目的影响来评估模型在新数据集上预测情感分布的能力,该数据集由具有多个标签的单个用户故事组成,这些故事被聚合以形成捕获情感反应的多个分布,与其他几个竞争基线相比,我们的算法可以更准确地预测此类标签的分布。

短语树库(图23)

基于递归矩阵向量空间的语义组合

然而,他们无法捕获较长短语的组成意义,这阻碍了他们更深入地理解语言。本文引入了一个循环神经网络(RNN)模型,该模型学习任何句法类型和长度的短语或句子的组成向量表示。

该模型为分析树中的每个节点分配了一个向量和一个矩阵:其中向量捕获了组件的内在含义,而矩阵捕获了它如何改变相邻单词或短语的含义。这个矩阵-向量RNN可以学习命题逻辑和自然语言中运算符的含义。该模型在所有三个不同的实验中都获得了SOTA效应:预测副词-形容词对的细粒情感分布;对影评的情感标签进行分类,利用名词间的句法路径对名词或主题信息之间的因果关系等语义关系进行分类。

短语树库(图28)

基于情感树库的语义组合递归深度模型[4]

虽然语义词空间在语义表示上非常有效,但理论上无法表达较长短语的含义,在情感检测等任务中提高单词组合理解方向需要更丰富的监督训练和评估资源,以及更强的合成模型。

为了解决这个问题,我们引入了一个情感树库,它在11855个句子的句法分析树中包含了215,154个细粒情感标签短语,并在情感组成方面提出了新的挑战,为了解决这些问题,我们引入了递归神经张量网络,在新的树库上训练后,该模型在多个评价指标上比以往所有方法都工作得更好,它将单句正/负分类的最新技术水平从80%提高到了85.4%。对所有短语预测细粒度情感标签的准确率达到80.7%,比基准工作提高了9.7%,此外,它也是唯一一个能够在正反短语的各种树级别上准确捕捉负面影响及其范围的模型。

面向句子分类的卷积神经网络[5]

我们对卷积神经网络(CNN)进行了一系列实验,这些卷积神经网络是在句子级分类任务的预训练词向量的基础上训练的,实验证明,简单的CNN加上很少的超参数调整和静态向量,可以在多个基准上取得优异的效果。

通过微调学习任务特定的词向量可以进一步提高性能。此外,我们还提出了对架构的简单修改,以允许模型同时使用任务特定的词向量和静态向量。本文讨论的CNN模型在7个任务中的4个任务上超过了现有的SOTA效应,包括情感分析和问题分类。

用于建模句子的卷积神经网络[6]

准确的句子表示能力对理解语言至关重要。本文提出了一种称为动态卷积神经网络(DCNN)的卷积架构来对句子的语义学进行建模。该网络对一个线性序列使用全局池化操作,称为动态k-Max池化。该网络处理输入的可变长度的句子,并通过句子生成特征图。该特征图可以显式地捕获句子中的短期和长期关系。该网络不依赖于语法分析树,很容易适用于任何语言。

本文在小规模二类和多类情绪预测、六路问题分类和通过远程监督的Twitter情绪预测四个实验中对DCNN进行了测试。与迄今为止最有效的基准工作相比,本文中的网络在前三个任务中获得了优异的性能,并在最后一个任务中降低了25%以上的错误率。

短语树库(图40)

句子和文档的分布式表示[7]

许多机器学习算法要求输入被表示为固定长度的特征向量。当涉及到文本时,词袋模型是最常见的表示之一。尽管非常流行,词袋模型有两个主要缺点:它丢失了关于单词顺序的信息,也忽略了单词的语义。例如,在词袋中,强大、强大和巴黎之间的距离相等(但根据语义,显然强大和强大之间的距离应该更近)。

因此,在本文中,作者提出了一种用于学习句子和文本文档的向量表示的无监督算法,该算法使用密集的向量来表示每个文档,并且经过训练,向量可以预测文档中的单词,它的构建使得本文的算法能够克服单词袋模型的缺点,实验结果表明,本文的技术优于单词袋模型以及其他用于文本表示的技术。最后,本文在几个文本分类和情感分析任务上获得了SOTA效果。

短语树库(图44)

面向文本分类的字符级卷积网络[8]

本文提出了通过字符级卷积网络(ConvNets)进行文本分类的实证研究,本文构建了几个大数据集,证明字符级卷积网络可以实现SOTA结果或获得竞争结果,可以与传统模型(如单词袋、n-gram及其TFIDF变体)和深度学习模型(如基于单词的ConvNets和RNN)进行比较。

短语树库(图48)

基于树结构长短期记忆网络的改进语义表示[9]

由于其强大的序列长期依赖保存能力,具有更复杂计算单元的长短期记忆网络(LSTM)在各种序列建模任务中取得了优异的效果,然而现有研究探索的唯一底层LSTM结构是线性链,由于自然语言具有句法性质,因此有可能将单词与短语自然地结合起来。

本文提出了Tree-LSTM,它是LSTM在树拓扑网络结构上的扩展,Tree-LSTM在以下两个任务上表现优于所有现有的模型和强大的LSTM基准方法:预测两个句子的语义相关性(SemEval 2014,任务1)和情感分类(Stanford情感树库)。

短语树库(图52)

面向文本分类的深度无序组合竞争对手句法方法[10]

许多现有的用于自然语言处理任务的深度学习模型侧重于学习不同输入的语义合成,但这需要大量昂贵的计算。本文提出了一个简单的深度神经网络,它可以在情感分析和基于事实的问题解决任务中与此类模型相媲美甚至超越,并且只需要很少的训练事件。尽管本文中的模型对语法不敏感,但通过深化网络并使用一种新型的Dropout变量,该模型比以前的词袋模型显示出显著的改进。

此外,在语法差异较大的数据集上,本文模型的性能优于句法模型,实验表明本文模型与语法感知模型存在相似的误差,表明在本文考虑的任务中,非线性变换输入比自定义网络合并词序和语法更重要。

短语树库(图56)

用于文本分类的递归卷积神经网络[11]

文本分类是许多NLP应用中的一项基本任务。传统的文本分类器通常依赖于许多手动设计的特征工程,如字典、知识库和特殊的树核。与传统方法相比,本文引入了一种圆形卷积神经网络用于文本分类,无需手动设计特征或方法。

在本文的模型中,在学习单词表示时,本文应用递归结构尽可能地捕捉上下文信息,这比传统的基于窗口的神经网络带来的噪声更小;本文还采用了最大池化层,可以自动判断哪些单词在文本分类中起关键作用,以捕捉文本中的关键成分。

本文在四个常用的数据集上进行了实验,实验结果表明,本文提出的模型在多个数据集上优于最新的方法,尤其是在文档级数据集上。

机器阅读的长短期记忆网络[12]

在本文中,作者解决了在处理结构化输入时如何更好地呈现序列网络的问题。本文提出了一种机器阅读模拟器,它可以从左到右递增地处理文本,并通过记忆和注意力执行浅层推理。阅读器使用存储网络代替单个存储单元来扩展LSTM结构。这可以在神经注意力循环计算时启用自适应内存使用,从而提供了一种削弱令牌之间关系的方法。该系统最初设计用于处理单个序列,但本文还将演示如何将其与编码器-解码器架构集成。关于语言建模、情感分析和自然语言推理任务的实验表明,本文中的模型可与当前的SOTA相媲美,甚至优于当前的SOTA。

短语树库(图64)

基于多任务学习的文本分类递归神经网络[13]

基于神经网络的方法在各种自然语言处理任务中取得了长足的进步,然而,在以前的大多数工作中,模型训练都是基于有监督的单任务目标,这些目标通常受到训练数据不足的困扰,在本文中,作者使用多任务学习框架一起学习多个相关任务(相对于多个任务的训练数据可以共享)。

本文提出了三种不同的基于递归神经网络的信息共享机制,对特定任务和共享层的文本进行建模,整个网络对这些任务进行联合训练,在四个基准文本分类任务上的实验表明,模型在一个任务下的性能可以借助其他任务得到提高。

短语树库(图68)

面向文档分类的分层注意力网络[14]

本文提出了一种用于文档分类的层次化注意力网络,该模型具有两个鲜明的特点:(1)它具有层次化的模型结构,可以反映相应的层次化文档结构;(2)它在单词和句子层面应用了两个层次的注意力机制,从而在构建文档表示时可以区别对待或多或少重要的内容。

在六个大型文本分类任务上进行的实验表明,本文提出的分层架构在很大程度上优于以往的方法。此外,注意力层的可视化表明,该模型定性地选择了富含主要信息的单词和句子。

短语树库(图72)

面向方面情绪分析的记忆递归注意力网络[15]

本文提出了一种基于神经网络的新框架来识别评论中观点目标的情绪,该框架采用多注意力机制来捕捉相距较远的情绪特征,因此对无关信息更具鲁棒性,将多注意力的结果与递归神经网络(RNN)非线性结合,从而增强了模型在处理更多并发情况时的表达能力。加权记忆机制不仅避免了工作量大的特征工程工作,而且为句子的不同观点目标提供了相应的记忆特征。

在四个数据集上的实验验证了该模型的优势:两个来自SemEval2014,其中包含餐馆和笔记本电脑等评论信息;一个Twitter数据集,用于测试其对社交媒体数据的效果;和一个中文新闻评论数据集,用于测试其语言敏感性。实验结果表明,本文的模型在不同类型的数据上总是优于SOTA方法。

短语树库(图77)

面向方面级情感分类的交互式注意力网络[16]

方面级情感分类旨在识别特定目标在其上下文中的情感极性,以前的方法已经意识到情感目标在情感分类中的重要性,并开发了各种方法,目的是通过生成目标特定的表示来精确地建模上下文,但这些研究一直忽略了目标的个体建模。

在本文中,作者认为目标和上下文都应该被特殊对待,需要通过交互式学习学习自己的特征表示。因此,作者提出交互式注意力网络(IAN)以交互式的方式学习上下文和目标中的注意力信息,并分别生成目标和上下文的特征表示。通过这种设计,IAN模型可以很好地表示目标及其搭配上下文,有助于情感分类。在SemEval 2014数据集上的实验结果证明了本文模型的有效性。

短语树库(图81)

用于文本分类的深度金字塔卷积神经网络[17]

本文提出了一种用于文本分类的低复杂度词级深度卷积神经网络(CNN)架构,可以有效地对文本中的远程关联进行建模。在以前的研究中,已经有多种复杂的深度神经网络用于该任务,当然前提是可以获得相对大量的训练数据。但是,随着网络的深入,相关的计算复杂度也会增加,这对网络的实际应用提出了严峻的挑战。

此外,最近的研究表明,即使在设置大量训练数据时,较浅的单词级CNN也比字符级CNN这样的深度网络更准确、速度更快。受这些发现的启发,本文仔细研究了单词级CNN的深化以捕获文本的整体表示,并找到了一种简单的网络架构,在这种架构下,通过增加网络深度可以获得最佳精度,而不会大大增加计算成本。相应的模型称为深金字塔CNN(金字塔-CNN),在情感分类和主题分类任务的六个基准数据集上,本文提出的具有15个权重层的模型优于以前的SOTA模型。

短语树库(图85)

高效文本分类的技巧包[18]

本文探索了一种简单有效的文本分类基准,实验表明,本文的快速文本分类器faText在准确率方面可以与深度学习分类器相媲美,同时训练和预测速度快了许多个数量级,可以在不到十分钟的时间内使用标准多核CPU在超过十亿字的数据集上训练faText,并在一分钟内分类属于312K类别的50万个句子。

短语树库(图88)

本文参考资料

- END -

如果喜欢,请点赞或关注我的交流。

本文来自网络,不代表语录网立场,转载请注明出处:https://www.chinansn.com/article-1-56953-0.html