五一七教育网
您的当前位置:首页基于卷积神经网络的自适应权重multi-gram语句建模系统

基于卷积神经网络的自适应权重multi-gram语句建模系统

来源:五一七教育网
第44卷第1期 计算机科学 2017年1月 COMPUTER SCIENCE Vo1.44 No.1 Jan.2017 基于卷积神经网络的自适应权 重mul重 multi gram语句建模系统 -g:1=旨,日J娌俣糸z允 张春云 秦鹏达 尹义龙。 (山东财经大学计算机科学与技术学院 济南250014) (北京邮电大学信息与通信工程学院 北京100876)。 (山东大学计算机科学与技术学院 济南25O101)。 摘要如今信息量呈爆炸式增长,自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖 昂贵的人工标注特征和语言分析工具的语法信息,导致预处理中语法信息的错误传递到系统训练和预测过程中。因 此,深度学习的应用受到了学者们的关注。因为它能实现端对端预测并尽可能少地依赖外部信息。自然语言处理领 域流行的深度学习框架为了更好地获取句子信息,采用multi-gram策略。但不同任务和不同数据集的信息分布状况 不尽相同,而且这种策略并没有考虑到不同n-gram的重要性分布。针对该问题,提出了一种基于深度学习的自适应 学习multi-gram权重的策略,从而根据各n-gram特征的贡献为其分配相应的权重;并且还提出了一种新的multi- gram特征向量结合方法,大大降低了系统复杂度。将该模型应用到电影评论正负倾向判断和关系分类两种分类任务 中,实验结果证明采用的自适应multi-gram权重策略能够大大改善模型的分类效果。 关键词 深度学习,自然语言处理,自适应权重,multi-gram 中图法分类号TP391.1 文献标识码A DOI 10.11896/j.iss.1002—137)n(.2017.01.011 Self-adaptation Multi-gram Weight Learning Strategy for Sentence Representation Based on Convolutional Neural Network ZHANG Chun-yun QIN Peng-da。 YIN Yi-longa (school of Computer Science and Technology,Shandong University of Finance and Economics,Jinan 250014,China) (School of Information and Communication Engineering.Beijing University of Posts and Telecommunications,Beijing 100876,China) (School of omputer SciCence and Technology,Shandong University,Jinan 250101,China)。 Abstract Nowadays,with the explosive growth of the information,nature language processing has been paid more at— tention.The traditional nature language processing systems are overly dependent on the expensive handcrafted features annotated by experts and synatx information of language analysis tools.Deep neural network can achieve end-to-end learning even without costly features.In order to extract more information from input sentences,most neural networks of nature language processing combines with multi-gram strategy.However,due to various tasks or various datasets,the information distribution of diverse n-gram is different.With this consideration,this paper proposed a self-adaptation weight learning strategy of multi-gram,which generates the importance order of multi-gram by the training procedure of neural network. ̄ ̄Ioreover,a novel combination method of multi-gram feature vectors was exploited.Experimental re— sults show that such method can not only reduce the complexity of network,but also can improve performances of posi— tive and negative tendency classification of movie criticism,and relation classification. Keywords Deep learning,Natural language processing,Self-adaptation,Multi-gram 1 引言 早期的自然语言处理(Nature Language Processing)基本 将机器学习的方法有效地与语言学知识进行结合,完成自然 语言方面的工作¨】]。这也就导致了其本质上还是一定程度依 赖于语言学知识的准确性和完备性。当前有很多比较成熟的 自然语言标注系统,例如stanford parser”,其中包括词性标 注(part of speech)、实体识别(Named Entity Recognizer)、依 存分析(ependency Dparser)等,虽然其准确率已经达到了相 上都是将基于语言学专家制定的一些语言学规则和模板进行 匹配完成的。这样的方法在当时已经取得了突破性的进展。 但其局限性也比较明显,当有新的领域出现时,就需要不断地 完善,其成本非常昂贵。随着统计学理论的发展,学者们开始 对较高的程度,但是仍存在一定程度上的错误,这种错误传递 http://nip.stanford.edu/software/lex-parser.shtml 到稿日期:2015—08—01返修日期:2015一10一ii 本文受国家自然科学基金重点项目:基于机器学习的多模态医学影像信息处理与分析 (U1201258),山东省自然科学杰出青年基金项目:基于机器学习的生物特征识别研究(JQ201316)资助。 张春云(1986--),女,博士,讲师,主要研究方向为信息抽取、机器学习,E-mail:zhangchunyun1009@126.com;秦鹏达(1991一),男,博士生, 主要研究方向为信息抽取、自然语言处理,E-mail:qinpengda0406@163.com;尹义龙(1972一),男,博士,教授,主要研究方向为机器学习、生物 信息识别,E-mail:ylyin@sdu.edu.cn。 第l期 张春云.等:基于卷积神经网络的自适应权重multi—gram语句建模系统 6l 到随后的系统中会被放大.并制约着系统的效果。 此,学者 这个句子向量的维度决定着全连接层的权值矩阵大小, 矩 阵的大小义决定着需要学习的参数个数。参数越多,网络拟 合能力越好,fLl过拟合的问题也会越严重一 】, 且训练时间 会增加,得到最优参数集的难度也会变大。冈此,在不影响深 度学习系统表脱的前提下,减少参数的数量是个明智的选择。 基丁I 皿的阐述.针对自然语言处理领域的卷积神经网 络框架.本史提…r一种参数更少但效果更好的自适应学jJ 们开始思考,是否町以不利JH这些标注T具,而直接从文本中 学习出有价值的特征.直接实现端对端(end—to—end)!I的学 习。 深度学习 的兴起使这种想法的实践成为了可能。}{_{于 深度学习复杂的多层结构,使其具有优异的拟合能力,最卞玎在 计算机视觉(Computer Vision) 和语音识别(Speech Recog nition) 领域均取得了显著的效果。随后,学者们开始将其 引入到自然语言处理领域,例如关系抽取(Relation Extrac— tion)一 、信息检索(Information Retrieva1)、问答系统(Ques— muhi—gram杖量的策略。在并行的n gram输 特征向量表 示之后.给每一种n—gram特征向量定义一个权重,并将这 向量在权重的作刚下进行加和,得到一个与每个n—gram特征 向量维度卡H 的向驻作为multi—gram策略下的句子向量。 这种改进使得最终,l=成的句子向量的维度并不随n—graml ̄,'J个 tion-answering) 等领域,而且取得 不错的进展。 目前.在自然语言处理领域常J{j的深度学习框架主要包 括卷积神经网络(Conxrolutional Neural Network) 、循环神 经网络(Recurrent Neural Network)以及LSTM(I.ong Short— Term Memory)。循环神经网络的层级结构虽然并不复杂, 但是由于其层数较深。【太l此优化问题仍是一个难题。 BP r 是当前学术界比较认可的一种循环神经网络的误差 传递策略.然而其仍存在传播距离短和训练不足的问题.这些 弊端也了循环神经网络的应 。I.STM是一种循环神经 网络的改进,其缓解了优化难题,但网络结构却十分复杂,参 数较多,训练相对较困难。相比之下.卷积神经网络的网络结 构更加清晰 其也被称作当前人 r智能领域界最成功的一种 深度学习框架,并且它给计算机视觉领域的发展带来了质的 飞跃。所以.近两年.关于利用卷积神经网络做自然语言处理  ̄"J-E作涌现 来。并且也有很多科技公司的研究院(华为诺亚 方舟研究院等)将其列为重点研究对象并取得了大量的成 果 。因此.本文以卷积神经网络为研究对象,针对其当前的 应用现状进行改进和优化。 卷积神经网络在自然语青‘处理方面的早期的、比较经典 的丁作呈现在Collobert的论文 川【{J。他结合自然语言的特 点,将计算机视觉中的卷积神经网络的思想移植到文本处理 中,并在词性标注、命名实体识别等任务中均取得了显著的效 果。随后便涌现H{很多利_L}{卷积神经网络做不同的F1然语言 处理任务的T作。为了结合更多的信息,文献[11]结合 multi—channel和multi—gram的思想使得卷积神经网络结合了 更丰富的信息.并在多项句子分类任务的效果上得到丁提高。 文献[12]认为max-pooling可能会丢失一些重要信息,于是 利用动态multi—pooling的策略进行优化.并在事件抽取仟务 j:验证了效果。丈献[13]将卷积神经网络利用在关系分类任 务上,实现了将人丁标注的语言学信息与神经网络自动抽取 的信息相结合。文献[6]在文献[13]T作的基础上.结合 multi—gram的策略,f}|色地完成丁关系抽取任务。文献[14] 总结了当前自然语言处理领域比较流行的卷积神经网络框 架,分析了multi gram(该文中称作region)对系统表现的影 响,并认为multi—gram策略是提高卷积神经网络处理自然语 言任务效果的有效途径。 当前基于multi—gram策略的卷积神经网络系统均是利 用multi—window予以实现。有几种n—gram,则有几种不同长 度的滑动窗口(window).它们并行地进行卷积和pooling操 作.运算出不同n-gram下的句子特征向量的表示。然后,在 输入最后的全连接层(full—connected layer)前,将这些特征向 量首尾相连组成一个较长的特征向量表示,称其为句子向量。 http:,www.csdn.net article 2015 12 16 2826498 数 改变.mjH.减少1 全连接层的参数个数.提高 整个深度 学习框架的学 训练速度,并且在一定程度上降低了过拟合 的风险。通过 电影评论正负倾向分类和关系分类两个任务 上的一系列实验发现,在自适应学习muhi—gran1权重的策略 帮助下,系统V,j ̄J EI练速度和分类效果都得到了明显提升。这 说明卷积神经网络的自动学习能力得到了优化,从而证明r 所提方法的行效性。 2卷积神经网络结构 像和文本 组成成分和表示彤式方面存在的差别.决 定着其卷积神经网络结构也存在差异。图像是由像素点构 成,ln 义本则是『}{涮组成。相对而青,像素点是一种低级的表 示.I 词 本身就地一种较高级的抽象表示.其携带的信息最 远大于像素点。 此,利用词语为基本单元作为输人的卷积 神经网络结构的深度较图像识别得要浅层一些。本文阐述的 卷积神经 络结构总体上南词向量映射层、卷积层、max-poo— ling层、全连接层以及最后的softmax组成,如 l所示。 输入的句子An odd,haphazard.and inconsequcntial romantic comedy … 卷积 .[ max—p。。-jng { 嘲豳~鳓 全连接层+s。nm“-r 鲁 ● 围 J Soflmax 【矧I卷积神经网络结构 2.1词向量映射层 文本的甚小绀成单元是词语。词语是一种较高级的抽象 表示, 本身包含 宙的信息。作为卷积神经网络的输入,如 何农爪洲 能使 包含更好的语义和语法信息是非常重要 的。词向埘(word embedding)川是神经网络在自然语言领 域应朋的成功 :物。词向量是利川神经网络的结构基于大规 模语料集的无监督学习得到的词语的低维表示.并且能很好 地表爪词语问的语义相似性和语法特征。词向量的这种优秀 特性决定r其被广泛应用于自然语言深度学习框架的输入的 62 计算机科学 2.3 Max-pooling 2017焦 可行性和实效性。本文以句子为单位进行建模,每个句子可 表示为由N个词语 组成的序列{ , 。,…, ,…,z }。 从式(4)可以看出,卷积操作生成的特征矩阵Q的规模 依赖于句子的长度N,但句子的长度是变化的。一个规模不 统一的特征矩阵是没有办法训练网络参数的,因此max-poo- ling起到了统一特征表示规格的作用,如图1所示。max- z 在整个词表中的one-hot表示向量h ∈{0,1}[yl,其中1VI 表示词表的大小。利用文献E16-1提出的方法生成词向量矩阵 V ∈ 拟IYl。如图1所示,输入的句子中第 个词的词向量 可表示为: 一 ・pooling操作可以表示为: (1) h P —max{qo},V J一1,…,(N—Z+1) J (6) 其中, ∈ ,d代表词向量的维度。由于词向量是由大规 模数据集无监督学习得到的,因此其语义相对于所做的任务 针对性不强。常用的策略是将词向量也作为系统的参数进行 调整,实践证明这样的处理会得到更好的实验效果。 2.2卷积层 一特征矩阵Q经过max-pooling操作之后转换成了长度统 的向量pE R/。不仅如此,max-pooling操作也可以理解 为抽取在每种特征映射下表现最突出的n-gram,这与传统的 方法思路相似,而且降低了信息的冗余性,对效果的提升也起 到重要的作用。 如图1所示,本文采用的是multi-gram策略,每种n-gralTl 生成一种特征表示向量。设一共有K种n-gram,则最终生成 的句子向量表示 为: 利用卷积神经网络做自然语言处理任务最重要的优势不 仅在于其不依赖于人工标注特征和语言分析工具的语法信 息,而且其可以通过网络训练的过程自动抽取需要的特征。 自动抽取特征的工作主要由卷积层的卷积操作完成。图像是 二维的输入,而文本则可以理解为一种一维的输入。那么卷 S=p。① o…④ 2.4全连接层和softmax (7) 积操作区域的概念需要重新定义。当前最被认可也最成功的 语言模型是n-gram,因此本文选择n-gram作为卷积的基本 单元。为了便于理解,下面的描述均以一种窗口长度 (n-gram)为例进行阐述,如图1所示,从卷积层开始,并行的 两列代表不同的窗口长度。窗口的长度定义为Z,Z即代表 最后的全连接层和softmax起到的是分类作用,由句子向 量S经过矩阵w ∈R脒 的线性映射成 类别向量offR ,其 中L代表任务所需要分类的类别总数。 0一 ・S (8) 生成的类别向量O中的每一维的值代表输入的句子在这 n-gram中的 。每次卷积操作的输入则为连续的£个词的词 向量组成的n-gram向量Cj。 个类别上的信心指数。最后,通过softmax决策出概率最大 的类。 c,一 0 +1①…① +卜l (2) 其中,o表示连接操作(concatenate),即将窗口内的词向量首 尾相接组成一个更长的n-gram向量表示cj∈R 。为了训练 p(il , )一# ∑e ̄k =l (9) 其中,0代表深度网络需要学习的参数集合,即 一Ewe,Wm, VI,o]。 平衡,给输入句子中每个词语相同的训练次数,一般在输入句 子的前后各加Z一1个d维零向量作为填充向量,如图1所 示。设N为包含填充向量的句子长度,则输入句子的n-gram 矩阵表示为C∈R 。 3自适应权重的multi-gram策略 在自然语言处理领域,n-gram是目前公认的对自然语言 C—Ec,,C2,…,cj,…,CN一件1] 矩阵乘积运算。定义卷积矩阵为 (3) ∈ ,× 。矩阵的每一 最合理的近似。第1节所述的卷积神经网络结合多种n-gram 卷积操作的本质可以理解为权重矩阵与n-gram矩阵的 行代表一种特征映射层(feature map),所以厂代表特征映射 进行特征提取,有利于抽取到更有价值的信息。那么,抽取到 不同n-gram的向量表示后,如何将这些向量结合才能更好地 利用这些信息则是一个需要考虑的问题。1.3节中使用的是 连接(concatenate)的方法,将多种的n-gram向量首尾相连成 一层的个数。参数,是人工设定的,/过小,代表提取的特征较 少,可能会导致欠拟合;而厂过大,则可能会造成提取的特征 之间的冗余性大,而且可能导致过拟合。所以合适的.厂值的 选取对系统效果的意义很重要。卷积操作”可以表示为: Q—g(Wm・C) (4) 个长的句子向量。这种方法虽然保留了不同n-gram的信 于n-gram的种类数。句子向量越长,全连接层需要训练的参 息,但是同时也存在着冗余性,而且生成的句子向量长度取决 数也就越多,造成过拟合现象的可能性也就越大。因此,基于 对这些问题的思考,本文提出了自适应权重的multi—gram策 略。 3.1基于自适应权重的I卜鲜帅向量加和 其中,Q∈喂lr× 州 ,g(・)代表非线性激活函数。非线性激 活函数的使用会增强网络的拟合能力,常用的有Tanh和Re— L ”]。ReLU函数是当前比较公认的适合深度学习的非线 性激活函数,它具有强非线性和负激活值无差异性的特点,这 图1描述了本文提出的自适应权重的multi—gram策略。 种特性能让深度网络的稀疏性变大,从而降低冗余性。ReLU 可以表示为: 该图使用了3-gram和4-gram做特征提取。这两种n-gram 分别生成了两种向量表示 和P 。如图1所示,本文使用 的策略是将P。和P 进行向量相加运算。由于P。和P 的向 量维度均与卷积层的特征映射的个数相同,因此满足了向量 相加的前提条件。但由于相加运算可能会在一定程度上造成 R )一』 ,z≥。 l0, <O (5) 从ReLU的表达式也可以看出其求导计算也非常简单。 ”本文的省略了变量偏置b,在该卷积操作和后面的全连接层的线性变换均可以加偏置项,偏置项的引入可以加快神经网络的收敛速度。 。 图1中并没有给出这种表示的生成过程,详细图解可参考文献El4]。 。 此处也可以增加非线性激活函数变成非线性映射。 第1期 张春云,等:基于卷积神经网络的自适应权重multi—gram语句建模系统 对信息进行合理的 (10) 63 信息的丢失,因此本文引入权重Wl和 分配,则句子向量可以表示为: S=vaP。+ P 爆炸(blow-up of weight)[ 的现象。因此,合适的r值有利 于得到更好的实验结果。由图2可以看出,当r=3时,准确 率达到最高。  l {对于K种n-gram向量的情况,定义K个权重W一[ , 议.】2,…,WK-1。 l ▲ —一..一  Vll’/{\  l\ l} } 、 句子向量的维度降低,从而也会减小V 的规模。不仅 * 嚣 i l 减少了网络的参数个数,缩短网络的训练时间,而且有效地缓 解了过拟合的可能性。 弹 j l l } l l l l l l 不同的任务和不同的数据集可能都会导致权重值分配的 不同。所以在权重值的选取方面,采用由深度学习网络结构 自适应学习的策略。权重值由损失函数进行梯度回溯学习得 图2准确率随7值的变化趋势 到,因此现在的参数集合为 一[ , , , 。 3.2正则化操作 深度学习由于其突出的拟合能力,也给其带来了过拟合 问题。如果深度网络的参数对于训练数据过度拟合,会让神 经网络记住一些训练数据集特有的特征,这样会影响网络的 预测效果。因此,正则化的应用也是必不可少[183的。正则化 的核心思想是参数值的量级,使其在一定范围内变化。 所以,为了避免过拟合的发生,对定义的权重W也进行了正 则化操作。 假设有K种n-gram向量{P。, ,…,P },则需要K个 权重构成的权重向量叫一[ ,Wz,…,WK],因此定义正则化 操作如下: l lW l l≤ (11) 其中,r是限定值,其值的大小由用户决定。可以将这个表达 式理解为将权重向量W限定在一个半径为 的超球体内部。 4实验 4.1实验数据 本文分别采用电影评论正负倾向分类和关系分类两种语 句建模的任务验证自适应权重的multi-gram策略的有效性。 所使用的数据集MR英文电影评论数据集[19]以句子为 基本单位,该数据集包括5331句正倾向评论和5331句负倾 向评论,所以类别数为2,在图1中也有体现。整个数据集 中,评论的最大句长为56个词,平均句长为20个词。本次实 验分别从正负倾向评论集合中各抽取4317句作为训练集, 480句作为验证集,剩下的534句作为测试集。 关系分类任务的数据集为SemEval-2010 Task 8l2 数据 集。该数据集以句子为基本单位,包含9个明确的关系类别 和1个“Other”类,因此类别数为1O。整个数据集包含10717 个句子,每个类别的样本数比较平均,数据集中最大句长为 100个词。本次取前7000句作为训练集,1000句作为验证 集,2717句作为测试集。 4.2参数设置 2.2节阐述了针对本文提出的自适应权重的multi-gram 策略而制定的正则化约束条件。其中参数y为超参数,需要 通过一系列实验来确定。图2给出了实验结果准确率随r的 变化趋势。可以看出,随着r值的增大,准确率整体呈现先上 升后下降的趋势。这说明,如果r值过小,可能造成权重值过 小,这样不利于最后分类的决策;相反,如果r值过大,说明对 权值量级的小,在学习率较大的情况下可能会造成权值 )https://code.google.com/p/word2vec/ 当不使用权重向量叫时,可以将W理解为全1向量。对 于本文使用{3,4,5}3种 ̄gram做特征抽取的情况,l lW l lz一 √3,即r一3时,可以得到最好的实验结果。 另外,在词向量映射层,本文利用Mikolov的word2vec” 工具,基于2.5G的wiki语料训练得到W ,词向量的维度设定 为300。参照文献El1]的工作,选取的n-gram集合为{3,4,5}。 卷积层的特征映射个数为100,即 的行数为i00。这个值 的选取是根据一系列实验确定的,其值过小会导致欠拟合,其 值多大会导致过拟合。迭代次数为2O。本文所用的卷积神 经网络的非线性激活函数g(・)为ReLU,并且结合Adadelta 和dropout来提高实验效果。参数学习方面选择批量随机梯 度下降算法,批度的选择为5O。 4.3实验结果及讨论 本节通过在数据集MR和SemEval-2010 Task 8上的实 验,给出了自适应权重的multi—gram策略在电影评论倾向分 类任务和关系分类任务上的实验效果和分析。 表l给出了电影评论正负倾向分类的准确率对比结果和 本文提出的自适应权重的multi-gram策略学习得到的权值 分配。其中“向量连接”表示1.3节中提到的原始的multi- gram处理方法,“向量相加”为本文提出的方法。对于向量相 加的方法,给出两组实验。一组不加权重;另一组加权重,并 在卷积神经网络的训练过程中进行自适应调整。准确率分别 在表1的第三行和第四行中给出。总体来说,对比结果显示, 本文提出的自适应权重的multi-gram策略对整个系统的效 果有提升;并且,通过有无权重的对比实验可以看出,自适应 权重的使用对准确率的提高是非常明显的。值得注意的是, 通过3种n-gram的权值分配结果可以发现,4-gram的权值较 其他两种n-gram的权值要大,可以理解为4一gram的信息对 该任务的贡献是最大的。这个显现具有非常重要的实际意 义,因为不同的任务,甚至不同的数据集,各异的n-gram提供 的信息量的比例都会是不同的,那么通过系统的参数学习过程 得到最适合的权重分配对实验效果的提升是非常有意义的。 表1 电影评论正负倾向分类准确率及权值分配结合方法 表2的形式与表1相同,给出了自适应权重的multi- gram策略在关系分类任务上的对比结果。可以看出,在无权 重项情况下,本文提出的基于向量相加的n-gram特征向量结 64 计算机科学 Pattern Recognition(ICPR).2012. 2017正 合方法已经带来了F1值的提高;并且,增加自适应权重向量 以后,关系分类的F1值有了进一步的提升。因此,结合电影 评论正负倾向分类任务的结果,可以证明本文提出的自适应 权重的multi—gram策略对卷积神经网络在语句建模方面的 表现具有明显的改进和优化。不同的是,关系分类的n-gram 权值分配中,5-gram的权重最大,可以认为5-gram对SeinE— [3]LECUN Y,BENGIO Y,HINTON G.Deep leaming[J].Nature, 2O15,521(7553):436—444. [4]HINTON G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504— 507. val-2010 Task 8数据集的关系分类任务的贡献最大。同时, 进一步证明了自适应的multi—gram策略会自动找到更适合 [5]HINTON G,et a1.Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groups 的权重分配方案。 表2关系分类任务F1值及权值分配 表3给出了正负倾向各3个代表性的4-gram样例。在 预测阶段,通过训练好的卷积神经网络,由输出回溯网络找到 这些4-gram。根据I.3节介绍的max-pooling,取在100个特 征映射上被max操作取出次数最多且非零的位置作为对输 入的电影评论倾向激活最大的位置,然后找出这个位置代表 的4-gram。表3的结果直观地表明了卷积神经网络在做句 子分类任务方面是非常有效的。 表3代表性的4-gram样例 类别4-gram good fun good action 正倾向 an excellent romp that make it more interesting i did notlaugh 负倾向 it is hardly watchable but it grows tedious 结束语基于自然语言处理领域的卷积神经网络结合多 种n-gram进行特征提取的特点,本文提出了一种基于自适应 权重的multi-gram策略。这种策略不仅减少了网络结构的 参数个数,降低了过拟合的风险,而且通过网络自主学习出不 同n-gram的权重分配,自动找出对于任务具有最大的激活能 力的n-gram,并赋予其较大的权重。实验结果也表明,本文 提出的改进方法对电影评论正负倾向性分类和关系分类的分 类效果有明显的提升。虽然在当前的自然语言处理领域,卷 积神经网络取得了非常显著的效果,但其也存在着一些不足。 由于句子的长度是不统一的,因此max-pooling在句子长度 这个维度上进行操作时会导致生成的句子向量丢失了语序信 息。这也是卷积神经网络相对于循环神经网络和LsTM的 劣势。而且,目前自然语言领域的深度学习方法多数情况下 仅被作为工具使用,但语言是一种相对比较高级的、具有结构 层次的表示,因此如何将语言的先验知识更好地融人到深度 学习的网络学习中是一个非常值得思考的问题,也是我们下 一步努力的方向。 参考文献 [1] GRISHMAN R.Information extraction:Capabilities and chal— lenges[Z].Lecture Notes of 2012 International Winter School in Language and Speech Technologies,Roviral Virgili,2012. -I2] WANG T。et a1.End-to-end text recognition with convolutional neural networks EC] }2012 21st International Conference on _J].Signal Processing Magazine,IEEE,2012,29(6):82—97. [6] NGUYEN T H,GRISHMAN R.Relation Extraction:Perspec- tive from Convolutional Neural Networks[C]f Workshop on Vector Modeling for NLP.2015:39—48. [71 IYYER M,et a1.A neural network for factoid question answer— ing over paragraphs[C] Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP). 2014. [8]LECUN Y,BENGIO Y.Convolutional networks for images,S_ peech,and time series[M]} The Handbook of Brain Theory and Neural Networks.MIT Press,1995. [9]MOZER M e A Focused Backpropagation Algorithm for Tem— poral Patern Recognition[M].Hillsdale,1995:137—169. [1O]COLLOBERT R,et a1.Natural language processing(almost) from scratch[J].The Journal of Machine Learning Research, 2011(12):2493—2537. Jill KIM Y.Convolutional neural networks for sentence classifica— tion[J].arXiv preprint arXiv:1408.5882,2014. [12]CHEN Y,et a1.Event Extraction via Dynamic Multi—Pooling Convolutional Neural Networks[C] }Proceedings of the 53rd Annual Meeting of the Association for Computational Linguis— tics and the 7th International Joint Conference on Natural Lan— guage Processing.2015. [13]ZENG D,et a1.Relation classification via convolutional deep neural network[C] Proceedings of COLING.2014. -[14]ZHANG Y,Wallace B A Sensitivity Analysis of(and Practi— tioners’Guide to)Convolutional Neural Networks for Sentence class.fication[J].arXiv preprint arXiv:1510.03820,2015. [15]HINTON G E,et a1.Improving neural networks by preventing o-adaptation of feature detectors[J].arXiv preprint arXiv:1207. 0580,2012. [163 MIKOLOV T,YIH W T。ZWEIG G.Linguistic Regularities in oCntinuous Space word Representati0ns[c]∥HLT-NAACL. 2O13. [17]GLOROT X,BORDES A,BENGIO Y.Deep sparse rectifier neural networks[C] f International Conference on Artificial In— telligence and Statistics.2011. [18]ZEILER M n ADADELTA:An adaptive learning rate method 口].arXiv preprint arXiv:1212.5701,2012. [19]PANG B,LEE L.Seeing stars:Exploiting class relationships for sentiment categorization with respect to rating scales[C]//Pro— ceedings of the 43rd Annual Meeting on Association for Compu— tational Linguistics.Association for Computational Linguistics, 2005. [2O]HENDRICKX I,et a1.Semeval一2010 task 8:Multi-way classifi— cation of semantic relations between pairs of nominals[C]} Pro— ceedings of the Workshop on Semantic Evaluations:Recent A— chievements and Future Directions.Association for Computa— tional Linguistics,2009. 

因篇幅问题不能全部显示,请点此查看更多更全内容