基于卷积神经网络的自适应权重multi-gram语句建模系统

来源：五一七教育网

第４４卷第１期　计算机科学　２０１７年１月　ＣＯＭＰＵＴＥＲ　ＳＣＩＥＮＣＥ　Ｖｏ１．４４　Ｎｏ．１　Ｊａｎ．２０１７　基于卷积神经网络的自适应权　重ｍｕｌ重　ｍｕｌｔｉ　ｇｒａｍ语句建模系统　－ｇ：１＝旨，日Ｊ娌俣糸ｚ允　张春云　秦鹏达　尹义龙。　（山东财经大学计算机科学与技术学院　济南２５００１４）　（北京邮电大学信息与通信工程学院　北京１００８７６）。　（山东大学计算机科学与技术学院　济南２５Ｏ１０１）。　摘要如今信息量呈爆炸式增长，自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖　昂贵的人工标注特征和语言分析工具的语法信息，导致预处理中语法信息的错误传递到系统训练和预测过程中。因　此，深度学习的应用受到了学者们的关注。因为它能实现端对端预测并尽可能少地依赖外部信息。自然语言处理领　域流行的深度学习框架为了更好地获取句子信息，采用ｍｕｌｔｉ－ｇｒａｍ策略。但不同任务和不同数据集的信息分布状况　不尽相同，而且这种策略并没有考虑到不同ｎ－ｇｒａｍ的重要性分布。针对该问题，提出了一种基于深度学习的自适应　学习ｍｕｌｔｉ－ｇｒａｍ权重的策略，从而根据各ｎ－ｇｒａｍ特征的贡献为其分配相应的权重；并且还提出了一种新的ｍｕｌｔｉ－　ｇｒａｍ特征向量结合方法，大大降低了系统复杂度。将该模型应用到电影评论正负倾向判断和关系分类两种分类任务　中，实验结果证明采用的自适应ｍｕｌｔｉ－ｇｒａｍ权重策略能够大大改善模型的分类效果。　关键词　深度学习，自然语言处理，自适应权重，ｍｕｌｔｉ－ｇｒａｍ　中图法分类号ＴＰ３９１．１　文献标识码Ａ　ＤＯＩ　１０．１１８９６／ｊ．ｉｓｓ．１００２—１３７）ｎ（．２０１７．０１．０１１　Ｓｅｌｆ－ａｄａｐｔａｔｉｏｎ　Ｍｕｌｔｉ－ｇｒａｍ　Ｗｅｉｇｈｔ　Ｌｅａｒｎｉｎｇ　Ｓｔｒａｔｅｇｙ　ｆｏｒ　Ｓｅｎｔｅｎｃｅ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　Ｂａｓｅｄ　ｏｎ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ　ＺＨＡＮＧ　Ｃｈｕｎ－ｙｕｎ　ＱＩＮ　Ｐｅｎｇ－ｄａ。　ＹＩＮ　Ｙｉ－ｌｏｎｇａ　（ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｄｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｆｉｎａｎｃｅ　ａｎｄ　Ｅｃｏｎｏｍｉｃｓ，Ｊｉｎａｎ　２５００１４，Ｃｈｉｎａ）　（Ｓｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ．Ｂｅｉｊｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｐｏｓｔｓ　ａｎｄ　Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｂｅｉｊｉｎｇ　１００８７６，Ｃｈｉｎａ）　（Ｓｃｈｏｏｌ　ｏｆ　ｏｍｐｕｔｅｒ　ＳｃｉＣｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｄｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｊｉｎａｎ　２５０１０１，Ｃｈｉｎａ）。　Ａｂｓｔｒａｃｔ　Ｎｏｗａｄａｙｓ，ｗｉｔｈ　ｔｈｅ　ｅｘｐｌｏｓｉｖｅ　ｇｒｏｗｔｈ　ｏｆ　ｔｈｅ　ｉｎｆｏｒｍａｔｉｏｎ，ｎａｔｕｒｅ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　ｈａｓ　ｂｅｅｎ　ｐａｉｄ　ｍｏｒｅ　ａｔ—　ｔｅｎｔｉｏｎ．Ｔｈｅ　ｔｒａｄｉｔｉｏｎａｌ　ｎａｔｕｒｅ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　ｓｙｓｔｅｍｓ　ａｒｅ　ｏｖｅｒｌｙ　ｄｅｐｅｎｄｅｎｔ　ｏｎ　ｔｈｅ　ｅｘｐｅｎｓｉｖｅ　ｈａｎｄｃｒａｆｔｅｄ　ｆｅａｔｕｒｅｓ　ａｎｎｏｔａｔｅｄ　ｂｙ　ｅｘｐｅｒｔｓ　ａｎｄ　ｓｙｎａｔｘ　ｉｎｆｏｒｍａｔｉｏｎ　ｏｆ　ｌａｎｇｕａｇｅ　ａｎａｌｙｓｉｓ　ｔｏｏｌｓ．Ｄｅｅｐ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ　ｃａｎ　ａｃｈｉｅｖｅ　ｅｎｄ－ｔｏ－ｅｎｄ　ｌｅａｒｎｉｎｇ　ｅｖｅｎ　ｗｉｔｈｏｕｔ　ｃｏｓｔｌｙ　ｆｅａｔｕｒｅｓ．Ｉｎ　ｏｒｄｅｒ　ｔｏ　ｅｘｔｒａｃｔ　ｍｏｒｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｆｒｏｍ　ｉｎｐｕｔ　ｓｅｎｔｅｎｃｅｓ，ｍｏｓｔ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｏｆ　ｎａｔｕｒｅ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　ｃｏｍｂｉｎｅｓ　ｗｉｔｈ　ｍｕｌｔｉ－ｇｒａｍ　ｓｔｒａｔｅｇｙ．Ｈｏｗｅｖｅｒ，ｄｕｅ　ｔｏ　ｖａｒｉｏｕｓ　ｔａｓｋｓ　ｏｒ　ｖａｒｉｏｕｓ　ｄａｔａｓｅｔｓ，ｔｈｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｄｉｓｔｒｉｂｕｔｉｏｎ　ｏｆ　ｄｉｖｅｒｓｅ　ｎ－ｇｒａｍ　ｉｓ　ｄｉｆｆｅｒｅｎｔ．Ｗｉｔｈ　ｔｈｉｓ　ｃｏｎｓｉｄｅｒａｔｉｏｎ，ｔｈｉｓ　ｐａｐｅｒ　ｐｒｏｐｏｓｅｄ　ａ　ｓｅｌｆ－ａｄａｐｔａｔｉｏｎ　ｗｅｉｇｈｔ　ｌｅａｒｎｉｎｇ　ｓｔｒａｔｅｇｙ　ｏｆ　ｍｕｌｔｉ－ｇｒａｍ，ｗｈｉｃｈ　ｇｅｎｅｒａｔｅｓ　ｔｈｅ　ｉｍｐｏｒｔａｎｃｅ　ｏｒｄｅｒ　ｏｆ　ｍｕｌｔｉ－ｇｒａｍ　ｂｙ　ｔｈｅ　ｔｒａｉｎｉｎｇ　ｐｒｏｃｅｄｕｒｅ　ｏｆ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ．￣￣Ｉｏｒｅｏｖｅｒ，ａ　ｎｏｖｅｌ　ｃｏｍｂｉｎａｔｉｏｎ　ｍｅｔｈｏｄ　ｏｆ　ｍｕｌｔｉ－ｇｒａｍ　ｆｅａｔｕｒｅ　ｖｅｃｔｏｒｓ　ｗａｓ　ｅｘｐｌｏｉｔｅｄ．Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅ—　ｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｓｕｃｈ　ｍｅｔｈｏｄ　ｃａｎ　ｎｏｔ　ｏｎｌｙ　ｒｅｄｕｃｅ　ｔｈｅ　ｃｏｍｐｌｅｘｉｔｙ　ｏｆ　ｎｅｔｗｏｒｋ，ｂｕｔ　ａｌｓｏ　ｃａｎ　ｉｍｐｒｏｖｅ　ｐｅｒｆｏｒｍａｎｃｅｓ　ｏｆ　ｐｏｓｉ—　ｔｉｖｅ　ａｎｄ　ｎｅｇａｔｉｖｅ　ｔｅｎｄｅｎｃｙ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　ｍｏｖｉｅ　ｃｒｉｔｉｃｉｓｍ，ａｎｄ　ｒｅｌａｔｉｏｎ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ．　Ｋｅｙｗｏｒｄｓ　Ｄｅｅｐ　ｌｅａｒｎｉｎｇ，Ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ，Ｓｅｌｆ－ａｄａｐｔａｔｉｏｎ，Ｍｕｌｔｉ－ｇｒａｍ　１　引言　早期的自然语言处理（Ｎａｔｕｒｅ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ）基本　将机器学习的方法有效地与语言学知识进行结合，完成自然　语言方面的工作¨】］。这也就导致了其本质上还是一定程度依　赖于语言学知识的准确性和完备性。当前有很多比较成熟的　自然语言标注系统，例如ｓｔａｎｆｏｒｄ　ｐａｒｓｅｒ”，其中包括词性标　注（ｐａｒｔ　ｏｆ　ｓｐｅｅｃｈ）、实体识别（Ｎａｍｅｄ　Ｅｎｔｉｔｙ　Ｒｅｃｏｇｎｉｚｅｒ）、依　存分析（ｅｐｅｎｄｅｎｃｙ　Ｄｐａｒｓｅｒ）等，虽然其准确率已经达到了相　上都是将基于语言学专家制定的一些语言学规则和模板进行　匹配完成的。这样的方法在当时已经取得了突破性的进展。　但其局限性也比较明显，当有新的领域出现时，就需要不断地　完善，其成本非常昂贵。随着统计学理论的发展，学者们开始　对较高的程度，但是仍存在一定程度上的错误，这种错误传递　ｈｔｔｐ：／／ｎｉｐ．ｓｔａｎｆｏｒｄ．ｅｄｕ／ｓｏｆｔｗａｒｅ／ｌｅｘ－ｐａｒｓｅｒ．ｓｈｔｍｌ　到稿日期：２０１５—０８—０１返修日期：２０１５一１０一ｉｉ　本文受国家自然科学基金重点项目：基于机器学习的多模态医学影像信息处理与分析　（Ｕ１２０１２５８），山东省自然科学杰出青年基金项目：基于机器学习的生物特征识别研究（ＪＱ２０１３１６）资助。　张春云（１９８６－－），女，博士，讲师，主要研究方向为信息抽取、机器学习，Ｅ－ｍａｉｌ：ｚｈａｎｇｃｈｕｎｙｕｎ１００９＠１２６．ｃｏｍ；秦鹏达（１９９１一），男，博士生，　主要研究方向为信息抽取、自然语言处理，Ｅ－ｍａｉｌ：ｑｉｎｐｅｎｇｄａ０４０６＠１６３．ｃｏｍ；尹义龙（１９７２一），男，博士，教授，主要研究方向为机器学习、生物　信息识别，Ｅ－ｍａｉｌ：ｙｌｙｉｎ＠ｓｄｕ．ｅｄｕ．ｃｎ。　第ｌ期　张春云．等：基于卷积神经网络的自适应权重ｍｕｌｔｉ—ｇｒａｍ语句建模系统　６ｌ　到随后的系统中会被放大．并制约着系统的效果。　此，学者　这个句子向量的维度决定着全连接层的权值矩阵大小，　矩　阵的大小义决定着需要学习的参数个数。参数越多，网络拟　合能力越好，ｆＬｌ过拟合的问题也会越严重一　】，　且训练时间　会增加，得到最优参数集的难度也会变大。冈此，在不影响深　度学习系统表脱的前提下，减少参数的数量是个明智的选择。　基丁Ｉ　皿的阐述．针对自然语言处理领域的卷积神经网　络框架．本史提…ｒ一种参数更少但效果更好的自适应学ｊＪ　们开始思考，是否町以不利ＪＨ这些标注Ｔ具，而直接从文本中　学习出有价值的特征．直接实现端对端（ｅｎｄ—ｔｏ—ｅｎｄ）！Ｉ的学　习。　深度学习　的兴起使这种想法的实践成为了可能。｝｛＿｛于　深度学习复杂的多层结构，使其具有优异的拟合能力，最卞玎在　计算机视觉（Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ）　和语音识别（Ｓｐｅｅｃｈ　Ｒｅｃｏｇ　ｎｉｔｉｏｎ）　领域均取得了显著的效果。随后，学者们开始将其　引入到自然语言处理领域，例如关系抽取（Ｒｅｌａｔｉｏｎ　Ｅｘｔｒａｃ—　ｔｉｏｎ）一　、信息检索（Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａ１）、问答系统（Ｑｕｅｓ—　ｍｕｈｉ—ｇｒａｍ杖量的策略。在并行的ｎ　ｇｒａｍ输　特征向量表　示之后．给每一种ｎ—ｇｒａｍ特征向量定义一个权重，并将这　向量在权重的作刚下进行加和，得到一个与每个ｎ—ｇｒａｍ特征　向量维度卡Ｈ　的向驻作为ｍｕｌｔｉ—ｇｒａｍ策略下的句子向量。　这种改进使得最终，ｌ＝成的句子向量的维度并不随ｎ—ｇｒａｍｌ￣，＇Ｊ个　ｔｉｏｎ－ａｎｓｗｅｒｉｎｇ）　等领域，而且取得　不错的进展。　目前．在自然语言处理领域常Ｊ｛ｊ的深度学习框架主要包　括卷积神经网络（Ｃｏｎｘｒｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）　、循环神　经网络（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）以及ＬＳＴＭ（Ｉ．ｏｎｇ　Ｓｈｏｒｔ—　Ｔｅｒｍ　Ｍｅｍｏｒｙ）。循环神经网络的层级结构虽然并不复杂，　但是由于其层数较深。【太ｌ此优化问题仍是一个难题。　ＢＰ　ｒ　是当前学术界比较认可的一种循环神经网络的误差　传递策略．然而其仍存在传播距离短和训练不足的问题．这些　弊端也了循环神经网络的应　。Ｉ．ＳＴＭ是一种循环神经　网络的改进，其缓解了优化难题，但网络结构却十分复杂，参　数较多，训练相对较困难。相比之下．卷积神经网络的网络结　构更加清晰　其也被称作当前人　ｒ智能领域界最成功的一种　深度学习框架，并且它给计算机视觉领域的发展带来了质的　飞跃。所以．近两年．关于利用卷积神经网络做自然语言处理　￣＂Ｊ－Ｅ作涌现　来。并且也有很多科技公司的研究院（华为诺亚　方舟研究院等）将其列为重点研究对象并取得了大量的成　果　。因此．本文以卷积神经网络为研究对象，针对其当前的　应用现状进行改进和优化。　卷积神经网络在自然语青‘处理方面的早期的、比较经典　的丁作呈现在Ｃｏｌｌｏｂｅｒｔ的论文　川【｛Ｊ。他结合自然语言的特　点，将计算机视觉中的卷积神经网络的思想移植到文本处理　中，并在词性标注、命名实体识别等任务中均取得了显著的效　果。随后便涌现Ｈ｛很多利＿Ｌ｝｛卷积神经网络做不同的Ｆ１然语言　处理任务的Ｔ作。为了结合更多的信息，文献［１１］结合　ｍｕｌｔｉ—ｃｈａｎｎｅｌ和ｍｕｌｔｉ—ｇｒａｍ的思想使得卷积神经网络结合了　更丰富的信息．并在多项句子分类任务的效果上得到丁提高。　文献［１２］认为ｍａｘ－ｐｏｏｌｉｎｇ可能会丢失一些重要信息，于是　利用动态ｍｕｌｔｉ—ｐｏｏｌｉｎｇ的策略进行优化．并在事件抽取仟务　ｊ：验证了效果。丈献［１３］将卷积神经网络利用在关系分类任　务上，实现了将人丁标注的语言学信息与神经网络自动抽取　的信息相结合。文献［６］在文献［１３］Ｔ作的基础上．结合　ｍｕｌｔｉ—ｇｒａｍ的策略，ｆ｝｜色地完成丁关系抽取任务。文献［１４］　总结了当前自然语言处理领域比较流行的卷积神经网络框　架，分析了ｍｕｌｔｉ　ｇｒａｍ（该文中称作ｒｅｇｉｏｎ）对系统表现的影　响，并认为ｍｕｌｔｉ—ｇｒａｍ策略是提高卷积神经网络处理自然语　言任务效果的有效途径。　当前基于ｍｕｌｔｉ—ｇｒａｍ策略的卷积神经网络系统均是利　用ｍｕｌｔｉ—ｗｉｎｄｏｗ予以实现。有几种ｎ—ｇｒａｍ，则有几种不同长　度的滑动窗口（ｗｉｎｄｏｗ）．它们并行地进行卷积和ｐｏｏｌｉｎｇ操　作．运算出不同ｎ－ｇｒａｍ下的句子特征向量的表示。然后，在　输入最后的全连接层（ｆｕｌｌ—ｃｏｎｎｅｃｔｅｄ　ｌａｙｅｒ）前，将这些特征向　量首尾相连组成一个较长的特征向量表示，称其为句子向量。　ｈｔｔｐ：，ｗｗｗ．ｃｓｄｎ．ｎｅｔ　ａｒｔｉｃｌｅ　２０１５　１２　１６　２８２６４９８　数　改变．ｍｊＨ．减少１　全连接层的参数个数．提高　整个深度　学习框架的学　训练速度，并且在一定程度上降低了过拟合　的风险。通过　电影评论正负倾向分类和关系分类两个任务　上的一系列实验发现，在自适应学习ｍｕｈｉ—ｇｒａｎ１权重的策略　帮助下，系统Ｖ，ｊ￣Ｊ　ＥＩ练速度和分类效果都得到了明显提升。这　说明卷积神经网络的自动学习能力得到了优化，从而证明ｒ　所提方法的行效性。　２卷积神经网络结构　像和文本　组成成分和表示彤式方面存在的差别．决　定着其卷积神经网络结构也存在差异。图像是由像素点构　成，ｌｎ　义本则是『｝｛涮组成。相对而青，像素点是一种低级的表　示．Ｉ　词　本身就地一种较高级的抽象表示．其携带的信息最　远大于像素点。　此，利用词语为基本单元作为输人的卷积　神经网络结构的深度较图像识别得要浅层一些。本文阐述的　卷积神经　络结构总体上南词向量映射层、卷积层、ｍａｘ－ｐｏｏ—　ｌｉｎｇ层、全连接层以及最后的ｓｏｆｔｍａｘ组成，如　ｌ所示。　输入的句子Ａｎ　ｏｄｄ，ｈａｐｈａｚａｒｄ．ａｎｄ　ｉｎｃｏｎｓｅｑｕｃｎｔｉａｌ　ｒｏｍａｎｔｉｃ　ｃｏｍｅｄｙ　…　卷积　．［　ｍａｘ—ｐ。。－ｊｎｇ　｛　嘲豳～鳓　全连接层＋ｓ。ｎｍ“－ｒ　鲁　●　围　Ｊ　Ｓｏｆｌｍａｘ　【矧Ｉ卷积神经网络结构　２．１词向量映射层　文本的甚小绀成单元是词语。词语是一种较高级的抽象　表示，　本身包含　宙的信息。作为卷积神经网络的输入，如　何农爪洲　能使　包含更好的语义和语法信息是非常重要　的。词向埘（ｗｏｒｄ　ｅｍｂｅｄｄｉｎｇ）川是神经网络在自然语言领　域应朋的成功　：物。词向量是利川神经网络的结构基于大规　模语料集的无监督学习得到的词语的低维表示．并且能很好　地表爪词语问的语义相似性和语法特征。词向量的这种优秀　特性决定ｒ其被广泛应用于自然语言深度学习框架的输入的　６２　计算机科学　２．３　Ｍａｘ－ｐｏｏｌｉｎｇ　２０１７焦　可行性和实效性。本文以句子为单位进行建模，每个句子可　表示为由Ｎ个词语　组成的序列｛　，　。，…，　，…，ｚ　｝。　从式（４）可以看出，卷积操作生成的特征矩阵Ｑ的规模　依赖于句子的长度Ｎ，但句子的长度是变化的。一个规模不　统一的特征矩阵是没有办法训练网络参数的，因此ｍａｘ－ｐｏｏ－　ｌｉｎｇ起到了统一特征表示规格的作用，如图１所示。ｍａｘ－　ｚ　在整个词表中的ｏｎｅ－ｈｏｔ表示向量ｈ　∈｛０，１｝［ｙｌ，其中１ＶＩ　表示词表的大小。利用文献Ｅ１６－１提出的方法生成词向量矩阵　Ｖ　∈　拟ＩＹｌ。如图１所示，输入的句子中第　个词的词向量　可表示为：　一　・ｐｏｏｌｉｎｇ操作可以表示为：　（１）　ｈ　Ｐ　—ｍａｘ｛ｑｏ｝，Ｖ　Ｊ一１，…，（Ｎ—Ｚ＋１）　Ｊ　（６）　其中，　∈　，ｄ代表词向量的维度。由于词向量是由大规　模数据集无监督学习得到的，因此其语义相对于所做的任务　针对性不强。常用的策略是将词向量也作为系统的参数进行　调整，实践证明这样的处理会得到更好的实验效果。　２．２卷积层　一特征矩阵Ｑ经过ｍａｘ－ｐｏｏｌｉｎｇ操作之后转换成了长度统　的向量ｐＥ　Ｒ／。不仅如此，ｍａｘ－ｐｏｏｌｉｎｇ操作也可以理解　为抽取在每种特征映射下表现最突出的ｎ－ｇｒａｍ，这与传统的　方法思路相似，而且降低了信息的冗余性，对效果的提升也起　到重要的作用。　如图１所示，本文采用的是ｍｕｌｔｉ－ｇｒａｍ策略，每种ｎ－ｇｒａｌＴｌ　生成一种特征表示向量。设一共有Ｋ种ｎ－ｇｒａｍ，则最终生成　的句子向量表示　为：　利用卷积神经网络做自然语言处理任务最重要的优势不　仅在于其不依赖于人工标注特征和语言分析工具的语法信　息，而且其可以通过网络训练的过程自动抽取需要的特征。　自动抽取特征的工作主要由卷积层的卷积操作完成。图像是　二维的输入，而文本则可以理解为一种一维的输入。那么卷　Ｓ＝ｐ。①　ｏ…④　２．４全连接层和ｓｏｆｔｍａｘ　（７）　积操作区域的概念需要重新定义。当前最被认可也最成功的　语言模型是ｎ－ｇｒａｍ，因此本文选择ｎ－ｇｒａｍ作为卷积的基本　单元。为了便于理解，下面的描述均以一种窗口长度　（ｎ－ｇｒａｍ）为例进行阐述，如图１所示，从卷积层开始，并行的　两列代表不同的窗口长度。窗口的长度定义为Ｚ，Ｚ即代表　最后的全连接层和ｓｏｆｔｍａｘ起到的是分类作用，由句子向　量Ｓ经过矩阵ｗ　∈Ｒ脒　的线性映射成　类别向量ｏｆｆＲ　，其　中Ｌ代表任务所需要分类的类别总数。　０一　・Ｓ　（８）　生成的类别向量Ｏ中的每一维的值代表输入的句子在这　ｎ－ｇｒａｍ中的　。每次卷积操作的输入则为连续的￡个词的词　向量组成的ｎ－ｇｒａｍ向量Ｃｊ。　个类别上的信心指数。最后，通过ｓｏｆｔｍａｘ决策出概率最大　的类。　ｃ，一　０　＋１①…①　＋卜ｌ　（２）　其中，ｏ表示连接操作（ｃｏｎｃａｔｅｎａｔｅ），即将窗口内的词向量首　尾相接组成一个更长的ｎ－ｇｒａｍ向量表示ｃｊ∈Ｒ　。为了训练　ｐ（ｉｌ　，　）一＃　∑ｅ￣ｋ　＝ｌ　（９）　其中，０代表深度网络需要学习的参数集合，即　一Ｅｗｅ，Ｗｍ，　ＶＩ，ｏ］。　平衡，给输入句子中每个词语相同的训练次数，一般在输入句　子的前后各加Ｚ一１个ｄ维零向量作为填充向量，如图１所　示。设Ｎ为包含填充向量的句子长度，则输入句子的ｎ－ｇｒａｍ　矩阵表示为Ｃ∈Ｒ　。　３自适应权重的ｍｕｌｔｉ－ｇｒａｍ策略　在自然语言处理领域，ｎ－ｇｒａｍ是目前公认的对自然语言　Ｃ—Ｅｃ，，Ｃ２，…，ｃｊ，…，ＣＮ一件１］　矩阵乘积运算。定义卷积矩阵为　（３）　∈　，×　。矩阵的每一　最合理的近似。第１节所述的卷积神经网络结合多种ｎ－ｇｒａｍ　卷积操作的本质可以理解为权重矩阵与ｎ－ｇｒａｍ矩阵的　行代表一种特征映射层（ｆｅａｔｕｒｅ　ｍａｐ），所以厂代表特征映射　进行特征提取，有利于抽取到更有价值的信息。那么，抽取到　不同ｎ－ｇｒａｍ的向量表示后，如何将这些向量结合才能更好地　利用这些信息则是一个需要考虑的问题。１．３节中使用的是　连接（ｃｏｎｃａｔｅｎａｔｅ）的方法，将多种的ｎ－ｇｒａｍ向量首尾相连成　一层的个数。参数，是人工设定的，／过小，代表提取的特征较　少，可能会导致欠拟合；而厂过大，则可能会造成提取的特征　之间的冗余性大，而且可能导致过拟合。所以合适的．厂值的　选取对系统效果的意义很重要。卷积操作”可以表示为：　Ｑ—ｇ（Ｗｍ・Ｃ）　（４）　个长的句子向量。这种方法虽然保留了不同ｎ－ｇｒａｍ的信　于ｎ－ｇｒａｍ的种类数。句子向量越长，全连接层需要训练的参　息，但是同时也存在着冗余性，而且生成的句子向量长度取决　数也就越多，造成过拟合现象的可能性也就越大。因此，基于　对这些问题的思考，本文提出了自适应权重的ｍｕｌｔｉ—ｇｒａｍ策　略。　３．１基于自适应权重的Ｉ卜鲜帅向量加和　其中，Ｑ∈喂ｌｒ×　州　，ｇ（・）代表非线性激活函数。非线性激　活函数的使用会增强网络的拟合能力，常用的有Ｔａｎｈ和Ｒｅ—　Ｌ　”］。ＲｅＬＵ函数是当前比较公认的适合深度学习的非线　性激活函数，它具有强非线性和负激活值无差异性的特点，这　图１描述了本文提出的自适应权重的ｍｕｌｔｉ—ｇｒａｍ策略。　种特性能让深度网络的稀疏性变大，从而降低冗余性。ＲｅＬＵ　可以表示为：　该图使用了３－ｇｒａｍ和４－ｇｒａｍ做特征提取。这两种ｎ－ｇｒａｍ　分别生成了两种向量表示　和Ｐ　。如图１所示，本文使用　的策略是将Ｐ。和Ｐ　进行向量相加运算。由于Ｐ。和Ｐ　的向　量维度均与卷积层的特征映射的个数相同，因此满足了向量　相加的前提条件。但由于相加运算可能会在一定程度上造成　Ｒ　）一』　，ｚ≥。　ｌ０，　＜Ｏ　（５）　从ＲｅＬＵ的表达式也可以看出其求导计算也非常简单。　”本文的省略了变量偏置ｂ，在该卷积操作和后面的全连接层的线性变换均可以加偏置项，偏置项的引入可以加快神经网络的收敛速度。　。　图１中并没有给出这种表示的生成过程，详细图解可参考文献Ｅｌ４］。　。　此处也可以增加非线性激活函数变成非线性映射。　第１期　张春云，等：基于卷积神经网络的自适应权重ｍｕｌｔｉ—ｇｒａｍ语句建模系统　对信息进行合理的　（１０）　６３　信息的丢失，因此本文引入权重Ｗｌ和　分配，则句子向量可以表示为：　Ｓ＝ｖａＰ。＋　Ｐ　爆炸（ｂｌｏｗ－ｕｐ　ｏｆ　ｗｅｉｇｈｔ）［　的现象。因此，合适的ｒ值有利　于得到更好的实验结果。由图２可以看出，当ｒ＝３时，准确　率达到最高。　　ｌ　｛对于Ｋ种ｎ－ｇｒａｍ向量的情况，定义Ｋ个权重Ｗ一［　，　议．】２，…，ＷＫ－１。　ｌ　▲　—一．．一　　Ｖｌｌ’／｛＼　　ｌ＼　ｌ｝　｝　、　句子向量的维度降低，从而也会减小Ｖ　的规模。不仅　＊　嚣　ｉ　ｌ　减少了网络的参数个数，缩短网络的训练时间，而且有效地缓　解了过拟合的可能性。　弹　ｊ　ｌ　ｌ　｝　ｌ　ｌ　ｌ　ｌ　ｌ　ｌ　不同的任务和不同的数据集可能都会导致权重值分配的　不同。所以在权重值的选取方面，采用由深度学习网络结构　自适应学习的策略。权重值由损失函数进行梯度回溯学习得　图２准确率随７值的变化趋势　到，因此现在的参数集合为　一［　，　，　，　。　３．２正则化操作　深度学习由于其突出的拟合能力，也给其带来了过拟合　问题。如果深度网络的参数对于训练数据过度拟合，会让神　经网络记住一些训练数据集特有的特征，这样会影响网络的　预测效果。因此，正则化的应用也是必不可少［１８３的。正则化　的核心思想是参数值的量级，使其在一定范围内变化。　所以，为了避免过拟合的发生，对定义的权重Ｗ也进行了正　则化操作。　假设有Ｋ种ｎ－ｇｒａｍ向量｛Ｐ。，　，…，Ｐ　｝，则需要Ｋ个　权重构成的权重向量叫一［　，Ｗｚ，…，ＷＫ］，因此定义正则化　操作如下：　ｌ　ｌＷ　ｌ　ｌ≤　（１１）　其中，ｒ是限定值，其值的大小由用户决定。可以将这个表达　式理解为将权重向量Ｗ限定在一个半径为　的超球体内部。　４实验　４．１实验数据　本文分别采用电影评论正负倾向分类和关系分类两种语　句建模的任务验证自适应权重的ｍｕｌｔｉ－ｇｒａｍ策略的有效性。　所使用的数据集ＭＲ英文电影评论数据集［１９］以句子为　基本单位，该数据集包括５３３１句正倾向评论和５３３１句负倾　向评论，所以类别数为２，在图１中也有体现。整个数据集　中，评论的最大句长为５６个词，平均句长为２０个词。本次实　验分别从正负倾向评论集合中各抽取４３１７句作为训练集，　４８０句作为验证集，剩下的５３４句作为测试集。　关系分类任务的数据集为ＳｅｍＥｖａｌ－２０１０　Ｔａｓｋ　８ｌ２　数据　集。该数据集以句子为基本单位，包含９个明确的关系类别　和１个“Ｏｔｈｅｒ”类，因此类别数为１Ｏ。整个数据集包含１０７１７　个句子，每个类别的样本数比较平均，数据集中最大句长为　１００个词。本次取前７０００句作为训练集，１０００句作为验证　集，２７１７句作为测试集。　４．２参数设置　２．２节阐述了针对本文提出的自适应权重的ｍｕｌｔｉ－ｇｒａｍ　策略而制定的正则化约束条件。其中参数ｙ为超参数，需要　通过一系列实验来确定。图２给出了实验结果准确率随ｒ的　变化趋势。可以看出，随着ｒ值的增大，准确率整体呈现先上　升后下降的趋势。这说明，如果ｒ值过小，可能造成权重值过　小，这样不利于最后分类的决策；相反，如果ｒ值过大，说明对　权值量级的小，在学习率较大的情况下可能会造成权值　）ｈｔｔｐｓ：／／ｃｏｄｅ．ｇｏｏｇｌｅ．ｃｏｍ／ｐ／ｗｏｒｄ２ｖｅｃ／　当不使用权重向量叫时，可以将Ｗ理解为全１向量。对　于本文使用｛３，４，５｝３种￣ｇｒａｍ做特征抽取的情况，ｌ　ｌＷ　ｌ　ｌｚ一　√３，即ｒ一３时，可以得到最好的实验结果。　另外，在词向量映射层，本文利用Ｍｉｋｏｌｏｖ的ｗｏｒｄ２ｖｅｃ”　工具，基于２．５Ｇ的ｗｉｋｉ语料训练得到Ｗ　，词向量的维度设定　为３００。参照文献Ｅｌ１］的工作，选取的ｎ－ｇｒａｍ集合为｛３，４，５｝。　卷积层的特征映射个数为１００，即　的行数为ｉ００。这个值　的选取是根据一系列实验确定的，其值过小会导致欠拟合，其　值多大会导致过拟合。迭代次数为２Ｏ。本文所用的卷积神　经网络的非线性激活函数ｇ（・）为ＲｅＬＵ，并且结合Ａｄａｄｅｌｔａ　和ｄｒｏｐｏｕｔ来提高实验效果。参数学习方面选择批量随机梯　度下降算法，批度的选择为５Ｏ。　４．３实验结果及讨论　本节通过在数据集ＭＲ和ＳｅｍＥｖａｌ－２０１０　Ｔａｓｋ　８上的实　验，给出了自适应权重的ｍｕｌｔｉ—ｇｒａｍ策略在电影评论倾向分　类任务和关系分类任务上的实验效果和分析。　表ｌ给出了电影评论正负倾向分类的准确率对比结果和　本文提出的自适应权重的ｍｕｌｔｉ－ｇｒａｍ策略学习得到的权值　分配。其中“向量连接”表示１．３节中提到的原始的ｍｕｌｔｉ－　ｇｒａｍ处理方法，“向量相加”为本文提出的方法。对于向量相　加的方法，给出两组实验。一组不加权重；另一组加权重，并　在卷积神经网络的训练过程中进行自适应调整。准确率分别　在表１的第三行和第四行中给出。总体来说，对比结果显示，　本文提出的自适应权重的ｍｕｌｔｉ－ｇｒａｍ策略对整个系统的效　果有提升；并且，通过有无权重的对比实验可以看出，自适应　权重的使用对准确率的提高是非常明显的。值得注意的是，　通过３种ｎ－ｇｒａｍ的权值分配结果可以发现，４－ｇｒａｍ的权值较　其他两种ｎ－ｇｒａｍ的权值要大，可以理解为４一ｇｒａｍ的信息对　该任务的贡献是最大的。这个显现具有非常重要的实际意　义，因为不同的任务，甚至不同的数据集，各异的ｎ－ｇｒａｍ提供　的信息量的比例都会是不同的，那么通过系统的参数学习过程　得到最适合的权重分配对实验效果的提升是非常有意义的。　表１　电影评论正负倾向分类准确率及权值分配结合方法　表２的形式与表１相同，给出了自适应权重的ｍｕｌｔｉ－　ｇｒａｍ策略在关系分类任务上的对比结果。可以看出，在无权　重项情况下，本文提出的基于向量相加的ｎ－ｇｒａｍ特征向量结　６４　计算机科学　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ（ＩＣＰＲ）．２０１２．　２０１７正　合方法已经带来了Ｆ１值的提高；并且，增加自适应权重向量　以后，关系分类的Ｆ１值有了进一步的提升。因此，结合电影　评论正负倾向分类任务的结果，可以证明本文提出的自适应　权重的ｍｕｌｔｉ—ｇｒａｍ策略对卷积神经网络在语句建模方面的　表现具有明显的改进和优化。不同的是，关系分类的ｎ－ｇｒａｍ　权值分配中，５－ｇｒａｍ的权重最大，可以认为５－ｇｒａｍ对ＳｅｉｎＥ—　［３］ＬＥＣＵＮ　Ｙ，ＢＥＮＧＩＯ　Ｙ，ＨＩＮＴＯＮ　Ｇ．Ｄｅｅｐ　ｌｅａｍｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，　２Ｏ１５，５２１（７５５３）：４３６—４４４．　［４］ＨＩＮＴＯＮ　Ｇ　Ｅ，Ｓａｌａｋｈｕｔｄｉｎｏｖ　Ｒ　Ｒ．Ｒｅｄｕｃｉｎｇ　ｔｈｅ　ｄｉｍｅｎｓｉｏｎａｌｉｔｙ　ｏｆ　ｄａｔａ　ｗｉｔｈ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ［Ｊ］．Ｓｃｉｅｎｃｅ，２００６，３１３（５７８６）：５０４—　５０７．　ｖａｌ－２０１０　Ｔａｓｋ　８数据集的关系分类任务的贡献最大。同时，　进一步证明了自适应的ｍｕｌｔｉ—ｇｒａｍ策略会自动找到更适合　［５］ＨＩＮＴＯＮ　Ｇ，ｅｔ　ａ１．Ｄｅｅｐ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ａｃｏｕｓｔｉｃ　ｍｏｄｅｌｉｎｇ　ｉｎ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ：Ｔｈｅ　ｓｈａｒｅｄ　ｖｉｅｗｓ　ｏｆ　ｆｏｕｒ　ｒｅｓｅａｒｃｈ　ｇｒｏｕｐｓ　的权重分配方案。　表２关系分类任务Ｆ１值及权值分配　表３给出了正负倾向各３个代表性的４－ｇｒａｍ样例。在　预测阶段，通过训练好的卷积神经网络，由输出回溯网络找到　这些４－ｇｒａｍ。根据Ｉ．３节介绍的ｍａｘ－ｐｏｏｌｉｎｇ，取在１００个特　征映射上被ｍａｘ操作取出次数最多且非零的位置作为对输　入的电影评论倾向激活最大的位置，然后找出这个位置代表　的４－ｇｒａｍ。表３的结果直观地表明了卷积神经网络在做句　子分类任务方面是非常有效的。　表３代表性的４－ｇｒａｍ样例　类别４－ｇｒａｍ　ｇｏｏｄ　ｆｕｎ　ｇｏｏｄ　ａｃｔｉｏｎ　正倾向　ａｎ　ｅｘｃｅｌｌｅｎｔ　ｒｏｍｐ　ｔｈａｔ　ｍａｋｅ　ｉｔ　ｍｏｒｅ　ｉｎｔｅｒｅｓｔｉｎｇ　ｉ　ｄｉｄ　ｎｏｔｌａｕｇｈ　负倾向　ｉｔ　ｉｓ　ｈａｒｄｌｙ　ｗａｔｃｈａｂｌｅ　ｂｕｔ　ｉｔ　ｇｒｏｗｓ　ｔｅｄｉｏｕｓ　结束语基于自然语言处理领域的卷积神经网络结合多　种ｎ－ｇｒａｍ进行特征提取的特点，本文提出了一种基于自适应　权重的ｍｕｌｔｉ－ｇｒａｍ策略。这种策略不仅减少了网络结构的　参数个数，降低了过拟合的风险，而且通过网络自主学习出不　同ｎ－ｇｒａｍ的权重分配，自动找出对于任务具有最大的激活能　力的ｎ－ｇｒａｍ，并赋予其较大的权重。实验结果也表明，本文　提出的改进方法对电影评论正负倾向性分类和关系分类的分　类效果有明显的提升。虽然在当前的自然语言处理领域，卷　积神经网络取得了非常显著的效果，但其也存在着一些不足。　由于句子的长度是不统一的，因此ｍａｘ－ｐｏｏｌｉｎｇ在句子长度　这个维度上进行操作时会导致生成的句子向量丢失了语序信　息。这也是卷积神经网络相对于循环神经网络和ＬｓＴＭ的　劣势。而且，目前自然语言领域的深度学习方法多数情况下　仅被作为工具使用，但语言是一种相对比较高级的、具有结构　层次的表示，因此如何将语言的先验知识更好地融人到深度　学习的网络学习中是一个非常值得思考的问题，也是我们下　一步努力的方向。　参考文献　［１］　ＧＲＩＳＨＭＡＮ　Ｒ．Ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ：Ｃａｐａｂｉｌｉｔｉｅｓ　ａｎｄ　ｃｈａｌ—　ｌｅｎｇｅｓ［Ｚ］．Ｌｅｃｔｕｒｅ　Ｎｏｔｅｓ　ｏｆ　２０１２　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｗｉｎｔｅｒ　Ｓｃｈｏｏｌ　ｉｎ　Ｌａｎｇｕａｇｅ　ａｎｄ　Ｓｐｅｅｃｈ　Ｔｅｃｈｎｏｌｏｇｉｅｓ，Ｒｏｖｉｒａｌ　Ｖｉｒｇｉｌｉ，２０１２．　－Ｉ２］　ＷＡＮＧ　Ｔ。ｅｔ　ａ１．Ｅｎｄ－ｔｏ－ｅｎｄ　ｔｅｘｔ　ｒｅｃｏｇｎｉｔｉｏｎ　ｗｉｔｈ　ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ＥＣ］　｝２０１２　２１ｓｔ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　＿Ｊ］．Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｍａｇａｚｉｎｅ，ＩＥＥＥ，２０１２，２９（６）：８２—９７．　［６］　ＮＧＵＹＥＮ　Ｔ　Ｈ，ＧＲＩＳＨＭＡＮ　Ｒ．Ｒｅｌａｔｉｏｎ　Ｅｘｔｒａｃｔｉｏｎ：Ｐｅｒｓｐｅｃ－　ｔｉｖｅ　ｆｒｏｍ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ［Ｃ］ｆ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｖｅｃｔｏｒ　Ｍｏｄｅｌｉｎｇ　ｆｏｒ　ＮＬＰ．２０１５：３９—４８．　［７１　ＩＹＹＥＲ　Ｍ，ｅｔ　ａ１．Ａ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ　ｆｏｒ　ｆａｃｔｏｉｄ　ｑｕｅｓｔｉｏｎ　ａｎｓｗｅｒ—　ｉｎｇ　ｏｖｅｒ　ｐａｒａｇｒａｐｈｓ［Ｃ］　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０１４　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｅｍｐｉｒｉｃａｌ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）．　２０１４．　［８］ＬＥＣＵＮ　Ｙ，ＢＥＮＧＩＯ　Ｙ．Ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ｉｍａｇｅｓ，Ｓ＿　ｐｅｅｃｈ，ａｎｄ　ｔｉｍｅ　ｓｅｒｉｅｓ［Ｍ］｝　Ｔｈｅ　Ｈａｎｄｂｏｏｋ　ｏｆ　Ｂｒａｉｎ　Ｔｈｅｏｒｙ　ａｎｄ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ．ＭＩＴ　Ｐｒｅｓｓ，１９９５．　［９］ＭＯＺＥＲ　Ｍ　ｅ　Ａ　Ｆｏｃｕｓｅｄ　Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ　Ａｌｇｏｒｉｔｈｍ　ｆｏｒ　Ｔｅｍ—　ｐｏｒａｌ　Ｐａｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ［Ｍ］．Ｈｉｌｌｓｄａｌｅ，１９９５：１３７—１６９．　［１Ｏ］ＣＯＬＬＯＢＥＲＴ　Ｒ，ｅｔ　ａ１．Ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ（ａｌｍｏｓｔ）　ｆｒｏｍ　ｓｃｒａｔｃｈ［Ｊ］．Ｔｈｅ　Ｊｏｕｒｎａｌ　ｏｆ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ　Ｒｅｓｅａｒｃｈ，　２０１１（１２）：２４９３—２５３７．　Ｊｉｌｌ　ＫＩＭ　Ｙ．Ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ｓｅｎｔｅｎｃｅ　ｃｌａｓｓｉｆｉｃａ—　ｔｉｏｎ［Ｊ］．ａｒＸｉｖ　ｐｒｅｐｒｉｎｔ　ａｒＸｉｖ：１４０８．５８８２，２０１４．　［１２］ＣＨＥＮ　Ｙ，ｅｔ　ａ１．Ｅｖｅｎｔ　Ｅｘｔｒａｃｔｉｏｎ　ｖｉａ　Ｄｙｎａｍｉｃ　Ｍｕｌｔｉ—Ｐｏｏｌｉｎｇ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ［Ｃ］　｝Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　５３ｒｄ　Ａｎｎｕａｌ　Ｍｅｅｔｉｎｇ　ｏｆ　ｔｈｅ　Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓ—　ｔｉｃｓ　ａｎｄ　ｔｈｅ　７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｉｎｔ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｎａｔｕｒａｌ　Ｌａｎ—　ｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ．２０１５．　［１３］ＺＥＮＧ　Ｄ，ｅｔ　ａ１．Ｒｅｌａｔｉｏｎ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｖｉａ　ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｄｅｅｐ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ［Ｃ］　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＣＯＬＩＮＧ．２０１４．　－［１４］ＺＨＡＮＧ　Ｙ，Ｗａｌｌａｃｅ　Ｂ　Ａ　Ｓｅｎｓｉｔｉｖｉｔｙ　Ａｎａｌｙｓｉｓ　ｏｆ（ａｎｄ　Ｐｒａｃｔｉ—　ｔｉｏｎｅｒｓ’Ｇｕｉｄｅ　ｔｏ）Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ　ｆｏｒ　Ｓｅｎｔｅｎｃｅ　ｃｌａｓｓ．ｆｉｃａｔｉｏｎ［Ｊ］．ａｒＸｉｖ　ｐｒｅｐｒｉｎｔ　ａｒＸｉｖ：１５１０．０３８２０，２０１５．　［１５］ＨＩＮＴＯＮ　Ｇ　Ｅ，ｅｔ　ａ１．Ｉｍｐｒｏｖｉｎｇ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｂｙ　ｐｒｅｖｅｎｔｉｎｇ　ｏ－ａｄａｐｔａｔｉｏｎ　ｏｆ　ｆｅａｔｕｒｅ　ｄｅｔｅｃｔｏｒｓ［Ｊ］．ａｒＸｉｖ　ｐｒｅｐｒｉｎｔ　ａｒＸｉｖ：１２０７．　０５８０，２０１２．　［１６３　ＭＩＫＯＬＯＶ　Ｔ，ＹＩＨ　Ｗ　Ｔ。ＺＷＥＩＧ　Ｇ．Ｌｉｎｇｕｉｓｔｉｃ　Ｒｅｇｕｌａｒｉｔｉｅｓ　ｉｎ　ｏＣｎｔｉｎｕｏｕｓ　Ｓｐａｃｅ　ｗｏｒｄ　Ｒｅｐｒｅｓｅｎｔａｔｉ０ｎｓ［ｃ］∥ＨＬＴ－ＮＡＡＣＬ．　２Ｏ１３．　［１７］ＧＬＯＲＯＴ　Ｘ，ＢＯＲＤＥＳ　Ａ，ＢＥＮＧＩＯ　Ｙ．Ｄｅｅｐ　ｓｐａｒｓｅ　ｒｅｃｔｉｆｉｅｒ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ［Ｃ］　ｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｒｔｉｆｉｃｉａｌ　Ｉｎ—　ｔｅｌｌｉｇｅｎｃｅ　ａｎｄ　Ｓｔａｔｉｓｔｉｃｓ．２０１１．　［１８］ＺＥＩＬＥＲ　Ｍ　ｎ　ＡＤＡＤＥＬＴＡ：Ａｎ　ａｄａｐｔｉｖｅ　ｌｅａｒｎｉｎｇ　ｒａｔｅ　ｍｅｔｈｏｄ　口］．ａｒＸｉｖ　ｐｒｅｐｒｉｎｔ　ａｒＸｉｖ：１２１２．５７０１，２０１２．　［１９］ＰＡＮＧ　Ｂ，ＬＥＥ　Ｌ．Ｓｅｅｉｎｇ　ｓｔａｒｓ：Ｅｘｐｌｏｉｔｉｎｇ　ｃｌａｓｓ　ｒｅｌａｔｉｏｎｓｈｉｐｓ　ｆｏｒ　ｓｅｎｔｉｍｅｎｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ　ｗｉｔｈ　ｒｅｓｐｅｃｔ　ｔｏ　ｒａｔｉｎｇ　ｓｃａｌｅｓ［Ｃ］／／Ｐｒｏ—　ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　４３ｒｄ　Ａｎｎｕａｌ　Ｍｅｅｔｉｎｇ　ｏｎ　Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕ—　ｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ．Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，　２００５．　［２Ｏ］ＨＥＮＤＲＩＣＫＸ　Ｉ，ｅｔ　ａ１．Ｓｅｍｅｖａｌ一２０１０　ｔａｓｋ　８：Ｍｕｌｔｉ－ｗａｙ　ｃｌａｓｓｉｆｉ—　ｃａｔｉｏｎ　ｏｆ　ｓｅｍａｎｔｉｃ　ｒｅｌａｔｉｏｎｓ　ｂｅｔｗｅｅｎ　ｐａｉｒｓ　ｏｆ　ｎｏｍｉｎａｌｓ［Ｃ］｝　Ｐｒｏ—　ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｓｅｍａｎｔｉｃ　Ｅｖａｌｕａｔｉｏｎｓ：Ｒｅｃｅｎｔ　Ａ—　ｃｈｉｅｖｅｍｅｎｔｓ　ａｎｄ　Ｆｕｔｕｒｅ　Ｄｉｒｅｃｔｉｏｎｓ．Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕｔａ—　ｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，２００９．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部频道

基于卷积神经网络的自适应权重multi-gram语句建模系统