欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    多粒度分词演示系统设计和实现计算机科学与技术专业.docx

    • 资源ID:1187431       资源大小:328.70KB        全文页数:32页
    • 资源格式: DOCX        下载积分:7金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要7金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多粒度分词演示系统设计和实现计算机科学与技术专业.docx

    摘要.1Abstract.2前言.3第1章绪论.41.1研究背景.41.2分词概述.51.3本文的主要工作.6第2章基于词典匹配和动态规划树状解码的多粒度分词算法.82.1算法实现.82.2优化.102.3评价.11第3章基于神经网络分类模型和动态规划序列解码的多粒度分词方法133.1介绍.133.2模型搭建.143.3模型训练.163.4模型结果处理.173.5评价.19第4章多粒度分词演示系统构建.224.1后端程序.224.2网页前端.234.3效果展示.24第5章总结与展望.275.1本文总结.275.2后续工作展望.27致谢.错误!未定义书签。参考文献.29附录.31中文分词一直是中文信息处理领域的一项重要技术,它是机器翻译,搜索引擎,文本分类等应用不可或缺的基础部分。中文分词方法也在不断地发展,但是这些方法仅仅聚焦于单粒度分词,即一个句子被分割成唯一的一个词序列。于是,最近有人系统地在数据驱动的机器学习框架下正式提出并解决了中文多粒度分词任务。该毕业设计旨在实现一个多粒度分词演示系统,让用户在浏览器一端输入中文句子,网页能够即时的显示多粒度分词结果。因此本文的工作大体上可以分为两部分。第一部分,实现多粒度分词算法。主要尝试了两种算法,第一种基于词典匹配的动态规划解码算法,第二种基于深度学习的前馈神经网络模型。最后用两者在1500个测试句子上进行评价,比较它们的优劣。第二部分为Web网页的设计,前端选用普通的css+JavaScript+html技术,后端则选用python的Flask框架搭建,通过调用前面设计好的算法实现分词,把结果传到前端,最后再将结果以合适的形式展现出来。关键词:自然语言处理;中文信息处理;中文分词;多粒度分词;Web开发AbstractChinesewordsegmentationhasalwaysbeenanimportanttechnologyinthefieldofChineseinformationprocessing.Itisanindispensablepartofmachinetranslation,searchengine,textclassificationandotherapplications.Chinesewordsegmentationmethodsarealsoconstantlyevolving,butthesemethodsfocusonlyonsingle-grainedsegmentation.Asaresult,ithasrecentlybeensystematicallyproposedandsolvedinthedata-drivenmachinelearningframeworkforChinesemulti-grainedwordsegmentationtasks.Thegraduationprojectaimstoimplementamulti-grainedwordsegmentationdemonstrationsystem,allowinguserstoinputChinesesentencesatthebrowser,andthewebpagescaninstantlydisplaymulti-grainedwordsegmentationresults.Therefore,thisworkcanberoughlydividedintotwoparts.Thefirstpart,toimplementmulti-grainedwordsegmentationalgorithm.Twoalgorithmsaremainlytried,thefirstonebasedonscoreswhichiscalledCKYdecodingalgorithmandthesecondonebasedondeeplearningusingthefeedforwardneuralnetworkmodel.Finally,thetwowereevaluatedon1500testsentencestocomparetheirmerits.Thesecondpartisthedesignofawebpage.Thefrontendusestheordinarycss+JavaScript+htmitechnology,andthebackendusestheflaskframeworkofpython.Bycallingthepreviouslydesignedalgorithm,thewordsegmentationisachieved,theresultispassedtothefrontend,andtheresultisfinallyshowninasuitableform.Keywords:Naturallanguageprocessing;Chineseinformationprocessing;Chinesewordsegmentation;multi-grainedwordsegmentation;Webdevelopment和大部分西方语言不同,一个汉语句子中间没有明显的分隔符,它是由连续的字序列构成的。因此对中文进行处理的第一步就是进行自动分词,即将字串转变成词串。自动分词的重要前提是确定词的分界要按什么标准进行划分。中文中具有意义的最小单位是词(含单字词),但是词的定义非常抽象且因人而异。给定某文本,按照不同的标准的分词结果往往不同。词的标准成为分词问题一个很大的难点,没有一种标准是被公认的。作为中文信息处理的第一步,分词已经在过去几十年里被广泛研究并且做出巨大进步。同时分词的方法也在逐渐地改进,从基于词典的最大匹配,到基于语言模型分值和其他数据的路径搜寻分词,到基于字符的序列标记。最近,神经网络模型通过有效的学习字符和文本内容含义也取得了成功。但是大部分这些研究都主要聚焦于单粒度分词,即一个句子被分割成一个单一的词序列。然而由于中文语言的特殊性,人们对于词的定义和分界存在着非常大的歧义。在不同的语料集中,对同一句子的分词结果可能不同,这就给数据标注带来了挑战。同时,在不同的应用中,中文分词的粒度粗细也会影响结果。于是为了解决上述问题,多粒度分词任务被系统地提出。给定一个句子输入,目标是产生不同粒度的所有单词结构本工作主要是实现简单的多粒度分词算法和模型,并且通过Web开发技术调用模型,在网页端能显示出树状的分词结果。本文实现的多粒度方法主要是以下两种。第一种方法把句子看作一棵成分分析树,由各个子成分组成,为每个句子成分(span)赋予一个分值,该分值通过查字典获得。目标就是找到一棵分值最大的树,作为分词的结果。第二种方法是利用深度学习理论搭建一个前馈神经网络,把多粒度分词任务看作序列标注进行学习和训练。再把结果进行规制约束或解码得到一棵最优的树。最后利用Flask框架搭建后端,把分词结果传到前端,前端再利用JavaScript技术显示出结果。第1章绪论本章首先介绍了中文分词的研究背景和意义,其次引出多粒度分词任务和意义。并概述了本文所做的主要工作和贡献。1.1研究背景中文信息处理(CIP,ChineseInformationProcessing)是自然语言处理(NLP,NaturalLanguageProcessing)的一个分支领域,目的是让计算机正确的处理中文,甚至能够理解中文。但是和大部分西方语言不同,一个汉语句子中间没有明显的分隔符,它是由连续的字序列构成的。因此对中文进行处理的第一步就是进行自动分词,即将字串转变成词串川。机器翻译(MT,MachineTranslation)搜索引擎、自动校对、语音合成、自动摘要、自动分类等许多应用,都需要用到分词。自动分词的重要前提是以词的分界要按什么标准进行划分。中文中具有意义的最小单位是词(含单字词),但是词的定义非常抽象且因人而异。中文不像英文和法文那些“隔离”的语言,而是属于“多合成”的类型。它的复合词是从土生土长的词素中产生的。词素和复合词之间的模糊界限导致了对于词的概念的认知分歧。研究表明,中国母语人共识比例在没有经过共同指导培训的情况下仅为76%。给定某文本,按照不同的标准的分词结果往往不同。词的标准成为分词问题一个很大的难点,没有一种标准是被公认的。中文分词的另一个难点在于消除歧义,分词歧义主要包括如下几个方面:(1)交集歧义,例如:研究/生命/的/起源研究生/命/的/起源(2)组合歧义,例如:他/从/马/上/下来他/从/马上/下来(3)未登录词,例如:蔡英文/和/特朗普/通话蔡英文/和/特朗/普通话最后,词的颗粒度选择问题也是分词的一个难题。对于“苏州大学”这个短语,可以认为这是一个整体,表示苏州的一所大学。但也可以认为是“苏州”和“大学”两个词构成的短语。在不同的应用中,分词粒度的粗细很有可能影响结果。比如在机器翻译中,一般来讲颗粒度大翻译效果好。比如“联想公司”作为一个整体时,很容易找到它对应的英文翻译LenOV0,如果分词时将它们切开,可能翻译失败。然而,而在网页搜索中,小的颗粒度比大的颗粒度好。比如“苏州大学”如果作为一个词,当用户搜索“苏州”时,很可能就找不到苏州大学的相关内容。1.2分词概述传统的分词方法有许多。基于词典的最大匹配,基于语言模型分值和其他数据的路径搜寻分词,基于统计的语言模型,基于字符的序列标记等等。基于词典的分词方法又被称为机械分词方法,它根据一定的规则把句子中的各个切分字符串与分词词典中的词进行比对,如果在词典中找到切分的字符串则说明匹配成功,将该字符串作为一个词切分出来。基于词典的分词方法有正逆向最大匹配最长匹配和最短匹配等等。机械分词方法实现比较简单,但由于要不断遍历词典,而且词典可能很多,其效率和准确性容易受词典的结构和容量影响。基于字符的序列标注的基本思想是根据每个词中每个字的位置,对每个字打上指定标签中的一个,从而达到分词的效果。有人还提出通过在统计中文分词模型中融入词典相关特征的方法,使得统计中文分词模型和词典有机结合起来。一方面可以进一步提高中文分词的准确率,另一方面大大改善了中文分词的领域自适应性。最近,随着深度学习的普及,运用神经网络模型成为了中文分词的重要方法。神经网络模型通过有效的学习字符和文本内容含义已经取得了很多成功 助。随着从最简单的前馈神经网络到循环神经网络再到现在的长短时记忆网络,分词的方法和准确率在不断提升。然而之前的分词方法都仅仅聚焦于单粒度分词(SWS,Single-grainedWordSegmentation)0即一个句子被分割成一个单一的词序列。但是单粒度分词存在一些问题,例如分词的标准每个人都或多或少有差别,导致标注数据有很多差别。粗粒度分词和细粒度分词在不同应用中的需求不一样,有可能是互补的。为了解决单粒度分词的许多问题,多粒度分词(MWS,Multi-grainedWordSegmentation)问题被系统地提出,给定一个句子输入,目标是产生不同粒度的所有单词的层次结构【,就像下一页的图1.1中表示的一样。图 11:MWS的结果示例1.3本文的主要工作本文以多粒度分词方法为研究对象,实现了两种多粒度分词基准方法,对比两者的各种优缺点。在实现方法的基础上,利用Web开发技术,搭建一个网页端的演示系统,用户可以输入文本即时地产生分词结果。本文使用的多粒度分词数据是从三个单粒度分词语料库MicrosoftResearchCorpus(MSR),北京大学人民日报语料库(PPD)和PennChineSeTreebank(CTB)中得到的。这些语料库分词的规范和粒度不同,因此可以用来产生多粒度分词数据。具体做法是选择任意两个不同的语料库,利用耦合模型把两个标注规范相互转化,从而得到具有多个标注规范的数据L图Ll显示了该转化过程。因此,用三个耦合模型可以得到三个伪MWS训练集,三个伪MWS开发集和三个伪MWS测试集。I I I I I /N全国各也SA A Z开发集合并在一起作为一个整体,

    注意事项

    本文(多粒度分词演示系统设计和实现计算机科学与技术专业.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开