欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于lda的文本情感分析研究信息管理与信息系统专业.docx

    • 资源ID:1153072       资源大小:207.93KB        全文页数:38页
    • 资源格式: DOCX        下载积分:7金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要7金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于lda的文本情感分析研究信息管理与信息系统专业.docx

    摘要1前言3第一章雌41.I情感分析概述41.1主要研究内容41.1.2文本情感分析的分类51.1 .3主题模型在情感分析中的应用61.2 国内外研究现状61.3 本文内容安排7第二章数据预处理82. 1概述82.1 分词以及简繁体转换82.2 去除停用词82.3 抽取情感信息924.1情感词典的构建92.4.2抽取情感信息92. 4.3数据92.5本章小结10第三章LDA建模113. 1LDA概念113.1.1概率主题概念的提出113.1.2LDA模型123.2实验133.2.1划分数据集133.2.2数据词典133.2.3向量化143.2.4使用TFrDF作为特征值153. 2.5LDA模型训练163.3本章小结17第四章SVM分类184. 1SVM概念184.1.1 线性分类184.1.2 软间隔最大化204.1.3 1.3非线性支持向量机204.2本文中的SVC224.2.1算法描述224.3实验234.3.1特征选取234.3.2数据转换244.3.3将数据随机分为训练集和测试集244. 3.4SVM训练和预测254.3本章总结25第五章贝叶斯分类265. 1概念265.2贝叶斯定理265.2.1朴素贝叶斯265.2.2伯努利模型275.3本文中的朴素贝叶斯275.3.1算法描述275.3实验285.3.1特征选取285.3.2向量化285.3.3朴素贝叶斯分类训练285. 3.4测试286. 3.5准确率295.4本章总结30第六章总结与展望317. 1本文主要内容总结316.2存在的问题以及未来展望31参考文献33致谢34互联网的快速发展让各类社交媒体与日俱增,人们在网络上发表各种各样的评论、博客等信息。这些信息很大一部分表达了用户的情感倾向,如微博评论可能表达对某个明星的喜爱,虎扑评论可能表达对某个球队的支持和狂热,去哪儿、蚂蚁蜂窝等网站上的酒店评论集表达了客户对该酒店的喜爱程度,也侧面表达出该酒店的好坏层度。评论集这种简练却信息丰富的数据集具有重要的研究价值。情感分析,也称意见抽取、意见挖掘和倾向性分析8。主要是通过对带有情感色彩的主观性文本进行分析、处理、归纳然后进行推理的过程1。本文对酒店评论数据集进行了如下的工作:首先,整合网络上表现较好的情感词典,然后将数据集进行常见的预处理操作,包括去掉停用词等操作,根据情感词典抽取数据集中的极性词。其次,对预处理过后的文本进行LDA建模,其目的是以文档-主题分布取代文档-词矩阵,从而实现降维的效果。最后分别使用SVM和贝叶斯分类器,以LDA中得到的文档主题分布作为特征向量,来对文本进行分类。这些情感信息具有宝贵的作用,当评论非常多时,我们不可能人工地去观察每一条评论。通过情感分析,我们可以了解客户的心情,对某件事情或者物品的看法,从而挖掘其中潜在的商业价值。关键词:情感分析文本分类支持向量机数据挖掘主题模型LDA朴素贝叶斯AbstractWiththerapiddevelopmentoftheInternet,variouskindsofsocialmediaareincreasingdaybyday,andpeoplepublishvariouskindsofcomments,blogsandotherinformationontheInternet.Alargepartofthisinformationexpressesauser'semotionaltendencies,suchasamicro-blogcommentthatmayexpressaloveforastar,thetigerreviewmayexpressthesupportfanaticismofateam,wherethehotelreviewsonsitessuchastheanthoneycombexpressthedegreeofcustomerloveforthehotel.Commentingonthisconcisebutinformativedatasethasimportantresearchvalue.Affectiveanalysis,alsocalledopinionextraction,opinionminingandtendentiousnessanalysis.Itismainlythroughtheanalysis,processing,inductionandreasoningprocessofsubjectivetextwithemotionalcolor.Thispaperhasdonethefollowingworkforhotelreviewsdataset:First,agoodemotionaldictionaryonthenetworkisintegrated,andthenthedatasetisusedforcommonpreprocessingoperations,includingtheremovalofthedisusewordsandsoon,andthepolarwordsinthedatasetareextractedaccordingtotheemotionaldictionary.Secondly,LDAmodelingofpreprocessedtextisaimedatreplacingdocumentwordmatrixwithdocumenttopicdistribution,soastoachievetheeffectofdimensionalityreduction.Finally,SVMandBiasclassifierareusedrespectively,andthedocumenttopicdistributioninLDAisusedasthefeaturevectortoclassifythetext.Theseemotionalinformationisvaluableandveryimportantaswell.Whencommentsareverylong,itisimpossibleforustoobserveeverycommentmanually.Throughemotionalanalysis,Wecanunderstandthecustomers*mood,theviewsofacertainthingoritem,andtapthepotentialcommercialvalue.Text Classification SVM Data MiningKeyWord:SentimentAnalysisTopicModelLDANaiveBayes互联网的发展让人们不再以以往的“读”的方式访问网络,随着各类开放式平台的兴起,用户开始在互联网上发表自己的评论和见解。即从原来单纯的“读网页”向“写网页”发展。由用户发表的网络文本,包含了大量的信息。通过淘宝上的评论,人们决定是否购买某类商品,通过微博上的评论信息,我们可以得知用户对于某件新闻事件的看法。而在这些文本所蕴含的信息中,情感信息可以表达用户对事件的主观感受,具有非常重要的潜在价值。文本情感分析指的是对于包含用户观点、喜好、情感的文本进行检测、信息抽取、分析和挖掘的过程。利用这些信息,消费者可以理解其他消费者对商品的态度、商店可以了解消费者对自己产品的喜爱程度从而改善自己的服务,提高竞争力等。文本情感分析作为文本分类领域的一个新兴课题,对它的研究呈现出越来越多元化的趋势。通常来说,情感分析将文本分为褒贬二类,这方面的研究比较成熟,也有学者将文本信息划分地更为细致,将褒贬信息分为三类9,甚至四类10。网络上对于酒店的评论文本对于往上预定酒店的客户来说具有非常重大的决定作用,其中蕴含的情感信息也将会作为用户决定是否入住该酒店的重要依据。本文将结合主题模型LDA以及SVM等算法来对酒店评论数据集进行情感分析。本文的主要内容有:(1) 文本预处理(2) 构建情感词典并抽取情感词(3) 1.DA建模(4) 使用SVM进行情感分类(5) 使用贝叶斯分类器分类第一章概述本章简单介绍情感分析的概念,分析国内外在情感分析领域的研究现状,给出本文组织结构。1.1 情感分析概述文本情感分析,又称意见挖掘(OpinionMining),是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程”;情感分析属于计算语言学,情感分析运用到人工智能,NLP,信息检索,机器学习等多个领域的知识8。如从淘宝上的商品评论分析某一件商品是好是坏,从豆瓣电影评论分析用户对某部电影的喜爱程度等。斯坦福大学通过Twitter分析网民在2008-2009年金融危机的心情,如下图:window=15,r=0.804g第O 7SSGaHup PollTwitter SentimentOTAen OEd4 OEW OTqaLOLuer WO6Q - 69>0N 60oo60&8S 60,6n4603 60-Unr69AeW I 60,4 - 60.En 60,qu.60,ue-> 0lOQ 01>oz ;80,oo80. da I 0< , Bo,_n :80,Unr 80 工 ew I 01<orc 80,q8ll. 80ue图LlTWitter用户情感1.1.1 主要研究内容情感分析一般包括几个步骤,即情感信息的抽取、情感信息分类以及情感信息的检索与归纳1。情感信息抽取即抽取文本中能表达情感的信息,带有情感倾向的词语称情感词,比如:喜欢、讨厌、恶心等表达用户情感的词语。目前对情感词的抽取主要有两种方法,一种基于语料库,另一种基于词典。前者挖掘语料库中的评价词语判断其极性,但往往只适用于形容词而且过于依赖用来迭代的“种子”词集,同时评价词语在语料库中的分布也很难获取。而后者使用词典中词语之间的词义联系来挖掘评价词语。由于词语的多义性,用种子词集扩展评价词语的方法容易引入噪音。对于词典稀少的非英语语言,有学者通过将英语极性词典翻译成该语言的方法来构建极性词典,以供情感分析使用,但由于翻译中存在一词多义性,翻译过后的词的极性也许会改变,所以可能会存在较大的误差,在这种极性词典的构造中可以通过误差的消除来增加精确度。德黑兰大学的MohammadrezaShams等人通过将英语词典翻译成波斯语,并且通过迭代方法纠正翻译中的错误,构建极性词典,最后使用一种基于LDA的无监督情感分析方法来进行分类,得到了不错的分类结果7。情感信息的分类包括两种,主客观信息分类和主观信息分类。主客观信息分类即将文本分为主观信息和客观信心两类,其依据是文本中是否包含情感信息。主观信息分类即对情感的分类,通过各类分类器将情感文本分类为褒贬,或者其他更多的类别。情感信息的检索与归纳,即检索时,不仅检索包含用户主题的文档,也检索包含情感信息的文档。在搜索过程中,搜索所得到的结果不仅依据传统的信息检索模型,并且对文档中进行主客观识别,对文档表达的情感打分,再结合文档相关性来对检索结果排序。1.1.2 文本情感分析的分类按照应用领域的不同,可以将文本情感分析技术分为基于产品评论的文本情感分析基于新闻评论的文本情感分析1。根据文

    注意事项

    本文(基于lda的文本情感分析研究信息管理与信息系统专业.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开