基于lda的文本情感分析研究信息管理与信息系统专业.docx
摘要1前言3第一章雌41.I情感分析概述41.1主要研究内容41.1.2文本情感分析的分类51.1 .3主题模型在情感分析中的应用61.2 国内外研究现状61.3 本文内容安排7第二章数据预处理82. 1概述82.1 分词以及简繁体转换82.2 去除停用词82.3 抽取情感信息924.1情感词典的构建92.4.2抽取情感信息92. 4.3数据92.5本章小结10第三章LDA建模113. 1LDA概念113.1.1概率主题概念的提出113.1.2LDA模型123.2实验133.2.1划分数据集133.2.2数据词典133.2.3向量化143.2.4使用TFrDF作为特征值153. 2.5LDA模型训练163.3本章小结17第四章SVM分类184. 1SVM概念184.1.1 线性分类184.1.2 软间隔最大化204.1.3 1.3非线性支持向量机204.2本文中的SVC224.2.1算法描述224.3实验234.3.1特征选取234.3.2数据转换244.3.3将数据随机分为训练集和测试集244. 3.4SVM训练和预测254.3本章总结25第五章贝叶斯分类265. 1概念265.2贝叶斯定理265.2.1朴素贝叶斯265.2.2伯努利模型275.3本文中的朴素贝叶斯275.3.1算法描述275.3实验285.3.1特征选取285.3.2向量化285.3.3朴素贝叶斯分类训练285. 3.4测试286. 3.5准确率295.4本章总结30第六章总结与展望317. 1本文主要内容总结316.2存在的问题以及未来展望31参考文献33致谢34互联网的快速发展让各类社交媒体与日俱增,人们在网络上发表各种各样的评论、博客等信息。这些信息很大一部分表达了用户的情感倾向,如微博评论可能表达对某个明星的喜爱,虎扑评论可能表达对某个球队的支持和狂热,去哪儿、蚂蚁蜂窝等网站上的酒店评论集表达了客户对该酒店的喜爱程度,也侧面表达出该酒店的好坏层度。评论集这种简练却信息丰富的数据集具有重要的研究价值。情感分析,也称意见抽取、意见挖掘和倾向性分析8。主要是通过对带有情感色彩的主观性文本进行分析、处理、归纳然后进行推理的过程1。本文对酒店评论数据集进行了如下的工作:首先,整合网络上表现较好的情感词典,然后将数据集进行常见的预处理操作,包括去掉停用词等操作,根据情感词典抽取数据集中的极性词。其次,对预处理过后的文本进行LDA建模,其目的是以文档-主题分布取代文档-词矩阵,从而实现降维的效果。最后分别使用SVM和贝叶斯分类器,以LDA中得到的文档主题分布作为特征向量,来对文本进行分类。这些情感信息具有宝贵的作用,当评论非常多时,我们不可能人工地去观察每一条评论。通过情感分析,我们可以了解客户的心情,对某件事情或者物品的看法,从而挖掘其中潜在的商业价值。关键词:情感分析文本分类支持向量机数据挖掘主题模型LDA朴素贝叶斯AbstractWiththerapiddevelopmentoftheInternet,variouskindsofsocialmediaareincreasingdaybyday,andpeoplepublishvariouskindsofcomments,blogsandotherinformationontheInternet.Alargepartofthisinformationexpressesauser'semotionaltendencies,suchasamicro-blogcommentthatmayexpressaloveforastar,thetigerreviewmayexpressthesupportfanaticismofateam,wherethehotelreviewsonsitessuchastheanthoneycombexpressthedegreeofcustomerloveforthehotel.Commentingonthisconcisebutinformativedatasethasimportantresearchvalue.Affectiveanalysis,alsocalledopinionextraction,opinionminingandtendentiousnessanalysis.Itismainlythroughtheanalysis,processing,inductionandreasoningprocessofsubjectivetextwithemotionalcolor.Thispaperhasdonethefollowingworkforhotelreviewsdataset:First,agoodemotionaldictionaryonthenetworkisintegrated,andthenthedatasetisusedforcommonpreprocessingoperations,includingtheremovalofthedisusewordsandsoon,andthepolarwordsinthedatasetareextractedaccordingtotheemotionaldictionary.Secondly,LDAmodelingofpreprocessedtextisaimedatreplacingdocumentwordmatrixwithdocumenttopicdistribution,soastoachievetheeffectofdimensionalityreduction.Finally,SVMandBiasclassifierareusedrespectively,andthedocumenttopicdistributioninLDAisusedasthefeaturevectortoclassifythetext.Theseemotionalinformationisvaluableandveryimportantaswell.Whencommentsareverylong,itisimpossibleforustoobserveeverycommentmanually.Throughemotionalanalysis,Wecanunderstandthecustomers*mood,theviewsofacertainthingoritem,andtapthepotentialcommercialvalue.Text Classification SVM Data MiningKeyWord:SentimentAnalysisTopicModelLDANaiveBayes互联网的发展让人们不再以以往的“读”的方式访问网络,随着各类开放式平台的兴起,用户开始在互联网上发表自己的评论和见解。即从原来单纯的“读网页”向“写网页”发展。由用户发表的网络文本,包含了大量的信息。通过淘宝上的评论,人们决定是否购买某类商品,通过微博上的评论信息,我们可以得知用户对于某件新闻事件的看法。而在这些文本所蕴含的信息中,情感信息可以表达用户对事件的主观感受,具有非常重要的潜在价值。文本情感分析指的是对于包含用户观点、喜好、情感的文本进行检测、信息抽取、分析和挖掘的过程。利用这些信息,消费者可以理解其他消费者对商品的态度、商店可以了解消费者对自己产品的喜爱程度从而改善自己的服务,提高竞争力等。文本情感分析作为文本分类领域的一个新兴课题,对它的研究呈现出越来越多元化的趋势。通常来说,情感分析将文本分为褒贬二类,这方面的研究比较成熟,也有学者将文本信息划分地更为细致,将褒贬信息分为三类9,甚至四类10。网络上对于酒店的评论文本对于往上预定酒店的客户来说具有非常重大的决定作用,其中蕴含的情感信息也将会作为用户决定是否入住该酒店的重要依据。本文将结合主题模型LDA以及SVM等算法来对酒店评论数据集进行情感分析。本文的主要内容有:(1) 文本预处理(2) 构建情感词典并抽取情感词(3) 1.DA建模(4) 使用SVM进行情感分类(5) 使用贝叶斯分类器分类第一章概述本章简单介绍情感分析的概念,分析国内外在情感分析领域的研究现状,给出本文组织结构。1.1 情感分析概述文本情感分析,又称意见挖掘(OpinionMining),是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程”;情感分析属于计算语言学,情感分析运用到人工智能,NLP,信息检索,机器学习等多个领域的知识8。如从淘宝上的商品评论分析某一件商品是好是坏,从豆瓣电影评论分析用户对某部电影的喜爱程度等。斯坦福大学通过Twitter分析网民在2008-2009年金融危机的心情,如下图:window=15,r=0.804g第O 7SSGaHup PollTwitter SentimentOTAen OEd4 OEW OTqaLOLuer WO6Q - 69>0N 60oo60&8S 60,6n4603 60-Unr69AeW I 60,4 - 60.En 60,qu.60,ue-> 0lOQ 01>oz ;80,oo80. da I 0< , Bo,_n :80,Unr 80 工 ew I 01<orc 80,q8ll. 80ue图LlTWitter用户情感1.1.1 主要研究内容情感分析一般包括几个步骤,即情感信息的抽取、情感信息分类以及情感信息的检索与归纳1。情感信息抽取即抽取文本中能表达情感的信息,带有情感倾向的词语称情感词,比如:喜欢、讨厌、恶心等表达用户情感的词语。目前对情感词的抽取主要有两种方法,一种基于语料库,另一种基于词典。前者挖掘语料库中的评价词语判断其极性,但往往只适用于形容词而且过于依赖用来迭代的“种子”词集,同时评价词语在语料库中的分布也很难获取。而后者使用词典中词语之间的词义联系来挖掘评价词语。由于词语的多义性,用种子词集扩展评价词语的方法容易引入噪音。对于词典稀少的非英语语言,有学者通过将英语极性词典翻译成该语言的方法来构建极性词典,以供情感分析使用,但由于翻译中存在一词多义性,翻译过后的词的极性也许会改变,所以可能会存在较大的误差,在这种极性词典的构造中可以通过误差的消除来增加精确度。德黑兰大学的MohammadrezaShams等人通过将英语词典翻译成波斯语,并且通过迭代方法纠正翻译中的错误,构建极性词典,最后使用一种基于LDA的无监督情感分析方法来进行分类,得到了不错的分类结果7。情感信息的分类包括两种,主客观信息分类和主观信息分类。主客观信息分类即将文本分为主观信息和客观信心两类,其依据是文本中是否包含情感信息。主观信息分类即对情感的分类,通过各类分类器将情感文本分类为褒贬,或者其他更多的类别。情感信息的检索与归纳,即检索时,不仅检索包含用户主题的文档,也检索包含情感信息的文档。在搜索过程中,搜索所得到的结果不仅依据传统的信息检索模型,并且对文档中进行主客观识别,对文档表达的情感打分,再结合文档相关性来对检索结果排序。1.1.2 文本情感分析的分类按照应用领域的不同,可以将文本情感分析技术分为基于产品评论的文本情感分析基于新闻评论的文本情感分析1。根据文