欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    R语言数据挖掘.docx

    • 资源ID:1405060       资源大小:153.16KB        全文页数:28页
    • 资源格式: DOCX        下载积分:7金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要7金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    R语言数据挖掘.docx

    R语言数据挖掘论文题目:第图挖掘实M网站智能举荐康务指导老师:蒙小蛆成员:周大义王宁数据挖掘实品之网站智能举荐服务一、背景与挖,目标伴随着计算机技术、通信技术的日益成熟和广泛应用,互联网H90年头初起先得到迅猛发展,至今虽然只有短短几十年的时间,但它已经发展成为现今信息时代人类生活中不行或缺的重要组成部分,并成为全球范围内传播信息的生要渠道。随之而来的是互联网上信息资源越来越丰富,人们要在浩如烟海的“混乱的”互联网信息世界中找到自己真正感爱好信息却存在很大的困难,详细表现在:用户不知道如何贴切表达真正想要的网上资源的需求,也不知道如何去更精确有效地找d,即所谓的“信息迷失”问题;和对收到的或已经下栽的大量无关的信息难以消化,即所谓的''信息过载”问题。虽然我们可以借助于搜J引擎来检索Web上的信息,但仍不能满足不同背景、不同目的和不同时期的杳询要求,因为大多数搜寻引擎缺少主动性,没有考虑用户的爱好偏好和用户的不同,无法有效地解决信息过我和信息迷失的问题.为了适应用户不断增长的信息需求,有效地解决信息过载和信息迷失给人们带来的种种问题,探讨人员纷纷从人工智能中找寻突破口。在很多探究性探讨中,特性化举荐服务作为一种崭新的智能信息服务方式,应用前景广泛,非常引人注目。与搜寻引擎不同,举荐系统并不须要用户供应明确的需求,而是通过分析用户的历史行为,依据用户的行为主动举荐能够满足他们爱好和需求的信息。因此,对于用户而言举荐系统和搜寻引擎是两个互补的工具。搜寻引擎满足有明确目的的用户需求,而举荐系统能够帮助用户发觉感爱好的内容。因此,在电子商务领域中举荐技术可以起到以a作用:第一,帮助用户发觉其感爱好的物品,节约用户时间、提升用户体验;其次,提高用户对电子商务网站的忠诚度,假如举荐系统能够精确地发觉用户的强好点,并将合适的资源举荐给用户,用户就会对该电子商务网站产生依能,从而建立稳定的企业忠实顾客群,提高用户满足度。本案例探讨的对象是泰迪智能科技有限公司的泰迪杯竞赛网站,泰迪科技是一家专业从事大数据挖掘应用研发、询问和培训服务的高科技企业。泰迪杯竞赛网致力于为用户供应丰富的泰迪杯竞赛信息、数据挖掘培训向问服务,并为参赛者供应了往届优秀作品作为参考,为高校供应了丰富的教学资源,如:案例教程、教学视频、教学书籍、建模工具等。随着网站盘增大,其数据信息最也在大幅度增长。用户在面对大地信息时无法与时从中获得自己须要的信息,对信息的运用效率越来越低。这种阅读大量无关信息的过程,造成r用户须要花费大最的时间才能找到自己须要的信息。为了能更好地满足用户需求,依据其网站海量的数据,探讨用户的爱好偏好,分析用户的需求和行为,发觉用户的爱好点。引导用户发觉自己的信息褥求,将网页精准地举荐给所需用户,帮助用户发觉他们感受好但很难发觉的网页信息。为了能够更好的满足用户缶求,依据其网站海豉的数据,探讨用户的强好偏好,分析用户的需求和行为,发觉用户的爱好点,从而引导用户发觉H己的信息需求。行为记录IXA2XAtytjt,if>tifccrt.,i11jit4tjtl*ytj,lntJ,crt,mj.'idn.jt!XAXADWfTW3l8.».Z同寿牙号累电EW5CA3'2l8fc盘2汽电寄露爆电OirtepQnW代a24>iMiJS1.(1.24MiMan一、I.一,I.3XAttu,ir>ttite1.ort,xtWiuSt1.JbtiIXATnm4918&I6S.:MBQMH11r*f35IiMciii8,4614MtSce,iMcrin&llre6ltJhtiIXAHiNSaacm:上冷巾电俱Chroer40,24>VirdMtXP'S626StpJ6ti0rc<gstpj/626.JhtalXAFWUBeF:180l闻.:上埠巾电信(hr0U1.C1.XPJ6XAthird:l)tl1.ergtlrdtiir>e.JhtalXAOKWHfiU1.NK.:北里巾HaInternet7ViMcws厚TlAzytjif>xi,crg111JiukJhtilCMm4712愎垃?可南省9KSChrcat8Mzyt.Jim:Ipd1.ergx11JirejhtlMCfttf1.S4TCl8.出2河南3尊联Croe位(1.“HIM<s9«7jxxpt'xpcrgJl卬/杨;.JhtalXACtAFU4T<2lK如Z河*0/联1OlrOeelia*4H1r>iw10W7jxspW,xp1.crgjxsp67.jht三lXACtFUKCllM3i<*W<F011三eCayHmM:MaHMtpdxcrg.XAMO<KCl2l8.19.3r三r嘉琳«Olnee50人创12TWMtice'tipdxCrgntceTMJhelXA由伍73121&19.3广东有广AMCh11三eSaaMmin“13758tJtce."tpdxcr<rwttw,*58.JM1*W34FTC6121&19.31.东看广*氏KQrce5(1.02M2r>k<HXAjstz.''it*Uportjszx),itdtx.jhtlXAK<M11C6218.1供3广素香1.*珠KChnw51Mn、I:15XAtipcrt/DaMi除2223,MEWt电信Qircw45.245Mw«、I:16758roticf,ticr<t*Mice758;htilXADCD湖附22?233MItWft电仃Qmw6n笺5加,7?KXAiMe.jltipoct<,iB<kJhlalXACNeK2I&盘2同点*E通QtrwMintovt一、I.18XAtytj.z>rxtiHor,x11j,ifMkjhtalXA(WEir«21区求之河电*塞通QlreBP;2方町Mm、I.19WjtA,'Sf>Ufc«r«>tj-itkjt三lXACMnMK21K:J1.N河“(hrt?%C1.XMiMou一、I20573jeCgort,tJ57Z加1XACMF取:忆I&泣2汽电占引星电Q»rw4ia24>liMs一.i21XAlpl'i*tifda,erg.stjlukJhtalXA:SEzBHIIn.205.:北京巾F4!nterne7VSMm(季,22XAJAzVSnitlFaMCrgJsztZiuk1.jhtlXAD34FrOaNl81.123广东方育珠1roarU1.(1.WjMMS7,::,id<0>teot.pff,ptlfu11wrlw*ri4boer.Vc9ratrjplatfora,pltfore.HMItnffM原始数据:利用readcsv函数把原始数据导入R语言RStUdi。中,整理数据进行下步的处理。当用户访问网站页面时,系统会记录用户访问网站的日志,其访问的数据记录了访问序号、内容id、访问内容、用户id、ip等多项属性的记求,并针对其中的各个属性进行说明,如表2-2所示。表2-2访问记录属性表属性名称属性说明属性名称属性说明id访问序号browser_type阅读器类型ContentJd内容idbrowser_version阅读器版本page_path网址platform_type平台类型username用户名称platform_series平台系列userid用户idplatform_version平台版本sessionid一次阅读标识data_time访问时间ipip地址mobile-type手机类型country国家agent代理商area区域UniqueVisitorID唯一阅读ID依据所供应的原始数据,确定挖掘目标如卜:挖,目标:1、借助大盘用户的访问汜录,发觉用户的访问行为习惯,对不同筋求的用户进行相关服务页面的举荐;2、依据用户访问内容、访问次数等属性特征,深化了解用户对访问网站的行为和目的与关切的内容二、举荐系统架构总体流程Nl<.访日«主要步H:1 .从系统中获得用户访问网站的原始记录。2 .以用户访问jhtml后缀的网页为关键条件,对数据进行处理。3 .对数据进行多维度分析,用户访问时间,用户访问内容,流失用户分析以与用户分群等分析。4 .对数据进行预处理,包含数据去重,数据删选,数据分类等处理过程。5 .对比多种举荐算法进行举荐,通过模型评价,得到比较好的智能举荐模型。通过模型对样本数据进行顼料,获得举荐结果1网页类型分析图一结论:从去掉Jhtml的网址中针对用户的阅读习惯,对'教学资源、竞赛、企业合作、新闻合作'进行分类提取分析,其中'教学资源、竞赛、企业合作、新闻合作分别占总数的百分比为29.50%、34.50%、9.70%、25.40%,这样让我们更深化地去了解用户须要什么,进而为下步的举荐提升肯定的须要。2.脏”探究脏数据探究一:在记录中,存在一部分这样的用户,他们没有点击详细的网页(Jhtml形式的),点击的大部分是书目网页,总共有12091条记录,应删掉这部分。脏数据探究二:对数据中存在部分翻页网址,大量的用户基本只会选择阅读了25页后,假如没有搜寻到想要的内容,干脆就放弃此次的搜寻,很少会选择阅读完全部内容,因为这部分网页存在首页,故对数据处理应删除翻页部分。3.点击次数分析点击次数用户数用户百分比记录百分比1236939.745.36296416.174.3634707.883.1943906.541.8052654.443.0062023.392.7471682.812.667次以上113319.0180.08分析:】阅读次的用户占全部用户39%左右,记录数占5%左右;阅读七次以上的用户占全部用户的80%左右,其中40%的用户,为网址供应了大约90%的阅读量2.对点击次数最大值进行分析,其大多是关于“Python数据分析与挖掘实战一图书配套资料下载”的总共2075次。4.网页点击数排名1tipdm.org/zytj/index.jhtml2469教学资源2tipdm.org/yxzp/index.jhtml2123竞赛3tipdm.org/ts/66l.jhtml2075教学资源4tipdm.org/notice/757.jhtml1378新闻公告5tipdm.org/stpj/index.jhtml1296竟赛6tipdm.org/qk/72

    注意事项

    本文(R语言数据挖掘.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开