欢迎来到优知文库! | 帮助中心 分享价值,成长自我!
优知文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 优知文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx

    • 资源ID:1499295       资源大小:48.13KB        全文页数:17页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录
    二维码
    扫码关注公众号登录
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    快捷下载时,如果您不填写信息,系统将为您自动创建临时账号,适用于临时下载。
    如果您填写信息,用户名和密码都是您填写的【邮箱或者手机号】(系统自动生成),方便查询和重复下载。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx

    第五章大数据计算1.简述IfepRedUCe计算过程将输入文件切分为逻辑上的多个Sp1.it,通过RecordReader处理Sp1.it中的具体记录,加载数据并转换为适合Map任务读取的<key,va1.ue>,并输入给Map任务。(2) Map:根据用户自定义的映射规则,输出一系列key,VaIUe的作为中间结果。(3) Shuff1.e:对Map任务的输出结果进行一定的分区、持序(Sort),合井(Combine)、归并(Merge)等操作,得到<key,va1.ueTis1.>形式的中间结果,并交给对应的Reduce任务进行处理。(4) Reduce:以系列key,va1UeTiSt的中间结果作为输入,执行用户定义的逻辑,输出结果给OutputFormat4(5) OutputForma1.验证输出FI录是否已经存在及输出结果类型是否符合配餐文件中的配践类型,并输出RedUCe任务的结果到分布式文件系统。2 .简述本章列举的大数据计笄模式的异同(1)在大数据领域,批处理计算是把所有的数据算-遍以获得答案的计鸵模式:而流计算中处理的数据是源源不断地、突发地到来的流数据(或数据流)。批处理计克使用的算法经常被称为批量尊法,流计算使用的算法经常被称为增信兑法,潦计算常常需要大数据算法的支持。(2)图计.算和流计郛、MaPRedUCe等类似,是一种通用分布式计算模式,解决的是在大规模分布式计算环境下的共性问题。但是,它乂和流计算不同,图计算是一种真正的计算模式,各种图计算系统也通过提供API等形式,允许开发者在一致性的计算模式下,根据自己的需要开发特定的应用。(3)查询分析计豫利用SQ1.对文本或者非结构化数据进行处理的通用数据处理架构。(4)云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施。3 .简述云计算的服务模式云计算中典型的服务模式:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)o4 .前述云计算的类型云计算的类型包括公有云、私有云和混合云。5 .简述云计算的关键技术云计算的关键技术包括虚拟化技术、分布式存储、分布式计算,多租户技术。6 .简述云计算与大数据的区别与联系(1)云计算和大数据的区别:云计算旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;大数据旨在对海量数据的存储、处理与分析,从海量数据中发现价值,服务于社会生产和生活。(2)云计算和大数据的联系,从整体上看,大数据和云计算是相辅相成的。云计算为大数据处理提供了强大的计算和存储基础设施,同时也可以提供各种数据管理和分布式计和服务,使得大数据处理变得更加高效和灵活。反之,大数据为云计篮提供了“用武之地”,没有大数据这个“练兵场”,云计.算再先进,也不能发挥它的应用价值。可以说,云计算和大数据已经彼此渗透、相互融合、相互促进、相互影响,7 .简述YARN各组件的功能(1) ResourceManager:处理C1.ient的请求:启动/监控pp1.icatiorMaster;监控NOdeMarU1.ger;资源分配与调度(2) App1.icationMaster:为应用申谛资源,并分配给内部任务;任务调度、监控与容错(3) NodeManager:单个节点上的资源管理;处理来BReSOUrCeMUnager的命令;处理来自App1.icationMaster的命令8 .简述SparkRDO依赖关系区别RDD的依敕关系可以分为两种类型:(D窄依赖关系:每个父RDD分区最多只有一个子RDD分区依赖它。(2)宽依赖关系:每个父RDD分区可以有多个子RDD分区依赖它。9 .葡述Spark的运行架构(1)当个SPark应用被提交时,首先为这个应用构建起基本的运行环境,(2)资源管理淞为EXeeUtOr分配资源,并启动Ex。CUtOr,Executor运行情况符随若“心跳”信息发送到资源管理器上。(3) SparkContext根据RDD的依赖关系构建DAG,并将DG提交给DAG调度器进行解析。(4)任务在Executor上执行,执行结果被反馈给任务调度器和DAG调度罂,执行完毕后写入数据并释放所有资源。10 .简述HadooptO的改进与提升针对Hc1.op1.0存在的局限与不足,在后续发展过程中,HadOoP对MaPRedUCe和HDFS的许多方面做了有针对性的改进与提升:(I)HDFS:对于单名称节.点,存在的单点故障问题,设计了HDFSHA.提供名称节点热备份机制.对于单一命名空间,无法实现资源隔离问题,设计TIIDFS联邦,管理多个命名空间。(2)MaPRedUCe:对于资源管理效率低的问题,设计了新的资源管理调度框架YARN。11 .使用代码实现一个匍单的询频疑计MapRoduce应用*mapper函数defmapper(1.ine):words=1.ine,strip().sp1.it()forwordinwords:yie1.d(word,1)#reducer函数defreducer(word,counts):returnword,sum(counts)总主程序if_name_='_main_,:# 读取输入文件withopenCinput,txt,'r,)asf:1.ines=f.read1.ines()# 执行mapper函数PairS=for1.inein1.ines:pairs,extend(mapper(1.ine)# 按键进行分组groups=)forpairinpairs:word,count=pairifwordnotingroups:groupsword=groupsword.append(count)# 执行reducer函数resu1.ts=forword,countsingroups,iIemsO:resu1.t=reducer(word,counts)resu1.ts,append(resu1.t)# 输出结果forresu1.tinresu1.ts:print(resu1.t)12介绍一个本章未详细介绍的大数据计算平台或工具,形成报告SParkSQ1.的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。SparkSQ1.是ApacheSpark中用于处理结构化数据的模块,它提供了种基于SQ1.的统数据处理引擎,支持许多标准SQ1.查询以及内置函数和聚合操作,同时还能够与Spark的其他组件集成,例如SparkSIreUming、M1.1.ib和GraphXe(I)SparkSQ1.的几大优点:易整合:无的整合fSQ1.查询和Spark编程统一的数据访问:可以使用相同的方式连接不同的数据源报容Hive:在已有的仓库上直接运行SQ1.或者HiveQ1.标准数据连接:通过JDBC或者ODBC来连接(2)S1wrkSQ1.的主要功能包括:支持多种数据源:SparkSQ1.支持从多种数据源中读取数据,包括JSoN、Parquet、Hive表、JDBC数据库等。支持SQ1.查询:SparkSQ1.可以通过SQI.查询语句进行数据查询和分析,支持标准SQ1.杳询语句、聚合函数、内巴函数等。 DataFrameAPI:SparkSQ1.还提供了DataFramePI,使得用户可以用类似于SQ1.的方式进行数据查询和处理,同时也可以通过编程方式实现更更杂的操作. 优化器:SparkSQ1.中内置了一个堪于CaIaIyS1.的优化器,能雄自动优化查询计划,提高查询性能。 集成Hive:SparkSQ1.还可以与Hive集成,用户可以使用SparkSQ1.的API或SQ1.查询语句查询Hive表,还可以招SparkSQ1.的结果保存到Hive表中。SparkSQ1.的应用场景包括数据仓库、数据分析、数据挖掘、报表等领域,它可以处理结构化数据和半结构化数据,支持多种数据源和数据格式,并提供了易丁使用的API和查询语言,是Spark生态系统中重要的组成部分。第六章大数据挖掘1 .数据挖掘的任务有哪些?每项任务的含义是什么?数据挖掘的主要任务,具体包括聚类分析、硕测建模(分类和回归)、关联分析、异常检测。聚类是种查找院版在数据之间内在结构的技术,它将所有的样本数据组织成一些相似的组,根据样本数据的特点对其进行分类,使得同一类别中的数据实例具有相似性的特点,不同类别的数据实例相似性应尽可能小。预测建模是通过变量函数的方式为因变量建立模型。预测建模任务通常分为两大类:分类任务,用于预测离散的因变量:回归任务,用于预测连续的因变量。关联分析是用来发现描述数据中强关联特征的模式,它利用关联规则进行数据挖掘,以发现隐藏在大型数据集中令人感兴趣的联系。异常检测的任务是识别数据特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目的是发现真正的离群点,而避免错误地将正常的对象标注为离群点.2 .数据挖掘和知识发现的概念有什么异同?数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道但又是潜在有用信息的过程“这些信息的表现形式为规则、概念、规律及模式等。许多人把数据挖掘等同于数据库中的知识发现,实际上数据挖掘是数据库中知识发现不可缺少的一部分,而知识发现是将未加工的数据转换为仃用信息的过程,该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。3 .按如下标准对下列每种聚类算法进行描述,可以确定的微的形状;必须指定的泊入参数;局限性。(1) k-means:K-means算法是一种基于距离的聚类郛法,将平均值作为类“中心”进行分割聚类。适用于球形族,使用时需要指定赧的数量和初始中心点。时非球形簇分布的数据效果不好,且对初始中心点的选择敏感:(2) k中心点:K中心点算法是一种基于距离的聚类算法,它将数据集分成K个簇,每个簇的中心是该簇内距离最远的两个点之间的中点。适用于球形族,使用时需要指定赧的数量和初始中心点。对非球形族分布的数据效果不好,I1.对初始中心点的选择极感:(3) DBSCAN:DBSCAN兑法是一种基于高密度连通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。适用于各种更杂形状的数据集,需要设置半径和密度阈值来确定震。对于高维数据集,和弯度差异较大的数据集,DBSCAN聚类效果不佳:(4) C1.ABA算法附机地抽取多个样本,针对每个样本寻找其代表对缴,并对全部的数据对象进行聚类,从中选择质量最好的聚类结果作为鼓终结果。算法需要指定采样数星和孩数量:Ko算法对不同的初始节点会导致不同的聚类结果,且结果往往收敛丁局部最优,对数据对以的输入顺序异常被感,且只能处理凸形或球形边界聚类。4 .结果如下.(1)第一次循环执行后的三个聚类中心:A1.(2,10).B2(7,5)C1(1,2)(2)最后的三个簇:C2(4,9),A1.(2,10),B1.(5,8)B2(7,5),A3(8,4),B3(6,4)C1.(1.,2),A2(2,5)5 .简述分类的意义及常用的分类方法.分类是通过学习得到个目标函数f把每个属性集X映射到个预先定义的类标号y上,其中目标函数f也称分类模型。H前比较常用的分类算法有决策树算法、最近邻算:法、贝叶斯法、支持向量机、分类涔组合法和人工神经网络算法。6 .比较线性可分支持向机、线性支持向机和线性不可分

    注意事项

    本文(大数据技术及应用——基于Python语言 思考题参考答案 严宣辉 - 第5--9章 大数据计算---大数据应用案例.docx)为本站会员(王**)主动上传,优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知优知文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 yzwku网站版权所有

    经营许可证编号:宁ICP备2022001189号-2

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。优知文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知优知文库网,我们立即给予删除!

    收起
    展开