《机器学习基础及应用》教案第8课使用决策树算法实现分类与回归.docx

资源ID：1169504 资源大小：153.91KB 全文页数：20页
资源格式： DOCX 下载积分：5金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要5金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

《机器学习基础及应用》教案第8课使用决策树算法实现分类与回归.docx

课题使用决策树算法实现分类与回归课时2课时(90min)教学目标知识技能目标：(1)掌握决策树算法用于分类任务的基本原理(2)掌握决策树算法用于回归任务的基本原理(3)掌握ID3算法、C4.5算法和CART算法的基本原理(4)掌握决策树算法的Skleam实现方法(5)能够使用决策树算法训练分类模型(6)能够使用决策树算法训练回归模型(7)能够编写程序，寻找最佳的决策树深度值素质目标：(I)关注国家资讯，增强民族意识，培养爱国主义精神。(2)理解决策树算法的基本原理，培养勇为人先的创新精神教学重难点教学重点：决策树算法用于分类任务和回归任务的基本原理；ID3算法、C4.5算法和CART算法的基本原理；决策树算法的Sklearn实现方法教学难点：使用决策树算法训练分类和回归模型；编写程序，寻找最佳的决策树深度值教学方法案例分析法、问答法、讨论法、i井授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务，和学生负责人取得联系，让其提醒同学通过APP或其他学习软件，完成课前任务，提前了解决策树算法的相关知识【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】要求学生扫码观看”决策树算法的基本原理”视频，提出以下问题：(1)决策树算法用于分类任务的基本原理是怎样的？(2)决策树算法用于回归任务的基本原理是怎样的？(3)常用的构造决策树的算法有哪几种?【学生】思考、举手回答传授新知【教师】通过学生的回答引入要讲的知识，介绍决策树算法的基本原理、决策树算法的SkIearn实现的相关知识6.1 决策树算法的基本原理决策树(decisiontree)是一种基于树结构的机器学习模型，可以用于分类与回归任务。在机器学习中，决策树分为分类树和回归树，当对样本的所属类别进行预测时使用分类树；当对样本的某个值进行预测时使用回归树。6.1.1 决策树算法的原理分析1.分类决策树的基本原理分类任务的目标是通过对雌集的"学习"，总结一种决策规则，预测未知样本的类别。使用决策树算法进行分类的原理是给定一个训练数据集，根据训练集构造决策树，根据决策树写出对应的决策规贝k然后使用决策规则对"待分类样本”进行分类.÷【教师】通过多媒体展示“购买计算机的客户数据集“表格，并进彳济并解例如，购买计算机的客户数据集（见表6-2）,使用决策树算法训练模型，可构造决策树.表62购买计算机的客户数据集客户编号年龄收入是否为学生信用情况购买计算机情况I青年高否一般没有购买2青年高否好没有购买3中年高否一般已购买4老年中否一般已购买5老年高是一般已购买6老年高是好没有购买7中年中是好已购买8青年中否一般没有购买9青年高是一般已购买10老年中是一般已购买11青年中是好已购买12中年中否好已购买13中年高是一般已购买14老年中否好没有购买÷【教师】通过多媒体展示“分类决策树”图片（详见教材），并进彳五并解从图可以看出，决策树的根节点和内部节点为数据集中的特征属性，叶节点为类别标签，根据特征属性的取值来判断进入哪一个分支。决策树分类采用自顶向下的递归方式，在决策树内部节点进行属性值的比较，根据不同的属性值判断从该节点向下的分支，在叶节点上得到结论。所以，从决策树的根节点到叶节点的每一条路径都对应一条合取规则。例如，图6的决策树对应的决策规则为If年龄=青年人不是学生Then没有购买计算机If年龄=青年人是学生Then已购买计算机If年龄=中年Then已购买计算机If年龄=老年人信用情况=好Then没有购买计算机If年龄=老年信用情况二一般Then已购买计算机使用这些决策规则就可以对新的待测样本的类别进行判定。例如，新样本（老年，收入中等，不是学生，信用一般）的类别判定为已购买计算机。2.回归决策树的基本原理回归任务研究的是一组变量与另一组变量之间的关系,其预测结果是连续的数值。回归决策树的基本原理是给定一个数据集，根据数据集构造决策树，根据决策树将特征空间划分为若干单元，每个单元有一个特定的输出（如训练集对应样本的平均值）.对于新的待测样本，只要按照特征值将其归到某个单元，即可得到相应的输出值。÷【教师】通过多媒体展示“回归决策树"图片和"回归决策树测试数据集“表格（详见教材），井进彳五并解例如，回归决策树测试数据集（见表6-3）,使用决策树算法训练模型，可构造如图所示的决策树（使用决策树算法对表6-3中的数据集进行回归预测的程序见例6-5）表6-3回归决策树测试数据集XyXy142839510719回归任务中，数据集的特征变量一般是连续的数值。因此，决策树的根节点和内部节点一般为数据集的特征属性，每个分支为特征属性值中两相邻点的中值（将特征属性值进行排序，然后取相邻两点的中值），叶节点为模型的输出值。根据图6-2中的回归决策树可将特征空间划分为多个单元，每个单元有一个特定的输出值（图6-2中的输出值为各对应点的平均值），如图6-3所示。这样，对新的待测样本进行预测时，只要按照特征值将其归到某个单元，即可得到相应的输出值。例如，新样本（X=4）的输出值为9.5.【教师】通过多媒体展示“回归决策树划分特征空间”图片（详见教材），并迸行讲解决策树算法可用于分类任务和回归任务。无论是分类任务还是回归任务，决策树算法的关键是构造合适的决策树，只要有了决策树，就可以根据决策树写出分类决策规则或划分特征空间,然后预测新数据.构造决策树常用的算法有ID3算法、C4.5算法和CART算法。6.1.2ID3算法ID3算法构造决策树的基本思想是：以信息增益最大的特征属性作为分类属性，基于贪心策略的自顶向下搜索遍历决策树空间，通过递归方式构建决策树，即比较每个特征属性的信息增益值，每次选择信息增益最大的节点作为决策树（或子树）的根节点。信息增益是信息论中的概念，指的是得知特征属性A的信息而使得类别属性Y的取值不确定性减少的程度。用数学表达式可表示为gain（r,A）=H（Y）-H（Y|A）其中，"（V）表示类别Y的烯（无条1牛墉），表示已知特征属性A的值后类别属性的条件烯。gain（KM）表示因为知道特征属性A的值后导致类别属性嫡的减小值（即类别属性Y的取值不确定性减少的程度），称为信息增益。gain/，A）的值越大，说明特征属性A提供的信息越多。1.埔牖的概念来源于信息论。信息论认为，信息是对客观事物不确定性的消除或减少。接收者收到某一信息后所获得的信息量，可以用接收者在通信前后不确定性的消除量来度量。生活中有这样的直观经验:北方的秋天常常是秋高气爽的天气,如果天气预报是"明天是一个晴天”，人们习以为常，因此得到的信息量很小；但如果天气预报是“明天有雪"，人们将感到十分意外，这个异常的信息给人们带来了极大的信息量.可见，信息量的大4与消息出现的概率成反比.基于上述特性,可将信息量的大小定义为消息出现概率的倒数的对数，用数学表达式表示为I（Xi）=log!=-logp（xi）P（Z）其中，“为）表示消息的信息量（一般称为自信息量），Mz）表示消息发生的概率。当对数底为2时，信息量的单位为比特（bit）；当对数底为e时，信息量的单位为奈特（nit）目前使用最广泛的单位是比特，本书也使用比特作为信息量的单位.通常，信源能发出若干条信息（如天气预报可能会播报晴天和雨天两种信息，晴天的概率为0.25,阴天的概率为0.75）,很多时候人们所关心的并不是每条信息携带的信息量，而是信源发出的所有信息的平均信息量。平均信息量指每条信息所含信息量的统计平均值，因此有N条消息的离散信源的平均信息量为H(X)=汽p(xi)I(xi)=-£P(Xi)IOgP(Xi)/=I=l这个公式与统计物理学中燧的计算公式完全相同，因此把信源输出信息的平均信息量称为信源的焰。2.条件端条件焰是指在获得信源X发出的信息后，信宿Y仍然存在的不确定性。在给定X(即各个')的条件下，Y集合的条件烯为H(WX)。条件楠”3X)表示已知条件X后，Y仍然存在的襁定度，其公式如下。H(YX)=p(xj)H(YX=xj)J=I3.ID3算法的流程使用ID3算法构造决策树的流程如下。(1)确定决策树(或子树)的根节点。首先，计算给定数据集中类别属性的信息精；然后，计算给定数据集中每个特征属性的条件嫡；最后，计算各个特征属性对应类别属性的信息增益，并选择信息增益最大的特征属性作为决策树(或子树)的根节点。(2)更新数据集，根据决策树(或子树)根节点特征性的取值将训练雌集分配到各分支中。(3)重复以上步骤，直至子集包含单一悔正属性或节点的样本个数小于预定阈值。(4)生成ID3决策树。÷【教师】通过多媒体展示“天气情况和是否进行活动的数据集“表格，并进行讲解【例6-1某单位要组织一次户外活动，活动时间将至，活动策划人需要根据天气情况评判此次活动是否能如期进行。为此，他收集了以往关于天气情况和是否进行活动的数据集，如表6-4所示。使用ID3算法构造决策树，判定活动(活动当天天气：阴，寒冷，湿度高，风速弱)是否能如期进行。表64天气情况和是否进行活动的数据集序号天气温度湿度风速活动I晴炎热高弱取消2晴炎热高强取消3阴炎热高弱进行4雨适中高弱进行5雨巷Q正常弱进行6雨寒冷正常强取消7阴寒冷正常强进行8晴适中高弱取消9晴寒冷正常弱进行10雨适中正常弱进行11晴适中正常强进行12阴适中高强进行【解】ID3算法构造决策树并对新样本进行预测的步骤如下。（1）确定根节点。数据集中共有4个特征属性,使用ID3算法构造决策树需要计算每个属性的信息增益，确定决策树的根节点.各个特征属性对应类别属性的信息增益用公式表示为gain（活动，天气）=H（活动）-“（活动|天气）gain（活动，温度）="（活动）-（活动I温度）gain（活动，湿度）=H（活动）-H（活动I湿度）gain（活动，风速）=H（活动）-“（活动|风速）需要分别计算”（活动）”（活动I天气）”（活动I温度）”（活动I湿度）与”（活动I风速）的值。计算类别属性"活动"的域"活动"这一列中，"进行"出现了9次，“取消”出现了5次。因此，进行活动的概率为9/14,取消活动的概率为514则无条件烟”（活动）的值为”（活动）=上P（M）IOgP（若）=-（914）log（914）-（514）log（514）0.94已知天气的情况下，计算类别属性"活动”的条件烯，数学表达式为”（活动I天气）=M晴）”（活动I天气=晴）+P（阴）”（活动I天气=阴）+M雨）（活动I天气=雨）"天气”这一列有晴、阴和雨3个属性值，其出现的概率分别为5

注意事项

本文（《机器学习基础及应用》教案第8课使用决策树算法实现分类与回归.docx）为本站会员（王**）主动上传，优知文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知优知文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。