第11章主成分分析.ppt.ppt
《第11章主成分分析.ppt.ppt》由会员分享,可在线阅读,更多相关《第11章主成分分析.ppt.ppt(58页珍藏版)》请在优知文库上搜索。
1、汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的假定你是一个公司的财务经理,掌握了公司的所有数据,比如所有数据,比如固定资产、流动资金、每一笔固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些如果让你向上面介绍公司状况,你能够把这些指标和数字都指标和数字都原封不动地摆出去吗原封不动地摆出去吗?当然不能。当然不能。你必须要把各个方面作出高度概括,你必须要把各个方面作出高
2、度概括,用一两个用一两个指标简单明了地把情况说清楚。指标简单明了地把情况说清楚。每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比如全国或各个地区的带有许多经济和社会变比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量量的数据;各个学校的研究、教学等各种变量的数据等等。的数据等等。这些数据的共同特点是变量很多,在如此多的这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找变量之中,有很多是相关的。人们希望能够找出它们的出它们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。把变量维数降低以便于描述、理解和分析的方
3、把变量维数降低以便于描述、理解和分析的方法:法:主成分分析主成分分析(principal component principal component analysisanalysis)和)和因子分析因子分析(factor analysisfactor analysis)。)。实际上实际上主成分分析可以说是因子分析的一个特主成分分析可以说是因子分析的一个特例例。本章介绍主成分分析法。本章介绍主成分分析法。11.1 什么是主成分分析?我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1語文a2数学a3自然a4社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总
4、和就相对于新的综合变量主成分推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合综合起来处理,这就是PCA。这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。主成分分析(Principal Component Analysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。为什么要根据方差确定主成分?情形II下
5、总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息对主成分的要求上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。主成分分析的目的压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差
6、且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。11.2主成分分析的基本思想(以两个变量为例)2x1x1F2F主成分分析的几何解释平移、旋转坐标轴2x1x1F2F主成分分析的几何解释平移、旋转坐标轴2x1x1F2F 主成分分析的几何解释平移、旋转坐标轴三变量主成分分析示意图PC1=a1xi1+a2xi2+a3xi3PC2=b1xi1+b2xi2+b3xi3 主成分变换将三维空间的样本显示在二维空间一、主成分分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵npnnppxxxxxxxx
7、xX212222111211(1)11.3 主成分分析的原理和步骤 当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111(2)n系数lij的确定原则:zi与zj(ij;i,j=1,2,m)相互无关;z1是x1,x2,xP的一切线性组合中方差最大者,z2
8、是与z1不相关的x1,x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2,xP,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第一,第二,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m)上的荷载 lij(i=1,2,m;j=1,2,p)。从数学上容易知道,从数学上可以证明,它们分别是相关系数矩阵的m个较大的特征值所对应的特征向量。二、计算步骤(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数,r
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 成分 分析 ppt
