查看: 11876|回复: 84

[系统转发] 探索性的因子分析

0 主题	319 听众	6万积分

管理员

Rank: 50

签到天数: 15 天

[LV.4]偶尔看看III

注册时间: 2010-6-8
最后登录: 2025-1-27
积分: 68861
精华: 0
主题: 0
帖子: 0

电梯直达

楼主

发表于 2008-8-30 22:11:00 |只看该作者 |倒序浏览

因子分析的目的是用现有的变量去建构一些新的变量。「新变量」是「现有变量」的线性组合。因为「新变量」是由「现有变量」组成的，所以「新变量」的数目就可以比「现有变量」少。比如我们现在有10个变量，我们把前5个组合成一个新的变量，然后把后5个组合成另外一个新的变量。原来的10个变量，就变成新的2个变量了。所以，我们常常说因子分析是减少变量（variable reduction）的一种统计工具。为什么要减少变量呢？一个在管理研究里最经常的原因是构念（construct）与测量项目（item）的关系。在做研究的时候，为了增加信度，我们常常会用几个不同的测量项目来代表一个构念。举例，虽然我们是问了6道题，可是它们可能都是代表一个构念。因此就有把这6个测量项目变成一个新的变量（它们代表的构念）的必要了。下面我们用一个最简单的虚构例子，里面有两个构念，每个构念由两道题来测量。我们的目的是把4个题目合并成为两个构念。因子分析是其中一个我们经常用的方法。现在我们在问卷里问了四道题，前两道（x1和x2）是问「下属跟主管的关系」的；后两道题（x3和x4）是问「下属和主管的亲密度」。理论上来讲，「亲密度」与「关系」不完全一样，好的关系不一定代表很亲密的。我们的假设是关系越好，亲密度高的机会就越大。因子分析是一个减少变量的统计工具。现在我们有四个变量（x1到x4），我们希望把它们减到两个变量，因为四个变量的背后其实只是代表两个构念（「关系」与「亲密度」）。其实，在我们设计问卷的时候，我们对这四个变量（x1到x4）已经有一定的假设， x1和x2量「关系」（我们叫做F1）， x3和x4量「亲密度」（我们叫做F2），可是每一道题测量的时候都会有误差（uk）。所以，我们的测量模型应该是如下： x1 = λ1 F1 + λ2 F2 + u1 （1） x2 = λ3 F1 + λ4 F2 + u2 （2） x3 = λ5 F1 + λ6 F2 + u3 （3） x4 = λ7 F1 + λ8 F2 + u4 （4）这四条公式的意思是什么呢？我们拿第一条“公式（1）”来作例子。x1就是问题「主管偶尔会邀请我到他家里吃饭」的得分。其实它是在测量「关系」这个构念（F1）的。不过某程度上来讲，这道题也反映了主管与下属的「亲密度」（F2）。λ1是代表这道题代表「关系」这个构念的能力，λ2也代表了这道题反映了「亲密度」这个构念的程度。λ越高，看得见的测量项目x1与看不见的构念（F1或F2）的关系越强。最后，uk是xk特有的部分，是跟两个因子没有关系的部分。如果用图画来表达的话，就是下面的图：在这个图里，方格是看得见的问卷变量（x1到x4），圆圈是看不见的构念（F1“关系”和F2“亲密度”）。我们看见有三个箭头指向x1，它们就是x1的三个“原因”。黑色箭头从F1指向x1，代表在方程式（1）里F1是x1的其中一个原因，F1对x1的影响是λ1，或者反过来讲，x1这个看得见的变量表现F1这个看不见的构念的程度是λ1。同时，F2也是x1的原因，x1表现F2的程度是λ2。最后还有一个不可以用两个因子解释的原因，叫做u1。所以，上面的公式（1）就是附图（1）的下面部分：在因子分析中，这些看不见的构念叫做「因子」（factor），看得见的测量项目（xk）就叫做「项目」（item）。项目反映因子的程度（λk）叫做「因子载荷」。所以在管理的研究里，因子分析可以形容为一个把一大堆看得见的问卷变量（项目），减少到我们需要的，但是看不见的构念（因子）的统计方法。我花了很长的时间，尝试用非数学的方式介绍「载荷λ」、「因子F」、「误差ε」是怎样猜出来的，可是暂时未能成功。因为因子分析最常用的估计方法「主成份」法（principal component analysis）牵涉到向量和矩阵的特征值（eigen value）与特征向量（eigen vector）的问题。这个我无法不用矩阵的数学表达（可能是认识不够深和功力不够吧，大概要多等几年，等我完全消化这些数学的概念才可以做）。所以，希望大家暂时不要知道「载荷」到底是怎样估计出来的。我们暂时相信，只要我们输入我们所有变量（x1到x4）的相关矩阵，用统计的「主成份法」就可以找到上面方程式（1）到（4）里面的λ1到λ8了。最后一点，一般在估计「载荷」的时候，我们都会把因子的方差定为1。假设下面就是我们得到的结果： x1 = .81 F1 + .34 F2 + u1 （1） x2 = .77 F1 + .15 F2 + u2 （2） x3 = -.24 F1 + .79 F2 + u3 （3） x4 = -.31 F1 + .65 F2 + u4 （4）为了方便，我们把「载荷」列成表的方式，表现如下。这个就是大家用SPSS或是SAS常常看见的因子分析结果，叫做「因子载荷矩阵」（当然，程序不会告诉你F1是“关系”；F2是“亲密度”，我写出来是为了方便大家了解而已）。这个「因子载荷矩阵」告诉了我们因子分析最重要的信息。现在我们来解释「因子载荷」到底是什么。我们用公式（1）作为一个例子： x1 =.81 F1 + .34 F2 + u1 （1）如果我们用方差分解（variance partitioning）的方法来分解x1的方差，因为F1与F2与ε1都是独立的，所以协相关（共变 cov）都是0。我们会得到： Var(x1) = (.81)2 Var(F1) + (.34)2 Var(F2) + Var(u1) Var(x1) 是x1的方差，它是“主管偶尔会邀请我到他家里吃饭”这个问题在不同的“员工-主管”配对里所产生的不同。x1的方差可以拆开为三部分：第一个是x1反映了构念F1的方差，第二个是x1反映了构念F2的方差。最后一个部分是x1的方差，不能用F1和F2来解释的特有部分。明白了这个已后，我们就可以来看附表（3）了。附表（3）跟附表（2）很相似。表中的第一纵列是x1到x4。第二纵列是它们对应的测量项目。第三纵列是它们在F1（关系这个因子）的「因子载荷」。第四纵列是它们在F2（亲密度这个因子）的「载荷」。最后一个纵列是「因子载荷的平方的和」（Σλk2）。所以对于第一个测量变量x1（“主管偶尔会邀请我到他家里吃饭”）来说，.77是(.81)2+(.34)2。这是什么意思呢？让我们再来看x1的方差分解方程： Var(x1) = (.81)2 Var(F1) + (.34)2 Var(F2) + Var(u1) 这里说x1的观察方差（也就是它在不同的“员工-主管”配对里的变化）其实有(.81)2是由于“员工与主管的关系变化”而产生的。另外，有(.34)2是由于“员工与主管的亲密度变化”而产生的。最后，有Var(ε1)是两个因子都不能解释的x1的变化。(.81)2+(.34)2就代表了F1和F2两个因子加起来一共解释了x1的变化（方差）的多少。这个「所有的因子加起来，对于观察变量的方差的总解释能力」在统计上叫做「分解共性」（communality）。「分解共性」越高，观察变量就越能被这两个因子来代表。为什么叫「分解共性」呢？Communal这个英文是「共有的」的意思。现在我们把四个问卷变量的变化（方差）的分解都写出来： Var(x1) = (.81)2 Var(F1) + (.34)2 Var(F2) + Var(u1) Var(x2) = (.77)2 Var(F1) + (.15)2 Var(F2) + Var(u2) Var(x3) = (-.24)2 Var(F1) + (.79)2 Var(F2) + Var(u3) Var(x4) = (-.31)2 Var(F1) + (.65)2 Var(F2) + Var(u4) 【共有的】 + 【特有的】前面的Var(F1)和Var(F2)是所有四个变量都“共同有的”，后面的Var(uk)是个别变量自己特有的，不能被这两个因子解释的“独特变化”。因为这个部分的变化不能被因子解释，在因子分析的术语里，有时候叫它们做“误差”方差（其实这部分的方差不一定是“错误”的意思，只是因子不能解释而已，请不要把它和“测量的误差”或“抽样的误差”混乱）。所以，「分解共性」（communality）的意思是四个变量（x1到x4）的变化（方差）的共同的地方。一个变量的「分解共性」越低，就代表它的Var(uk)很大，也就是说“它的变化”跟“其它的几个变量的变化”不一样。我们也可以反过来看，附表（3）的最后一行是「每一个纵列的载荷的平方的平均数」。所以.35是[(.81)2+(.77)2+ (-.24)2+(-.31)2]/4。这个平均数在在统计上叫做「平均方差解释%」（% of variance accounted for）。它说明了第一个因子（F1）平均来讲解释了四个观察变量（x1到x4）的能力。所以「平均方差解释%」越大，就代表了这个因子很可以用来代表这四个观察变量。我们可以想一想，如果F1平均只可以解释所有的观察变量的10%，那就代表平均来讲，这些变量还有90%的变化是因子不能解释的（也就是上面讲的“特有的方差”）。在多元分析里面，变量的变化（方差）与共变（或者是标准化后的相关系数）是我们研究因果关系的中心部分。如果因子不可以代表变量的变化，我们就不可以用因子来代表变量了。最后，我们再来看附表（3）一次。四个变量（x1到x4）在F1的载荷分别是.81，.77，-.24，-.31。这说明了什么呢？就是说用F1来代表x1和x2应该是没有问题的。但是用F1来代表x3和x4就有问题了，因为F1根本不可以代表x3和x4的变化。相反，四个变量在F2的载荷分别是.34，.15，.79，.65。F2可以用来代表x3和x4，但是不可以代表x1和x2。附表（3）的结果告诉我们x1和x2可以由F1来代表，因为x1和x2本来是用来测量主管和下属的「关系」的，所以，我们叫F1做「关系」。同样的，x3和x4可以由F2来代表，因为x3和x4本来是用来测量主管和下属的「亲密度」的，所以，我们叫F2做「亲密度」。你可能说，我怎么知道「载荷」要达到什么程度，才可以说因子可以代表变量呢？一般管理研究的标准是「载荷」高于0.4的叫做大，低于0.4的叫做小。《完》

转播0 淘帖0 分享0 收藏0 支持0 反对0 @朋友

使用道具举报

匿名 211.157.169.x

沙发

匿名 发表于 2008-8-30 22:11:00 |自己

又是精采易懂！有关「尝试用非数学的方式介绍「载荷λ」、「因子F」、「误差ε」是怎样猜出来的，可是暂时未能成功。」，会慢慢等，更希望能进步快些，在您未敎之前，就搞懂了。
有个小问题：「如果我们用方差分解的方法来分解x1的方差，因为F1与F2与ε1都是独立的，所以协相关（共变 cov）都是0。」，我有些困惑，因为依照 λ11、λ12, λ21 , λ22 的数字，我以为这两个因子F1与F2是有相关的。不知是否我解读错了？？若这两个因子有相关，「分解共性」协相关的计算要不要扣除共变的数据？

使用道具

匿名 211.157.169.x

板凳

匿名 发表于 2008-8-30 22:25:00 |自己

写的真好

使用道具

匿名 211.157.169.x

地板

匿名 发表于 2008-8-30 22:29:00 |自己

有个小问题：因子与项目之间有对应关系吗？也就是说一个因子一般要对应几个项目？这又没有特别的要求。
希望书稿上网的速度再快点阿，谢谢Kenny

使用道具

匿名 211.157.169.x

5楼

匿名 发表于 2008-8-30 22:49:00 |自己

Kenny, 您真是高效率。感谢这么详细的说明。赞！今夜会好好消化。在这之前，可以先了解一下您对于测量题目有交叉载荷(cross loading)的问题（您的例子无此问题），您建议应怎么处理？我过去就遇到这问题，我除了删题，不知还能做啥？对了，Kenny,您是否收到我今天请您把我加入QQ的讯息？一直未得到回应!！只是很想跟您说声谢！呵！

使用道具

匿名 211.157.169.x

6楼

匿名 发表于 2008-8-31 15:43:00 |自己

Kenny无私的分享令人敬佩。我呼吁所有此博客人尊重智慧财产权，此博客的知识应仅作为自身学习，未经Kenny同意，不宜将这些内容做为授课之用！相信大家都能自律。
可以解个惑吗？我听过处理EFA时，有一种方法是 “centroid method” （不清楚中文应如何说），可以谈谈吗？谢谢！

使用道具

Kenneth

69 主题	220 听众	2万积分

中人网专家

Rank: 50

签到天数: 3 天

[LV.2]偶尔看看I

注册时间: 2003-1-21
最后登录: 2016-11-27
积分: 29016
精华: 0
主题: 69
帖子: 1438

7楼

发表于 2008-8-31 17:35:00 |只看该作者

谢谢你的提醒。你能够看到这一点，大概就不需要看这个日子吧！：-）
附表中的数据是我乱编出来的，不是真的。本来是为了解释Sandy问的两个名词的意思的。
我已经改过了数据，现在的F1与F2应该是差不多不相关的了。谢谢！ Kenny

使用道具举报

Kenneth

69 主题	220 听众	2万积分

中人网专家

Rank: 50

签到天数: 3 天

[LV.2]偶尔看看I

注册时间: 2003-1-21
最后登录: 2016-11-27
积分: 29016
精华: 0
主题: 69
帖子: 1438

8楼

发表于 2008-8-31 17:53:00 |只看该作者

问：因子与项目之间有对应关系吗？
回应：我所知道的是「没有」对应关系的。一般从一个因子对应3到4个项目开始，到一个因子对应十几项目的我都见过。
另外，凡是牵涉图、表的东西，我要首先画完，再贴在word上（自存之用），然后再储存为jpg。再要用另外一个程式来减低解像度。然后要在最短的时间贴上去（系统不容许我慢慢改的，不然，所有改的东西都会没有了）。其中，还有照顾希腊字母的问题（有一些系统可以接受，有一些不可以），还有上标、下标（平方与subscript 等）所以是极为费时的。因此，我没有打算所有写完的文章都贴上来。不是不愿意，只是没有这么多时间来做编辑。我贴了EFA是因为要回答Sandy的问题而已。 Kenny

使用道具举报

Kenneth

69 主题	220 听众	2万积分

中人网专家

Rank: 50

签到天数: 3 天

[LV.2]偶尔看看I

注册时间: 2003-1-21
最后登录: 2016-11-27
积分: 29016
精华: 0
主题: 69
帖子: 1438

9楼

发表于 2008-8-31 21:30:00 |只看该作者

Sandy，用一般0.4作为载荷的标准的话，交叉载荷 (cross loading) 代表一个项目同时在两个构念上有超过0.4的载荷。概念上这代表什么呢？就是一个项目同时在量两个构念。这在一般测量模型里是不能接受的。我们还记得在一般测量模型里，x = λ τ + ε，x 只可以测量τ，剩下的就全是误差ε。所以除非在很特别的情形，这是不可以接受的。不可以接受的意思是这个项目是不容许的。把它删掉是唯一方法。
我看不见有QQ要叫我加入，可能还没有学懂。：-（ Kenny

使用道具举报

匿名 211.157.169.x

10楼

匿名 发表于 2008-8-31 21:33:00 |自己

Kenny,太好了，您分享了探索性因子分析，希望有许多回应，这样我的压力会少很多。!!我想针对您于「因子分析」该章的一句话，藉此机会就敎于您。请问：『一个「测量项目变数」（ variable）和「因子数」（factor scores）的相关，就等于该项目变数在该因子上的「因子载荷」（factor loading）』是什么意思? 要怎么算呢？另外，您针对因子分析的PPT，提过ㄧ个词 “Residual Matrix after reflection”。请问，reflection的中文在这是指什么？谢谢！

使用道具

12 3 4 5 6 7 8 9 / 9 页下一页

返回列表

[系统转发] 探索性的因子分析

中人8周年纪念勋章

2009年度勋章