设为首页 登录 注册
首页 中人社区 中人博客
查看: 10678|回复: 84
打印 上一主题 下一主题

[系统转发] 探索性的因子分析

[复制链接]

0

主题

319

听众

6万

积分

管理员

Rank: 50Rank: 50Rank: 50Rank: 50Rank: 50

签到天数: 15 天

[LV.4]偶尔看看III

注册时间
2010-6-8
最后登录
2024-11-19
积分
68833
精华
0
主题
0
帖子
0

中人8周年纪念勋章

跳转到指定楼层
楼主
发表于 2008-8-30 22:11:00 |只看该作者 |倒序浏览
因子分析的目的是用现有的变量去建构一些新的变量。「新变量」是「现有变量」的线性组合。因为「新变量」是由「现有变量」组成的,所以「新变量」的数目就可以比「现有变量」少。比如我们现在有10个变量,我们把前5个组合成一个新的变量,然后把后5个组合成另外一个新的变量。原来的10个变量,就变成新的2个变量了。所以,我们常常说因子分析是减少变量(variable reduction)的一种统计工具。   为什么要减少变量呢?一个在管理研究里最经常的原因是构念(construct)与测量项目(item)的关系。在做研究的时候,为了增加信度,我们常常会用几个不同的测量项目来代表一个构念。举例,虽然我们是问了6道题,可是它们可能都是代表一个构念。因此就有把这6个测量项目变成一个新的变量(它们代表的构念)的必要了。下面我们用一个最简单的虚构例子,里面有两个构念,每个构念由两道题来测量。我们的目的是把4个题目合并成为两个构念。因子分析是其中一个我们经常用的方法。           现在我们在问卷里问了四道题,前两道(x1和x2)是问「下属跟主管的关系」的;后两道题(x3和x4)是问「下属和主管的亲密度」。理论上来讲,「亲密度」与「关系」不完全一样,好的关系不一定代表很亲密的。我们的假设是关系越好,亲密度高的机会就越大。   因子分析是一个减少变量的统计工具。现在我们有四个变量(x1到x4),我们希望把它们减到两个变量,因为四个变量的背后其实只是代表两个构念(「关系」与「亲密度」)。其实,在我们设计问卷的时候,我们对这四个变量(x1到x4)已经有一定的假设, x1和x2量「关系」(我们叫做F1), x3和x4量「亲密度」(我们叫做F2),可是每一道题测量的时候都会有误差(uk)。所以,我们的测量模型应该是如下: x1 = λ1 F1 + λ2 F2 + u1                   (1) x2 = λ3 F1 + λ4 F2 + u2                   (2) x3 = λ5 F1 + λ6 F2 + u3                   (3) x4 = λ7 F1 + λ8 F2 + u4                   (4)   这四条公式的意思是什么呢?我们拿第一条“公式(1)”来作例子。x1就是问题「主管偶尔会邀请我到他家里吃饭」的得分。其实它是在测量「关系」这个构念(F1)的。不过某程度上来讲,这道题也反映了主管与下属的「亲密度」(F2)。λ1是代表这道题代表「关系」这个构念的能力,λ2也代表了这道题反映了「亲密度」这个构念的程度。λ越高,看得见的测量项目x1与看不见的构念(F1或F2)的关系越强。最后,uk是xk特有的部分,是跟两个因子没有关系的部分。如果用图画来表达的话,就是下面的图:           在这个图里,方格是看得见的问卷变量(x1到x4),圆圈是看不见的构念(F1“关系”和F2“亲密度”)。我们看见有三个箭头指向x1,它们就是x1的三个“原因”。黑色箭头从F1指向x1,代表在方程式(1)里F1是x1的其中一个原因,F1对x1的影响是λ1,或者反过来讲,x1这个看得见的变量表现F1这个看不见的构念的程度是λ1。同时,F2也是x1的原因,x1表现F2的程度是λ2。最后还有一个不可以用两个因子解释的原因,叫做u1。所以,上面的公式(1)就是附图(1)的下面部分:                     在因子分析中,这些看不见的构念叫做「因子」(factor),看得见的测量项目(xk)就叫做「项目」(item)。项目反映因子的程度(λk)叫做「因子载荷」。所以在管理的研究里,因子分析可以形容为一个把一大堆看得见的问卷变量(项目),减少到我们需要的,但是看不见的构念(因子)的统计方法。 我花了很长的时间,尝试用非数学的方式介绍「载荷λ」、「因子F」、「误差ε」是怎样猜出来的,可是暂时未能成功。因为因子分析最常用的估计方法「主成份」法(principal component analysis)牵涉到向量和矩阵的特征值(eigen value)与特征向量(eigen vector)的问题。这个我无法不用矩阵的数学表达(可能是认识不够深和功力不够吧,大概要多等几年,等我完全消化这些数学的概念才可以做)。所以,希望大家暂时不要知道「载荷」到底是怎样估计出来的。我们暂时相信,只要我们输入我们所有变量(x1到x4)的相关矩阵,用统计的「主成份法」就可以找到上面方程式(1)到(4)里面的λ1到λ8了。最后一点,一般在估计「载荷」的时候,我们都会把因子的方差定为1。假设下面就是我们得到的结果: x1 = .81 F1 + .34 F2 + u1                    (1) x2 = .77 F1 + .15 F2 + u2                    (2) x3 = -.24 F1 + .79 F2 + u3                   (3) x4 = -.31 F1 + .65 F2 + u4                   (4)   为了方便,我们把「载荷」列成表的方式,表现如下。这个就是大家用SPSS或是SAS常常看见的因子分析结果,叫做「因子载荷矩阵」(当然,程序不会告诉你F1是“关系”;F2是“亲密度”,我写出来是为了方便大家了解而已)。             这个「因子载荷矩阵」告诉了我们因子分析最重要的信息。现在我们来解释「因子载荷」到底是什么。我们用公式(1)作为一个例子:   x1 =.81 F1 + .34 F2 + u1                   (1)   如果我们用方差分解(variance partitioning)的方法来分解x1的方差,因为F1与F2与ε1都是独立的,所以协相关(共变 cov)都是0。我们会得到:             Var(x1) = (.81)2 Var(F1) + (.34)2 Var(F2) + Var(u1)   Var(x1) 是x1的方差,它是“主管偶尔会邀请我到他家里吃饭”这个问题在不同的“员工-主管”配对里所产生的不同。x1的方差可以拆开为三部分:第一个是x1反映了构念F1的方差,第二个是x1反映了构念F2的方差。最后一个部分是x1的方差,不能用F1和F2来解释的特有部分。明白了这个已后,我们就可以来看附表(3)了。   附表(3)跟附表(2)很相似。表中的第一纵列是x1到x4。第二纵列是它们对应的测量项目。第三纵列是它们在F1(关系这个因子)的「因子载荷」。第四纵列是它们在F2(亲密度这个因子)的「载荷」。最后一个纵列是「因子载荷的平方的和」(Σλk2)。所以对于第一个测量变量x1(“主管偶尔会邀请我到他家里吃饭”)来说,.77是(.81)2+(.34)2。这是什么意思呢?让我们再来看x1的方差分解方程:             Var(x1) = (.81)2 Var(F1) + (.34)2 Var(F2) + Var(u1)                    这里说x1的观察方差(也就是它在不同的“员工-主管”配对里的变化)其实有(.81)2是由于“员工与主管的关系变化”而产生的。另外,有(.34)2是由于“员工与主管的亲密度变化”而产生的。最后,有Var(ε1)是两个因子都不能解释的x1的变化。(.81)2+(.34)2就代表了F1和F2两个因子加起来一共解释了x1的变化(方差)的多少。这个「所有的因子加起来,对于观察变量的方差的总解释能力」在统计上叫做「分解共性」(communality)。「分解共性」越高,观察变量就越能被这两个因子来代表。为什么叫「分解共性」呢?Communal这个英文是「共有的」的意思。现在我们把四个问卷变量的变化(方差)的分解都写出来:             Var(x1) = (.81)2 Var(F1) + (.34)2 Var(F2) + Var(u1)                               Var(x2) = (.77)2 Var(F1) + (.15)2 Var(F2) + Var(u2)                               Var(x3) = (-.24)2 Var(F1) + (.79)2 Var(F2) + Var(u3)                               Var(x4) = (-.31)2 Var(F1) + (.65)2 Var(F2) + Var(u4)                                                              【共有的】      +     【特有的】   前面的Var(F1)和Var(F2)是所有四个变量都“共同有的”,后面的Var(uk)是个别变量自己特有的,不能被这两个因子解释的“独特变化”。因为这个部分的变化不能被因子解释,在因子分析的术语里,有时候叫它们做“误差”方差(其实这部分的方差不一定是“错误”的意思,只是因子不能解释而已,请不要把它和“测量的误差”或“抽样的误差”混乱)。所以,「分解共性」(communality)的意思是四个变量(x1到x4)的变化(方差)的共同的地方。一个变量的「分解共性」越低,就代表它的Var(uk)很大,也就是说“它的变化”跟“其它的几个变量的变化”不一样。   我们也可以反过来看,附表(3)的最后一行是「每一个纵列的载荷的平方的平均数」。所以.35是[(.81)2+(.77)2+ (-.24)2+(-.31)2]/4。这个平均数在在统计上叫做「平均方差解释%」(% of variance accounted for)。它说明了第一个因子(F1)平均来讲解释了四个观察变量(x1到x4)的能力。所以「平均方差解释%」越大,就代表了这个因子很可以用来代表这四个观察变量。我们可以想一想,如果F1平均只可以解释所有的观察变量的10%,那就代表平均来讲,这些变量还有90%的变化是因子不能解释的(也就是上面讲的“特有的方差”)。在多元分析里面,变量的变化(方差)与共变(或者是标准化后的相关系数)是我们研究因果关系的中心部分。如果因子不可以代表变量的变化,我们就不可以用因子来代表变量了。   最后,我们再来看附表(3)一次。四个变量(x1到x4)在F1的载荷分别是.81,.77,-.24,-.31。这说明了什么呢?就是说用F1来代表x1和x2应该是没有问题的。但是用F1来代表x3和x4就有问题了,因为F1根本不可以代表x3和x4的变化。相反,四个变量在F2的载荷分别是.34,.15,.79,.65。F2可以用来代表x3和x4,但是不可以代表x1和x2。   附表(3)的结果告诉我们x1和x2可以由F1来代表,因为x1和x2本来是用来测量主管和下属的「关系」的,所以,我们叫F1做「关系」。同样的,x3和x4可以由F2来代表,因为x3和x4本来是用来测量主管和下属的「亲密度」的,所以,我们叫F2做「亲密度」。你可能说,我怎么知道「载荷」要达到什么程度,才可以说因子可以代表变量呢?一般管理研究的标准是「载荷」高于0.4的叫做大,低于0.4的叫做小。   《完》
沙发
匿名  发表于 2008-8-30 22:11:00 |自己
又是精采易懂!有关「尝试用非数学的方式介绍「载荷λ」、「因子F」、「误差ε」是怎样猜出来的,可是暂时未能成功。」,会慢慢等,更希望能进步快些,在您未敎之前,就搞懂了。
有个小问题:「如果我们用方差分解的方法来分解x1的方差,因为F1与F2与ε1都是独立的,所以协相关(共变 cov)都是0。」,我有些困惑,因为依照 λ11、λ12, λ21  , λ22  的数字,我以为这两个因子F1与F2是有相关的。不知是否我解读错了?? 若这两个因子有相关,「分解共性」协相关的计算要不要扣除共变的数据?
回复

使用道具

板凳
匿名  发表于 2008-8-30 22:25:00 |自己
写的真好
回复

使用道具

地板
匿名  发表于 2008-8-30 22:29:00 |自己
有个小问题:因子与项目之间有对应关系吗?也就是说一个因子一般要对应几个项目?这又没有特别的要求。
希望书稿上网的速度再快点阿,谢谢Kenny
回复

使用道具

5
匿名  发表于 2008-8-30 22:49:00 |自己
Kenny, 您真是高效率。感谢这么详细的说明。赞!今夜会好好消化。在这之前,可以先了解一下您对于测量题目有交叉载荷(cross loading)的问题(您的例子无此问题),您建议应怎么处理?我过去就遇到这问题,我除了删题,不知还能做啥?对了,Kenny,您是否收到我今天请您把我加入QQ的讯息?一直未得到回应!!只是很想跟您说声谢!呵!
回复

使用道具

6
匿名  发表于 2008-8-31 15:43:00 |自己
Kenny无私的分享令人敬佩。我呼吁所有此博客人尊重智慧财产权,此博客的知识应仅作为自身学习,未经Kenny同意,不宜将这些内容做为授课之用!相信大家都能自律。 
可以解个惑吗?我听过处理EFA时,有一种方法是 “centroid method” (不清楚中文应如何说),可以谈谈吗?谢谢!
回复

使用道具

69

主题

219

听众

2万

积分

中人网专家

Rank: 50Rank: 50Rank: 50Rank: 50Rank: 50

签到天数: 3 天

[LV.2]偶尔看看I

注册时间
2003-1-21
最后登录
2016-11-27
积分
29016
精华
0
主题
69
帖子
1438

2009年度勋章

7
发表于 2008-8-31 17:35:00 |只看该作者
谢谢你的提醒。你能够看到这一点,大概就不需要看这个日子吧!  :-)
附表中的数据是我乱编出来的,不是真的。本来是为了解释Sandy问的两个名词的意思的。
我已经改过了数据,现在的F1与F2应该是差不多不相关的了。谢谢!  Kenny
回复

使用道具 举报

69

主题

219

听众

2万

积分

中人网专家

Rank: 50Rank: 50Rank: 50Rank: 50Rank: 50

签到天数: 3 天

[LV.2]偶尔看看I

注册时间
2003-1-21
最后登录
2016-11-27
积分
29016
精华
0
主题
69
帖子
1438

2009年度勋章

8
发表于 2008-8-31 17:53:00 |只看该作者
问:因子与项目之间有对应关系吗?
回应:我所知道的是「没有」对应关系的。一般从一个因子对应3到4个项目开始,到一个因子对应十几项目的我都见过。
另外,凡是牵涉图、表的东西,我要首先画完,再贴在word上(自存之用),然后再储存为jpg。再要用另外一个程式来减低解像度。然后要在最短的时间贴上去(系统不容许我慢慢改的,不然,所有改的东西都会没有了)。其中,还有照顾希腊字母的问题(有一些系统可以接受,有一些不可以),还有上标、下标(平方 与subscript 等)所以是极为费时的。因此,我没有打算所有写完的文章都贴上来。不是不愿意,只是没有这么多时间来做编辑。我贴了EFA是因为要回答Sandy的问题而已。  Kenny
回复

使用道具 举报

69

主题

219

听众

2万

积分

中人网专家

Rank: 50Rank: 50Rank: 50Rank: 50Rank: 50

签到天数: 3 天

[LV.2]偶尔看看I

注册时间
2003-1-21
最后登录
2016-11-27
积分
29016
精华
0
主题
69
帖子
1438

2009年度勋章

9
发表于 2008-8-31 21:30:00 |只看该作者
Sandy,用一般0.4作为载荷的标准的话,交叉载荷 (cross loading) 代表一个项目同时在两个构念上有超过0.4的载荷。概念上这代表什么呢?就是一个项目同时在量两个构念。这在一般测量模型里是不能接受的。我们还记得在一般测量模型里,x = λ τ + ε,x 只可以测量τ, 剩下的就全是误差ε。所以除非在很特别的情形,这是不可以接受的。不可以接受的意思是这个项目是不容许的。把它删掉是唯一方法。
我看不见有QQ要叫我加入,可能还没有学懂。:-(       Kenny
回复

使用道具 举报

10
匿名  发表于 2008-8-31 21:33:00 |自己
Kenny,太好了,您分享了探索性因子分析,希望有许多回应,这样我的压力会少很多。!!我想针对您于「因子分析」该章的一句话,藉此机会就敎于您。请问:『一个「测量项目变数」( variable)和「因子数」(factor scores)的相关,就等于该项目变数在该因子上的「因子载荷」(factor loading)』是什么意思? 要怎么算呢?另外,您针对因子分析的PPT,提过ㄧ个词 “Residual Matrix after reflection”。 请问,reflection的中文在这是指什么?谢谢!
回复

使用道具

您需要登录后才可以回帖 登录 | 注册