查看: 12272|回复: 13

请教：含有同源误差的样本如何进行SEM推算？

1 主题	5 听众	73 积分

书生

Rank: 3 Rank: 3 Rank: 3

注册时间: 2011-2-19
最后登录: 2011-7-27
积分: 73
精华: 0
主题: 1
帖子: 7

电梯直达

楼主

发表于 2011-6-14 11:31:39 |只看该作者 |倒序浏览

我们在做关于消费者购物目的地选择的研究时遇到一个麻烦。即运用引力模型的居住地调查必须要问每个回答者对多个目的地的购物行为，这种形式的调查很常用。要想避免样本的同源误差，就只能从一个回答者处得到有关一个目的地购物行为的回答了。

通常的回归分析一直是忽略同源误差问题的。我们那个研究的SEM分析也忽略了这个问题。实际操作上的问题点是“当忽略同源误差的相关时，SEM的结果是否完全无意义？”有人认为“也许多少会有影响，但不会改变结论”；也有人认为“结论会完全不同”。很想知道Kenneth的意见。如果是前者，我们就不用重新推算了；如果是后者，就必须解决这个难题重新推算。尤其是SEM分析要使用Amos统计软件，Amos中应该如何取同源误差的相关？这个问题是特别想请教Kenneth的。

也请大家给支支招。

转播0 淘帖0 分享0 收藏0 支持0 反对0 @朋友

使用道具举报

mostwanted

4 主题	6 听众	627 积分

秀才

Rank: 5 Rank: 5

注册时间: 2010-7-6
最后登录: 2014-7-27
积分: 627
精华: 0
主题: 4
帖子: 50

沙发

发表于 2011-6-14 13:43:57 |只看该作者

做一个method factor.
参考： Williams,L.J., Hartman,N.,& Cavazotteorgan,F. (2010) Method Variance and Marker Variables: A Review and Comprehensive CFA Marker Technique. Organization Research Method,13:477-514

使用道具举报

Kenneth

69 主题	220 听众	2万积分

中人网专家

Rank: 50

注册时间: 2003-1-21
最后登录: 2016-11-27
积分: 29016
精华: 0
主题: 69
帖子: 1438

板凳

发表于 2011-6-14 17:14:01 |只看该作者

回复 1楼 菜园小丁 的帖子
菜园小丁，我不知道有没有误会你的意思。我对你的问题的理解是你的问题不是「同源方差（CMV）」的问题。CMV是因为自变量与因变量是同一个来源，所以我们不可以分开到底观察的相关是因为（a）来自同一个来源（比如数据来自同一个应答者）；或是（b）真实構念之间的相关。
你的问题到底是：
（1）是同一个应答者同时提供自变量与因变量？还是
（2）同一个应答者同时提供几个数据点？
前者是同源方差，但是我猜你讲的是后者。后者的问题在统计上叫做autocorrelation（自相关？？）因为同一个应答者同时提供几个数据点，这几个数据点的回归残差是相关的（因为由同一个人提供）。因此违背了回归分析的随机误差假设。我们也有类似的问题的。比如请一位主管同时评价几个员工的表现。处理的方法有三：
（1）如你所说，一个主管只评一个员工。
（2）在回归的模型加入一个表现主管个人特征的变量作为控制变量，以求把这个个人的方差用统计方法控制住。一般我们会用positive affectivity, negative affectivity, social desirability之类的变量作为控制。
（3）用多层线性模型（HLM），每一个主管的评分就是一层。第二层的变量就是“主管”这个虚拟变量了。
当然，还有更复杂的计量经济学之类的处理方法。不过这就很数学了。你随便请教一个搞计量经济学、心里计量学、生物计量学或是统计学的人，都会为你提供很多蛮复杂的统计模型来处理的。

中人网社区招募“中国好版主”11月话费已送出

使用道具举报

hongyan911

8 主题	5 听众	919 积分

秀才

Rank: 5 Rank: 5

注册时间: 2010-7-12
最后登录: 2013-8-20
积分: 919
精华: 0
主题: 8
帖子: 118

地板

发表于 2011-6-14 18:53:03 |只看该作者

追问一下。从解决方案看，不觉得autocorrelation与CMV有差耶，特别是第二种方法，这与解决CMV的方法很类似，就是增加一个Marker Variable。不知道这么理解对不对？

对第三种方法有点不明白。前面有个帖子提到AMJ10一篇文章讲i-deals，OCB，……的关系，作者把organization作dummy variable 控制掉，用了HLM。记得Kenny当时有说“因为有了个体层面的organization dummy,根本就不需要level-2的模型，所以不是HLM的正确方法”。这句话的意思是说AMJ10那篇文献只是用HLM消除autocorrelation，但并不是严格意义上的用HLM做analysis。这么理解对么？

使用道具举报

Kenneth

69 主题	220 听众	2万积分

中人网专家

Rank: 50

注册时间: 2003-1-21
最后登录: 2016-11-27
积分: 29016
精华: 0
主题: 69
帖子: 1438

5楼

发表于 2011-6-14 20:21:46 |只看该作者

回复 4楼 hongyan911 的帖子
Hongyan911，解决方法相似，不等于问题是一样的。Moderated mediation与mediated moderation的解决方法也极为相似，但问题是不一样的。找出X影响Y，或是Y是否影响X，解决方法都是用相关系数。控制变量与前因变量，在做回归时的地位也是一样的。
Autocorrelation是每几个数据点的残差有相关，这就算是在完全没有CMV的情形下（比如X与Y是由不同的源头来的数据）也会出现。相反，在严重CMV的情形下（比如说所有变量都是从同一个人回答）也可以完全没有autocorrelation的问题。你发觉它们非常相似，是因为同一个变量（例如PANA，SD），“可能”引起评分者的自相关。当有CMV时，同一个变量NA，也可能引起同源偏差。
关于你的最后一点，是我用词不当，引起你的误会。其实，第二层是没有变量的。主管是用来分组的变量。第二层只有一个random effect （代表每一个主管的不同特征，这就是我所谓的“虚拟变量”的意思。是我用错了词。我的意思不是dummy variables）。但是这个方法要一个主管评很多下属才有用。如果一个主管只是评两三个下属，那用HLM就可能有点问题了。

使用道具举报

菜园小丁

1 主题	5 听众	73 积分

书生

Rank: 3 Rank: 3 Rank: 3

注册时间: 2011-2-19
最后登录: 2011-7-27
积分: 73
精华: 0
主题: 1
帖子: 7

6楼

发表于 2011-6-15 23:25:17 |只看该作者

回复 3楼 Kenneth 的帖子
Kenneth，十分感谢您的解答和建议！您猜测的对，是第二种情况。我们向一个应答者询问了分别对3条商业街的情感体验和认知等问题，然后作为3个样本进行了SEM分析。其实我们想知道这种自相关的误差会在多大程度上影响SEM分析的结论。我们会按您的建议试一试。也有人建议做多元阶层回归分析，把来源当做一个阶层处理。不知和您的建议是否有共同之处。
也谢谢mostwanted的建议！谢谢hongyan911 关注和参与讨论！

本帖最后由菜园小丁于 2011-6-15 23:26 编辑

使用道具举报

Kenneth

69 主题	220 听众	2万积分

中人网专家

Rank: 50

注册时间: 2003-1-21
最后登录: 2016-11-27
积分: 29016
精华: 0
主题: 69
帖子: 1438

7楼

发表于 2011-6-16 00:40:35 |只看该作者

回复 6楼 菜园小丁 的帖子
菜园小丁，我不知道什么叫“多元阶层回归分析”。我其中一个建议的是 Hierarchical Linear Modeling （不是 hierarchical regression or multivariate regression）。如果 “多元阶层回归分析” 是 Hierarchical Linear Modeling （HLM），那我们讲的就是一样的东西了。
Autocorrelation 是违反了回归分析的一个重要假设，就是残差是随机的。我不是统计学家，知道的不多。不过计量经济学的人花了这么多时间来解决这个问题，我想影响应该不小吧。

使用道具举报

菜园小丁

1 主题	5 听众	73 积分

书生

Rank: 3 Rank: 3 Rank: 3

注册时间: 2011-2-19
最后登录: 2011-7-27
积分: 73
精华: 0
主题: 1
帖子: 7

8楼

发表于 2011-6-16 08:31:58 |只看该作者

回复 7楼 Kenneth 的帖子
谢谢Kenneth！

网上搜了一下，“多元阶层回归分析”应该是multiple hierarchical regression analysis。

使用道具举报

Kenneth

69 主题	220 听众	2万积分

中人网专家

Rank: 50

注册时间: 2003-1-21
最后登录: 2016-11-27
积分: 29016
精华: 0
主题: 69
帖子: 1438

9楼

发表于 2011-6-16 09:25:00 |只看该作者

回复 8楼 菜园小丁 的帖子
如果大家的用词是一样的话，hierarchical regression 是不可以解决这个问题的。除非你想用（n-1）个虚拟变量（n 是主管人数，在你的情形是回答者的人数）。但是如果有n个回答者，每个回答者回答3次，你的样本数就是3n。用3n个数据点来估计（n-1）个虚拟变量，统计力（statistical power）就有点问题了。

中人网社区招募“中国好版主”11月话费已送出

使用道具举报