中人网

标题: 请教:含有同源误差的样本如何进行SEM推算? [打印本页]

作者: 菜园小丁    时间: 2011-6-14 11:31
标题: 请教:含有同源误差的样本如何进行SEM推算?

! b6 b9 \0 F, L8 ^/ ]5 C# k
我们在做关于消费者购物目的地选择的研究时遇到一个麻烦。即运用引力模型的居住地调查必须要问每个回答者对多个目的地的购物行为,这种形式的调查很常用。要想避免样本的同源误差,就只能从一个回答者处得到有关一个目的地购物行为的回答了。
通常的回归分析一直是忽略同源误差问题的。我们那个研究的SEM分析也忽略了这个问题。实际操作上的问题点是“当忽略同源误差的相关时,SEM的结果是否完全无意义?”有人认为“也许多少会有影响,但不会改变结论”;也有人认为“结论会完全不同”。很想知道Kenneth的意见。如果是前者,我们就不用重新推算了;如果是后者,就必须解决这个难题重新推算。尤其是SEM分析要使用Amos统计软件,Amos中应该如何取同源误差的相关?这个问题是特别想请教Kenneth的。
3 O  w6 C5 Q! V- @3 i
6 o0 y- g: S+ t1 K/ L) K7 o
也请大家给支支招。

作者: mostwanted    时间: 2011-6-14 13:43
做一个method factor.6 U: H' e& ]. ?9 ^2 j- j6 ?2 o. ]
参考: Williams,L.J., Hartman,N.,& Cavazotteorgan,F. (2010) Method Variance and Marker Variables: A Review and Comprehensive CFA Marker Technique. Organization Research Method,13:477-514  
作者: Kenneth    时间: 2011-6-14 17:14
回复 1楼 菜园小丁 的帖子
% @5 X  D& g, i. u菜园小丁,我不知道有没有误会你的意思。我对你的问题的理解是你的问题不是「同源方差(CMV)」的问题。CMV是因为自变量与因变量是同一个来源,所以我们不可以分开到底观察的相关是因为(a)来自同一个来源(比如数据来自同一个应答者);或是(b)真实構念之间的相关。
% D- Y+ p% Z; w1 _3 k0 h' j你的问题到底是:
6 e' Y5 V2 I1 M; h* \! P  W7 K(1)是同一个应答者同时提供自变量与因变量?还是) l5 B. D( `% k% ~4 ], N
(2)同一个应答者同时提供几个数据点?
7 E% Z& ~0 F- y前者是同源方差,但是我猜你讲的是后者。后者的问题在统计上叫做autocorrelation(自相关??)因为同一个应答者同时提供几个数据点,这几个数据点的回归残差是相关的(因为由同一个人提供)。因此违背了回归分析的随机误差假设。我们也有类似的问题的。比如请一位主管同时评价几个员工的表现。处理的方法有三:9 |; s/ V: C( S5 }- t
(1)如你所说,一个主管只评一个员工。) ?( P6 n" b. H  z0 C; M
(2)在回归的模型加入一个表现主管个人特征的变量作为控制变量,以求把这个个人的方差用统计方法控制住。一般我们会用positive affectivity, negative affectivity, social desirability之类的变量作为控制。0 L+ x' H& T, P
(3)用多层线性模型(HLM),每一个主管的评分就是一层。第二层的变量就是“主管”这个虚拟变量了。. t. g* c1 M6 }! \9 q+ N' c- a
当然,还有更复杂的计量经济学之类的处理方法。不过这就很数学了。你随便请教一个搞计量经济学、心里计量学、生物计量学或是统计学的人,都会为你提供很多蛮复杂的统计模型来处理的。
作者: hongyan911    时间: 2011-6-14 18:53
追问一下。从解决方案看,不觉得autocorrelation与CMV有差耶,特别是第二种方法,这与解决CMV的方法很类似,就是增加一个Marker Variable。不知道这么理解对不对?
# F& V" S# \8 F9 a! w) r8 K# y: [% t- L; i) F
对第三种方法有点不明白。前面有个帖子提到AMJ10一篇文章讲i-deals,OCB,……的关系,作者把organization作dummy variable 控制掉,用了HLM。记得Kenny当时有说“因为有了个体层面的organization dummy,根本就不需要level-2的模型,所以不是HLM的正确方法”。这句话的意思是说AMJ10那篇文献只是用HLM消除autocorrelation,但并不是严格意义上的用HLM做analysis。这么理解对么?
作者: Kenneth    时间: 2011-6-14 20:21
回复 4楼 hongyan911 的帖子
8 a5 ^! a) Q4 A& `3 p4 nHongyan911,解决方法相似,不等于问题是一样的。Moderated mediation与mediated moderation的解决方法也极为相似,但问题是不一样的。找出X影响Y,或是Y是否影响X,解决方法都是用相关系数。控制变量与前因变量,在做回归时的地位也是一样的。
3 g+ g, F+ a& KAutocorrelation是每几个数据点的残差有相关,这就算是在完全没有CMV的情形下(比如X与Y是由不同的源头来的数据)也会出现。相反,在严重CMV的情形下(比如说所有变量都是从同一个人回答)也可以完全没有autocorrelation的问题。你发觉它们非常相似,是因为同一个变量(例如PANA,SD),“可能”引起评分者的自相关。当有CMV时,同一个变量NA,也可能引起同源偏差。
+ [) F/ ~6 b6 U$ S- z# C) h6 k' n0 b关于你的最后一点,是我用词不当,引起你的误会。其实,第二层是没有变量的。主管是用来分组的变量。第二层只有一个random effect (代表每一个主管的不同特征,这就是我所谓的“虚拟变量”的意思。是我用错了词。我的意思不是dummy variables)。但是这个方法要一个主管评很多下属才有用。如果一个主管只是评两三个下属,那用HLM就可能有点问题了。
; `% F4 K. Q6 c, M, q* R1 V. N4 s+ I& r" c) m# K: S4 }
   
作者: 菜园小丁    时间: 2011-6-15 23:25
回复 3楼 Kenneth 的帖子: ?; c9 Y; Y$ T, b  C6 ]
Kenneth,十分感谢您的解答和建议!您猜测的对,是第二种情况。我们向一个应答者询问了分别对3条商业街的情感体验和认知等问题,然后作为3个样本进行了SEM分析。其实我们想知道这种自相关的误差会在多大程度上影响SEM分析的结论。我们会按您的建议试一试。也有人建议做多元阶层回归分析,把来源当做一个阶层处理。不知和您的建议是否有共同之处。
  ~: [- c8 X1 ~% ]6 P, f4 v也谢谢mostwanted的建议!谢谢hongyan911 关注和参与讨论!/ b7 ^( Y9 H* n
" x! ?6 M9 h3 Q! K0 }9 Z
8 H* h9 C  p9 c" N, @2 G
    本帖最后由 菜园小丁 于 2011-6-15 23:26 编辑
( z* b4 ~' n" N1 D9 L# v2 B, P4 j. D

作者: Kenneth    时间: 2011-6-16 00:40
回复 6楼 菜园小丁 的帖子
' A4 U- D2 X( \* e1 g" d* h菜园小丁,我不知道什么叫“多元阶层回归分析”。我其中一个建议的是 Hierarchical Linear Modeling (不是 hierarchical regression or multivariate regression)。如果 “多元阶层回归分析” 是 Hierarchical Linear Modeling (HLM),那我们讲的就是一样的东西了。
7 w5 _- Y+ j% r0 LAutocorrelation 是违反了回归分析的一个重要假设,就是残差是随机的。我不是统计学家,知道的不多。不过计量经济学的人花了这么多时间来解决这个问题,我想影响应该不小吧。2 |2 V- g  V8 b4 G9 h$ r- z  ~& ]+ z

3 [/ s+ y* ?- x& V+ X2 U2 U# P   
作者: 菜园小丁    时间: 2011-6-16 08:31
回复 7楼 Kenneth 的帖子
& c/ P  z. ]4 o2 ?( {谢谢Kenneth!网上搜了一下,“多元阶层回归分析”应该是multiple hierarchical regression analysis。
& x, i$ k, _2 h  H  J- C# f0 n, ~; p0 m
   
作者: Kenneth    时间: 2011-6-16 09:25
回复 8楼 菜园小丁 的帖子* |9 F: o* X; ^5 S4 q- ~
如果大家的用词是一样的话,hierarchical regression 是不可以解决这个问题的。除非你想用(n-1)个虚拟变量(n 是主管人数,在你的情形是回答者的人数)。但是如果有n个回答者,每个回答者回答3次,你的样本数就是3n。用3n个数据点来估计(n-1)个虚拟变量,统计力(statistical power)就有点问题了。1 a" y. a- W, x) C4 w0 q: D
- F, k. g& b' c8 u, C# \& W
   
作者: 菜园小丁    时间: 2011-6-17 16:58
回复 9楼 Kenneth 的帖子! O) M) Z4 w5 c1 U) F
谢谢Kenneth的解答!这个问题其实也是替我老师兼合作者请教的,他不懂中文。他说Kenneth的热心很难得,让我一定向您转达他的谢意。
  r' ~  r" ?; B; Y: Z" c0 V' G0 S他认为“用(n-1)个虚拟变量当然是不可能的,但可以一开始就从所有变量中减去每个人的平均值,这两种做法是一样的。只是不知道这样做会对方差结构分析(尤其是SEM)的结果有怎样的影响。”6 j& Q9 @4 S, P
还想说Kenneth的这个普及管理研究科学方法的平台很给力!希望能有更多的同学来这里讨论学习。谢谢Kenneth!! }; d! L' w0 ]) V  Q  L4 u8 i
  x$ U1 N+ }# v  R( u2 `

1 R) z. ]  |6 y/ w0 }   
作者: Kenneth    时间: 2011-6-17 22:06
回复 10楼 菜园小丁 的帖子' ?7 g. S8 E/ N, m
我不知道是否明白你的意思。你把:(y - mean_y), (x - mean_x), 那就变成只是研究 within person variance。 所有的 between person variance 都给你删掉了。这可能有问题的。HLM最大的好处就是“个人之内的方差”与“人与人之间的方差”都同时估计出来。是吗?1 v& W+ {# x1 i5 K. O' }7 O! K
2 S4 W) I! A, g" T# h
   
作者: 菜园小丁    时间: 2011-6-20 18:03
回复 11楼 Kenneth 的帖子/ J7 g( N8 t; @5 r$ Z
如果HLM能同时解决个人内和个人间的不同,那是最理想的方法了。想请教Kenneth,HLM用哪个软件?我们都不熟悉HLM,但很想试一试。用Amos好像无法解决吧?我老师说,如果HLM真的可以同时解决个人内和个人间的不同,那会对零售吸引力模型的实际应用有很大贡献。HLM如果解决了同源autocorrelation问题,我们使用的这一类数据收集方法也就不会再受到质疑了。谢谢Kenneth!4 X, ?" l  ]9 d$ J+ M

* Y! Y7 \( h( P' ]. D' V/ S# |& U$ c0 _7 Q2 K4 Q
   
作者: Kenneth    时间: 2011-6-21 00:08
多层线性模型(hierarchical linear modeling) 用的程序有两个比较常用的。一个就叫做 HLM,是SSI,即将Lisrel程序的发展商发展的。其实,如果你是用Lisrel的正版的话,原来Lisrel的光盘就有一个HLM的学生试用版。第二个程序叫做R(单名一个英文字母R),好像是免费的,请在网上找。不过要学它的语言编码,要一点时间。
作者: 菜园小丁    时间: 2011-6-21 19:16
回复 13楼 Kenneth 的帖子, W7 g* |3 }/ X! g0 M
谢谢Kenneth!
( i: J2 }5 O: b, [/ f) b6 U' T$ E
   




欢迎光临 中人网 (http://bbs.chinahrd.net/) Powered by Discuz! X2.5