中人网

标题: 求教讨论：有关问卷设计质量的问题 [打印本页]

作者: zhmseven 时间: 2011-5-13 23:37
标题: 求教讨论：有关问卷设计质量的问题
Hi all，

近期在学习SEM的有关内容，找到了这个圈子，拜读了不少帖子，受益良多。
我也发现一个现象，大家更多的是关注SEM模型的操作问题，而较少讨论问卷设计质量的问题。在我学习SEM的过程中，有两个关于问卷设计质量的问题，感到比较困惑。在这里提出来，寻求帮助和讨论。

1.关于李克特量表的使用
在社会科学研究中，广泛使用了李克特量表开展问卷调查。李克特量表是一种模糊表达的量表，可以认为是定性的，而不是定量的。比如说：从非常不喜欢到非常喜欢、从非常少到非常频繁或非常多、很不满意到非常满意等等。有的时候也使用了定量的问卷，比如说被访问对象的行为频次，可能按照0-2、3-10、10-20等等划分为几个等级，这类定量的问卷不存在模糊性。
同一个被访问对象，对于一份问卷中不同的模糊表达，其评判感受的准则可能不一样。例如，被访问对象可能在稍微有一点点麻烦就感到非常不满意，而做了3-5件好事就觉得自己做了非常多的好事。同样，不同的被访问对象，对同一个问题项的评价也是不同的，有的认为几十的区间范围内就算很多，有的认为需要到几万才算很多。
上面所说的现象，是我在最近的访谈中遇到的真实的事情。我请被访问对象就北京有多少家SP做一个估计评价，大多数人对SP的数量并没有准确的认识，在定性模糊表达的时候给予的反馈都是“很多”，在我进一步要求其对“很多”做一个数量级的估计的时候，有的人说怎么也得几十家，也有的人说得有上万家。可见他们对定性的问卷的评价标准极不相同。
个体对不同问卷题项的评价标准的差异，以及不同个体对相同问卷题项评价标准的差异，在SEM分析中带来一个问题，这个问题我感觉比较严重。SEM自身基于协方差做分析，也可以说是基于个体对问题项的感受的分布来开展分析的。这里，我的看法，隐含了一个基本假设是，各个个体对同一问题项的评价标准是一致的。比如说，大家都认为SP的数量到了2000家以上以后才能称之为很多，而几十家SP应该是很少。如果个体对同样的问题项的评价标准不一致，就产生了所谓的“评分者信度”的问题，问卷题项的分布或者说协方差相应发生了变化，SEM输出的路径系数的有效性必然受到影响。而在一般的问卷调查中，恰恰都没有考虑“评分者信度”问题，现有的效度和信度分析是无法考察“评分者信度”的。
为了说的更明白一些，我举一个例子。假设有两个被调查对象，甲和乙。我需要考察被调查对象对商场的服务的满意度和其消费行为之间的关系。采用李克特量表做定性的模糊问卷：甲对服务的要求比较高，稍有不合意之处就很不满意，其一周到商场购物的次数在2-3次，但甲认为其2-3次的购物次数已经很高了，他一周内很少到其他的同一商场2-3次；乙到服务的要求比较低，其一周到商场6-7次，但他认为6-7次的购物次数并不是很高。于是，甲对问卷的回答是“很不满意”和“频繁”，乙对问卷的回答是“满意”和“不是很频繁”。很明显，根据这个问卷调查结果作出的判断，会对研究者产生误导。
这个例子有点极端，有的朋友会说可以把问卷中行为次数题项修改为对实际次数的度量。这里我不想去讨论这个问题，毕竟很多问卷有的时候是难以采用定量的方式的，而且采用定量问卷需要被访问对象仔细统计其实际行为，会导致其抵触心理。这个例子只是举例说明这个问题，想请熟悉的朋友指导一下，或者推荐一些在这方面分析讨论的文献。
最终希望搞清楚的问题是：
a.这里的“评分者信度”问题，有没有合适的方法尽量克服？如果有，代价多大？
b.评分者信度，对于路径系数到底有多大的影响？

2.关于效度的讨论
信度和效度，往往作为问卷质量评价的标准。但对于效度，我存在一个疑惑，那就是对问卷结果的效度评价，到底是以全部问题项来开展分析，还是以某一个或几个潜变量的问题项来开展分析。
在大多数介绍问卷调查的书中，都是以一个或几个潜变量的问题项来开展分析的，这些潜变量的问题项都是为了说明一个相同的潜变量的。简言之，对多个潜变量的情形，多个潜变量往往是一级潜变量，本身作为同一个二级潜变量的结果来看待。比如，影响消费者购买行为的属性，可能有商品的有用性、娱乐性、社会身份地位或者个性情感的展示等等。如果我们从理论上建构，划分出这4个方面，并且问卷设计也是围绕这四个方面，那么在做效度分析的时候，如果分析得到的4个因子和理论上划分的4个维度是吻合的，就认为问卷结果是有效度的。
但是，在很多文献中，其问卷的效度分析是以全部的问卷题项为基础的，而这些问卷题项所表达的潜变量之间又可能有很强的因果关系，产生效度分析的结果和路径系数分析的结果相违背的问题。举个例子，假设用户消费者感受到的有用性和购买的量之间有很强的因果关系，假设标准化的路径系数达到0.8-0.9，但有用性和购买的量明显不存在共同的二级潜变量。如果将有用性和购买的量两个潜变量的观测项放到一起来做效度分析，我想由于其因果的相关性过强，效度估计的结果应该不会很好。但很多文献给出来的则恰恰相反，在做效度分析的时候，全部观测变量可以由两个因子来表示，其中一个因子代表有用性，另一个因子代表购买的量。有用性因子对有用性的观测项的贡献很大，对购买的量的观测项贡献很小；同样，购买的量因子对购买的量的观测项的贡献很大，对有用性的观测项的贡献很小。因而，文献认为，问卷结果的效度很强。我的看法，这表明两个潜变量的相关性很小。而在最后的路径分析结果中，有用性潜变量对于购买的量潜变量的路径系数非常大，也就是两个潜变量的相关性很大。
这让我很是困惑，这些分析结果是否符合逻辑，抑或者是我的理解错误？

两个问题，请大家指点迷津，或者能够引出其他的一些问题来，谢谢！

作者: Kenneth 时间: 2011-5-16 23:04
回复 1楼 zhmseven 的帖子
zhmseven，
1. 你是一个很有心思的人，很好。
李克特量表是一种模糊表达的量表，可以认为是定性的，而不是定量的。
李克特量表明明是用一个等差量表，我们却把它当成是等比量表来用。这是对的。但是这是量化研究的限制，没什么可以做。
有的时候也使用了定量的问卷，比如说被访问对象的行为频次，可能按照0-2、3-10、10-20等等划分为几个等级，这类定量的问卷不存在模糊性。
这一句却不对，我不会容许学生这样做的。有去浙大听我课的同学就知道了。
同一个被访问对象，对于一份问卷中不同的模糊表达，其评判感受的准则可能不一样。
这一点我们可以做统计控制，比如用affectivity或是impression management作为控制变量。
在我进一步要求其对“很多”做一个数量级的估计的时候，有的人说怎么也得几十家，也有的人说得有上万家。
这一点倒不是致命的问题。因为我们做的社会学研究一般关注的是方差与协方差。只要这个人在自变量与因变量同时用一样的标准，到底打1分=1,000或是打1分=200是没有分别的。
举例来说明，比如X是收入，Y是消费，同时用5分量表，1很低，5很高。问题是你的收入（收费）有多高？
应答者A    收入打3分（实际￥9000）  消费打1分（实际￥3000）；
应答者B    收入打5分（实际￥100000）  消费打1分（实际￥20000）.
3分在应答者A代表￥9000，5分在应答者B代表￥100000，原来是完全不成比例的，但是我们有兴趣的是相关（没有单位的统计量），你从上面的例子看到，问题应该不是很严重的。
如果个体对同样的问题项的评价标准不一致，就产生了所谓的“评分者信度”的问题
这是不对的，这里既没有信度的问题，也没有效度的问题。是测量单位的问题。我们用相关来分析时，已经把它尽量减轻了。
而这些问卷题项所表达的潜变量之间又可能有很强的因果关系，产生效度分析的结果和路径系数分析的结果相违背的问题。
我其实不太明白你这段话的意思。我的猜测是，你用了因子分析的结果作为一个构念的效度表征。如果这猜测是对的话，那是大大的错误。因子分析不可能告诉你一个构念的效度的。
有用性因子对有用性的观测项的贡献很大，对购买的量的观测项贡献很小。。。。。。
这个我完全不明白、迷失了。什么叫「一个因子对自己的“观测项”贡献很大；对别的因子的“观测项”贡献很小」呢？如果“观测项”是indicator 的话，那么你是说一个因子（有用性）影响了另外一个因子（购买的量）的项目（indicator或是item）吗？这在SEM是禁止的。我有点惘然了。

作者: zhmseven 时间: 2011-5-22 11:20
Hi Kenneth,
谢谢你的回答，您提到不允许对被访问对象采用定量数据的方式构成量表，我找找您在浙大的课件，学习学习。不过，在很多的paper中，采用的确实是定量数据方式的量表，不同的被访问对象回答同一个问题的时候，采用的评判标准基本是一致的。您提到采用控制变量做统计控制，确实提醒了我，我也发现一些paper采用了这类方法。谢谢！
不过您提到：
因为我们做的社会学研究一般关注的是方差与协方差。只要这个人在自变量与因变量同时用一样的标准，到底打1分=1,000或是打1分=200是没有分别的。举例来说明，比如X是收入，Y是消费，同时用5分量表，1很低，5很高。问题是你的收入（收费）有多高？
应答者A 收入打3分（实际￥9000）消费打1分（实际￥3000）
应答者B 收入打5分（实际￥100000）消费打1分（实际￥20000）.)
3分在应答者A代表￥9000，5分在应答者B代表￥100000，原来是完全不成比例的，但是我们有兴趣的是相关（没有单位的统计量），你从上面的例子看到，问题应该不是很严重的。
我有一些疑问：您举的例子中，收入和消费衡量的都是金额的多少，同一个被访者对于两类名义上不同的概念（收入和消费）、但实质上雷同（钱的金额的多少），其很可能采用同样的评价标准。但对于我在原帖中举的例子，比如说满意度（自变量）、购物次数（因变量），我们能够肯定同一被访问对象对这两者的评价标准是一样的吗？我觉得好像不能。
我其实不太明白你这段话的意思。我的猜测是，你用了因子分析的结果作为一个构念的效度表征。如果这猜测是对的话，那是大大的错误。因子分析不可能告诉你一个构念的效度的。
您的理解是对的，我表达的是这个意思。我在很多paper和书籍中，都发现采用因子分析的方法做效度分析的表述。我附上一篇采用这种方法的文献（实际上我发现很多文献采用这种方法，这里只是随附一篇），[attach]281441[/attach]，P44左下角的结果分析文字。
这个我完全不明白、迷失了。什么叫「一个因子对自己的“观测项”贡献很大；对别的因子的“观测项”贡献很小」呢？如果“观测项”是indicator 的话，那么你是说一个因子（有用性）影响了另外一个因子（购买的量）的项目（indicator或是item）吗？这在SEM是禁止的。我有点惘然了。
这也正是我迷惑的地方，在我所附的论文中就有这方面的描述。您可以看看，并做一个评述。

作者: Kenneth 时间: 2011-5-22 22:28
回复 3楼 zhmseven 的帖子
zhmseven,
我有一些疑问：您举的例子中，收入和消费衡量的都是金额的多少，同一个被访者对于两类名义上不同的概念（收入和消费）、但实质上雷同（钱的金额的多少），其很可能采用同样的评价标准。但对于我在原帖中举的例子，比如说满意度（自变量）、购物次数（因变量），我们能够肯定同一被访问对象对这两者的评价标准是一样的吗？我觉得好像不能。
相关分析的基础是协方差。协方差是当X变的时候，Y如何的随着X的改变而改变。当X是满意度，Y是购物次数时，协方差是当一个人的满意度离开所有人的满意度的平均是多少时，这个人的购物次数将会离开所有人的购物次数的平均多少。比如一个非常严谨的低估所有值的人，收入是￥9,000,而所有人的收入的平均是￥10,000（比如），这个严谨的人可能只打１分。一个同样的严谨的人当买１０件时（相对于所有的人的总平均是１２件），他不可能打４到５分的。正常的情形他应该打１到２分。把所有的人算进来，误差就是回归分析的残差了。所以整个分析还是合理的。

您的理解是对的，我表达的是这个意思。我在很多paper和书籍中，都发现采用因子分析的方法做效度分析的表述。
这个不叫convergent和discriminant validity。我在浙大才刚刚讲过。如果我有四个项目，前两个是测满意度的，后两个是测公平感的。项目是：
1. 我是一只狗。
2. 我是一头猪。
3. 我觉得我的企业还是公平的。
4. 我的主管公平待人。
如果我做因子分析的话，我可以保证1和2会在一个因子；3和4会在另外一个因子。我证明了1和2是测满意度的吗？

这也正是我迷惑的地方，在我所附的论文中就有这方面的描述。您可以看看，并做一个评述。
我留着这篇文章，请告诉我你指的是哪一页的哪一行的分析。

作者: zhmseven 时间: 2011-5-23 22:00
我留着这篇文章，请告诉我你指的是哪一页的哪一行的分析。
p.44 column 1的倒数第三段和倒数第一段到clolumn 2的前几行。

相关分析的基础是协方差。协方差是当X变的时候，Y如何的随着X的改变而改变。当X是满意度，Y是购物次数时，协方差是当一个人的满意度离开所有人的满意度的平均是多少时，这个人的购物次数将会离开所有人的购物次数的平均多少。比如一个非常严谨的低估所有值的人，收入是￥9,000,而所有人的收入的平均是￥10,000（比如），这个严谨的人可能只打１分。一个同样的严谨的人当买１０件时（相对于所有的人的总平均是１２件），他不可能打４到５分的。正常的情形他应该打１到２分。把所有的人算进来，误差就是回归分析的残差了。所以整个分析还是合理的。
我注意到你这里使用的“严谨的人”这个词，我想这个词的含义是，个体对不同的问题项的评判准则是一致的，或者说近似一致。正如你说的，个体在多个问题项上的表现均低于平均值时，他对各个问题项的打分都应该比较低。这里就暗示了这样一个假设：个体对问题项的打分，其评判准则是其相对于群体的平均而言的。当相对于群体的平均偏离较远时，打分就必然很高或者很低。只有这样，我才能得到你上面所举的例子的结论。
我的疑问是，事实真的是那样的吗？正如我在一开始提到的，我在询问不同个体对SP数量多少的感知时，所有人的回答都是“很多”。但是，一旦量化到具体的数值上，各个个体的差别达到3个数量级（从几十到几万）。很显然，这里各个个体的评判标准差别非常大。我们还可以拿收入来举例，农民可能感觉月收入5000以上就非常高了，事实上在北京这样的城市也有很多人认为月收入5000以上是很高的。但是对于很多人来说，5000的月收入感觉就非常低了。也就是说，个体对问题项的打分并不一定遵循上面的假设。
我认为，上述假设的一个基本前提是个体对于其他个体的打分的分布函数有清楚的了解，类似于经济学中的完全信息了。按照你所提到的，就是个体知道自己偏离群体的平均的状态，知道特定问题项上自己在群体中所处的位置。如果个体并不知道自己所处的位置呢？以收入为例，很多人关心的是相对于自己身边人的收入而言，自身的收入高低，而不是相对于社会平均收入而言的，他也很可能并不知道社会平均收入是多少。个体的评判标准是在自己圈子里面，自己收入所处的位置。但是，每一个人由于其自身的收入和社会地位的不同，他所处的圈子的收入也会存在一些比较明显的差别，这就导致不同社会身份的个体对收入的高低的评判准则存在比较大的差别。但对于另一些问题项，不同社会身份的人的评判准则又可能是比较接近的，因为各个圈子在某些问题项上的均值没有明显的差别。这个时候，采用李克特量表的问卷调查的方式，是否真的能够很好用于实证分析吗？
采用group的方式可能能够解决这个问题，但是很多时候我们没有足够的理由和判断准则，确定是否需要采用group的方法。比如说，我的例子中感知到的SP数量的多少，我们没有理由猜测哪些特征的人会认为几十家SP就比较多了，哪些特征的人认为几万家SP才算多。

作者: Kenneth 时间: 2011-5-24 13:58
1. “p.44 left column at the end” 那里讲的是convergent 与 discriminant validity的问题，我已经回应了。我问在哪里的是：
这个我完全不明白、迷失了。什么叫「一个因子对自己的“观测项”贡献很大；对别的因子的“观测项”贡献很小」呢？如果“观测项”是indicator 的话，那么你是说一个因子（有用性）影响了另外一个因子（购买的量）的项目（indicator或是item）吗？这在SEM是禁止的。我有点惘然了。这个问题。作者在那里提到这样的东西？

2. 我猜你部分的问题是不明白（或是不同意？）相关分析的逻辑。相关分析有兴趣的是“标准化以后的”协方差。我们用什么单位不会影响结果的。比如我们研究身高与体重的相关。你可以用厘米来量身高，那么人与人的差可能是几十厘米。你用「米」来测的话，人与人的差就是0.0几米的分别。但是，相关是标准化的，所以用什么单位不会影响结果的。

3. 统计给我们的答案是或然性的。我们是容许误差的。就算一个人很有偏差，只要大部分的人的反应是“同方向”的（就是X大时，Y就大），我们就可以看见相关。

4. 最后，如果你怀疑一个人对自己与平均的差有不同的看法，以至于有一些会有估计的误差的话，第一，这是一个假设，需要证据来证明。第二，如果你讲的是对的话，我们应该看不见任何相关才对，或者是用不同的测量的信度很低才对，有这样的证据吗？ 本帖最后由 Kenneth 于 2011-5-24 14:38 编辑

作者: zhmseven 时间: 2011-5-25 00:24
1. “p.44 left column at the end” 那里讲的是convergent 与 discriminant validity的问题，我已经回应了。我问在哪里的是：
这个我完全不明白、迷失了。什么叫「一个因子对自己的“观测项”贡献很大；对别的因子的“观测项”贡献很小」呢？如果“观测项”是indicator 的话，那么你是说一个因子（有用性）影响了另外一个因子（购买的量）的项目（indicator或是item）吗？这在SEM是禁止的。我有点惘然了。这个问题。作者在那里提到这样的东西？
[zhm]抱歉，这个地方是我的表述有误。准确的讲，我想要问的是：以因子负荷的方式，考察问卷的收敛效度和区别效度，是否适用于存在前后因果关系的不同构念？如果说对于同一个构念的不同维度，比如说工作满意度中的主管满意度、同事满意度等，采用因子分析方法来考察收敛效度和区别效度，这个很好理解。而像文献中意图和态度两个构念本身是存在因果关系的，采用因子分析的方法得到的结论是，某一个因子在意图的问题项上的负荷很大，但在态度的问题项上的负荷很小，反之亦然。如果作者采用的是正交化的因子的话，我不知道这个结论可不可以理解为，由于两个因子是正交的，态度和意图之间的相关性比较小？但从SEM分析的结果来看，意图和态度之间的相关性达到0.71，和因子分析的结果是不是存在矛盾？

2. 我猜你部分的问题是不明白（或是不同意？）相关分析的逻辑。相关分析有兴趣的是“标准化以后的”协方差。我们用什么单位不会影响结果的。比如我们研究身高与体重的相关。你可以用厘米来量身高，那么人与人的差可能是几十厘米。你用「米」来测的话，人与人的差就是0.0几米的分别。但是，相关是标准化的，所以用什么单位不会影响结果的。# Q% ~0 S; w0 I7 s3 C& T2 q8 n3 L8 L- b
3. 统计给我们的答案是或然性的。我们是容许误差的。就算一个人很有偏差，只要大部分的人的反应是“同方向”的（就是X大时，Y就大），我们就可以看见相关。
4. 最后，如果你怀疑一个人对自己与平均的差有不同的看法，以至于有一些会有估计的误差的话，第一，这是一个假设，需要证据来证明。第二，如果你讲的是对的话，我们应该看不见任何相关才对，或者是用不同的测量的信度很低才对，有这样的证据吗？
对于第2个问题，我没有怀疑，我怀疑的是第3个问题。当然，正如你在第4点里所说的，这是一个假设，需要有证据来证明。我所想要了解的恰恰是：（1）之前有没有人研究过这个问题？（2）如果有研究，对这个问题的研究结论是什么，有没有研究（证据）支持你在第3点中的观点？如果可以支持，那么有没有研究分析这个影响到底有多大，或者说现有的SEM分析方法中就已经包含了相应的统计分析量？
本帖最后由 zhmseven 于 2011-5-25 00:27 编辑

作者: Kenneth 时间: 2011-5-25 14:18
回复 7楼 zhmseven 的帖子
zhmseven,
我想要问的是：以因子负荷的方式，考察问卷的收敛效度和区别效度，是否适用于存在前后因果关系的不同构念？
我已经讲过了，我们根本 “不可以” 用因子负荷的方式，考察问卷的收敛效度和区别效度。我不是举了一个「我是一只猫」「我是一头狗」的例子了吗？

对于第2个问题，我没有怀疑，我怀疑的是第3个问题。当然，正如你在第4点里所说的，这是一个假设，需要有证据来证明。我所想要了解的恰恰是：（1）之前有没有人研究过这个问题？（2）如果有研究，对这个问题的研究结论是什么，有没有研究（证据）支持你在第3点中的观点？如果可以支持，那么有没有研究分析这个影响到底有多大，或者说现有的SEM分析方法中就已经包含了相应的统计分析量？
是不是我的表达有问题呢？我觉得我已经讲得很清楚了，不知道还可以说什么？
1. 如果你讲的是对的话，我们应该看不见任何相关才对，或者是用不同的测量的信度很低才对。我们所有的研究都没有得到这样的结果。相反，只要理论合理，结果就是X与 y 有相关。
2. 如果你不喜欢这个证明的，一定要直接证明这个关系的研究的话，恐怕没有了，也不会有。因为 perception与 really 永远都是两个不同的構念。你要求的“研究”要把这两个东西等同，所有不一样都要是“误差”。我想大部分的学者都不会同意。麻烦的是这是一个「信念」，不可以证明的。
3. Likert scale 原来是一种 ordinal scale，我们是假设它是 interval scale 来用。你现在问的是它是不是ratio scale。我的回答自然「不是」，但是影响大吗？上面我已经讲了，无论看信度、效度，我们倒没有看见很大的问题。除非你说有一些特别的構念不可以这样的，那就要反过来，请你提证据证明你是对的了。

作者: zhmseven 时间: 2011-5-25 23:08
Kenneth,
我已经讲过了，我们根本 “不可以” 用因子负荷的方式，考察问卷的收敛效度和区别效度。我不是举了一个「我是一只猫」「我是一头狗」的例子了吗？
我有点迷惑了，你在6楼讲论文中做的是convergent validity和discriminant validity，那我的理解是论文中采用的这种考察因子载荷的方法是没有问题的。为什么这里又说不可以呢？原文是这样的：“表3为旋转后的因子负荷矩阵，可以看出，交叉变量的因子负载没有超过0．5的，显示出良好的区分效度，并且各个项目在其相关联的变量上的因子负载值都大于0．5，具有良好的收敛效度”，很明显这里采用的就是因子分析的方法啊？
@  E. Y) ?: W5 P" " A3 I: {+ |9 ?- T
1.       如果你讲的是对的话，我们应该看不见任何相关才对，或者是用不同的测量的信度很低才对。我们所有的研究都没有得到这样的结果。相反，只要理论合理，结果就是X与 y 有相关。7 J. c/ x# R0 t- S) B8 a
2.       如果你不喜欢这个证明的，一定要直接证明这个关系的研究的话，恐怕没有了，也不会有。因为 perception与 really 永远都是两个不同的構念。你要求的“研究”要把这两个东西等同，所有不一样都要是“误差”。我想大部分的学者都不会同意。麻烦的是这是一个「信念」，不可以证明的。9
第1点，我不太同意你的观点。原因有二：第一，我所讲的情况，对最终的分析结果的影响强弱我们并不能判断。有可能存在影响，但是影响并不是大到导致“看不见任何相关”，那么相关性应该还是存在的，只是相关性的大小发生了变化，采用量表形式得到的相关性和采用连续的数据得到的相关性是不同的。第二，我们不能以发表的paper中不存在这类问题来下结论，毕竟发表出来的paper最基本的要求是应该能够满足你所讲的信度、相关等要求。也许还有很多paper就此胎死腹中。当然，第二个原因本身没有太大意义，只是聊博一笑。
第2点，我认同研究这个问题很难，至少是很麻烦。我这里谈一下我的思路，供批评：对有的构念，测量数据可以采用continuous data，比如说温度。如果说我们做这样一个实验：找到两个可以采用continuous data的构念，收集到其indicators的continuous data；然后再设计一个基于量表的调查问卷，收集到其indicators的interval data。利用这两份数据，分别估计其路径系数，应该就可以得到个案上的差异了。如果差异很大，比如由连续数据得到的路径系数根本就不在由量表数据得到的路径系数的置信区间内，我想就可以接受我提出的假设。

作者: rwxld 时间: 2011-5-25 23:33
回复 9楼 zhmseven 的帖子

呵呵，第一个问题，我觉得现在主要成了一个观点问题。kenny认为因子分析不可以用来验证convergent validity 和discriminant validity，而你认为因子分析可以。我同意kenny。你同意那个文章的作者。

第二个问题，主要是数据刻度的问题。在一定程度上，刻度增加可能会有更多的变异，这是好消息。比如从2点量表（只有同意和不同意两个选项）变为6点量表，显然，后者的变异应该大一些。但如果由6点量表变为60点量表，数据的连续性为10倍，虽然变异也可能增大了一点，但增大的部分可能是误差的变异，而不是真正我们关注的变异（因为受试者很难分辨这么密集的数据差别，比如选35和选36的区别）。所以，我认为数据的连续性可能导致了一定的影响，但对相关关系影响甚小。

菜鸟发言，欢迎指正。 本帖最后由 rwxld 于 2011-5-25 23:35 编辑

作者: Kenneth 时间: 2011-5-26 17:45
回复 10楼 rwxld 的帖子
rwxld,
我不太同意的看法。
1. 第一个不是观点与角度的问题。我已经举了一个例子，这样的四道题，会有很清楚的因子分析结果的，x1和x2属于因子1，x3和x4属于因子2。这点我完全没有异议。但是问题是“因子命名”的问题。我是一头猫、我是一头狗，就算是同时载荷在一个因子上，不代表它们就是在量满意度的。单单从因子分析，不可以有任何的证据证明x1和x2在量满意度。请你好好的想一想什么叫validity。Validity are evidence that you are measuring what you purport to measure。我们有证据这两道题是在测量满意度吗？明显的没有。既然没有效度, 如何谈聚敛效度和区分效度呢？这根本就不是效度的证据。除非你把聚敛效度和区分效度定义为在不同因子的载荷的形态。但是这样做的话，就跟测量学一直讲的聚敛效度和区分效度不同了。请找一本好一点的方法书，看看我们如何定义聚敛效度和区分效度，你就知道这不是观点与角度的问题了。
2. 多用几点不会影响结果的。这一点我建议你再看看相关系数的定义。相关系数是“标准化”以后的协方差。多用几点时，协方差会增加了，但是方差也同时增加，结果相关是不变的。其实我们已经有量化的研究，证明多加几点，不会影响相关的（如果我没有记错，应该是黄炽森老师, C.S.Wong做的）。

作者: rwxld 时间: 2011-5-26 18:54
谢谢kenny，我完全同意你的第一个观点。理解这一点是我在明白了“效度”的概念的时候，因为因子分析不会告诉我们量表是不是在测量我想要测的东西，所以它不能为convergent validity和discriminant validity提供证据。

第二个观点是我这几天刚看到的scale development那本书里的观点，可能我理解有误。

昨天我看到你博客里关于相关系数等基本概念的解释，那些东西真是非常好。我觉得初学者经常会在一些问题上产生疑问，其实是没有真正理解一些基本概念。就像我们这里讨论的一些问题，如果真正理解了基本概念，这些问题可能很快就解决了。之所以互相说不清楚，很肯能因为大家的基本概念都不一致。其实，很多同学可能没认真看这些概念就开始用软件了。

非常可惜，博客里那些好的基本知识的图都没有了。好像上次我跟你说了以后，你已经跟中人网沟通过了，他们解决不了。不知道你的新书里会有这些吗？

再多说一点我的感觉：软件给我们提供了方便，使很多人觉得会用软件、看星星就行了，但同时也使很多同学忽略了基本的东西，所以误用软件的情况很多。
本帖最后由 rwxld 于 2011-5-26 18:59 编辑
. e/ @; m. Q; Y$ V" y3 H; O; p: a  J& k0 Y+ }

. B  u2 q8 O1 Q* S3 V# j/ v' r 本帖最后由 rwxld 于 2011-5-26 19:04 编辑 6 H" }* T" k5 U! i6 I# ?; _. g' S- l, u
0 r* P& P$ b: E6 M

作者: zhmseven 时间: 2011-5-26 20:52
在效度的分析方法上，我没有观点，或者更坦白地讲，我没有完全理解效度。所以我是向Kenneth求教的，只是我觉得Kenneth的回答有前后矛盾的地方。2 l0 `# H' a1 ~) @9 z% ]: U
在6楼，Kenneth明确地回答，我所上传的论文那一段话是在讨论收敛效度和区分效度。Kenneth的原话是，““p.44 left column at the end” 那里讲的是convergent 与 discriminant validity的问题，我已经回应了。”。在我上传的论文中，那一段话的内容是用因子分析法考察量表的收敛效度和区分效度。所以，我以为Kenneth认同论文中采用因子分析法来考察收敛效度和区分效度的方法。
+ _) O8 W4 Q9 n* _但是，在其他地方，Kenneth否定了采用因子分析法做收敛效度和区分效度的可行性。) a2 a1 C7 }% _, U* q
所以我感觉到比较迷惑。9 s! {- Y8 \6 T3 N, D! Z

/ S# T% S; |% d+ k9 b( Q为了澄清问题，还要烦请Kenneth对论文中这么一段话做出明确的claim，以避免我错误地领会Kenneth的意思：2 r! D* N) H) n
“表3为旋转后的因子负荷矩阵，可以看出，交叉变量的因子负载没有超过0．5的，显示出良好的区分效度，并且各个项目在其相关联的变量上的因子负载值都大于0．5，具有良好的收敛效度。”（所上传的论文p.44 column 2, line 2 - line 5）
6 C4 E$ B4 b8 V+ [这一段话是不是错误地？
; v" T% o7 o2 O$ Q$ ~ 本帖最后由 zhmseven 于 2011-5-26 20:53 编辑
. t& c* }+ T! B; E# t2 U" g
* X! ?* w. {% h5 g$ l
作者: hongyan911 时间: 2011-5-27 14:52
zhmseven，我试着帮助澄清一下。Kenny的意思是，文献中p.44 left column at the end 讲的是convergent 与 discriminant validity的问题，但是事实上不能这样做，因为因子分析不可以做收敛效度和辨别效度（即区分效度）的。
作者: zhmseven 时间: 2011-5-28 11:03
hongyan，谢谢。
4 ]+ l6 `" D7 q6 o根据后来的回复，我猜Kenneth可能是这个意思。不过我不确定，因为国内太多的paper上都是这样做的，并且有些书也是这么处理的（杜智敏，抽样调查与SPSS应用，电子工业出版社，pp:730）。+ h3 P/ ]! _" n: Q0 Y
不过最让我困惑的是，Kenneth的PPT上是这样写的：! G2 J3 X" L; X& W- q
Convergent validity – two measures of the same construct should be highly correlated with each other. A new measure which is highly correlated with a known and valid measure of the same construct is said to have high convergent validity.
0 _, R9 j  ?1 G9 r- mDiscriminant validity – two measures of different constructs should not be highly correlated with each other. A new measure of a construct should not be highly correlated with a known and valid measure of another construct. Such a measure is said to have high discriminant validity.( W1 ?# b2 Z. p# M% c) Q. _
这个和所上传的paper中采用因子分析法做收敛效度和区分效度的方法有什么不同呢？
$ h+ [# c; }: O: i, J, {. {- E我不知道是不是需要这样理解：如果我们能够确认一些测量从内容上是有些效度的，才可以使用因子分析法？例如，我们对构念A有两个问题项，构念B也有两个问题项。经过内容判定，问题项1是衡量构念A的，问题3是衡量构念B的。采用因子分析法发现，问题2和问题1之间高相关，和问题3、问题4之间低相关。问题4和问题3之间高相关，和问题1、问题2之间低相关。这个时候可以判定问卷有高的收敛效度和区分效度？
) Q, s# }* A7 S6 V+ E如果是这样，那是不是表示，在做收敛效度和区分效度之前，必须有一个标杆的测量指标，大家都同意这个测量指标确实是衡量假想的构念的。然后，以其他指标和标杆测量指标之间的相关性为标准，来判断收敛效度和区分效度。由于一般papers里面都声明已经通过了内容效度上的检测（专家评判），所以可以采用因子分析法判定收敛效度和区分效度？
% t4 t, r0 r; h* `4 I  o- \ 本帖最后由 zhmseven 于 2011-5-28 11:32 编辑
- X$ e: k) E! S1 D# t) F  N5 c' `- z/ `1 g& D* @: j. w

作者: Kenneth 时间: 2011-5-28 12:54
回复 15楼 zhmseven 的帖子* G! K+ X, w1 _5 g# w
zhmseven,
& ?$ V2 G$ j% p4 L1 D# R你讲的越来越接近我的理解了。) \5 Z) `! F8 x8 R( k
以我所知，收敛效度和区分效度是在MTMM这个方法发展出来的概念。我们如何知道一个新的测量工具是不是有效呢？用它是否与「“现存”的这个构念的其他测量」和「“现存”的类似的构念的测量」来定。前者要大，叫聚敛，后者要小，叫区分。这就是决定这个“新的测量工具”的效度的方法。这里假设了用来确定聚敛和区分的两个测量工具的效度都已经被确定了。这样，逻辑上才合理。
9 O, b( |9 E3 ]! c; H7 Q, t$ u你在因子分析中试图叫它做聚敛和区分效度，有两个问题。第一、聚敛和区分效度是针对构念与构念的测量（整个量表）来说，而你现在却说项目与项目之间的相关（不是量表与量表之间）决定了效度。不过这倒不是最大的问题。更重要的是第二、我们可以说一个“既有的”量表有效度（因为已经发展了很久，做了很多研究等等），但是我们却不可以说一个“新的项目”有效度。正如我所，你所知道的，只是x1与x2相关而已。
3 W) i3 g# w% r- m# E你最后的argument看似有理，但还是有问题的。第一、content validity 不是这个意思。内容效度不是说“我觉得”（就算你就是专家）这个项目在测什么，这个东西有人叫它做 face validity （虽然我也不太喜欢这个词，因为你觉得有表面效度，我不一定觉得）。内容效度讲的是构念的 content coverage的问题，就是测量是否概括了整个构念的范围。如果说我作为一个专家「觉得」“我是一头猫、一头狗”是在测满意度，同时，因子分析的结果也符合，这就叫聚敛和区分效度的话，那么聚敛和区分效度就是「觉得+因子分析」的结果了。如果另外一个人不「觉得」那怎么办？还有效度吗？
  C4 q1 N  A; t4 E. I其实，我知道有人把你讲的因子分析结果叫做structural validity（结构效度）。这个我还可以极为勉强的接受，虽然我还是不喜欢。极为勉强的接受的原因，是起码他们没有曲解了聚敛和区分效度的意思。还是不喜欢的原因，是因为当中有validity这个字。因为它说到底，还不是测量学里面讲的效度（除非你极为笼统的来说，那还可以很勉强的说是效度的最基本的验证标准，连这个都通不过，根本不可以叫有效度）。
0 K1 W6 s( U- P- m- `* ^7 S/ B+ l% [% \( O( I
本帖最后由 Kenneth 于 2011-5-28 13:03 编辑
6 a7 Z: U# y' i& p6 n7 m
) Z1 b, X9 z# \# t# `7 c. c
作者: nickychen 时间: 2011-5-28 19:50
Kenneth 你好  记得上次在浙大听讲座时你说在中国最好使用六点量表（而不是传统的李克特五点或七点量表）。请问下你是在哪篇文章或哪本书里看到这个观点的？
作者: Kenneth 时间: 2011-5-30 09:15
回复 17楼 nickychen 的帖子6 t  O; d; l$ O1 j- v7 E
这应该是樊景立教授（Larry Farh）在台湾所做的一篇文章。内容是中国人回答负面的词是不等于正面词的相反的。太久了，忘记了。你试试找看。, x1 L& k+ g4 h7 Y
# V, D$ G" e1 y

作者: zhmseven 时间: 2011-5-30 19:47
Kenneth，& G0 ^( h- n" a6 b# \" l: F- N8 J1 ^
谢谢，我想我基本理解了你的意思。
) v$ l6 _9 J$ c( U) A8 M关于因子分析法的使用，有人确实称之为结构效度，我不太认同这个概念。有人称为收敛效度和区分效度，我又觉得有点疑惑。不过经过这么多天来来回回的对话，我搞懂了这个概念的意思，非常感谢！) P1 a: f# b8 x3 f' e( w9 B
我还想请教一个问题：如果说一个构念的测量，之前并没有其他的人做过这个构念的量表，那该怎么评价它的收敛效度和区分效度呢？
3 c$ G2 w9 {" P3 w! C0 ?
作者: Kenneth 时间: 2011-5-31 11:59
回复 19楼 zhmseven 的帖子
( ?) d* x+ G  [/ b1 y! uzhmseven,
  W1 Z) e2 g/ x4 C: h4 Z" `; L# f我还想请教一个问题：如果说一个构念的测量，之前并没有其他的人做过这个构念的量表，那该怎么评价它的收敛效度和区分效度呢？$ r! c1 P& E* q7 a
不要这么客气，没什么请教可言的。! h0 i; }/ v( `3 Q/ \3 X( Z
我的理解是没有现存的测量，区分效度当然还可以说。因为讲的是“不同”。但是严格来讲是没有收敛效度可言的。不过你真的要讲的话，可能找一些概念上“很接近”的構念吧。
% m6 j7 B# h& S8 `
- o( ^5 w' A" U. g) o, m- M. ^4 n! }0 \$ ^2 [

作者: zhmseven 时间: 2011-5-31 22:27
嗯，谢谢，这个问题基本理解了。
作者: nickychen 时间: 2011-6-1 15:43
回复 18楼 Kenneth 的帖子
2 g% X$ r5 j4 b: i4 q
) T. }0 ~. R- [# I. T
+ V0 S& y2 V1 R 恩  晚上去到处上找找~
作者: nickychen 时间: 2011-6-11 17:45
回复 18楼 Kenneth 的帖子
( i5 W# o& g4 w. E0 h% [
9 [3 v2 g8 U) Q  I# v# z. h1 U* r. ]
Kenneth，上回那个6点量表在应用中要是遇见有人对该问题表示不清楚，是不是只能空着了？如果换成李克特5点量表，这种情况是不是就能选择“中立”这个选项呢？
作者: Kenneth 时间: 2011-6-13 16:55
回复 23楼 nickychen 的帖子: L8 F1 s4 `1 |8 \
我并没有说“不可以用”单数的量表。只要你有信心，central tendency 的问题不严重就可以了。我也常常用5 点的量表的。
1 |. o( T; A  T, f  `4 I2 W: Q4 L4 j/ q/ t* r

欢迎光临中人网 (http://bbs.chinahrd.net/) Powered by Discuz! X2.5