设为首页 登录 注册
首页 中人社区 中人博客
查看: 1770|回复: 4
打印 上一主题 下一主题

如何处理数据大量积聚一点的非删失数据,谢谢!

[复制链接]
Ruder    

5

主题

4

听众

940

积分

秀才

Rank: 5Rank: 5

注册时间
2002-10-12
最后登录
2015-12-15
积分
940
精华
0
主题
5
帖子
18
跳转到指定楼层
楼主
发表于 2013-5-25 09:54:15 |只看该作者 |倒序浏览
我在做个企业创新的研究,其中有两因变量分别是研发投入和专利产出,但是这两个数据都有大量(超过一半)的观察值为零,一开始我把他们当成左删失数据处理,但后来一想好像不对劲,查阅了删失数据的定义,感觉这两个数据不是删失数据,只是严重偏态分布的数据,因为在这里零值表示的是没有投入研发资金和没有专利成果,不可能有比零更小的数值了,这样原来打算使用的tobit分析工具就不适用了,不知道有没有合适的分析工具?我把研发投入这部分处理成两个变量--态度和力度,如果有实际研发投入,态度编码为1,如果投入为零则态度编码为0,然后对有实际研发投入的观察值(即态度为1的观察值)考察他们的投入力度,这种处理方式好像可以,但是这种处理方式运用于专利产出的时候就很难解释了,很难把专利成果再划分成两个变量或部分进行解释,但如果不这样处理的话又无法有些应对这种偏态数据,不知道有什么建议没有?谢谢!' c4 h( T4 n: x* l
: {4 E4 \- {2 ^6 b! E7 R

69

主题

220

听众

2万

积分

中人网专家

Rank: 50Rank: 50Rank: 50Rank: 50Rank: 50

注册时间
2003-1-21
最后登录
2016-11-27
积分
29016
精华
0
主题
69
帖子
1438

2009年度勋章

沙发
发表于 2013-5-25 14:36:10 |只看该作者
Ruder, 我用 Logistic regression 的经验不多,不过我的感觉与你一样, Logistic regression (0 与 1之分)好像更合宜。, ~2 E' T5 v% J. {. [1 ]! G& r
你没有必要所有的因变量都用同一种分析方法的。 y1 用 Logistic regression, y2 用 OLS 有何不可? (y1  是态度; y2是力度)
回复

使用道具 举报

Ruder    

5

主题

4

听众

940

积分

秀才

Rank: 5Rank: 5

注册时间
2002-10-12
最后登录
2015-12-15
积分
940
精华
0
主题
5
帖子
18
板凳
发表于 2013-5-25 21:10:27 |只看该作者
谢谢Kenneth的回复和建议!
3 Q& `3 v4 I6 I- J3 m现在的难点就转化成了如何为专利产出这个变量分步骤回归寻找经济意义了,需要找出这两个步骤之间的关系(类似研发投入态度和力度之间的关系),否则就无法解释为什么要分两步骤。专利产出可能性与产出成果?好像没有什么逻辑关系,有请圈子中的高手提供点金点子,不胜感激!
回复

使用道具 举报

69

主题

220

听众

2万

积分

中人网专家

Rank: 50Rank: 50Rank: 50Rank: 50Rank: 50

注册时间
2003-1-21
最后登录
2016-11-27
积分
29016
精华
0
主题
69
帖子
1438

2009年度勋章

地板
发表于 2013-5-27 09:46:06 |只看该作者
这就好像新兴企业的 “表现” 可以从两个不同的角度来看:
. D& Z; i5 m8 z1 W( D" W7 h(1)是否能维持下去(sustainability)是0 与1 的变量。4 I: z  }0 H" h5 @
(2)赚多少钱是连续的。
6 b# j/ c/ x0 p8 T4 _. G; L4 D你问的是一个理论的问题,我不知道如何回答。
回复

使用道具 举报

Ruder    

5

主题

4

听众

940

积分

秀才

Rank: 5Rank: 5

注册时间
2002-10-12
最后登录
2015-12-15
积分
940
精华
0
主题
5
帖子
18
5
发表于 2013-6-4 15:49:50 |只看该作者
谢谢kenneth!
回复

使用道具 举报