关于变量选取的问题

回复
sktring
帖子: 1
注册时间: 周日 8月 06, 2017 5:01 pm

关于变量选取的问题

帖子 sktring » 周日 8月 06, 2017 5:13 pm

尊敬的老师:
您好!
我最近在使用CHARLS数据写论文时遇到了以下几个问题,希望老师能帮忙解答疑惑,非常感谢。
问题一:
2011年家户问卷中C家庭部分中的子女信息对应的问题:CB049-CB079,以上每个问题都对应10个答案,比如,CB049_1、CB049_2、CB049_3、CB049_4、CB049_5、CB049_6、CB049_7、CB049_8、CB049_9、CB049_10。【A家户登记表部分同样有这样的疑问。】
我想问一下是不是每个CB0XX_1都表示是同一子女的信息呢?比如,CB049_1、CB051_1、CB055_1、CB060_1都表示A子女的信息,CB049_2、CB051_2、CB055_2、CB060_2都表示B子女的信息。但是每个CB0XX_1对应的样本数又不一样,我不能确定。题目CB051_1和CB060_1的样本数很大,但是CB049_1和CB055_1的样本量相对较小。以下是我根据数据编码参考书整理的2011年子女信息模块部分问题的表格,您看一下:
2011年部分子女问题的样本数汇总表:
题目 标签 _1 _2 _3 _4 _5 _6 _7 _8 _9 _10
CB049 性别 4144 6329 4382 2466 1209 502 188 63 22 6
CB051 出生年 9609 7889 4579 2382 1133 451 167 52 16 3
CB055 户口 4125 6301 4361 2448 1203 498 187 62 22 6
CB060 最高学历 8942 7503 4573 2474 1194 485 183 58 20 5
CB071 现有工作 7726 6426 3914 2134 1049 421 159 53 20 5
此处我还有一个疑问:为什么CB049_1的样本量小于CB049_2的样本量呢?如果要用子女信息的性别、出生年月、学历、户口等变量,我应该选取CB0XX_1还是CB0XX_2呢?


问题二:
2011年A家户登记表中询问了所有家户成员的信息,而问卷中C部分写到针对每个健在的孩子询问CB049-CB079,如果孩子是家户成员,跳至CB064;如果有非家户成员的孩子,请问CB049-CB079。那问题CB049-CB063包括家户成员的孩子信息吗?因为CB0XX部分比A0XX部分的样本量要多。
意思是:CB049-CB063包括了家户成员和非家户成员的孩子信息,A015等问题只包括了家户成员的信息。您看我这样理解正确吗?如果我的理解是对的,那么如果我想获取子代的最高受教育水平,我应该用CB060,对吗?如果我理解错误,要选取A015表示子代最高教育水平,那我应该选取A015_1还是A015_2还是A015_3呢?
【如果上述的表达不清楚,换一个问法,请问CB060表示的子女最高教育水平和A015表示的最高教育水平有什么区别呢?具体对应的样本是谁呢?】
A015和 CB060的样本量不相同,A015具体样本量如下:
A015_1 A015_2 A015_3 A015_4 A015_5 A015_6 A015_7 A015_8
760 1479 4217 2678 1074 537 248 112
A015_9 A015_10 A015_11 A015_12 A015_13 A015_14 A015_15 A015_16
66 26 12 8 2 2 2 1

问题三:
如果想要获取子代的年收入,GA006_X的样本量均不同并且比较小。我应该选取GA006_1_1还是GA006_1_2呢?这里的GA006_1_1与C部分的CB0XX_1的子女对应的是同一个人吗?
GA006=过去一年的工资是多少(针对每一个家户成员)
年收入 ga006_1_1 ga006_1_2 ga006_1_3 ga006_1_4 ga006_1_5
OBS 40 109 429 223 97
年收入 ga006_1_6 ga006_1_7 ga006_1_8 ga006_1_9
OBS 52 16 8 3

问题四:
2015年的数据中问题BD001_W2_4(您现在获得最高教育水平是什么)有一个选项是:12没有变化,并且有74%的被访者选择了该选项。2015年的问卷中没有问题BD001直接问现在获得的最高学历吗?

很抱歉问题有点多,非常感谢老师在百忙之中帮我解答问题。

回复