虚拟变量怎么做回归,虚拟变量怎么做回归

在社会科学的数据分析中,有一种常见的变量,即0-1的二分变量。自变量当它是由变量引起的时候,常用的模型就是虚拟变量回归模型logistic或probit回归(这两种模型之间的区别在于的差异假设不同,两者的估计结果差别不大,但在更复杂的模型中可能有不同的功能)。二分变量可以解释为是否、发生或不发生。流行病学或者在社会科学中,会发生一些事件,但频率相对较低,如战争、罕见疾病和政治变化。大多数时候,定性研究在这些重要而罕见的事情上闪耀,通过深入的数据档案分析和小案例比较方法来探索这些事件的原因,并总结出一定的普遍理论。

在定量研究中,罕见事件logistic分析往往很困难,这可以在数学上解释,即当估计系数矩阵(公式如下)时,如果事件概率太低,矩阵中会有许多元素等于0,那么在矩阵逆矩阵中很容易出现问题,导致估计结果的可信度较低。现在的问题是:什么样的数据是罕见的事件数据?

虚拟变量怎么做回归,虚拟变量怎么做回归插图

加里·金(Gary King)2000年左右,与合作伙伴发表的两篇文章讨论了对稀有事件回归模型的估计修正。当然,他们并没有指出有多少比例是稀有事件(但他们文章中使用的数据集的比例是0.34%,确实很小)。他们文章的核心观点是通过先验调整(prior correction)或者加权(weighting)调整估计系数的方法使样本估计更接近整体。核心参数是样本和整体稀有事件的稀有比例。因为他们认为稀有事件数据在数据收集过程中会面临样本量和变量数量的平衡,估计稀有事件的频率可能会被低估,所以调整方案的目的和功能只会让估计更接近真实参数,而不是优化估计。

那么核心问题是需要纠正多少稀有事件呢?为此,小编采用模拟模拟(simulation)该方法构建了不同比例的稀有事件数据集,分别使用普通事件logistic方法和Gary King的rare event logit方法得到答案。使用数据分析R,基础包的glm()函数提供logistic回归的程序,Zelig包中的relogit()函数提供rare event logit程序(这个包的其他函数有问题,最近刚下架,但是错误报告没有提到relogit()问题,所以可以用之前的版本来计算)。

从0.001到001,小编设置了.01以0.001为步长的比例值.以0.01为步长的在不同稀有比例下的表现,以0.01为步长的比例值最终获得29个比例值。logistic常用阈值固定,因此设计阵列xβ在比例p之间存在某种比例p之间函数关系,这种函数关系没有分析,只能通过模拟方法进行比较。这里还设置了随机种子666(希望好运),使结果可以重复,虚拟了1万个样本量的数据集,最小值为0,最大值为10(正态分布估计比例最终会收敛到0.5.没有办法达到预期的比例)。下图是模拟的结果。

虚拟变量怎么做回归,虚拟变量怎么做回归插图1

虚拟变量怎么做回归,虚拟变量怎么做回归插图2

这张图显示了给定数据集β与比例p的真实关系(红线)logit回归估计(绿线),rare event logit回归估计(蓝线)。为了看得更清楚,在右图中截取上左图的部分结果,可以看出,虽然估计有差异,但由于关键的回归系数标准误因此,真实值仍在估计的不确定范围内(uncertainty)内部。为进一步观察,小编计算了估计值与真实值之间的差异,如下图所示。

虚拟变量怎么做回归,虚拟变量怎么做回归插图3

我们大概可以看到,当p相对较小时,估计值和真实值差别很大。更重要的是,rare event logit性能并不比正常的回归方法好多少。因此,至少目前的模拟结果是,如果偏差为10%,则至少应达到1%。如果稀有事件数据的比例低于1%,估计这两种方法无法比较谁优谁劣。

因此,目前可以初步得出的结论是,如果稀有数据的比例达到1%,那么logit模型一般来说,没有很大的估计偏差(想象一下,如果观察到3000个样本量,一个二次变量只有不到30个1,很多人有选择扔掉的冲动)。低于这个比例,没有可信的估计方法。当然,小边也试过贝叶斯(Bayesian)方法,贝叶斯给出的结果也有相对偏差的估计和较大的可信范围,因为一次贝叶斯估计时间太长,所以小编没有跑完所有29个比例。此外,贝叶斯的结果也取决于先验(prior)如果先验设置得好,拟合就很好了,但实际结果是,我们不知道待估计参数的真实值,即使将普通回归的结果作为弱先验,贝叶斯也没有明显改善。然而,这种模拟相对简单,由于个人水平有限,可能平有限而没有意识到的问题和错误。如果有愿意讨论的老师和朋友想进一步讨论,我希望给出建议!

撰文:刘天祥

**本论坛部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本论坛仅供提供学习交流和参考,禁止用户用于商业行为,并请于下载后24小时内删除,若喜欢该作品请联系原作者购买正版。如果您发现论坛上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
158自学网 » 虚拟变量怎么做回归,虚拟变量怎么做回归
关于售后:
(1)、因部分资料含有敏感关键词,百度网盘无法分享链接,请联系客服进行发送;
(2)、所有资料在您未收到之前,都可以联系微信/QQ:406499404,无条件退款
(3)仅支持原渠道退回,微信支付,支付宝退回至您当初选择的付款方式
(4)不用担心不给资料,如果没有及时回复也不用担心,看到了都会发给您的,请放心!
(5)因部份资源来源互联网,本站不担保其完整性,请知悉!

提供最优质的资源集合

立即查看 了解详情
赞助VIP 享更多特权,建议使用 QQ 登录
喜欢我嘛?关注我们的公众号吧!♡