互助问答第409期：关于混合截面数据的问题

关于混合截面数据的问题

尊敬的老师：

我在学习文献的时候看到一篇名为互联网使用与家庭创业选择的文章，文中使用的是两年期（2010年和2014年）的混合截面数据做回归分析得出相对未使用互联网的家庭，如果使用了互联网，那么家庭的创业概率提高了2了百分点。我想问老师：

（1）这个实证研究计量的过程是怎么实现的呀？我不明白是什么样本的差异导致了我们可以识别出是否使用互联网带来的创业的变化，是通过识别前一年未创业，后一年创业的样本中大部分使用了互联网，所以认为是互联网带来的影响吗？有没有相关的stata代码呀？

（2）老师，如果像这种自变量和因变量都是二值变量的话，是不是只能采用Probit、Logit、线性概率这样的模型来做回归分析呢？

希望老师可以抽空解答我的疑问！因为之前学习的都是面板数据，对于这个混合截面数据真是摸不着头脑，所以想要求助老师，万分感谢！

（1）没有看过原文，不能给出确切答案。但即便是横截面数据，只要样本中有创业和非创业的个体，同时有使用互联网和不使用互联网的个体，就可以回归估计使用互联网与创业的相关关系（系数）；混合截面数据本质也是将两期数据看成截面的，所以本质也没有什么不同。不过，由于使用互联网是个人可以选择的，本文更大的问题在于难以识别因果效应。至于stata代码，建议读者自己想清楚数据结构，查一下书，自然能解决。

（2）只要因变量是二值变量，其线性回归模型就被称为线性概率模型。如果采用非线性的方法，Probit和Logit是两种主流模型，其思想基本一样，只是对扰动项假设不同，前者假设是正态分布，后者假定是logistic分布。相对于线性概率模型，Probit和Logit的优点主要是：（a）从统计上看，线性概率模型中p（y=1|X）的拟合值会超出[0,1]之外，同时存在较难解决的异方差问题，而Probit和Logit模型p（y=1|X）的拟合值一定在[0,1]，并在一定假设和估计方法下解决异方差的问题。（b）Probit和Logit的模型的基础是个体理性选择。，就本文为例。它本质是估计使用互联网x对个人创业净效用（潜变量y*）的影响。但个人净效用不可观测，我们只能观测到个人最后的选择创业（y=1）和不创业（y=0），根据理性选择模型，显然净效用y*>0,y=1,反之，y*<0,y=1。然后结合数据，通过极大似然估计系数。这一框架与微观经济理论结合更为紧密。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。