wooldridgeの計量経済学を超わかりやすく解説する(P1~P11)



こんにちは。おしゅんです。昨年応用計量経済学という授業でwooldridgeをある程度やったのですが、正直ちゃんと理解できていないところも多く、特に数式が絡むところでの理解不足が目立ちました。この教科書をちゃんと読み切ってないな、という後悔がずっとあったので、今日から3ヶ月くらい時間をかけて読破していきたいと思います。ひとまず1日10ページを目指してやってみますが心が折れかけたらページ数減らして調節します笑 あと頑張ってLatex使ってみます。

最初の方は計量経済学ってなに?って説明ですね。全部書くつもりはないのですが、重要そうなポイントがいくつか。「変数選択の際にはちゃんとした理由がないといけない!」例えば経済学のこのモデルに則ってますとか、計量経済学のこのモデルです、とか、この論文の変数選択を真似てますとか。

$$wage=B_0+B_1educ+B_2exper+B_3training+u$$

例えばこの式だったらBeckerの人的資本論で有名な賃金は教育年数と勤続年数とトレーニングで決まりますというもの。でも必ずu(誤差項)を含めなくてはいけない。というのも説明変数だけでは賃金を説明しきれないから。性別、だとか教育の質の部分だとか式には含めきれないものが全て誤差項に入っていて計量経済学ではこれが鍵になっている。ここで例えばトレーニングの効果に着目したかったらB3のパラメータに着目すれば良い。

続いて3つのデータセットの違いについての説明。まずは一番基本のクロスセクションデータセット。クロスセクションは1時点の情報を集めたもの。例えば、2018年1月にICUの学生1000人にアンケート調査を実施して、個人ID、性別、出身高校、出身地域、GPA、メジャーとかそういうのを聞いた場合のデータセットはクロスセクション。

次がタイムシリーズデータセット。これは金融だったりGDPとかの話の時によく出てくる。例えば日本のGDPのデータを四半期に一回取得するとする。この場合、2018年の第一四半期のデータは確実に第二四半期に影響を及ぼす。影響がなくともほぼ横ばいとか、税金が第一四半期に上がってその影響で第二四半期の景気が悪いとか。こういう風に一個前のデータ同士が強く影響し合っているのでタイムシリーズデータの場合は特別な処理をしてからクロスセクションに適用するような分析をしなければいけない。

次がプールドクロスセクションデータセット。プールドクロスセクションはデータの総数が足りない時の行うことが多いらしい。例えば2016年にICU生の属性に関する調査(個人ID、性別、出身高校、出身地域、GPA、メジャー)をしたけどこの時あまりデータ数が取れなくて200個しか取れなかった。2018年にもう一度同じ属性について違う個人に対して調査を行って200個の新たなサンプルを得ることができた。この二つのデータセットは同じ質問をしていて違う個人について聞いているのでデータをプール(合体)しても問題がない。タイムシリーズと違うのは違う個について調べているという点。

最難関がパネルデータ。パネルデータはざっくりいうとクロスセクションとタイムシリーズのハーフ。どちらの特徴も入っている。先ほどのICUの例でもう一度考えてみる。今回ICU生が卒業後どのような進路を歩み、収入とメジャーや性別、出身高校は因果関係があるのかを調べたいと仮定する。2016年の卒業生に対してまず、1回目の調査を実施し、個人ID、性別、出身高校、出身地域、GPA、メジャー、初任給を答えてもらう。その後5年に一回「同じサンプル」に対して調査を行う。こうすることで同じサンプルの時系列の変化を求めることができる。これがパネルデータ。

初回は英語読むだけだったので大丈夫だったけどここから数式がガンガン出てくるのでちょっと不安。。次回は”A comment on data structures”から。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする