統計学:正規分布、Z値、信頼区間をRでやってみる

統計学:確率変数の種類

確率変数には大きく分けて二つの種類があり、一つが離散型確率変数、もう一つが連続型確率変数。それぞれ確率関数の種類がさらにあり、離散型の場合は二項分布、ポアソン分布、負の二項分布。連続型の場合は”probability mass function”(邦訳は確率質量変数)で一番有名なのが正規分布。

統計学:正規分布

正規分布はパラメトリックな検定の時に前提とされる分布。そもそも検定には大きく二つ種類があり、一つがこのパラメトリックな検定。もう一つがノンパラメトリックな検定。パラメトリックな検定では平均と分散がある状態で、ノンパラメトリックは必ずしもそれがなくても行うことができる検定。今回はパラメトリックの正規分布だけに注目している。パラメトリック検定は具体的に、t検定や回帰分析が含まれる。正規分布の形はスムーズな鐘型で、その平均・最頻値・最大値は全て同じ値を持つことで知られれている。

統計学:正規分布であるかどうかの確認方法

一番簡単な方法はヒストグラムを書いて確認することだが、これだとあまり正確かわからない。そこでqqplotを用いて、正規分布に従っているかを見てみる。線分上に点がしっかりプロットされていたら正規分布と言うことができる。

しかし、これだけでも心もとない。外れ値も存在しているし、「しっかりプロット」がどこまでかわからない。そこでshapiro検定を行う。

結果、pvalueが約0.1だったので帰無仮説を採択するため、今回のデータは正規分布と呼ぶことができる。

統計学:標準正規分布

標準正規分布は正規分布の応用で、平均が0,分散が1の正規分布のことを言う。標準正規分布を使うことにより、どのような分布も平均0, 分散1でグラフを描き、計算できるので比較がしやすくなる。イメージとしてはZ値をそれぞれの点においてだし、全てをプロットしてグラフを描く感じ。

統計学:信頼区間

これが以前から難しいポイント。母平均が95%の確率で信頼区間の中にあると言うことを表している。とってきた標本から95%信頼区間を作った時、95%の確率で母平均は信頼区間の中に落ちてくれると言うこと。さらに次にt分布にも言及があった。

t分布はサンプル数が足りない時、具体的にはn<30の際に用いられ、母分散がわからなくても求めることができる。ちなみに信頼区間の際には母分散がわかると言う前提があったので、わからない場合、t分布に見立てて信頼区間推定を行うことができる。今回は信頼区間の推定、ではなく95%信頼区間ってどこからどこまで?と言う数値を求めるに止まっているが、これを基礎にして今後の発展段階へと進んでいく。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする