標本平均 – 母平均 – ランダム標本 | n個の確率変数が同一の母集団分布に従うとき
まず" 標本平均 – 母平均 " について解説をします。
その後、母集団分布の確率変数 X について、大きさ n の " ランダム標本 “とは何かという定義の内容を、具体例を用いながら解説します。
実用的な統計学では、母集団という集合の部分集合を標本という言い方をします。一方、数学科では、確率変数を中心にランダム標本を考えます。
この違いを理解する橋渡しになるブログになれれば、幸いです。
抽象的な数学科で扱われるランダム標本の定義を述べてから、具体的な例を交えつつ高校数学Bで扱われる形の標本について解説をします。その後で、よく使われる統計量についても解説します。
統計分野で使われる記号の内容を把握することから、学習のスタートとなります。
具体例を挙げながら、抽象的な定義を押さえることが、大切な一歩になるかと思います。
標本平均 –母平均:母集団からの抽出
母集団から標本を抽出するときに、一回の抽出で作った標本に関する数量が、母集団のそれと大きく異なることもあります。
そこで、確率的に考えるわけですが、学習をし始めたときに、その確率の定義を把握するために、認識しておくことが多くあります。
抽出された標本から母集団の状況を確率的に推定するということを知るための内容になります。
まず、抽出した標本が異なる例について述べることにします。
【母集団】
0, 2, 90, 98 という 4 つのデータ全体を母集団とします。
これらの合計は 190 で、190 ÷ 4 より、
母平均は 47.5 です。
この母集団から大きさ 2 の標本を無作為抽出することを考えます。
0.2 という一つの標本を抽出したとします。
この標本の平均値は、
(0+2)÷2 = 1 となります。
母集団の平均値 47.5 に対して、この標本の平均値である標本平均は 1 です。
このように、一つ標本を無作為に抽出したときに、実際の母集団の数量と大きく異なるということも考えられます。
そこで、何通りも大きさ 2 の標本を抽出して、確率的に考えます。
他の標本について
先ほどの標本を抽出番号 1 とし、次の標本を抽出番号 2 とします。
無作為に抽出するので、大きさが 2 でも異なる標本になることも考え、どの標本かを区別できるように、抽出番号をつけておきます。
【抽出番号 2 の標本】
2, 98 を抽出します。
抽出番号 2 の標本平均は、
(2+98)÷2=50 です。
母平均の 47.5 に今度は近くなりました。
このように、標本を一回抽出すると、それに応じて、その標本の平均値である標本平均が一つ定まります。
この意味で変数
抽出番号 1 と、抽出番号 2 の標本平均を確率変数として、その値を順に並べます。
1, 50 となります。
これらは、二個のデータです。
確率変数がとる値が、今、2 個得られたということになります。
大きさ 2 の標本をもっと多く抽出して、抽出番号 100 までの標本を得たとします。
このようなことを感覚的に踏まえ、一般論の区間という内容について述べます。
【一般的な言い方】
母平均 u, 母標準偏差 s から無作為に大きさ n の標本を抽出したとする。
そして、標本平均を X とする。
ここで、高校数学Bで扱われる状況は、次のような設定となります。
■ 標本平均 X は連続型確率変数
■ n が十分に大きいとき、
N(u, s2/n1/2) という正規分布に標本平均 X は従う。
先ほど、一つ標本をとったときに、平均値という数量が、母集団と標本で異なっている例を述べました。
一個の標本だけだと、異なるということが通常です。
そこで、値に幅をもたせて、確率的に考えることにします。
そして、確率は正規分布から得るということになります。
標本平均 :95%信頼区間
確率の出どころは正規分布です。
どの正規分布を使うのかを決めるのが、母平均 u, 母標準偏差 s, 標本の大きさ n です。
サッカーのPKで、5本のシュートを打って、2本ゴールすると、成功確率が 40% です。
しかし、標本平均から母平均を推定するときには、確率を正規分布に基づいて決定します。
そして、確率変数の変換をして、正規分布を標準正規分布として、正規分布表を使って確率を求めます。
よく使われる95%信頼区間というものがあるのですが、95%は正規分布表から得た数字になります。
変数変換
(X-u)÷(s/n1/2) という確率変数を Z と置くことにします。
この Z は、N(0, 1) という標準正規分布に従います。
正規分布表より、
P(|Z| ≦ 1.96) は約 0.95 です。
※ P(|Z| ≦ 1.96) は確率変数 Z のとる値が、-1.96 以上 1.96 以下となる確率のことです。
これが、95%信頼区間の「95」です。
※1.96 という数字を他の数字にすると、95% の 95 が他の数字になります。
上で述べたサッカーのPKの例とちがって、正規分布表から求めます。
変数の変換の等式は、考えるときの基本となります。
抽出番号100までの標本をつくり、それらについて、標本平均 X という確率変数が、Z と結びついています。
この関係式を利用して、標本平均から母集団の平均値を推定する際に、必要十分条件で書き換えるということをします。
書き換えをすることで、信頼区間というものの定義が見えてきます。
書き換えを実行
95% の 95 になっている確率を書き換えます。
P(|Z| ≦ 1.96) は、
絶対値の定義より、
P(-1.96 ≦ Z ≦ 1/96) と同じ確率です。
の値が
−1.96−1.96 以上
Z のとる値が、1.96 以上 1.96 以下である確率ということでした。
次に X を用いた確率に書き換えます。
Z の定め方から、
P(-1.96 ≦ (X-u)÷(s/n1/2) ≦ 1.96) となります。
さらに、不等式の同値変形で書き換えます。
これは、標本平均の期待値という確率変数 X の値が、
u-1.96s/n1/2 以上、
u-1.96s/n1/2 以下となる確率を表しています。
定数である母平均 u の値が分かっている場合だと、X の値の幅についての確率が得られるということになります。
標本平均の値が分かっている場合は、その定数である標本平均から母平均 u を推定することになります。
そのため、u がが真ん中にくるような確率に書き換えます。
その際には、先ほどと同じように不等式を同値変形して、不等式の真ん中に u が来るようにします。
つまり、
X-1.96s/n1/2 ≦ u,
u ≦ X+1.96s/n1/2 とした確率にするということです。
ここからは、参考までに、大学の統計学で使う用語について解説をします。
ランダム標本 :大きさnの標本とは
【数学科での定義】
X を確率変数とする母集団があったとする。
確率変数 X1, X2, … , Xn が互いに独立で、X と同じ母集団分布に従っているとき、母集団からの大きさ n のランダム標本という。
このように、理論自体を考察の対象とする数学科の統計学では、確率変数を中心にランダム標本が定義されています。
実用的な統計学では、母集団の部分集合を標本といいますが、この定義の違いが学習をし始めたときに壁となるかもしれません。
高校の数学では、X1, X2, … , Xn というように、確率変数が集合の要素となっているような表し方で出てくるかと思います。
このブログ記事では、大学の数学科の統計と、実用的な統計をつないで理解できるように、確率変数のとる値である観測値を小文字で表すことにします。
つまり、ある試行のもとで、母集団の確率変数が X(1) から X(k) までの k 個の値を取っていて、それら全部を集めたものが母集団だとします。
このとき、X(1) = x1, … , X(k) = xk と表すことにします。
これら全てが、母集団ということを表すのに、
x1, x2, … , xk という集まりを使います。
※ 集合のイメージですが、観測値が同じ値ということもあるので、集合とすると語弊があるのが注意点です。
※ 例えば、3, 3, 5, 7 が母集団だと、3 が最頻値です。{3, 5, 7} の集合とは扱いが違います。
標本の取る観測値
標本を扱うまでは、確率変数が取り得る値すべてを集めた集まりを考え、集合で言う各要素のことを小文字で表していました。
それが、標本を扱う単元になると、
X1, … , Xn というように、母集団から抽出した n 個の確率変数が集合の要素のように思えるかもしれません。
(ただし、n ≦ k です。)
ここが分かりにくいところかと思います。
これは、数学科の定義が、同じ確率変数 X を n 個集めたものを大きさ n のランダム標本と定義しているからです。
それを受ける形で、高校の記号の表し方も、標本が確率変数の集まりということになっています。
この部分を分かりやすくするため、このブログ記事では、観測値である確率変数が取る値のことを小文字で表します。
x1, x2, … , xk という母集団から、無作為抽出を行い n 個の観測値を拾い上げた大きさ n の集まりを考えるときには、次のように考えます。
無作為に 1 個の値を取り出したときに、確率変数 X1 が取る値とします。
その無作為に取った 1 個 xk1 は、x1 から xk のどれかです。
この xk1 が X1(k1) で、
X1(k1) = xk1 = X(k1) … (1)
X1 という確率変数は、確率変数 X と同じ確率分布に従っているという設定でしたから、(1) の等式が成立しています。
言葉でいうと、「無作為抽出された値は、xk1 = X(k1) で、この値を X1 の値とした」ということです。
今、母集団から 1 個の値を取りました。復元抽出といって、一度取ったものを、元通りに母集団に戻します。それから、2 個目の値を取ります。
x1, x2, … , xk という母集団から、再び 2 個目の値を一つ無作為に抽出します。その観測値が xk2 だったとします。
この xk2 を、確率変数 X2 の値とします。
つまり、X2(k2) = xk2 = X(k2)
X2 と X は、同じ分布に従っている確率変数なので、k2 に対応する観測値が同じということです。
また、xk2 を母集団に戻して、復元抽出を xkn まで繰り返します。
すると、
X1(k1) = xk1,
X2(k2) = xk2,
・・・
Xn(kn) = xkn
これで、k 個の観測値から成る母集団から、n 個の値を抽出した集まりを表現できました。
xk1, xk2, … , xkn という n 個の値から成る集まりが、母集団の部分集合です。復元抽出をしたので、X1, X2, … , Xn の値の決まり方は独立になっています。
この実測値を小文字で表したものを挟むことで、理解しやすくなるかと思います。
ここまで、抽象的に述べてきたので、具体例で、ここまでの内容を確認します。
ランダム標本 :大きさ3の具体例
【母集団の設定】
1 個のサイコロを 4 回投げるときに、3 の目が出た回数を X とします。
この確率変数 X は二項分布 B(4, 1/6) に従います。
算数などでも出てきそうな内容を具体例とします。
X のとる値は、0, 1, 2, 3, 4 です。
X(1) = 0, X(2) = 1,
X(3)=2, X(4)=3, X(5)=4
つまり、母集団は、0, 1, 2, 3, 4
P(X = 3) は、確率変数 X の値が 3 となるときの確率を表します。
4 回のうち 3 回だけ 3 の目が出るということなので、
P(X = 3) =
4C3(1/6)3(1-1/6)4-1
B(4, 1/6) という二項分布に従うというのは、4C3 の左側の添え字が 4 で、p が 1/6 だからです。
このように、P(X = 0) から P(x = 4) までの確率が計算されていて、すべての確率の和が 1 となっています。
この母集団について、確率変数 X が従う同一の分布(この例だと二項分布)から、大きさ 3 のランダム標本を抽出してみます。
ランダム標本の例
確率分布 B(4, 1/6) に従う確率変数を X1, X2, X3 とします。これらが取る観測値を並べて母集団の一部である集まりを考えてみます。
0, 1, 2, 3, 4 から 1 個の値を無作為に抽出します。その抽出された値が 3 だったとします。
k1 = 3 です。これが、X1 が取った値です。
X1(k1) = xk1
= 3 = k1 = X(k1)
0, 1, 2, 3, 4 から無作為に 1 個の値を選び出しました。
この k1 = 3 を元通りに母集団に戻し、2 個目の値を取り出します。
次に取り出したのが、k2 = 4 だとすると、
X2(k2) = xk2
= 4 = k2 = X(k2)
さらに、k2 = 4 を元の母集団に戻し、3 個目の値を無作為に抽出します。
k3 = 1 だとすると、
X3(k3) = xk3 = 1 = k3 = X(k3)
これで、復元抽出によって、母集団の一部である集まりが決まりました。
{xk1, xk2, xk3} = {3, 4, 1} です。
確かに 0, 1, 2, 3, 4 の一部の集まりとなっています。
※ 無作為抽出ですから、もう一度、部分集合を作ると、これとは異なる集まりとなることもあります。
ここで、1 ≦ i ≦ 3 の各自然数 i について、
Xi(ki) = xki は、母集団 0, 1, 2, 3, 4 から無作為にどれか一つを選んだものです。
つまり、母集団の確率変数 X が取る値のうちの一つです。
X の期待値は、1 回の試行において、X が取ると期待される値のことです。Xi(ki) の値も同じく、1 回の試行において X の取る値です。
Xi(ki) の取ると期待される値は何かということを押さえておくことが大切になります。
ここで、ランダム標本の定義が効いてきます。
X1, X2, X3 は母集団の確率変数 X と同じ確率分布に従うという仮定でした。そのため、期待値はどれも、確率変数 X の期待値と同じということになります。
つまり、
E(X1) = E(X2) = E(X3) = E(X)
ちなみに、B(4, 1/6) に従う確率変数 X の期待値は、二項分布の単元で学習したもので、
E(X) = 4 × 1/6 = 2/3 です。
X1, X2, X3 が取る値は何かというと、無作為抽出ですから、やってみないと、どうなるのかは分かりません。
しかし、期待値はというと、同一の分布に従っているので、母集団の確率変数 X の期待値 E(X) と同じということになります。
重要なまとめ
【重要な基本】
確率変数を X とする母集団からの大きさ n のランダム標本を X1, … , Xn とすると、
E(X1) = … = E(Xn) = E(X)
この期待値が等しいということは、母集団と標本の議論をするときの基本となります。
このことと、期待値と分散についての公式を合わせて、標本の単元で使う新しい公式が導かれます。
代表的な公式を導く前に、統計量についての定義と、その具体例を述べることにします。
ランダム標本 :統計量について
【統計量の定義】
確率変数を X とする母集団からの大きさ n のランダム標本を X1, X2, … , Xn とする。
これら n 個の変数についての関数を統計量といい、T = f(X1, X2, … , Xn) と表す。
そして、統計量の確率分布を標本分布という。
T は n 個の変数を変換したものです。この定義は、難しそうですが、具体的な統計量は既に学習しています。
変量の変換を学習したときの要領で取り組めば、大丈夫かと思います。
X1, … , Xn が大きさ n のランダム標本のときに、
T = f(X1, … , Xn)
= 1/n × (X1+…+Xn)
n 個の確率変数の取った値の平均値を対応させるという関数です。
よく使われる統計量の一つです。この統計量のことを標本平均といいます。
先ほどの例では、
X1 = 3, X2 = 4, X3 = 1 でした。
大きさ 3 だったので、n = 3 として、3 個の値の平均値を対応させるということになり、
1/3 × (3+4+1) = 8/3 です。
標本平均の他にも、統計量はあります。
大きさ n のランダム標本のそれぞれの確率変数が取った値の max(最大値)を対応させるという関数もあります。
すなわち、
T = f(X1, … , Xn)
= max(X1, … , Xn)
X1 = 3, X2 = 4, X3 = 1 という大きさ 3 のランダム標本だと、最大値は 4 なので、4 を対応させるわけです。
なお、統計量 T については、扱われている本などによって表記が異なるので、統計量が出てきたときに、ランダム標本から、どのようにして対応を考えているのかを確認することが大切になります。
このブログ記事では、練習のために、敢えて普段使わないであろう記号 X* で標本平均という統計量を表すことにします。
X* を使うことで、内容は既に知っている平均ですが、対応関係を意識できるかと思います。
※ 平均値は、よく上にバーをつけて表されることが多いかと思います。
※ 大学の統計学では、標本平均を一次の標本積率というときもあります。
それでは、標本平均に関連する基本的な公式を導きます。
基本的な公式
【命題1】
X1, X2, … , Xn を、確率変数 X の母集団からの大きさ n のランダム標本とし、
E(X) = u とする。
このとき、
X* = (X1, X2, … , Xn)/n という標本平均の期待値について、
E(X*) = E(X) = u となる。
E(aX + bY) = aE(X) + b(Y) という期待値の公式を使って証明します。
<証明>
X* = 1/n(X1+…+Xn) より、
E(X*) = E(1/n(X1+…+Xn))
= E(1/nX1+…+1/nXn)
= 1/n(E(X1)+…+E(Xn))
ここで、X1, … , Xn は、X と同じ確率分布に従っているので、
E(X1) = … = E(Xn)
= E(X) = u
よって、E(X1)+…+E(Xn)=nu より、
E(X*) = 1/n × (nu) = u【証明完了】
X と同一の確率分布に従っているというランダム標本の定義から、
E(X1), … , E(Xn) がどれも E(X) に等しいということが効きました。
今度は、独立な確率変数と定数倍についての分散の公式、
V(aX + bY) = a2V(X) + b2V(Y) を使って、標本平均という統計量(確率変数)の分散の公式を導きます。
さらに公式を導く
【命題2】
X1, … , Xn を確率変数を X とする母集団からの大きさ n のランダム標本とし、X の標準偏差を σ とする。
このとき、X* の分散 V(X*) は、
V(X*) = σ2/n である。
<証明>
X1, … , Xn は X と同じ確率分布に従っているので、それぞれの標準偏差は、すべて σ に一致しています。
また、分散の定義から、標準偏差の二乗が分散なので、V(Xi) = σ2 (i = 1, 2, … , n)
このため、
V(x1) + … + V(Xn) = nσ2
よって、
V(X*) =
V((X1+X2+…+Xn)/n)
= 1/n2 × (V(X1)+…+V(Xn))
= 1/n2 × nσ2
= σ2/n となります。
さらに、X* の標準偏差は、これにルートをつけた
(σ2/n)1/2 = σ/n1/2 となります。【証明完了】
分散にルートをつけると標準偏差なので、標本平均 X* の標準偏差も同時に求まりました。
離散的確率変数の期待値やデータの分析を復習するため、二項分布という記事も投稿しています。
では、これで今回のブログ記事を終了します。
読んで頂き、ありがとうございました。