分散 | 標準偏差や変量の変換【データの分析】
「 分散 」から広げて標準偏差を押さえると、データの分析が学習しやすくなります。
高校数学で学習する統計分野を基本から着実に理解することが大切になるかと思います。
ただし、大学受験ではシグマ記号を使って表されることも多いので、ブログの後半ではシグマ計算の練習にもなる分散の書き換えの証明を解説しています。
シグマの記号に慣れると、統計分野と合わせて理解を深めれるかと思います。
分散 :定義を理解するための記号
数学の記号は、端的に内容を表せて役に立つのですが、慣れていないと誤解をしてしまうこともあります。
高校数学で、統計分野のデータの分析を学習するときに、変量というものについて、記号の使い方を押さえる必要があります。
シンプルな具体例を使って、変量に関連する記号の使い方から説明します。
変量の記号の使い方に注意
12月11日から12月14日の4日間に、売れたリンゴの個数を変量 x で表します。11日に売れた個数が、変量 x のデータの値 x1 です。
この日に 12 個売れたので、x1 = 12 と表します。他の日に売れたリンゴの個数をそれぞれ順に x2, x3, x4 とします。
具体的な売れた個数を次の表にまとめています。
変量 x は、4 つのデータの値をとっています。このときに、個数が 4 個なので、大きさ 4 のデータといいます。
変量 x2 というもののデータも表に書いています。既に与えられた変量に二乗がついていたら、それぞれのデータの値を二乗したものがデータの値になります。
変量 x2 のデータのとる値の 1 つ目は、x1 を二乗した 122 = 144 です。
2 つ目から 4 つ目までの値も、順に二乗した値が並んでいます。
※ x2 から x4 まで、それぞれを二乗した値たちです。
他にも、よく書かれる変量の記号があります。
変量 (x + 2) だと、x1 から x4 までのそれぞれの値に、定数の 2 を足したものを値としてとります。
変量 (x + 2) のとる値は、
(x1 + 2), (x2 + 2),
(x3 + 2), (x4 + 2) の 4 個の値です。
上の表の通り、14, 12, 16, 10 となります。
この表には書いていませんが、変量 (3x) だと、変量 x のそれぞれのデータに 3 を掛けた値たちが並びます。
変量 x/2 だと、変量 x のそれぞれのデータを 2 で割った値たちが並ぶことになります。
この記号の使い方は、変量の変換のときにも使うので、正確に使い方を押さえておくことが大切になります。
平均値の表し方
12 + 14 + 10 + 8 と、4 つのデータの値をすべて足し合わせ、データの大きさが 4 のときは、4 で割ります。
44 ÷ 4 = 11 なので、変量 x の平均値は 11 ということになります。
このブログ記事で使う平均値の記号ですが、
変量 x の平均値を x* と表すことにします。
x* = 11 だと、変量 x の平均値が 11 ということを表しています。x は変量ですが、x* は実数値となります。
同じように、先ほどの表に記した変量 x2 や変量 (x + 2) についても、平均値を計算できます。
x2 の値は、「144, 100, 196, 64」という 4 個のデータでした。
したがって、x2 の平均値は、
(144+100+196+64)÷4 より、126 となります。
変量 x + 2 は、「14, 12, 16, 10」という 4 個のデータですので、(14+12+16+10)÷4 より、13 が平均値となります。
ここで、「変量 x の二乗」 の平均値と、「変量 x の平均値」の二乗を区別することに注意です。
この二つは、紛らわしいので、普段から意識的に区別をするようにしておくのが良いかと思います。
実は、このブログの後半で、分散の式を書き換えるのですが、そのときに、再び 「変量 x の二乗」 の平均値と、「変量 x の平均値」の二乗 を使います。
平均値からの偏差
変量 x のとる値は、x1 = 12, x2 = 10,
x3 = 14, x4 = 8 でした。
そして、先ほど変量 x の平均値 11 を求めました。
「x1 - 平均値 11」 を計算すると、
12 - 11 = 1 です。
この値 1 のことを x1 の平均値からの偏差といいます。
残りのデータについても、同様に偏差が定義されます。
「xk - 平均値」を xk の平均値からの偏差といいます。
変量 x がとるデータの値のそれぞれから平均値を引くことで、偏差が得られます。
x3 の平均値からの偏差だと、
14 - 11 = 3 です。
それぞれの偏差を書き出してみます。
x1 – 11 = 1, x2 – 11 = -1,
x3 – 11 = 3, x4 – 11 = -3
これらが、x1, x2, x3, x4 の平均値からの偏差です。
分散 :定義
分散 s2 は、偏差の二乗の平均値です。先ほど求めた偏差についての平均値が分散という実数値です。
先ほどの例だと、
12 +(-1)2 + 32 + (-3)2 をデータの大きさ 4 で割った値となります。
20 ÷ 4 = 5 が、この具体例の分散ということになります。
実数は二乗すると、その値が 0 以上であることと、データの大きさは自然数であることから、分散の値は 0 以上ということが分かります。
一般的な定義を書いておきます。
変量 x のデータの大きさが n で、x1, x2, …, xn というデータの値をとったとします。
x の平均値を用いて、変量 x の分散は次のように表されます。
s2 = 1/n×{(x1-x*)2+…+(xn-x*)2}
= 1/n×Σk (xk-x*)2
ただし、k は 1 から n まで動くとします。
このように、分散の定義について、数学Bの数列で学習するシグマ記号が使えます。
この分散の値は、二乗たちの和なので、必ず 0 以上の実数値となります。
そのため、ルートをつけることができます。
分散の正の平方根の値のことを標準偏差といい s で表します。
分散の定義の式の全体にルートをつけたものが、標準偏差です。
分散 ; 定義の書き換え
分散を定義した式は、次のように書き換えることができます。
変量 x の二乗の平均値から変量 x の平均値の二乗を引いた値が、変量 x の分散となります。
分散にルートをつけると標準偏差になるので、標準偏差の定義の式も書き換えられることになります。
この証明は、計算が大変ですが、難しい大学の数学だと、このレベルでシグマ記号を使った計算が出てきたりします。
計算の練習にシグマ記号を使って、証明をしてみます。
シグマ記号についての計算規則については、リンク先の記事で解説しています。
数学I を学習したときに、まだシグマ記号を学習していませんでした。
しかし、大学受験の問題では、統計分野とシグマ計算を合わせた問題が、しばしば出題されたりします。
シグマ計算と統計分野の内容を理解するためにも、シグマを使った計算に慣れておくと良いかと思います。
分散の書き換えた式の証明
s2 = 1/n×Σk (xk – x*)2
= 1/nΣk (xk2-2xkx*+(x*)2)
ここで、シグマ記号を分配すると、
s2 = 1/n(Σk xk2-Σk 2xkx*-Σk (x*)2)
ここで、(x*)2 は定数なので、
s2 = 1/n(Σk xk2-2x*Σk xk-n(x*)2)
1/n を分配すると、
(1/n)×Σk xk2-2x*×(1/n)×Σk xk-(x*)2 が
s2 の値となります。
さらに、(1/n)×Σk xk は、平均値の定義から x* です。
また、(1/n)×Σk xk2 は変量 x2 の平均値なので、(x2)* です。
よって、
s2= (x2)*-2x*・x*+(x*)2
= (x2)*-2(x*)2+(x*)2
= (x2)*-(x*)2
これで、分散の式を書き換えられました。
この証明は、複雑です。
しかし、大学受験でシグマを使ったデータの分析の内容で、よく使う内容なので証明を書きました。
シグマの計算について、定数が絡むときの公式と、平均値の定義が効いています。
添え字が 1 から n まですべて足したものを n で割ったら平均値ということが、最後のシグマ記号からの変形です。
変量の変換
変量 x の標準偏差を sx とします。このとき、仮平均である定数 x0 と定数 c を用い、次のように変量 u を定めます。
u = (x - x0) ÷ c が変換された後の変量 u です。u について、平均値と標準偏差 su を考えます。
また、x = cu+x0 と変形することもできます。そうすると、次のように、はじめの変量の平均値や分散や標準偏差と結びつきます。
x* = cu* + x0 , sx2 = c2su2
変量変換の前後の関連を示す等式になります。
先ほどの分散の書き換えのようにシグマ計算で証明ができます。
【平均値 ; 証明】
k は 1 から n まで動くとして、次のようにシグマ記号の性質に基づいて変形することができます。
x* = 1/n × Σk xk = 1/n×Σk (cuk+x0)
= 1/n×(cΣk uk+Σk x0)
= c(1/n×Σkuk)+1/n×Σk x0
= cu* + 1/n×(nx0) = cu* + x0
証明した平均値についての等式を使って、分散についての等式も証明します。
sx2 =
1/n×Σk{(cuk+x0)-(cu*+x0)}2
= 1/n×Σk{(cuk-cu*)2
= c2×{1/n×Σk (uk-u*)2}
= c2su2
最後に、偏差の二乗の平均が分散ということを使って変形しました。これで、証明が完了です。
途中で、シグマの中の仮平均が打ち消し合ったので、計算がしやすくなりました。
また、証明の一方で、変量 u のそれぞれのデータの値がどうなっているのかを、もとの変量 x と照らし合わせて、変換の式から求めることも大切になります。
このブログのはじめに書いた表でも、変量の変換を具体的に扱いました。
変量がとるデータの値については、この要領で互いに値を計算できます。
x1 = 12, x2 = 10,
x3 = 14, x4 = 8
中学一年の一学期に、c = 1 で、仮平均を使って、実際の平均値を求める問題が出てきたりします。
仮平均 x0 = 10, c = 1 として、変量を変換してみます。
u = x-x0 = x-10
変量 u のとるデータの値は、次のようになります。
u1 = 12 - 10 = 2,
u2 = 10 - 10 = 0,
u3 = 14 - 10 = 4,
u4 = 8 - 10 = -2
これらで変量 u の平均値を計算すると、
(2 + 0 + 4 - 2) ÷ 4 = 1 となります。
はじめの方で求めた変量 x の平均値は 11 でした。
「x の平均値」は、c × 「u の平均値」+「仮平均 x0」という等式が、確かに成立しています。
11 = 1 × 1 + 10(今、c は 1です。)
中学一年の数学で学習した通り、
「仮平均との差の平均」+「仮平均」が、「実際の平均」になっています。
この「仮平均との差の平均」というところに、差の部分に偏差の考え方が使われていたわけです。
結構、シンプルな計算になるので、仮平均を使った平均値の求め方を押さえておくと良いかと思います。
変量 x2 について、t = x2 - 100 と変量の変換をしてみます。
仮平均を 100 として、c = 1 としています。
t1 = 44, t2 = 0, t3 = 96, t4 = -36 と、上の表の 4 個のデータから、それぞれ 100 を引いた数が並びます。
数が小さくなって、変量 t の方が、平均値を計算しやすくなります。
44 + 0 + 96 - 36
= 44 + 60 = 104 が合計となります。
104 ÷ 4 = 26 なので、仮平均の 100 との合計を計算すると、変量 x2 についての平均値 126 が得られます。
【関連する記事】
期待値という変量についての記事を投稿しています。
数Bの内容も加味して、
二項分布という記事で、期待値についての理解を深めています。
有名不等式を使っての証明ですが、
相関係数の範囲の証明についても投稿しています。
それでは、これで、今回のブログを終了します。
読んでくださり、ありがとうございました。