今回は「共分散」について詳しく解説します。
共分散は数学と英語のテストの点数のように2つのデータを分析するときに使われます。では数学のテストの点数が高い人は英語のテストの点数も高いでしょうか?高い場合もあれば、低い場合もあるでしょう。このように共分散は2つのデータの関係を考えるときにとても便利です。
共分散とは?
共分散とは2種類のデータの関係を表す値のことです。
冒頭でお話した数学のテストの点数と英語のテストの点数の関係について考えてみましょう。
クラスの中で数学のテストの点数が高い人は英語のテストの点数も高いのか、それとも低いのか。 もし数学と英語のどちらのテストの点数も高い場合は共分散の値はプラスの値になり大きくなります。 逆に数学の点数が高く、英語のテストの点数が低い場合は共分散の値はマイナスの値です。 また数学の点数が低く、英語の点数が高い場合は先ほどと同様に共分散の値はマイナスの値です。
では数学と英語の点数のどちらも低いときはどうなるでしょうか? この場合は共分散の値はプラスになります。
このように2つのデータを関係づけてデータを分析するときに共分散は有効です。 ぜひデータを分析するときに使ってみてくださいね。
共分散の公式と求め方
2種類のデータを$x,y$とすると、共分散は「$x$の偏差$\times$ $y$の偏差の平均」で求めることができます。共分散は$s_{xy}$で表すこともあり、$x$のデータをそれぞれ$x_1,x_2,x_3,\ldots,x_n$、平均値を$\bar{x}$、$y$のデータをそれぞれ$y_1,y_2,y_3,\ldots,y_n$、平均値を$\bar{y}$とすると
\begin{eqnarray}
s_{xy}&=&\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\\
&=&\frac{1}{n}(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})
\end{eqnarray}
で求めることが可能です。
それでは具体的なデータをもとに共分散を求めてみましょう。先ほどの数学のテストと英語のテストの点数を例に考えていきます。5人の2教科のテストの点数が図1だとします。
以上のことから数学の平均点は「82点」、英語の平均点は「79点」と求めることができますね。よってそれぞれの偏差は図2です。
よって共分散は図3と求めることができます。
共分散を求めるときは平均値や偏差について理解しておく必要があります。この機会に理解できていない人は確認しておきましょう。
相関係数との関係
実はこの共分散、相関係数と深く関わっています。2種類のデータを$x$、$y$とします。共分散が正のときは$x$の値は平均値より大きく、$y$の値も平均値より大きい傾向があり、正の相関があると分析できます。共分散の値が0に近いときは$x$と$y$の値はあまり関係なく、とくに相関はありません。
また共分散が負の値のときは$x$の値が平均値より大きく、$y$の値が平均値より小さい傾向があり、負の相関があると分析できます。 共分散と相関係数の関係を図に表すと図4です。
以上のように、共分散は相関関係を表すときにも使えます。ぜひ覚えておきましょう。
\ おすすめの参考書! /
まとめ
共分散について解説しました。
ここまで読んでいただきありがとうございます。
解説したポイントは下記の3つです。
- 共分散は2種類のデータの関係を表す値のことです。
- 共分散は「xの偏差×yの偏差の平均」で求めることができます。
- 共分散を求めることで、相関関係がわかります。
共分散を考えるときは「平均値」や「偏差」を理解していることが重要です。
理解が不十分だなと感じる人はこの機会に復習しておきましょう。
また共分散と相関関係は深く関わっているため、相関関係についても理解を深められるといいですね。
コメント