「中央値」と聞いて、どんな値を想像しますか?
中央の値だから、真ん中の値なのかな?と容易に想像できるのではないでしょうか。
今からデータを分析するときに重要な「中央値」について詳しく解説します。
今回は中央値の説明はもちろん、平均値や最頻値をいった代表値との違いにも注目してみてください。
それでは一緒に考えていきましょう。
中央値とは?
中央値とは、データを値の大きさの順に並べたときに中央にくる値のことです。
中央値はデータの個数が奇数か偶数かによって求め方が異なります。
はじめにデータの個数が奇数の場合を考えます。
データが奇数個のときはちょうど真ん中にデータの値が存在するため、その値が中央値です。
それではデータの個数が偶数の場合はどうでしょうか。
データの個数が偶数のときはちょうど真ん中に値が存在しません。
よってデータの個数が偶数の場合は中央の2つの値の平均値が中央値です。
また中央値のことをメジアンと呼ぶこともあります。
中央値はデータ全体の特徴や傾向を表す代表値の一つです。
データを分析するときにとても重要になる値なので、ぜひ覚えておきましょう。
中央値の求め方
それでは実際に中央値を求めてみましょう。
22、14、97、48、8の5つのデータの中央値を求めます。まずはデータを大きさの順に並べましょう。小さい順に並べると8、14、22、48、97ですね。この5つのデータの真ん中の値は「22」です。これが中央値です。
それでは次のデータの中央値は何でしょうか?
33、40、64、59、60、62、20、91
まずはデータを先ほどと同様に小さい順に並べます。
20、33、40、59、60、62、64、91
今回はデータの個数が偶数なので、ちょうど真ん中に値が存在しません。よって8つのデータの真ん中にある「59」と「60」の平均値が中央値です。
59と60の平均値は $ \dfrac{59 + 60}{2} = 59.5 $
よって今回のデータの中央値は59.5と求めることができます。
このように中央値を求めるときは、データの個数が奇数の場合と偶数の場合で求め方が異なります。この点に注意しながら中央値を求めましょう。
最頻値と中央値の違い
データの分析の中でよく使われている代表値のなかに「最頻値」があります。最頻値とはデータにおいてもっとも個数が多い値のことです。最頻値と中央値はデータの中に極端に異なる値が含まれていても影響を受けにくい特徴があります。しかし、中央値は真ん中の値だけを表すので、データ全体を分析するには不向きでしょう。
たとえば次のようなデータがあります。 $1,3,5,50,89,90,96$ このデータの中央値は$50$です。しかし、$50$より小さい3つのデータは$50$より極端に小さく、$50$より大きい3つのデータは$50$より極端に大きいですよね。このように中央値はデータ全体を分析するには不十分な点があります。
また、最頻値はデータの個数が少ないとデータを正確に分析することは難しいです。データの個数が$1,1,15$のように3つしかない場合、最頻値は$1$です。しかしこれだけでは正確にデータを分析できたとはいいがたいでしょう。
このようにそれぞれの値にはよい点、悪い点があります。データの特徴やデータをどのように分析したいかによって、それぞれの値を使い分けることが大切です。
\ おすすめの参考書! /
中央値とは?のまとめ
中央値について解説しました。
ポイントは下記の3つです。
- 中央値とはデータを値の大きさの順に並べたときに中央にくる値のことです。
- データの個数が偶数の場合は中央の2つの値の平均値が中央値です。
- データを分析する目的に応じて、代表値を使い分けるとよいでしょう。
中央値はデータの真ん中の値を表すため、極端に異なる値が含まれていても中央の値を求めることが可能です。
平均値や最頻値などとうまく使い分けながらデータの分析ができるといいですね。
コメント