データの整理
実験や観測で得られた結果を「データ」といいます。データの個数をデータの「大きさ」といいます。 下記の数値は、30人の数学のテストの点数のデータです。データの大きさは30です。

テストの点数や、運動の記録、毎日の気温などを「変量」といいます。 下の表はテストの点数を20点ごとに区切って、その区間に対応するデータの個数を表にしたもので、「度数分布表」といいます。 各区間を「階級」、区間に含まれる個数を「度数」、各階級の中央の値を「階級値」といいます。
20~40の階級であれば、階級値は$\frac{20+40}{2}=30$です。

下の図は度数分布表をもとに、データを柱状のグラフに表したもので、「ヒストグラム」といいます。

データの代表値
代表値はデータの特徴を表す値で以下の3つがよく使われます。
平均値
n個のデータを$x_1, x_2, x_3, \ldots, x_n$とするとき、平均値$\bar{x}$は
$\bar{x}=\dfrac{1}{n}\left(x_1 + x_2 + \ldots + x_n\right)$
と計算できます。以下は、上記の数学のテストの点数のデータの平均値を求めた例です。
$\bar{x}=\dfrac{100 + 56 + 98 + 76 + 22 + \ldots + 92}{30}=68.83\ldots$ (点)
※参考記事
[数1]平均値とは?平均値の求め方と中央値との違い
中央値(メジアン)
データの値を小さいもの順(大きいもの順)に並べたとき、中央にくる値のことを中央値(メジアン)といいます。データの大きさが偶数の場合は、中央に来る2つの値の平均値が中央値になります。
※参考記事
[数1]中央値とは?中央値の求め方、平均値との違いをわかりやすく解説
最頻値(モード)
データにおいて最も個数の多い値を最頻値(モード)といいます。度数分布表では、度数が一番大きい階級の階級値を最頻値とします。
使用例
以下の数学のテストの点数のデータの平均、中央値、最頻値を求めます。

① 平均値
$\bar{x}=\dfrac{100+56+98+76+22+\ldots+92}{30}=68.83…$ (点)
② 中央値
小さいもの順に並べ替えます。

中央に来るのは75と76の2つの値なので、$\dfrac{75+76}{2}=75.5$ (点)
③ 最頻値 一番個数が多いのは76(点)
データの散らばりと四分位範囲
① データの範囲
データの最大値と最小値の差です。
範囲 = 最大値 $-$ 最小値 下の10個のデータの範囲は $28 – 2 = 26$

② 四分位数(第1四分位数 $Q_1$, 第2四分位数 $Q_2$, 第3四分位数 $Q_3$)
データを小さいもの順に並べます。全データの中央値は第2四分位数 $Q_2$、$Q_2$より小さい値の中央値は第1四分位数 $Q_1$、$Q_2$より大きい値の中央値は第3四分位数 $Q_3$です。


$Q_1 = 4.5$, $Q_2 = 15$, $Q_3 = 20.5$


$Q_1 = 6$, $Q_2 = 13$, $Q_3 = 21$
※参考記事
[数1]四分位数とは?四分位範囲と四分位偏差の求め方、箱ひげ図をわかりやすく解説
③ 四分位範囲
第3四分位数から第1四分位数を引いた値。$Q_3 – Q_1$
$Q_1 = 6$, $Q_3 = 21$のとき、四分位範囲は $21 – 6 = 15$ です。
④ 四分位偏差
四分位範囲の1/2の値。$\dfrac{Q_3 – Q_1}{2}$
$Q_1 = 6$, $Q_3 = 21$のとき、四分位偏差は $\dfrac{21-6}{2}=7.5$ です。
四分位範囲と四分位偏差はデータの散らばりの度合いを表す値で、値が大きい程散らばりの度合いも大きいです。
⑤ 箱ひげ図
データの最小値、第1四分位数、第2四分位数、第3四分位数、最大値を箱型の図に表したものです。複数のデータの分布を比較するときに利用します。

2組の方が散らばりの度合いが大きいことが視覚的にわかります。
\ おすすめの参考書! /
分散と標準偏差
変量$x$のデータの値を$x_1,x_2,\ldots,x_n$とします。
① 偏差
データの各値から平均値$\bar{x}$を引いた値です。
$x_1-\bar{x},\ x_2-\bar{x},\ x_3-\bar{x},\ \ldots,x_n-\bar{x}$
② 分散
偏差の2乗の平均値で、$s^2$で表します。
$s^2 = \frac{1}{n}(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + \ldots + (x_n-\bar{x})^2$
または
$s^2 = \dfrac{\sum_{i=1}^n (x_i – \bar{x})^2}{n} = \dfrac{\sum_{i=1}^n x_i^2 – n(\bar{x})^2}{n}$
③ 標準偏差
分散の正の平方根です。
$s = \sqrt{分散}$
※参考記事
[数1]標準偏差とは?標準偏差の公式と求め方、分散と偏差を解説
使用例
例えば、$x$のデータが$5, 6, 9, 11, 14$の場合、以下のように計算できます。
平均値 $\bar{x} = \dfrac{1}{5}(5+6+9+11+14) = 9$
分散 $s^2 = \dfrac{1}{5}(5-9)^2 + (6-9)^2 + \ldots + (14-9)^2 = 10.8$
標準偏差 $s = \sqrt{10.8} \approx 3.3$
データの相関
散布図
2つの変量(例:体重と身長)のデータをもとに平面上に点をとった図で、2つの変量の間の関係を視覚的に捉えることができます。

正の相関・負の相関
2つの変量において、一方の変量が増えるともう一方の変量も増える傾向があるとき、正の相関関係があるといいます。 2つの変量において、一方の変量が増えるともう一方の変量が減る傾向があるとき、負の相関関係があるといいます。 どちらの傾向もみられないときは、相関関係がないといいます。

散布図の点が1つの直線に近い形に分布しているとき、強い相関関係があるといいます。
共分散
2つの変量x,yのn個のデータを$\left(x_1,y_1\right),\left(x_2,y_2\right),・・・,\left(x_n,y_n\right)$とするとき、xの偏差とyの偏差の積の平均値をxとyの共分散といい、$s_{xy}$で表します。
\begin{equation}
s_{xy}&=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})
&=\frac{1}{n}(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})
\end{equation}
※参考記事
[数1]共分散とは?求め方と公式、相関係数との関係を解説
相関係数
2つの変量x,yの共分散($s_{xy}$)をxの標準偏差とyの標準偏差の積$\left(s_x s_y\right)$で割った値を相関係数といい、$r$で表します。

相関係数rの性質
[1]
$-1\leq r \leq 1$
[2]
値が1に近い・・・正の相関関係が強い。
値が-1に近い・・・負の相関関係が強い。
値が0に近い・・・相関関係が弱い。
使用例
例)
A,B,C,D,E 5人の生徒の数学と英語の小テストの点数のデータの相関関係を調べます。

x ,yの平均値を求め、下の表を元に相関係数を求めます。

rが1に近い値なので、xとyの間には正の相関関係があると考えられます。
コメント