【集中力】大幅アップの勉強タイマー

[数1]データの分析の用語・公式一覧

目次

データの整理

実験や観測で得られた結果を「データ」といいます。データの個数をデータの「大きさ」といいます。 下記の数値は、30人の数学のテストの点数のデータです。データの大きさは30です。

テストの点数や、運動の記録、毎日の気温などを「変量」といいます。 下の表はテストの点数を20点ごとに区切って、その区間に対応するデータの個数を表にしたもので、「度数分布表」といいます。 各区間を「階級」、区間に含まれる個数を「度数」、各階級の中央の値を「階級値」といいます。

20~40の階級であれば、階級値は$\frac{20+40}{2}=30$です。

階級と度数
階級と度数

下の図は度数分布表をもとに、データを柱状のグラフに表したもので、「ヒストグラム」といいます。

ヒストグラム
ヒストグラム

データの代表値

代表値はデータの特徴を表す値で以下の3つがよく使われます。

平均値

n個のデータを$x_1, x_2, x_3, \ldots, x_n$とするとき、平均値$\bar{x}$は

$\bar{x}=\dfrac{1}{n}\left(x_1 + x_2 + \ldots + x_n\right)$

と計算できます。以下は、上記の数学のテストの点数のデータの平均値を求めた例です。

$\bar{x}=\dfrac{100 + 56 + 98 + 76 + 22 + \ldots + 92}{30}=68.83\ldots$ (点)

※参考記事
[数1]平均値とは?平均値の求め方と中央値との違い

中央値(メジアン)

データの値を小さいもの順(大きいもの順)に並べたとき、中央にくる値のことを中央値(メジアン)といいます。データの大きさが偶数の場合は、中央に来る2つの値の平均値が中央値になります。

※参考記事
[数1]中央値とは?中央値の求め方、平均値との違いをわかりやすく解説

最頻値(モード)

データにおいて最も個数の多い値を最頻値(モード)といいます。度数分布表では、度数が一番大きい階級の階級値を最頻値とします。

※参考記事
[数1]平均値、最頻値、中央値の求め方と違い

使用例

以下の数学のテストの点数のデータの平均、中央値、最頻値を求めます。

① 平均値

$\bar{x}=\dfrac{100+56+98+76+22+\ldots+92}{30}=68.83…$ (点)

② 中央値

小さいもの順に並べ替えます。

中央に来るのは75と76の2つの値なので、$\dfrac{75+76}{2}=75.5$ (点)

③ 最頻値 一番個数が多いのは76(点)

データの散らばりと四分位範囲

① データの範囲

データの最大値と最小値の差です。

範囲 = 最大値 $-$ 最小値 下の10個のデータの範囲は $28 – 2 = 26$

② 四分位数(第1四分位数 $Q_1$, 第2四分位数 $Q_2$, 第3四分位数 $Q_3$)

データを小さいもの順に並べます。全データの中央値は第2四分位数 $Q_2$、$Q_2$より小さい値の中央値は第1四分位数 $Q_1$、$Q_2$より大きい値の中央値は第3四分位数 $Q_3$です。

$Q_1 = 4.5$, $Q_2 = 15$, $Q_3 = 20.5$

$Q_1 = 6$, $Q_2 = 13$, $Q_3 = 21$

※参考記事
[数1]四分位数とは?四分位範囲と四分位偏差の求め方、箱ひげ図をわかりやすく解説

③ 四分位範囲

第3四分位数から第1四分位数を引いた値。$Q_3 – Q_1$

$Q_1 = 6$, $Q_3 = 21$のとき、四分位範囲は $21 – 6 = 15$ です。

④ 四分位偏差

四分位範囲の1/2の値。$\dfrac{Q_3 – Q_1}{2}$

$Q_1 = 6$, $Q_3 = 21$のとき、四分位偏差は $\dfrac{21-6}{2}=7.5$ です。

四分位範囲と四分位偏差はデータの散らばりの度合いを表す値で、値が大きい程散らばりの度合いも大きいです。

⑤ 箱ひげ図

データの最小値、第1四分位数、第2四分位数、第3四分位数、最大値を箱型の図に表したものです。複数のデータの分布を比較するときに利用します。

2組の方が散らばりの度合いが大きいことが視覚的にわかります。

\ おすすめの参考書! /

分散と標準偏差

変量$x$のデータの値を$x_1,x_2,\ldots,x_n$とします。

① 偏差

データの各値から平均値$\bar{x}$を引いた値です。

$x_1-\bar{x},\ x_2-\bar{x},\ x_3-\bar{x},\ \ldots,x_n-\bar{x}$

② 分散

偏差の2乗の平均値で、$s^2$で表します。

$s^2 = \frac{1}{n}(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + \ldots + (x_n-\bar{x})^2$

または

$s^2 = \dfrac{\sum_{i=1}^n (x_i – \bar{x})^2}{n} = \dfrac{\sum_{i=1}^n x_i^2 – n(\bar{x})^2}{n}$

③ 標準偏差

分散の正の平方根です。

$s = \sqrt{分散}$

※参考記事
[数1]標準偏差とは?標準偏差の公式と求め方、分散と偏差を解説

使用例

例えば、$x$のデータが$5, 6, 9, 11, 14$の場合、以下のように計算できます。

平均値 $\bar{x} = \dfrac{1}{5}(5+6+9+11+14) = 9$
分散 $s^2 = \dfrac{1}{5}(5-9)^2 + (6-9)^2 + \ldots + (14-9)^2 = 10.8$
標準偏差 $s = \sqrt{10.8} \approx 3.3$

データの相関

散布図

2つの変量(例:体重と身長)のデータをもとに平面上に点をとった図で、2つの変量の間の関係を視覚的に捉えることができます。

散布図
散布図

正の相関・負の相関

2つの変量において、一方の変量が増えるともう一方の変量も増える傾向があるとき、正の相関関係があるといいます。 2つの変量において、一方の変量が増えるともう一方の変量が減る傾向があるとき、負の相関関係があるといいます。 どちらの傾向もみられないときは、相関関係がないといいます。

相関関係
相関関係

散布図の点が1つの直線に近い形に分布しているとき、強い相関関係があるといいます。

共分散

2つの変量x,yのn個のデータを$\left(x_1,y_1\right),\left(x_2,y_2\right),・・・,\left(x_n,y_n\right)$とするとき、xの偏差とyの偏差の積の平均値をxとyの共分散といい、$s_{xy}$で表します。

\begin{equation}
s_{xy}&=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})
&=\frac{1}{n}(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y})
\end{equation}

※参考記事
[数1]共分散とは?求め方と公式、相関係数との関係を解説

相関係数

2つの変量x,yの共分散($s_{xy}$)をxの標準偏差とyの標準偏差の積$\left(s_x s_y\right)$で割った値を相関係数といい、$r$で表します。

相関係数の公式
相関係数の公式

相関係数rの性質

[1]
$-1\leq r \leq 1$
[2]
値が1に近い・・・正の相関関係が強い。
値が-1に近い・・・負の相関関係が強い。
値が0に近い・・・相関関係が弱い。

※参考記事
[数1]相関係数とは?公式と求め方を詳しく解説

使用例

例)
A,B,C,D,E 5人の生徒の数学と英語の小テストの点数のデータの相関関係を調べます。

x ,yの平均値を求め、下の表を元に相関係数を求めます。

rが1に近い値なので、xとyの間には正の相関関係があると考えられます。

コメント

コメントする

目次