数学Bで習う確率分布と統計的推測の用語と公式の一覧です。復習やテスト前の対策に役立ててください。
確率変数と確率分布の公式
確率変数と確率分布
確率変数・・・ある試行の結果によって値が定まる変数。
確率分布・・・確率変数のとる値に、それぞれの値をとる確率を対応させたもの。
確率変数$X$のとりうる値が$x_1,x_2,x_3,・・・,x_n$であり、それぞれの値をとる確率が$p_1,p_2,p_3,・・・,p_n$であるとき次の2つが成り立ちます。
- $p_1\geq 0,p_2\geq 0,・・・,p_n\geq 0$
- $p_1+p_2+・・・+p_n=1$

$X=a$ となる確率を $P(X=a)$ と表します。
確率変数の期待値
確率変数$X$の確率分布が下の表で与えられるとき、$X$の期待値(平均)$E(X)$は
$E(X)=x_1p_1+x_2p_2+・・・+x_np_n$
例)2本の当たりくじを含む10本のくじがある。この中から同時に2本のくじを引くとき、その中に含まれる当たりの本数を$X$とする。$X$の確率分布と期待値を求めよ。
解答) $X$のとりうる値は0 , 1 , 2 です。
$X=0$ となる確率は$P(X=0)=\dfrac{{_8}C_2}{{_{10}}C_2}=\dfrac{28}{45}$
$X=1$ となる確率は $P(X=1)=\dfrac{{_2}C_1\times{_8}C_1}{{_{10}C_2}}=\dfrac{16}{45}$
$X=2$ となる確率は $P(X=2)=\dfrac{{_2}C_2}{{{_{10}}C_2}}=\dfrac{16}{45}$
確率分布は下の図のようになります。

$X$の期待値は $E(X)=0\times\dfrac{28}{45}+1\times\dfrac{16}{45}+2\times\dfrac{1}{45}=\dfrac{18}{45}=\dfrac{2}{5}$
確率変数の分散
確率変数$E(X)=x_1p_1+x_2p_2+・・・+x_np_n$ を$m$としたとき、$(X-m)^2$の期待値$E((X-m)^2)$を確率変数$X$の分散といい、$V(X)$で表します。
$V(X)=E((X-m)^2)=(x_1-m)^2p_1+(x_2-m)^2p_2+・・・+ (x_n-m)^2p_n$
また、$V(X)$は上の式を変形して、次の式の形で利用できます。
$V(X)=E(X^2)-{E(X)}^2$
確率変数の標準偏差
分散$V(X)$の正の平方根を標準偏差といい、$\sigma(X)$で表します。
$\sigma(X)=\sqrt{V(X)}$
例)変数$X$の確率分布が次の表のように与えられているとき、確率変数$X$の期待値$E(X)$と、$X^2$の期待値$E\left(X^2\right)$、分散$V(X)$、標準偏差$\sigma\left(X\right)$を求めよ。

解答)
$E\left(X\right)=1\times\dfrac{2}{10}+2\times\dfrac{1}{10}+3\times\dfrac{3}{10}+4\times\dfrac{3}{10}+5\times\dfrac{1}{10}=\dfrac{30}{10}=3$ $E\left(X^2\right)=1^2\times\dfrac{2}{10}+2^2\times\dfrac{1}{10}+3^2\times\dfrac{3}{10}+4^2\times\dfrac{3}{10}+5\times\dfrac{1}{10}=\dfrac{106}{10}=\dfrac{53}{5}$ $V\left(X\right)=E\left(X^2\right)-\{E\left(X\right)\}^2=\dfrac{53}{5}-3^2=\dfrac{8}{5}$
確率変数$aX+b$
$X$を確率変数、$a,b$を定数とするとき
期待値 :$E\left(aX+b\right)=aE\left(X\right)+b$
分散 :$V\left(aX+b\right)=a^2V\left(X\right)$
標準偏差:$\sigma\left(aX+b\right)=\left|a\right|\sigma\left(X\right)$
確率変数の和と積
確率変数$X,Y$の期待値ついて次の性質が成り立ちます。
- $E\left(X+Y\right)=E\left(X\right)+E\left(Y\right)$
- $E\left(aX+bY\right)=aE\left(X\right)+bE\left(Y\right)$ $a,b$は定数
2つの確率変数$X,Y$が互いに独立のとき、$E\left(XY\right)=E\left(X\right)E\left(Y\right)$
確率変数$X,Y$が互いに独立であるとき$X,Y$の分散について次の性質が成り立ちます。
- $V\left(X+Y\right)=V\left(X\right)+V\left(Y\right)$
- $V\left(aX+bY\right)=a^2V\left(X\right)+b^2E\left(Y\right)$ $a,b$は定数
二項分布
1回の試行で事象Aが起こる確率を$p$とし、Aが起こらない確率を$q=1-p$とおきます。この試行を$n$回繰り返す反復試行において、事象Aが起こる回数を$X$とすると、$X$は確率変数で、とる値は0から$n$までの整数です。$X$の確率分布を二項分布といい、$B\left(n,p\right)$で表します。

二項分布$B\left(n,p\right)$の確率は
$P\left(X=r\right)={_n}C_rp^rq^{n-r}$
$r=0,1,・・・,n$,$q=1-p$
二項分布の期待値と分散
確率変数Xが二項分布B(n,p)に従うとき、
期待値:$E(X)=np$
分散 :$V(X)=npq$(ただし$q=1-p$)
標準偏差:$\sigma(X)=\sqrt{npq}$
例)二項分布B(15,1/3)の期待値、分散、標準偏差を求めよ。
解答) 期待値:$E(X)=15\times \dfrac{1}{3}=5$
分散:$V(X)=15\times \dfrac{1}{3}\times \left(1-\dfrac{1}{3}\right)=15\times \dfrac{2}{9}=\dfrac{10}{3}$
標準偏差:$\sigma(X)=\sqrt{\dfrac{10}{3}}=\dfrac{\sqrt{30}}{3}$
統計的推測
連続型確率変数
連続した値をとる確率変数Xを連続型確率変数といいます。
Xに一つの曲線y=f\left(x\right)を対応させ、$a\leqq X\leqq b$となる確率$P\left(a\leqq X\leqq b\right)$が下の図の斜線の面積で表されるようにします。この曲線y=f\left(x\right)をXの分布曲線といい、$f\left(x\right)$を確率密度関数といいます。

確率密度関数には以下の性質があります。
① 常に$f\left(x\right)\geqq0$
② 確率$P\left(a\leqq X\leqq b\right)$は曲線y=f\left(x\right)とx軸, $x=a$ , $x=b$で囲まれた部分の面積に等しい。
③ 曲線y=f\left(x\right)とx軸の間の面積は1である。
正規分布
連続型確率変数Xの確率密度関数が
$f\left(x\right)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{\dfrac{\left(x-m\right)^2}{2\sigma^2}}$
(mを実数、$\sigma$を正の実数とし、eは無理数の定数e=2.71828・・・である)
で表されるとき、「Xは正規分布$N\left(m,\sigma^2\right)$に従う」といいます。
また、$f\left(x\right)$は正規分布曲線とよばれます。

確率変数$X$が正規分布$N(m,\sigma^2)$に従うとき、期待値$E(X)=m$、標準偏差$\sigma(X)=\sigma$です。$X$の正規分布曲線には以下の性質があります。
① 直線$x=m$に関して対称で、$f(x)$は$x=m$のとき最大となります。
② $x$軸を漸近線とします。
③ 標準偏差$\sigma$が大きくなると曲線の山が低くなり、$\sigma$が小さくなると曲線の山が高くなります。
標準正規分布
正規分布$N(0,1)$を標準正規分布といいます。確率変数$X$が正規分布$N(m,\sigma^2)$に従うとき、$Z=\dfrac{X-m}{\sigma}$とおくと、確率変数$Z$は標準正規分布$N(0,1)$に従います。そのとき、確率密度関数は$f(z)=\dfrac{1}{\sqrt{2\pi}}e^{-\dfrac{z^2}{2}}$となります。
二項分布の正規分布による近似
確率変数$X$が二項分布$B(n,p)$に従うとき、$Z=\dfrac{X-np}{\sqrt{npq}}$は$n$が十分大きければ標準正規分布$N(0,1)$に従うとみなします。ただし、$q=1-p$です。
母集団と標本
以下は統計の調査で用いられる用語の説明です。
- 全数調査:調べたい対象全体を調査すること。
- 標本調査:対象全体から一部を抜き出し、調べた結果から全体の状況を推測する調査。
- 母集団:調査の対象となる全体。
- 標本:母集団から取り出されたものの集まり。
- 標本の大きさ:標本に含まれるものの個数。
- 抽出:標本を抜き出すこと。
- 復元抽出:母集団から標本を抽出する際、毎回元に戻しながら次の1個を抽出すること。
- 非復元抽出:抽出したものを元に戻さずに続けて抽出すること。
- 無作為抽出:母集団からかたよりなく標本を抽出すること。
- 無作為標本:無作為抽出で抽出された標本。
標本平均の分布
- 母集団分布・・・母集団における変量xの分布。
- 母平均・・・母集団分布の平均。
- 簿標準偏差・・・母集団分布の標準偏差。
標本平均$\bar{X}$・・・母集団から無作為抽出する大きさ$n$の標本の変量の平均。
変量$x$の値を$X_1,X_2,\dots,X_n$とするとき、$\bar{X}=\dfrac{1}{n}(X_1+X_2+\dots+X_n)$
母平均$m$、簿標準偏差$\sigma$の母集団から大きさ$n$の無作為標本を抽出するとき、
標本平均$\bar{X}$の期待値$E(X)=m$、
標本平均$\bar{X}$の標準偏差$\sigma(\bar{X})=\dfrac{\sigma}{\sqrt{n}}$
標本$\bar{X}$に対して、$Z=\dfrac{\bar{X}-m}{\dfrac{\sigma}{\sqrt{n}}}$とおくと、$Z$は$n$の値が大きいとき、近似的に標準正規分布$N(0,1)$に従います。
母平均の推定
標本平均を用いて母平均の範囲を推定します。
正規分布表によると、$P(|Z|\leq1.96)=0.95$であるから、$P\left(|\bar{X}-m|\leq1.96\times\dfrac{\sigma}{\sqrt{n}}\right)$です。
このことから、標本の大きさ$n$が大きいとき母平均$m$に対する信頼度95%の信頼区間は、母標準偏差を$\sigma$としたとき
$\bar{X}-1.96\dfrac{\sigma}{\sqrt{n}}\leq m\leq\bar{X}+1.96\dfrac{\sigma}{\sqrt{n}}$
例題
大量に生産されたある製品の中から無作為に抽出した100個について重さを調べたところ平均値は1872gであった。母標準偏差が110gであるとき、この製品の母平均$\mu$に対して、信頼度95%の信頼区間を求めよ。
ただし、少数第2位を四捨五入せよ。
解答
$\bar{X}=1872$, $\sigma=110$, $n=100$であるから、求める信頼区間は、
$\bar{X}-1.96\dfrac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{X}+1.96\dfrac{\sigma}{\sqrt{n}}$
代入して計算すると、
$1872-1.96\times\dfrac{110}{\sqrt{100}}\leq\mu\leq1872+1.96\times\dfrac{110}{\sqrt{100}}$
すなわち、
$1850.4\leq\mu\leq1893.6$
信頼区間は、$[1850.4,1893.6]$です。
母比率の推定
母比率・・・母集団の中で、ある特定の性質Aをもつものの割合。
標本比率・・・抽出された標本の中で性質Aをもつものの割合。
標本の大きさ$n$の値が大きいとき、標本比率を$R$とすると、母比率$p$に対する信頼度95%の信頼区間は、
$R-1.96\sqrt{\dfrac{R(1-R)}{n}}\leq p\leq R+1.96\sqrt{\dfrac{R(1-R)}{n}}$