よんログ

確率統計

データの種類

質的変数

質的変数は種類 (性別, 血液型など) を区別するような変数である。 中でも性別のように2種類の値しかとらない質的変数を2値変数と呼ぶ。

質的変数は尺度水準によって以下のように分類できる。

名義尺度
単に分類するための変数。 (生徒番号, 電話番号, 性別など)
順序尺度

順序関係や大小関係に意味のある変数。 (成績の順位, アンケートの満足度など)

量的変数

量的変数は量 (身長, テストの点数など) を表現する変数である。

量的変数は尺度水準によって以下のように分類できる。

間隔尺度
大小関係, 差に意味がある変数。 (西暦など)
比例尺度
間隔尺度の性質 (大小関係, 差) に加え、比にも意味がある変数。

摂氏 (℃), 華氏 (°F) 表記の温度は間隔尺度であるが、比例尺度ではない。 一方でケルビン (K) 表記の温度は比例尺度である。

データの指標

平均値

平均値 (mean) は、すべてのデータを合計してデータ数で割った値である。 XX の平均値を E[X]\Bbb{E}[X]、あるいは習慣的に文字 μ\mu で表す。

E[X]=1ni=1nxi\Bbb{E}[X]=\frac{1}{n}\sum_{i=1}^n{x_i}

「平均値」を意味する英単語には mean の他に average がある。

統計学では、mean は「平均値」を表すのに対し、average は「代表値」を表す。 代表値とは、平均値を含む中央値 (後述), 最頻値 (後述) など、分布の中心的位置を表す数値の総称である。

分散

分散 (variance) は偏差の平方和であり、データのバラつきの指標となる。 XX の分散を V[X]\Bbb{V}[X]、あるいは習慣的に σ2\sigma^2 で表す。

V[X]=1ni=1n(xiE[X])2\Bbb{V}[X]=\frac{1}{n}\sum_{i=1}^n(x_i-\Bbb{E}[X])^2

中央値

中央値 (メジアン, median) は、データを降順に並べたときに中央に位置する値である。 データ数が偶数のときは中央に位置する2つの値の平均値となる。

最頻値

最頻値 (モード, mode) は、データの中で最も多く出現する値である。

偏差

偏差 (deviation) は、各データと平均値の差である。

標準偏差

標準偏差 (standard deviation) は分散のルートをとったものであり、データのばらつきを表す指標となる。 分散のルートをとることでデータのバラつきをデータと同じ単位で見ることができる。 標準偏差は習慣的に文字 σ\sigma で表す。

V[X]=1ni=1n(xiE[X])2\sqrt{\Bbb{V}[X]}=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\Bbb{E}[X])^2}

四分位範囲

データの下位 25%, 50%, 75% に位置する値を第 1 四分位数, 第 2 四分位数, 第 3 四分位数といい、それぞれ Q1,Q2,Q3Q_1,Q_2,Q_3 で表す。 (第 2 四分位数 Q2Q_2 は中央値に一致する)

このとき IQR=Q3Q1\text{IQR}=Q_3-Q_1 を四分位範囲 (interquartile range) という。

共分散

共分散 (covariance) は、大きさが等しい2つのデータセット間における偏差積の平均値であり、X,YX,Y の共分散を Cov[X,Y]\text{Cov}[X,Y] で表す。

Cov[X,Y]=1ni=1n(xiE[X])(yiE[Y])\text{Cov}[X,Y]=\frac{1}{n}\sum_{i=1}^n(x_i-\Bbb{E}[X])(y_i-\Bbb{E}[Y])

相関係数

相関係数 (correlation coefficient) は 2 つの確率変数の間にある関係の強弱を測る指標で、-1 から 1 の値をとる。

rxy=Cov[X,Y]V[X]V[Y]r_{xy}=\frac{\text{Cov}[X,Y]}{\Bbb{V}[X]\Bbb{V}[Y]}
  1. rxy>0    データは正の相関をもつr_{xy}>0\iff\text{データは正の相関をもつ}
  2. rxy=0r_{xy}=0 のとき、データは無相関
  3. rxy<0r_{xy}<0 のとき、データは負の相関をもつ

データの整理

標準化

データから平均を引き、標準偏差で割る操作を標準化 (standardization) という。標準化されたデータを Z スコア (z-score) といい、平均が 0, 標準偏差が 1 となる。

zi=xiμσz_i=\frac{x_i-\mu}{\sigma}

推測統計

母集団と標本

推測統計では観測対象全体の統計的性質を、その観測対象の一部分のみを使って推測する。

母集団 (population)
推測したい観測対象全体
母数
母集団の平均, 分散, 相関係数の総称
標本 (sample)
推測に使う観測対象の一部分
標本統計量
標本から計算される平均, 分散, 相関係数
標本抽出 (sampling)
母集団から標本を取り出すこと
無作為抽出 (random sampling)
ランダムに標本抽出する
サンプルサイズ
取り出す標本の数

確率

確率変数 (random variable)
とりうる値とその確率が決まっているもの
試行 (trial)
確率変数の結果を観測すること
事象 (event)
試行の結果起こりうること
根本事象 (elementary event)
これ以上分解できない事象

確率変数

期待値

確率変数を無限回試行して得られた実現値の平均を期待値 (expected value) といい、確率変数 XX の期待値を E(X)E(X)、あるいは習慣的に文字 μ\mu で表す。

また、期待値について以下の式が成り立つ。

E[aX+b]=aE[X]+b\Bbb{E}[aX+b]=a\Bbb{E}[X]+b
このような性質を**線形性 (linearity)**という。

分散

確率変数における分散もデータの分散と同様にバラつきを表す指標であり、確率変数 XX における分散を V[X]\Bbb{V}[X]、あるいは習慣的に σ2\sigma^2 で表す。

分散について、常に以下の式が成り立つ。

V[X]=E[(E[X]X)2]=E[X2]E[X]2V[aX+b]=a2V[X]\begin{aligned} \Bbb{V}[X]&=\Bbb{E}[(\Bbb{E}[X]-X)^2]\\ &=\Bbb{E}[X^2]-\Bbb{E}[X]^2\\ \Bbb{V}[aX+b]&=a^2\Bbb{V}[X]\\ \end{aligned}
V[X]=E[X^2]-E[X]^2 の証明
\Bbb{V}[X]&=\Bbb{E}[(X-\Bbb{E}[X])^2]\\ &=\Bbb{E}[X^2-2\Bbb{E}[X]X-\Bbb{E}[X]^2]\\ &=\Bbb{E}[X^2]-2\Bbb{E}[X]^2+\Bbb{E}[X]^2\\ &=\Bbb{E}[X^2]-\Bbb{E}[X]^2 \end{ aligned }

離散型確率変数

飛び飛びの値をとる (離散的である) 確率変数を 離散型確率変数 (discrete random variable) という。

離散型確率分布において、X=xX=x となる確率 P[X=x]P[X=x] を返す関数を、確率質量関数 (Probability Mass Function, PMF) といい、以下 f(x)f(x) で表す。

XX が離散型確率変数であるとき、以下が成り立つ。

E[X]=kxkf(xk)V[X]=k(xkμ)2f(xk)\begin{aligned} \Bbb{E}[X]&=\sum_kx_kf(x_k)\\ \Bbb{V}[X]&=\sum_k(x_k-\mu)^2f(x_k) \end{aligned}

また、確率の性質より以下が自明に成り立つ。

0f(xi)1kf(xk)=10\le f(x_i)\le1\\ \sum_kf(x_k)=1

連続型確率変数

連続した値をとる確率変数を 連続的確率変数 (continuous random variable) という。

連続型確率変数 XXx0Xx1x_0\le X\le x_1 を満たす確率 P[x0xx1]P[x_0\le x\le x_1]

P[x0xx1]=x0x1f(x)dxP[x_0\le x\le x_1]=\int_{x_0}^{x_1}f(x)dx

を満たすよう定義した f(x)f(x)確率密度関数 (Probability Density Function, PDF) という。

XX が連続型確率変数であるとき、以下が成り立つ。

E[X]=xf(x)dxV[X]=(xE[X])2f(x)dx\begin{aligned} \Bbb{E}[X]&=\int_{-\infty}^\infty xf(x)dx\\ \Bbb{V}[X]&=\int_{-\infty}^\infty(x-\Bbb{E}[X])^2f(x)dx \end{aligned}

また、確率の性質より以下が自明に成り立つ。

0f(x)1f(x)dx=10\le f(x)\le1\\ \int_{-\infty}^\infty f(x)dx=1

ベルヌーイ分布

確率 pp11、それ以外の場合 (確率 1p1-p) に 00 をとる、最も基本的な離散型確率分布を ベルヌーイ分布 (Bernoulli distribution) といい、以下 Bern(p)\text{Bern}(p) で表す。

Bern(p)\text{Bern}(p) の密度関数は次のようになる。

f(x)={px(1p)1x(x{0,1})0(otherwise)f(x)=\begin{cases}p^x(1-p)^{1-x}&(x\in\{0,1\})\\ 0&(\text{otherwise}) \end{cases}

XBern(p)X\sim\text{Bern}(p) のとき

E[X]=pV[X]=p(1p)\begin{aligned} \Bbb{E}[X]&=p\\ \Bbb{V}[X]&=p(1-p) \end{aligned}
V[X] の導出
\Bbb{V}[X]&=\Bbb{E}[(X-\Bbb{E}[X])^2]\\ &=\Bbb{E}[X^2]-\Bbb{E}[X]^2\\ &=p-p^2\\ &=p(1-p) \end{aligned}

二項分布

成功確率が pp であるベルヌーイ試行を nn 回行った時の成功回数が従う離散型確率分布を 二項分布 (binomial distribution) といい、以下 Bin(n,p)\text{Bin}(n,p) で表す。

Bin(n,p)\text{Bin}(n,p) の密度関数は次のようになる。

f(x)={nCxpx(1p)xk(x{0,1,,n})0(otherwise)f(x)=\begin{cases} _nC_xp^x(1-p)^{x-k}&(x\in\{0,1,\dots,n\})\\ 0&(\text{otherwise}) \end{cases}

XBin(n,p)X\sim\text{Bin}(n,p) のとき

E[X]=npV[X]=np(1p)\begin{aligned} \Bbb{E}[X]&=np\\ \Bbb{V}[X]&=np(1-p) \end{aligned}

確率変数 XBin(n,p)X\sim\text{Bin}(n,p)YBin(m,p)Y\sim\text{Bin}(m,p) が互いに独立であるとき、確率変数の和 X+YX+YBin(n+m,p)\text{Bin}(n+m,p) に従う。 (再生性)

幾何分布

成功確率が pp であるベルヌーイ試行を繰り返し、初めて成功するまでの試行回数が従う離散型確率分布を 幾何分布 (geometric distribution) といい、以下 Ge(p)\text{Ge}(p) で表す。

Ge(p)\text{Ge}(p) の密度関数は次のようになる。

f(x)={p(1p)x1(x{1,2,3,})0(otherwise)f(x)=\begin{cases} p(1-p)^{x-1}&(x\in\{1,2,3,\dots\})\\ 0&(\text{otherwise}) \end{cases}

XGe(p)X\sim\text{Ge}(p) のとき

E[X]=1pP[X]=1pp2\begin{aligned} \Bbb{E}[X]&=\frac{1}{p}\\ P[X]&=\frac{1-p}{p^2} \end{aligned}

が成り立つ。

ポアソン分布

単位時間当たり平均 λ\lambda 回発生する事象が単位時間に起こる件数が従う離散型確率分布を ポアソン分布 (Poisson distribution) といい、以下 Poi(λ)\text{Poi}(\lambda) で表す。

Poi(λ)\text{Poi}(\lambda) の密度関数は次のようになる。

f(x)={λxx!eλ(x{0,1,2,})0(otherwise)f(x)=\begin{cases} \dfrac{\lambda^x}{x!}\cdot e^{-\lambda}&(x\in\{0,1,2,\dots\})\\ 0&(\text{otherwise}) \end{cases}

XPoi(λ)X\sim\text{Poi}(\lambda) のとき

E[X]=λV[X]=λ\begin{aligned} \Bbb{E}[X]&=\lambda\\ \Bbb{V}[X]&=\lambda \end{aligned}

が成り立つ。

ポアソン分布は、二項分布 Bin(n,p)\text{Bin}(n,p) において nn が大きく pp が小さい場合の近似となる。

二項分布からポアソン分布の導出 (ポアソンの極限定理)
Poi(λ)=limλ=np,n=nCkpk(1p)nk=limnn!(nk)!k!(λn)k(1λn)nk=limnn(n1)(n2)(nk+1)k!(λn)k(1λ)nk=limn(nn)(n1n)(n2n)(nk+1n)(λkk!)(1λn)n(1λn)k=1111(λkk!)eλ1=λkeλk!\begin{aligned} \text{Poi}(\lambda)&=\lim_{\lambda=np,n\rightarrow=\infty}{}_nC_kp^k(1-p)^{n-k}\\ &=\lim_{n\rightarrow\infty}\frac{n!}{(n-k)!k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ &=\lim_{n\rightarrow\infty}\frac{n(n-1)(n-2)\cdots(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\lambda)^{n-k}\\ &=\lim_{n\rightarrow\infty}(\frac{n}{n})(\frac{n-1}{n})(\frac{n-2}{n})\cdots(\frac{n-k+1}{n})(\frac{\lambda^k}{k!})(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k}\\ &=1\cdot1\cdot1\cdots1(\frac{\lambda^k}{k!})e^{-\lambda}\cdot1\\ &=\frac{\lambda^ke^{-\lambda}}{k!} \end{aligned}

指数分布

単位時間当たり平均 λ\lambda 回発生する事象の発生間隔が従う連続型確率分布を指数分布 (exponential distribution) といい、以下 Ex(λ)\text{Ex}(\lambda) で表す。

Ex(λ)\text{Ex}(\lambda) の密度関数は次のようになる。

f(x)={λeλx(x0)0(otherwise)f(x)=\begin{cases} \lambda e^{-\lambda x}&(x\ge0)\\ 0&(\text{otherwise}) \end{cases}

XEx(λ)X\sim Ex(\lambda) のとき

E[X]=1λV[X]=1λ2\begin{aligned} \Bbb{E}[X]&=\dfrac1\lambda\\ \Bbb{V}[X]&=\dfrac1{\lambda^2} \end{aligned}

が成り立つ。


単位時間当たり平均 λ\lambda 回発生する事象の

  • 単位時間に起こる件数Poi(λ)\text{Poi}(\lambda) (ポアソン分布) に従う。
  • 発生間隔Ex(λ)\text{Ex}(\lambda) (指数分布) に従う。

正規分布

自然界の多くの事象が従う、期待値が μ\mu、分散が σ2\sigma^2 となる 左右対称・釣り鐘型 の連続型確率分布を 正規分布 (normal distribution) あるいは ガウス分布 (Gaussian distribution) といい、以下 N(μ,σ2)\text{N}(\mu,\sigma^2) で表す。

f(x)=12πσexp{(xμ)22σ2}f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}

XN(μ,σ2)X\sim\text{N}(\mu,\sigma^2) のとき

E[X]=μV[X]=σ2\begin{aligned} \Bbb{E}[X]&=\mu\\ \Bbb{V}[X]&=\sigma^2 \end{aligned}

また、XN(μ,σ2)X\sim \text{N}(\mu,\sigma^2) のとき

aX+bN(aμ+b,a2σ2)aX+b\sim\text{N}(a\mu+b,a^2\sigma^2)

が成り立つ。

よって、確率変数 XX を標準化した確率変数 Z=XμσZ=\dfrac{X-\mu}\sigmaN(0,1)\text{N}(0,1) に従う。 このように μ=0,σ2=1\mu=0,\sigma^2=1 であるような正規分布 N(0,1)\text{N}(0,1) を特に N(0,1)\text{N}(0,1)標準正規分布 という。

カイ二乗分布

確率変数 Z1,Z2,,ZnZ_1,Z_2,\dots,Z_n が互いに独立で N(0,1)\text{N}(0,1) に従うとする。 このとき、それらの二乗和 i=0nZi2\sum_{i=0}^nZ_i^2 が従う連続型確率分布を自由度 nn のカイ二乗分布 (chi-square distribution) といい、以下 χ2(n)\chi^2(n) で表す。

t分布

確率変数 Z,YZ,Y が互いに独立で、ZN(0,1),Yχ2(n)Z\sim\text{N}(0,1),Y\sim\chi^2(n) とする。 このとき、t=ZY/nt=\dfrac{Z}{\sqrt{Y/n}} が従う連続型確率分布を自由度 nn のt分布 (t distribution) といい、以下 t(n)t(n) で表す。

マルコフの不等式

XX を非負の値を取る確率変数とする。 このとき、任意の c>0c>0 に対して

P[Xc]E[X]cP[X\ge c]\le\frac{\Bbb{E}[X]}c

が成り立つ。

証明
E[X]=0xfX(x)dx=0cxfX(x)dx+cxfX(x)dx\begin{aligned} \Bbb{E}[X]&=\int_0^\infty xf_X(x)dx\\ &=\int_0^c xf_X(x)dx+\int_c^\infty xf_X(x)dx \end{aligned}

0cxfX(x)dx0\int_0^cxf_X(x)dx\ge0 より

E[X]cxfX(x)dx\Bbb{E}[X]\le\int_c^\infty xf_X(x)dx

xcx\ge c より

E[X]ccfX(x)dxcP[xc]P[xc]E[X]c\begin{aligned} \Bbb{E}[X]&\ge c\int_c^\infty f_X(x)dx\\ &\ge cP[x\ge c]\\ \therefore P[x\ge c]&\le\frac{\Bbb{E}[X]}c \end{aligned}

チェビシェフの不等式

E[Y]=μ,V[Y]=σ2\Bbb{E}[Y]=\mu,\Bbb{V}[Y]=\sigma^2 とする。 このとき、任意の a>0a>0 に対して

P[xμaσ]1a2P[|x-\mu|\ge a\sigma]\le\frac1{a^2}

が成り立つ。

証明

マルコフの不等式において X=(Yμ)2,c=a2σ2X=(Y-\mu)^2,c=a^2\sigma^2 とすると

P[(Yμ)2a2σ2]E[(Yμ)2]a2σ2P[Yμaσ]1a2\begin{aligned} P[(Y-\mu)^2\ge a^2\sigma^2]&\le\frac{\Bbb{E}[(Y-\mu)^2]}{a^2\sigma^2}\\ P[|Y-\mu|\ge a\sigma]&\le\frac1{a^2} \end{aligned}

参考文献