データの種類
質的変数
質的変数は種類 (性別, 血液型など) を区別するような変数である。
中でも性別のように2種類の値しかとらない質的変数を2値変数と呼ぶ。
質的変数は尺度水準によって以下のように分類できる。
- 名義尺度
- 単に分類するための変数。 (生徒番号, 電話番号, 性別など)
- 順序尺度
順序関係や大小関係に意味のある変数。 (成績の順位, アンケートの満足度など)
量的変数
量的変数は量 (身長, テストの点数など) を表現する変数である。
量的変数は尺度水準によって以下のように分類できる。
- 間隔尺度
- 大小関係, 差に意味がある変数。 (西暦など)
- 比例尺度
- 間隔尺度の性質 (大小関係, 差) に加え、比にも意味がある変数。
摂氏 (℃), 華氏 (°F) 表記の温度は間隔尺度であるが、比例尺度ではない。
一方でケルビン (K) 表記の温度は比例尺度である。
データの指標
平均値
平均値 (mean) は、すべてのデータを合計してデータ数で割った値である。
X の平均値を E[X]、あるいは習慣的に文字 μ で表す。
E[X]=n1i=1∑nxi
「平均値」を意味する英単語には mean の他に average がある。
統計学では、mean は「平均値」を表すのに対し、average は「代表値」を表す。
代表値とは、平均値を含む中央値 (後述), 最頻値 (後述) など、分布の中心的位置を表す数値の総称である。
分散
分散 (variance) は偏差の平方和であり、データのバラつきの指標となる。
X の分散を V[X]、あるいは習慣的に σ2 で表す。
V[X]=n1i=1∑n(xi−E[X])2
中央値
中央値 (メジアン, median) は、データを降順に並べたときに中央に位置する値である。
データ数が偶数のときは中央に位置する2つの値の平均値となる。
最頻値
最頻値 (モード, mode) は、データの中で最も多く出現する値である。
偏差
偏差 (deviation) は、各データと平均値の差である。
標準偏差
標準偏差 (standard deviation) は分散のルートをとったものであり、データのばらつきを表す指標となる。
分散のルートをとることでデータのバラつきをデータと同じ単位で見ることができる。
標準偏差は習慣的に文字 σ で表す。
V[X]=n1i=1∑n(xi−E[X])2
四分位範囲
データの下位 25%, 50%, 75% に位置する値を第 1 四分位数, 第 2 四分位数, 第 3 四分位数といい、それぞれ Q1,Q2,Q3 で表す。
(第 2 四分位数 Q2 は中央値に一致する)
このとき IQR=Q3−Q1 を四分位範囲 (interquartile range) という。
共分散
共分散 (covariance) は、大きさが等しい2つのデータセット間における偏差積の平均値であり、X,Y の共分散を Cov[X,Y] で表す。
Cov[X,Y]=n1i=1∑n(xi−E[X])(yi−E[Y])
相関係数
相関係数 (correlation coefficient) は 2 つの確率変数の間にある関係の強弱を測る指標で、-1 から 1 の値をとる。
rxy=V[X]V[Y]Cov[X,Y]
- rxy>0⟺データは正の相関をもつ
- rxy=0 のとき、データは無相関
- rxy<0 のとき、データは負の相関をもつ
データの整理
標準化
データから平均を引き、標準偏差で割る操作を標準化 (standardization) という。標準化されたデータを Z スコア (z-score) といい、平均が 0, 標準偏差が 1 となる。
zi=σxi−μ
推測統計
母集団と標本
推測統計では観測対象全体の統計的性質を、その観測対象の一部分のみを使って推測する。
- 母集団 (population)
- 推測したい観測対象全体
- 母数
- 母集団の平均, 分散, 相関係数の総称
- 標本 (sample)
- 推測に使う観測対象の一部分
- 標本統計量
- 標本から計算される平均, 分散, 相関係数
- 標本抽出 (sampling)
- 母集団から標本を取り出すこと
- 無作為抽出 (random sampling)
- ランダムに標本抽出する
- サンプルサイズ
- 取り出す標本の数
確率
- 確率変数 (random variable)
- とりうる値とその確率が決まっているもの
- 試行 (trial)
- 確率変数の結果を観測すること
- 事象 (event)
- 試行の結果起こりうること
- 根本事象 (elementary event)
- これ以上分解できない事象
確率変数
期待値
確率変数を無限回試行して得られた実現値の平均を期待値 (expected value) といい、確率変数 X の期待値を E(X)、あるいは習慣的に文字 μ で表す。
また、期待値について以下の式が成り立つ。
E[aX+b]=aE[X]+b
このような性質を 線形性 (linearity) という。
分散
確率変数における分散もデータの分散と同様にバラつきを表す指標であり、確率変数 X における分散を V[X]、あるいは習慣的に σ2 で表す。
分散について、常に以下の式が成り立つ。
V[X]V[aX+b]=E[(E[X]−X)2]=E[X2]−E[X]2=a2V[X]
V[X]=E[(X−E[X])2]=E[X2−2E[X]X−E[X]2]=E[X2]−2E[X]2+E[X]2=E[X2]−E[X]2
離散型確率変数
飛び飛びの値をとる (離散的である) 確率変数を 離散型確率変数 (discrete random variable) という。
離散型確率分布において、X=x となる確率 P[X=x] を返す関数を、確率質量関数 (Probability Mass Function, PMF) といい、以下 f(x) で表す。
X が離散型確率変数であるとき、以下が成り立つ。
E[X]V[X]=k∑xkf(xk)=k∑(xk−μ)2f(xk)
また、確率の性質より以下が自明に成り立つ。
0≤f(xi)≤1k∑f(xk)=1
連続型確率変数
連続した値をとる確率変数を 連続的確率変数 (continuous random variable) という。
連続型確率変数 X が x0≤X≤x1 を満たす確率 P[x0≤x≤x1] が
P[x0≤x≤x1]=∫x0x1f(x)dx
を満たすよう定義した f(x) を確率密度関数 (Probability Density Function, PDF) という。
X が連続型確率変数であるとき、以下が成り立つ。
E[X]V[X]=∫−∞∞xf(x)dx=∫−∞∞(x−E[X])2f(x)dx
また、確率の性質より以下が自明に成り立つ。
0≤f(x)≤1∫−∞∞f(x)dx=1
ベルヌーイ分布
確率 p で 1、それ以外の場合 (確率 1−p) に 0 をとる、最も基本的な離散型確率分布を ベルヌーイ分布 (Bernoulli distribution) といい、以下 Bern(p) で表す。
Bern(p) の密度関数は次のようになる。
f(x)={px(1−p)1−x0(x∈{0,1})(otherwise)
X∼Bern(p) のとき
E[X]V[X]=p=p(1−p)
V[X]=E[(X−E[X])2]=E[X2]−E[X]2=p−p2=p(1−p)
二項分布
成功確率が p であるベルヌーイ試行を n 回行った時の成功回数が従う離散型確率分布を 二項分布 (binomial distribution) といい、以下 Bin(n,p) で表す。
Bin(n,p) の密度関数は次のようになる。
f(x)={nCxpx(1−p)x−k0(x∈{0,1,…,n})(otherwise)
X∼Bin(n,p) のとき
E[X]V[X]=np=np(1−p)
確率変数 X∼Bin(n,p) と Y∼Bin(m,p) が互いに独立であるとき、確率変数の和 X+Y は Bin(n+m,p) に従う。 (再生性)
幾何分布
成功確率が p であるベルヌーイ試行を繰り返し、初めて成功するまでの試行回数が従う離散型確率分布を
幾何分布 (geometric distribution) といい、以下 Ge(p) で表す。
Ge(p) の密度関数は次のようになる。
f(x)={p(1−p)x−10(x∈{1,2,3,…})(otherwise)
X∼Ge(p) のとき
E[X]P[X]=p1=p21−p
が成り立つ。
ポアソン分布
単位時間当たり平均 λ 回発生する事象が単位時間に起こる件数が従う離散型確率分布を ポアソン分布 (Poisson distribution) といい、以下 Poi(λ) で表す。
Poi(λ) の密度関数は次のようになる。
f(x)=⎩⎨⎧x!λx⋅e−λ0(x∈{0,1,2,…})(otherwise)
X∼Poi(λ) のとき
E[X]V[X]=λ=λ
が成り立つ。
ポアソン分布は、二項分布 Bin(n,p) において n が大きく p が小さい場合の近似となる。
二項分布からポアソン分布の導出 (ポアソンの極限定理)
Poi(λ)=λ=np,n→=∞limnCkpk(1−p)n−k=n→∞lim(n−k)!k!n!(nλ)k(1−nλ)n−k=n→∞limk!n(n−1)(n−2)⋯(n−k+1)(nλ)k(1−λ)n−k=n→∞lim(nn)(nn−1)(nn−2)⋯(nn−k+1)(k!λk)(1−nλ)n(1−nλ)−k=1⋅1⋅1⋯1(k!λk)e−λ⋅1=k!λke−λ
指数分布
単位時間当たり平均 λ 回発生する事象の発生間隔が従う連続型確率分布を指数分布 (exponential distribution) といい、以下 Ex(λ) で表す。
Ex(λ) の密度関数は次のようになる。
f(x)={λe−λx0(x≥0)(otherwise)
X∼Ex(λ) のとき
E[X]V[X]=λ1=λ21
が成り立つ。
単位時間当たり平均 λ 回発生する事象の
- 単位時間に起こる件数は Poi(λ) (ポアソン分布) に従う。
- 発生間隔は Ex(λ) (指数分布) に従う。
正規分布
自然界の多くの事象が従う、期待値が μ、分散が σ2 となる 左右対称・釣り鐘型 の連続型確率分布を 正規分布 (normal distribution) あるいは ガウス分布 (Gaussian distribution) といい、以下 N(μ,σ2) で表す。
f(x)=2πσ1exp{−2σ2(x−μ)2}
X∼N(μ,σ2) のとき
E[X]V[X]=μ=σ2
また、X∼N(μ,σ2) のとき
aX+b∼N(aμ+b,a2σ2)
が成り立つ。
よって、確率変数 X を標準化した確率変数 Z=σX−μ は N(0,1) に従う。
このように μ=0,σ2=1 であるような正規分布 N(0,1) を特に N(0,1) を 標準正規分布 という。
カイ二乗分布
確率変数 Z1,Z2,…,Zn が互いに独立で N(0,1) に従うとする。
このとき、それらの二乗和 ∑i=0nZi2 が従う連続型確率分布を自由度 n のカイ二乗分布 (chi-square distribution) といい、以下 χ2(n) で表す。
t分布
確率変数 Z,Y が互いに独立で、Z∼N(0,1),Y∼χ2(n) とする。
このとき、t=Y/nZ が従う連続型確率分布を自由度 n のt分布 (t distribution) といい、以下 t(n) で表す。
マルコフの不等式
X を非負の値を取る確率変数とする。
このとき、任意の c>0 に対して
P[X≥c]≤cE[X]
が成り立つ。
E[X]=∫0∞xfX(x)dx=∫0cxfX(x)dx+∫c∞xfX(x)dx∫0cxfX(x)dx≥0 より
E[X]≤∫c∞xfX(x)dxx≥c より
E[X]∴P[x≥c]≥c∫c∞fX(x)dx≥cP[x≥c]≤cE[X]
チェビシェフの不等式
E[Y]=μ,V[Y]=σ2 とする。
このとき、任意の a>0 に対して
P[∣x−μ∣≥aσ]≤a21
が成り立つ。
マルコフの不等式において X=(Y−μ)2,c=a2σ2 とすると
P[(Y−μ)2≥a2σ2]P[∣Y−μ∣≥aσ]≤a2σ2E[(Y−μ)2]≤a21
参考文献
- 谷合 廣紀, Python で理解する統計解析の基礎, 2018
- Wikipedia, 共分散
- Wikipedia, 相関係数
- Wikipedia, 二項分布