特性値

定義:characteristic values

確率分布の重要な特徴を要約するのに使われる値を特性値という.

特性値は,理論的な確率分布のパラメータや性質を表す値である.

特性値と記述統計量

記述統計量[descriptive statistics]はサンプルデータから計算される統計量であり,観測されたデータセットの特徴を要約する値である.一方,特性値は理論的な確率分布に関する値であり,母集団に関する値である.

主な特性値

期待値(平均)

分布の中心位置を示す.\[\mu = \mathbb{E}[X] = \begin{cases} \sum_{i} x_i P(X = x_i) & \text{(離散分布)} \\ \int_{-\infty}^{\infty} x f(x) \, dx & \text{(連続分布)}\end{cases}\]

分散

分布のばらつきの程度を示す.\[\sigma^2 = \text{Var}(X) = \mathbb{E}[(X - \mu)^2] = \mathbb{E}[X^2] - \mu^2\]

標準偏差

分散の平方根.\[\sigma = \sqrt{\text{Var}(X)}\]

中央値

データを順に並べたときの中央にくる値.$P(X \leq a) = 0.5$ となる $a$.すなわち,確率が $0.5$ となる点.

モード(最頻値)

確率密度関数,あるいは,確率質量関数最大となる点.

歪度

分布の非対称性を示す.\[\gamma_1 = \mathbb{E}\left[\left(\frac{X - \mu}{\sigma}\right)^3\right]\]

尖度

正規分布を基準として,それよりも尖っているか平坦かを表す.\[\gamma_2 = \mathbb{E}\left[\left(\frac{X - \mu}{\sigma}\right)^4\right] - 3\]

範囲(レンジ)

最大値と最小値の差.\[range=\max(X) - \min(X)\]

四分位範囲

第3四分位数*第1四分位数*の差.\[IQR = Q_3 - Q_1\]

モーメント

$k$次モーメントは,\[m_k = \mathbb{E}[X^k]\]中心モーメントは,\[\mu_k = \mathbb{E}[(X - \mu)^k]\]

共分散(2変数の場合)

2つの変数間の線形関係の強さを示す.\[\text{Cov}(X, Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)]\]

相関係数(2変数の場合)

共分散を標準化したものであり, $-1$ から $1$ の間の値をとる.\[\rho = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}\]


INDEX