定義:characteristic values
特性値は,理論的な確率分布のパラメータや性質を表す値である.
記述統計量[descriptive statistics]はサンプルデータから計算される統計量であり,観測されたデータセットの特徴を要約する値である.一方,特性値は理論的な確率分布に関する値であり,母集団に関する値である.
分布の中心位置を示す.\[\mu = \mathbb{E}[X] = \begin{cases} \sum_{i} x_i P(X = x_i) & \text{(離散分布)} \\ \int_{-\infty}^{\infty} x f(x) \, dx & \text{(連続分布)}\end{cases}\]
分布のばらつきの程度を示す.\[\sigma^2 = \text{Var}(X) = \mathbb{E}[(X - \mu)^2] = \mathbb{E}[X^2] - \mu^2\]
分散の平方根.\[\sigma = \sqrt{\text{Var}(X)}\]
データを順に並べたときの中央にくる値.$P(X \leq a) = 0.5$ となる $a$.すなわち,確率が $0.5$ となる点.
確率密度関数,あるいは,確率質量関数が最大となる点.
分布の非対称性を示す.\[\gamma_1 = \mathbb{E}\left[\left(\frac{X - \mu}{\sigma}\right)^3\right]\]
正規分布を基準として,それよりも尖っているか平坦かを表す.\[\gamma_2 = \mathbb{E}\left[\left(\frac{X - \mu}{\sigma}\right)^4\right] - 3\]
最大値と最小値の差.\[range=\max(X) - \min(X)\]
第3四分位数*と第1四分位数*の差.\[IQR = Q_3 - Q_1\]
$k$次モーメントは,\[m_k = \mathbb{E}[X^k]\]中心モーメントは,\[\mu_k = \mathbb{E}[(X - \mu)^k]\]
2つの変数間の線形関係の強さを示す.\[\text{Cov}(X, Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)]\]
共分散を標準化したものであり, $-1$ から $1$ の間の値をとる.\[\rho = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}\]