概要
昇順に整列された q 個の値に対して、その分布を m
等分する時、 1 * q/m , 2 * q/m, 3 * q/m,
..., i * q/m, ..., (m - 2) * q/m,
(m - 1) * q/m 番目のそれぞれの値を分位数(quantile)と言う(分位点、分位値、クォンタイルとも言う)。
i 番目の分位点は「第 i m
分位数」と呼ぶ。m
には4を用いることが多く、四分位数(quartile, hinge)は、第 i
ヒンジとも言う。ほかに、 三分位数(tertile)、五分位値(quintile)、十分位数(decile)、百分位数/パーセント点/パーセンタイル(percentile)を用いることがある。第
i 百分位数は下側 i パーセント点と言い、第(100
- i)百分位数を上側 i パーセント点という。
特別な分位点
- 中央値: 「第 m/2 m 分位点、第2四分位点、50パーセンタイル、0.5クォンタイル」にあたる。厳密には、q
が偶数の場合は q/2 番目の値と q/2 +
1番目の値の平均であり、q が奇数の場合はq/2
+ 1番目の値である。
- 母集団の各要素からの絶対距離の和が最も小さくなる点であり、中央値からの距離の平均を平均偏差(Mean deviation)という。
- データの分布が対称である場合は、中央値は平均値に等しい。
- 以下の分布において、代表値として適している。
- 外れ値(他の値より著しく異なる値---測定ミスなどによって発生する)を含む分布…平均値を代表値とするには、刈り込み、ロバスト統計などの対策が必要になる。
- 偏りの大きな分布…大多数の分布に含まれない少数の値の影響を受けにくいため。
- ±∞を含むデータ…中央値は有限となることがあるが、平均値は、必ず無限または不定となる。
- 二峰分布…平均値は、しばしば谷に位置する。これに比べて中央値は、分布の谷に位置するようなケースが少ない。
- 代表値と分布の広がり
- 代表値として中央値を使うときは、分布の広がりは
IQR (四分位範囲…第3四分位点と第1四分位点の差)で表すことが多い。
- これに対して、代表値として平均値を使うときは、分布の広がりは分散または標準偏差で表すことが多い。
- 最小値: 0分位数にあたる。昇順に整列された q
個の値に対して、1番目の要素である。
- 最大値: 1分位数にあたる。昇順に整列された q
個の値に対して、q番目の要素である。
五数要約のアルゴリズム
最大値、最小値、中央値、第1・第3四分位数の5つの値を用いて分布の特徴を要約することを五数要約という。
配列の要素番号は 0 から始まる。そこで、要素数 q
の昇順整列済み配列 array[q]
に対して、次の要素を要約値として返す。
- 最小値: array[0]
- 第1四分位数: array[q / 4 -1]
- 中央値:
- q % 2 = 0 (偶数)の場合: (array[q / 2 -1]
+ array[q / 2]) / 2.0
- q % 2 = 1 (奇数)の場合: array[q / 2]
- 第3四分位数: : array[3 * q / 4 -1]
- 最大値: array[q - 1]
関連項目
更新履歴
2008/07/21: 作成
Back / Studying / Top