【明日使えないうんちく】データの取り方は平均値以外にも意外とある?#003

明日使えないうんちく

FIREの事を調べていくと、各年令がどれくらい資産をもっているかを調べるときは平均値ではなく中央値が良いと書籍やインターネット上ではよく言われています。統計学を習うと実はデータの取り方としては平均値や中央値以外にもいくつかあることを勉強したのはいい思い出です・・・

平均値と問題点

平均値は、数値の集合の平均を示す統計的な尺度です。一般的に、数値の合計をその数個数で割ることで計算されます。

平均値の例

例えば、数値の集合が {2, 4, 6, 8, 10} の場合、平均値は次のように計算されます。

  1. 合計を計算します: 2 + 4 + 6 + 8 + 10 = 30
  2. 数の個数を数えます: 5
  3. 平均値を計算します: 合計 / 個数 = 30 / 5 = 6

したがって、この数値の集合の平均値は 6 です

平均値は、データの中心傾向を示す重要な指標の一つであり、一般的に使用されます。データのばらつきを把握したい場合や、比較を行いたい場合などに利用されます。

問題点は複数あるが、一番わかりやすいのは「外れ値」の影響です。上記の例の場合、2、4、6、8、10000という数字があった場合は合計は10020になり平均値は2004となってしまいます。

このため外れ値があまり大きくない一クラスの体重や身長のデータとしては有用性はありますが、所謂年収などに用いるのは外れ値におおきくひっぱられてしまうのであまりよくありません。

中央値とは


中央値は、データセットの中央に位置する値です。データを小さい値から大きい値の順に並べたとき、中央に位置する値が中央値です。

中央値は、データセットの中心傾向を表す指標として用いられます。平均値と比べると、外れ値の影響を受けにくいという特徴があります。そのため、データに外れ値が含まれる場合やデータが非対称な分布を持つ場合には、中央値を用いることが適しています。

中央値の例

数値の集合が {2, 4, 6, 8, 10000} の場合、中央値は 6 です。データ数が奇数であり、3番目の値が中央に位置しているためです。

一方、中央値にも問題点はあります、中央値には奇数の場合は真ん中の数字のみ、偶数の場合は真ん中の2つの数字のみしか影響を与えないため全体の数値がわかりづらいといえます。

最頻値とは

最頻値 (Mode) は、データセット内で最も頻繁に出現する値を示します。データセット内の各値が何回出現するかをカウントし、最も頻繁に出現する値が最頻値となります。

最頻値は、質的データや離散的な量的データの解析で特に有用です。たとえば、アンケート調査の回答や商品のカテゴリ、血液型など、カテゴリごとにデータが分類される場合に最頻値を求めることができます。

データセットに複数の値が同じ頻度で出現する場合もあります。この場合、データセットに複数の最頻値が存在します。また、全ての値が同じ頻度で出現する場合、データセットには最頻値が存在しないこともあります。

最頻値は、データの中心傾向を示す指標として用いられますが、平均値や中央値と比べると、データのばらつきや外れ値に対する情報を提供しにくいという特徴があります。

トリム平均とは

トリム平均 (Trimmed Mean) は、データセットから一定の割合の最小値と最大値を取り除いた後に残ったデータポイントの平均を計算する統計的手法です。通常、トリム平均は外れ値の影響を軽減するために使用されます。

一般的に、トリム平均はデータセットの下位と上位の一定割合のデータポイントを削除します。例えば、5% トリム平均を計算する場合、データの下位と上位のそれぞれの 5% の値を取り除きます。

トリム平均の例

例えば、数値の集合が {2, 4, 6, 8, 10000} の場合、60%トリム平均値は次のように計算されます。

  1. 今回は40%部分の外れ値(上部20%と下部20%)を排除します:4、6、8
  2. 合計を計算します: 4 + 6 + 8 = 18
  3. 数の個数を数えます:3
  4. トリム平均値を計算します: 合計 / 個数 = 18 / 3 = 6

したがって、この数値の集合のトリム平均値は 6 です

コメント

タイトルとURLをコピーしました