「閾値は同様に下位10%を基準としました。つまり標準化データで-1.28、偏差値で言えば37点です。」
「でも、そうすると何故か、閾値以下となるプロジェクトが無いんです。」
「普通に考えれば、データが100個有って、下位10%を閾値とした訳ですから、10個ぐらいのプロジェクトが該当すると思っていたのですが。」
「そう。標準化データや偏差値というのは、データが正規分布していることを前提としたものなので、そうではない場合は使えないんだ。」
「今回のデータのように分布の山が中心では無く、偏っている場合は特にダメ。」
「だって、正規分布の基本的な考え方は、分布の中心(平均)近くに一番データが多く存在していて、両サイドに外れるほど少なくなる。」
「だから平均から外れるほど、良い意味でも、悪い意味でも珍しい、と判断することが可能になる訳だ。」
「今回はデータが小さい方にかなり偏っている。このような場合は、そもそも平均値を用いることだってあまり良くない。」
「では、分かり易さのために極端な例で示そう。」
「例えば、Aちゃんがあるテストで20点だったとする。そのテストの平均点は30点だ。Aちゃんならどう思う?」
「では、全員のテストの点数が、0点、10点、20点、20点、100点、だとしよう」
「5人の合計点が150点なので、平均点は確かに30点となるよね。この中で20点って、どうかな?」
「まあ、1人が100点で突出していて、その人を別格とすれば、それ以外の人には点数では負けていないので、まあまあかな。」
「そう。0点、10点、20点、20点、100点、というのはデータ数は少ないけど、値が低い方に偏った分布と見ることが出来るね。」
「このような分布の場合、必ずしも平均が分布の代表値として適しているとは限らないんだ。」
「偏った分布では、中央値が分布の代表値として適している場合が多い。中央値とはデータを小さい順に並べて一番真ん中の値。今回は20点が中央値となる。」
おしまい


