2011年08月17日

[Episode6]標準化データ、偏差値の落とし穴

目 「Mさんに頼まれて、不具合指摘効率のデータを使って標準化データと偏差値を算出してみたんですけど、何かおかしくって・・・」

犬 「何がおかしいの?」

目 「Episode5の正規分布の時の話を参考にして、不具合指摘効率が低いプロジェクトをリストアップしようとしたんです。」
「閾値は同様に下位10%を基準としました。つまり標準化データで-1.28、偏差値で言えば37点です。」
「でも、そうすると何故か、閾値以下となるプロジェクトが無いんです。」
「普通に考えれば、データが100個有って、下位10%を閾値とした訳ですから、10個ぐらいのプロジェクトが該当すると思っていたのですが。」

犬 「Aちゃん、データ分析の際に、一番大切なことは何だったけ?」

目 「あっ、データを観察することでした。ヒストグラムを作成してみた方が良かったのかなぁ。」

犬 「その通り、まずはデータを観察することを怠ってはいけないよ。」
目 「ヒストグラムを作成してみましたが、何だか正規分布とは似ても似つかない形ですね。」

DetectRemovePaformance.jpg

犬 「そう。標準化データや偏差値というのは、データが正規分布していることを前提としたものなので、そうではない場合は使えないんだ。」
「今回のデータのように分布の山が中心では無く、偏っている場合は特にダメ。」
「だって、正規分布の基本的な考え方は、分布の中心(平均)近くに一番データが多く存在していて、両サイドに外れるほど少なくなる。」
「だから平均から外れるほど、良い意味でも、悪い意味でも珍しい、と判断することが可能になる訳だ。」
「今回はデータが小さい方にかなり偏っている。このような場合は、そもそも平均値を用いることだってあまり良くない。」

目 「なぜ、平均値がダメなのですか?」

犬 「では、分かり易さのために極端な例で示そう。」
「例えば、Aちゃんがあるテストで20点だったとする。そのテストの平均点は30点だ。Aちゃんならどう思う?」

目 「20点で、しかも平均点以下となれば、それは凹みますね。」

犬 「では、全員のテストの点数が、0点、10点、20点、20点、100点、だとしよう」
「5人の合計点が150点なので、平均点は確かに30点となるよね。この中で20点って、どうかな?」

目 「まあ、1人が100点で突出していて、その人を別格とすれば、それ以外の人には点数では負けていないので、まあまあかな。」


犬 「そう。0点、10点、20点、20点、100点、というのはデータ数は少ないけど、値が低い方に偏った分布と見ることが出来るね。」
「このような分布の場合、必ずしも平均が分布の代表値として適しているとは限らないんだ。」
「偏った分布では、中央値が分布の代表値として適している場合が多い。中央値とはデータを小さい順に並べて一番真ん中の値。今回は20点が中央値となる。」

目 「なるほど、そう言われてみれば・・・ では、今回のような分布では、偏差値による評価は出来ないのですね。どうすれば良いかなぁ。」

犬 「心配ご無用。このような場合でも、ちょっとしたテクニックを使うことで、正規分布の時の考え方を活用することが出来るんだ。今度教えてあげるね。」


おしまい


こちらが、今回の活用例のファイルです。→ Episode6.xls(46KB)




posted by koike0125 at 12:21| Comment(0) | TrackBack(0) | 1変数の分析 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。