2011年08月17日

[Episode6]標準化データ、偏差値の落とし穴

目 「Mさんに頼まれて、不具合指摘効率のデータを使って標準化データと偏差値を算出してみたんですけど、何かおかしくって・・・」

犬 「何がおかしいの?」

目 「Episode5の正規分布の時の話を参考にして、不具合指摘効率が低いプロジェクトをリストアップしようとしたんです。」
「閾値は同様に下位10%を基準としました。つまり標準化データで-1.28、偏差値で言えば37点です。」
「でも、そうすると何故か、閾値以下となるプロジェクトが無いんです。」
「普通に考えれば、データが100個有って、下位10%を閾値とした訳ですから、10個ぐらいのプロジェクトが該当すると思っていたのですが。」

犬 「Aちゃん、データ分析の際に、一番大切なことは何だったけ?」

目 「あっ、データを観察することでした。ヒストグラムを作成してみた方が良かったのかなぁ。」

犬 「その通り、まずはデータを観察することを怠ってはいけないよ。」続きを読む


posted by koike0125 at 12:21| Comment(0) | TrackBack(0) | 1変数の分析 | このブログの読者になる | 更新情報をチェックする
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。