type1 error & type2 error

ある知り合いが言っていたのですが、統計学を学ぶ上で最初につまずくポイントは、帰無仮説と対立仮説の立て方だといいます。

 

その前に、統計学で有名な2タイプのエラーについて、私が個人的に感じている事を、簡潔に述べます。

 

タイプ1のエラーは、採用の間口を広げすぎて、「偽」のデータも採用してしまうと言うことです。

その反対に、 タイプ2のエラーは、間口を狭くしすぎて、「真」(つまり正しい)データも棄却してしまうと言うエラーです。

 

この2つのエラーは、完全に非対称です。なぜなら、卑近な例で申しますと、例えばイケイケドンドンの会社が人手が足りないからとりあえず採用の基準を緩くして色々な人が会社組織内に入り込んでくるとします。そして、その「偽」、と言っては失礼ですが明らかに劣っている人も採用してしまうことがあり、そしてその人はやはり能力が足りなくて失敗を重ねてしまうということがあります。そうすると、その人を採用した上司にあたる人が無能というか評価が下がってしまうことがあるわけです。

 

一方、間口を狭くして、明らかな優秀な人も慎重に慎重を重ねて採用を見送るとします。そうすると、上司の失敗は目に見えませんからそこまで評価が下がる事はありません。しかし、その人が入社したことで会社がさらに発展する事もあり得るわけです。そのような事は完全に「真」(優秀な人)を採用しなかったばかりに起きた「機会損失」になるわけです。

 

何が言いたいかと言うと、特に日本社会では、やってみて失敗した人は責められるのに対し、やらないことで機会損失をしている人の損失評価はあまり顧みられないと言うことです。

 

 

ここまでの記述は、統計学のタイプ1エラーとタイプ2エラーが、社会の至るところにあると言うことを説明したものです。

 

 

さて、友達が統計学を学び初めて理解したらしいことを私がブログで拝見したことを書きます。

 

簡潔に書きます

統計学で設定する、帰無仮説と言うのは、文字通り「無に帰する」ことを期待するための仮説です。したがって、自分の主張を統計学を使って証明したいときは、むしろ自分の主張と反対のことを帰無仮説に設定し、p値の結果により、対立仮説(自分が主張したいデータや相関関係)を採用すると言う手法をとります。

 

この友達のブログを見て、僕が直感的に感じたのは、数学で言う背理法に似ているなと思いました^_^

まず、矛盾を仮定して、そこからの論理的推論により論理が破綻することをもってして、最初の過程が矛盾であることがいえ、よって、最初の過程が間違っていたのだから最初の過程の逆が正しいと言う手法です。

 

この入り方は、誰が考えたか分かりませんが、色々と数学者の間でも論争があるようです。例えば、直感主義数学を標榜したブラウウェル(不動点定理を証明した人)等は、真か偽かどちらかしか存在しないのはおかしいと言う立場でした。そして、20世紀初頭の指導的数学者のヒルベルトなどと長年論争をしました。余談としてヒルベルトの愛弟子のヘルマン・ワイルなども一時期ヒルベルトと仲違いをしたらしいです。(参照:「ブルーバックス 吉永吉正著 数学まだこんなことがわからない」)

 

ずいぶん話が横道にそれてしまいましたw

統計学は、現代に生きているビジネスマンには必須科目と思われますが、なかなか理屈が難しいのも事実です。特にデータサイエンティストになるかたは、統計学の基礎はもちろん、ビックデータの処理だけでは不十分で、そこからビジネスにつながる何かの結果を提出するということが最低限の条件だと思います。と言うことを知り合いがつぶやいておりました。

 

一般的に

カイスクエア (質的変数同士が独立か調べる法)は「帰無→独立有」に設定(連関してて欲しい)

 

p値→棄却域とその他域を分ける境目、と覚える。狭い方が棄却域。つまり、無に帰したいから、棄却域に入って欲しい。(何の棄却? → 帰無仮説の棄却)

帰無の棄却→連関有

(連関→質的変数同士 、相関→量的変数同士)

 

.....

母集団からサンプルを取り出して相関関係などを調べるときの順序

1.サンプルが偏っていないかの検定

2 .偏っていなければサンプル集団を母集団の代表とみなし、関係性を調べる