統計学的な検定におけるp値のpは何を意味するのか?非常によくある誤解について

実験結果をまとめるときにデータを統計処理してp値を求めることがよくあります。例えば何か薬剤処理したときの活性と薬剤処理していないものでの活性との違いを見たいときや、突然変異体と野生型の個体群とで運動量に差があるかないかを調べたいときなど、対照群と実験群の2者の平均値に関して、t検定を行いp値を求めます。p値が有意水準0.05より小さいと、欲しい結果が得られた!と喜んだりするわけです。

さてそのp値がそもそも何を意味するのかを誤解している人が結構います。検定の手順として、まず帰無仮説というものをたてます。これは否定したい内容を含むもので、たとえば、「野生型と突然変異体とでは差がない」というのが帰無仮説になります。そして、p値が0.05より小さくなった場合には、帰無仮説を棄却する、すなわち差がある(対立仮説)ということになり研究成果として発表できるぞ!と実験した人は喜ぶわけです。

このp値ですが、「p値とは、帰無仮説が正しい確率」と思っている人がバイオ研究者の中に少なからずいます。これはもちろん間違い。正しくは、帰無仮説が正しいとしたときに、そのような実験データが得られる確率です。これは高校で習う条件付確率を思い出すとよいでしょう。P(実験データ|帰無仮説)です。帰無仮説が正しい確率と誤解している人とは、P(帰無仮説|実験データ)と、逆に取り違えています。言葉を言い換えると、p値は条件付き確率P(結果|原因)なのに、上述の間違いを犯している人はこれをP(原因|結果)と考えてしまっているわけで、原因と結果を取り違えているということになります。

嘆かわしいことに、このような間違いは大学院生やポスドクの人でも結構やらかしている人が多いのが実情で、統計学の授業を大学院で必修化したほうがよさそうです。