喫煙すると死亡率が高まるというデータを見せられると、タバコが肺がんなどの病気と関わっているんだなあと思ってしまいます。1日の喫煙本数が増えるほど、肺がんにかかる確率が高くなるグラフを示されれば、もう、その時点でタバコが肺がんの原因だと決めつけてしまいます。
しかし、タバコと死亡率、タバコと肺がんとの間に相関関係があったとしても、因果関係があるとは言い切れません。なぜなら、バイアスが存在しているかもしれないからです。
データ観測数が増えてもバイアスの問題は解消しない
ところで、バイアスとは何でしょうか?
シカゴ大学公共政策大学院ハリススクール助教授の伊藤公一朗さんの著書「データ分析の力 因果関係に迫る思考法」によれば、バイアスとは、「分析で得られた推定量の偏り」を意味します。
先の例だと、喫煙率と死亡率との間に相関関係があったとしても、喫煙ではなく別の原因で死亡率が高まっている可能性があります。例えば、多くの被験者が肥満だったとか、高齢者だったとかであれば、喫煙とは関係なく死亡率が高まるかもしれません。
ここで、データの数が十分ではないからバイアスの問題が発生するのだと考える人がいるかもしれませんが、バイアスの問題は、データを増やしても解消しません。100人規模だろうが、1,000人規模だろうが、10,000人規模だろうが、どんなにデータ観測数が増えても解決できないことは数学的に証明されています。
そのため、近頃流行のビッグデータを活用すれば、どんなことでもわかるというのは間違いです。世の中のデータから因果関係を導き出すことは非常に難しいのです。
時間を巻き戻して因果関係を調べる
因果関係を確実に調べるためには、時間を巻き戻すことが有効です。
喫煙が肺がんの原因だということを証明するなら、被験者に毎日タバコを吸ってもらい、本当に肺がんを発症するかを確認します。30年かかるか40年かかるかわかりませんが、肺がんになるまでタバコを吸ってもらいます。そして、当初の予想通りに肺がんを発症したら、実験前まで時間を巻き戻します。
時間を巻き戻した後は、一切タバコを吸わない実験をします。もしも、被験者が肺がんを発症せずに亡くなれば、タバコが原因で肺がんになると言えそうです。
この実験なら、サンプル数が増えれば増えるほど、喫煙と肺がんとの間の因果関係を導き出しやすいでしょう。
しかし、そもそも時間を巻き戻すことができない以上、このような実験を行うことは不可能です。
ランダム化比較試験を使う
時間を巻き戻す実験は、2つのことを比較して因果関係を見つけようとする発想です。
でも、時間を巻き戻すことができない以上、同一人物で別々の実験をすることはできません。しかし、2人集めて、片方にはタバコを吸ってもらい、片方にはタバコを吸わないようにしてもらえば、喫煙と肺がんとの因果関係を導き出せそうです。
このような発想で行われる実験が、ランダム化比較試験(RCT)と呼ばれるものです。別名をABテストとも言います。
例えば、200人の被験者のうち、100人は喫煙グループ、100人は非喫煙グループに分けます。喫煙グループは、喫煙しろと介入を受けているので介入グループとなります。一方の非喫煙グループは、介入を受けていません。このような介入を受けていないグループを比較グループと言います。
RCTを使えば、当初の予想通りの結果が得られるかどうかを実験で確かめられます。喫煙習慣の有無のアンケートを取って、喫煙習慣がある人ほど肺がんにかかっていると結論付けるのとは違います。
RCTの3つの鉄則
RCTを行う際は、3つの鉄則に従わなければ意味のある結果を導き出すことはできません。
鉄則1:適切なグループ分けをする
RCTで明らかにしたい因果関係を測定できるような適切なグループ分けをすることが求められます。そのためには、まず比較グループを定義しなければなりません。喫煙と肺がんの因果関係を調べたいのであれば、比較グループは非喫煙者で構成されなければなりません。
次に介入グループを作ります。つまり、喫煙者のグループ作りです。
鉄則2:グループ分けは必ずランダム(無作為)に行う
グループ分けは無作為で行われなければなりません。
喫煙と肺がんとの因果関係を調べたいのですから、それ以外の項目も選り好みしていたのでは正しい結果を得られなくなる可能性があります。比較グループの人たちは、交通量が多く排気ガスで空気が汚れている地域に住んでいる人だけで構成されていたら、排気ガスの影響で肺がんにかかるかもしれません。
鉄則3:各グループに十分なサンプル数を充てる
実験後には、グループごとに平均値を計算し、介入グループと比較グループで、その平均値の差を比べなければなりません。
10人ずつのグループ分けよりも、100人ずつのグループ分けの方が信頼できます。100人ずつのグループ分けよりも1,000人ずつのグループ分けの方が信頼できます。なぜなら、1人の被験者に偶然の事象が発生した場合、10人だと10%の影響となりますが、1,000人だと0.1%の影響でしかなく、数が多いほど偶然による誤差を小さくできるからです。
RCTを必ず使えるとは限らない
RCTは、グループ分けをして実際にやってみるのですから、それで得られた結果には高い信頼を置くことができます。
介入グループ1,000人、比較グループ1,000人で、喫煙と肺がんとの因果関係を調べる実験をし、どちらも3人が肺がんにかかったのなら、喫煙と肺がんとの間に因果関係はないとなります。介入グループは100人、比較グループは1人が肺がんにかかったとなれば、喫煙が肺がんのリスクを高めると結論付けることができます。
しかし、RCTが必ずしも使えるとは限りません。
喫煙と肺がんとの因果関係を調べようと思ったら、数十年間のデータが必要になりますから、費用が膨大になります。
被験者だけでなく、実験に協力するスタッフも多く集めなければならないので、労力も相当なものとなります。
また、実験に必要なすべてのデータを入手できるかどうかといった問題もあります。被験者が個人情報の提供を拒否することもあります。データを管理している機関にその使用を願い出て拒否される可能性もあります。
このような制限があるので、RCTはいつでもどこでも好きなように行えるとは限りません。
2つのデータを並べただけで因果関係を見つけることは非常に難しいです。だから、RCTを使って実際にやってみないことには、因果関係があるかどうかを確かめられません。
しかし、RCTは費用、労力、データの入手の面で実施できないこともあります。
被験者10万人、追跡期間40年の実験結果は、一見すると信頼性が高そうに思えます。しかし、RCTを使うにはハードルが高すぎる実験です。そうすると、このような大規模な実験は、RCTとは違う信頼性の低い手法で結論を出している可能性があります。
「データ分析の力 因果関係に迫る思考法」は、数式を用いていないので、統計の初学者でも理解しやすい内容です。統計を深く学ぶ前の入門書としての位置づけですが、「数字を示されるとよくわからないけど納得してしまう」という人にこそ読んでほしい1冊です。
なお、この記事では、喫煙と肺がんとの因果関係を調べる実験を例に出しましたが、そのような実験は倫理的に許されることではありません。この点からも、「何かをして死亡率が高まった」というような実験結果は怪しいと気付くことができますよね。
- 作者:伊藤 公一朗
- 発売日: 2017/04/18
- メディア: 新書