因果関係を立証するのが難しい理由
データ分析の究極の目的は「何か行うことが結果にどのような影響を及ぼしたか?」という因果関係の解明に行き着く場合が多い。しかし、因果関係を立証することは次の理由によって難しいものである。
①他の要因が影響していた可能性がある
データ分析者は、XがYに影響したと主張するが、通常、世の中は実験室のように単純ではない。Xを発生させたと同時期に、色々なことが起こり得る。
②逆の因果関係だった可能性もある
実は「YがXに影響を与えたのではないか」という「逆の因果関係」の可能性を否定できないこともある。
因果関係と相関関係
2つのデータの動きに関係性があることを「相関関係がある」と呼ぶ。データがあれば相関関係を計算することは容易である。しかし、XとYに相関関係があることがわかっても、その結果を用いて因果関係があるとは言えない。XとYに相関関係がある場合には、次の3つの可能性が起こり得る。
①XがYに影響を与えている可能性
②YがXに影響を与えている可能性
③VがXとYの両方に影響を与えている可能性
厄介なのは、この3つの可能性の全てがデータの動きと整合的であり、3つの可能性のどれが本当なのか判定できないことである。物事を決定する際に鍵となるのは多くの場合「因果関係」であり、相関関係ではないため、注意が必要である。
因果関係を立証する最良の方法
因果関係をデータ分析によって明らかにする最良の方法は「RCT(ランダム化比較試験)」である。
因果関係によってもたらされた効果を「介入効果」と呼ぶ。1個人についての介入効果を測定することは不可能だが、複数人の介入効果を平均した値「平均介入効果」を測定することは可能である。
鍵となるのは、介入グループと比較グループ(介入を受けないグループ)という考え方である。実験によって、介入グループと比較グループの結果を観測することで、因果関係を立証することができる。RCTでは、以下の鉄則に従って、この実験を行う。
①適切なグループ分けをする
②グループ分けは必ずランダム(無作為)に行う
③各グループに十分なサンプル数を充てる
RCTの強みは、ランダムなグループ分けを行うことで、因果関係を科学的に示せることである。また、分析手法や結果に透明性があるため、比較的わかりやすい。一方で、RCTは実施にあたって費用・労力・各機関の協力が必要だという弱みがある。
RCTが実施不可能な場合
RCTを実施できない場合には、「まるで実験が起こったかのような状況を上手く利用する」というコンセプトの「自然実験」という手法が使われる。
①RDデザイン
世の中に存在する「境界線」を上手く使い因果関係に迫る手法。「境界線」を境に1つの要素(X)のみが「非連続的に」変化する状況を見つけ出す。境界線付近でX以外の要素が非連続的に変化していないかのチェックを行う。
②集積分析
階段状の変化を上手く使い因果関係に迫る手法。何らかのインセンティブ(商品の価格や割引、所得税などの税金など)が階段状であることを分析に利用できないか検討する。階段状で変化するのは分析で明らかにしたい要素(X)だけであり、他の要素は階段の境界点付近で非連続的に変化しないことを確かめる。インセンティブが大きく変わる境界点でのデータの集積を分析することで、人々や企業がインセンティブの変化に反応した因果関係を検証する。