傾向スコアによる統計的因果推論をやろうとして悩むのはほどほどにしたい

観察研究に基づく因果推論は「よほど共変量についての先行研究が積み上がっていないかぎり、バイアスを取り除いたと言い切るのが大変に難しい」という事情があります。
なので私はweb業界というスピーディな業界にあって、観察研究的なアプローチが必要になったときに「因果関係についてどの程度言及すべきか?どれぐらい強い主張をしてもいいのか?」についてそれなりに悩んできました。

そのときに考えたこと、読んだ記事などについて記します。

良い共変量とは?

白米の健康上のリスク*1を啓蒙していらっしゃるので有名な(?)津川友介さんのブログの統計的因果推論に関する記事が大変面白いです。

healthpolicyhealthecon.com

疫学者の中にはPSモデルには交絡因子だけ含まれていれば良いと考えている人達がいます。(中略)しかし、ルービンによるとPSモデルには交絡因子とアウトカムの予測因子の両者が含まれている必要があります。

これと似た点は因果推論の赤い本*2でも言及されていて、この本のp123では次の記述があります。

「割り当てに強い関連がある変数」よりも、「従属変数に強い関連がある変数」を共変量として選ぶほうが因果効果の推定が偏りが少なく、かつ推定量の分散が小さくなる

言われてみればそりゃそうか、と思える指摘です。RCTをするにしても傾向スコア分析をするにしても、「共変量の分布を揃えてバイアスを取り除くこと」を目的にしているため、アウトカムに重大な影響を与える因子が存在するなら、共変量を考慮する上で見逃されないべきなんですね。

ビジネスの問題に関する共変量の選択が難しい件について

私はCtoCのweb系企業に勤めていますが、先行研究が積み上がっているわけでもなく、因果推論にふんだんに時間を割けるわけでもなく、現実的に「強く因果関係を主張できるほどの分析」は行えていません。
とはいってもスピーディに因果関係について意見が欲しい!と頼まれる機会はあるので、「単なる回帰分析よりは、やや因果に近い主張ができる」というレベルを目指すことにしています。ドメイン知識に照らして「それってこういう交絡因子が想定できるんじゃない?」という想定ツッコミを削っていくイメージです。

考慮されていなかった共変量を利用して解析を行なっていくことこそが、人文社会学や疫学などの分野で因果関係を徐々に明確化していくことに繋がると期待される

上記は因果推論の赤い本のp129の記述です。おそらくこの考え方に近いのでは、と思います。