思考の本棚

機械学習のことや読んだ本の感想を整理するところ

【効果検証入門】が良かったのでまとめてみた①

          f:id:kutohonn:20200403151037j:plain

はじめに

先日効果検証入門という本を読みました。こちらの内容が非常に素晴らしかったので、内容を整理するために本記事を書いています。


現在身の回りで『効果』という言葉を様々な場所で目にするようになっています。「ある食品はダイエットに効果がある」「広告は売上を増加させる効果がある」など。 効果は私たちが意思決定をする上で非常に重要なものですが、その多くは、測り方を間違っていたり思い込み(バイアス)が入っていたりと正しく検証するのは難しいものでもあります。効果検証を行う上で問題となるのは、比較が正しくできていないために、因果関係を示すことができていないという点です。この本では比較を正しく行うためにどのようにしてバイアスを取り除くか、その手法をまとめたものです。

この記事では本著1章に該当するセレクションバイアスとRCT(無作為化比較実験)について自分なりに重要だと思ったところを簡潔にまとめます。なお本著ではRによる検定手法の実装なども含まれていますが、本記事では割愛します。


セレクションバイアス

セレクションバイアスとは、比較実験を行う際に、観察対象のグループ分けによって引き起こされるバイアスのことを言います。 メールマーケティングの例をもとに説明していきます。 Amazonがユーザに、Amazon内の商品を宣伝するメールを送信することで、購買を促すマーケティング施策を行うとします。Amazonは売上を伸ばすために、メールに割引クーポンを添付するという施策を行います。クーポンをメールにて受け取ったユーザは普段より安い価格に反応し、本来より多くの購買に至る可能性があると考えられます。よってメールを配信することで、潜在的な購買量(何も施策を行わない場合の購買量)に加えて、メールの効果によって増えた購買量が得られると想定しています。この効果検証は「クーポン付きのメールを送信するという介入が、ユーザ1人あたりの売上をどう変化させるか」を知りたいものとします。

(図) メールマーケティングの例 f:id:kutohonn:20200403181336j:plain

既にメールは送付済みのものとする場合、単純に、①メールを受け取ったユーザ と ②受け取らなかったユーザ の売上の傾向を比較すれば、メールの効果を検証できそうですが、これがセレクションバイアスの罠です。その理由として多くの場合ではメールマーケティングをより効率的に実施する目的から、ある程度購買の見込みのあるユーザにメールを送信していることが考えられます。つまりそもそも①メールを受け取ったユーザ と ②受け取らなかったユーザの選択には恣意性が含まれており、これによってセレクションバイアスを招いている可能性があるのです。

(図) メール割り振りの仕組み f:id:kutohonn:20200403184907j:plain セレクションバイアスが引き起こされているとどうなるか。①メールを受け取ったユーザはもともと購買量の多い傾向のグループであり②受け取らなかったユーザはもともと購買量の少ない傾向のグループであると言えます。よってメールの介入による効果がなくても潜在的な購買量の差によってあたかもメールマーケティングに絶大な効果があるように思える状況が発生してしまいます。

(図) グループ間のセレクションバイアス f:id:kutohonn:20200403191441j:plain

このセレクションバイアスに対して何らかの対処を施した上でデータ分析を行わなければ、得られた効果はバイアスを含んでしまい、本来取るべき意思決定とは異なる決定を下してしまう可能性があります。たまに「分析のバイアスはデータ数の増加によって解決される」と誤解されていることがあるそうです。比較対象にセレクションバイアスが含まれている場合、推定している値がそもそも興味のない値(バイアスを含んだ値)であるため、データ数を増やしたところで興味のない値をより正確に推定するようになるだけであることに注意する必要があります。


RCT (Randomized Controlled Trial)

バイアスを取り除くために実行可能で最も信頼のおける効果の検証方法が、介入を無作為にすることです。つまり、介入を実施する対象をランダムに選択して実験し、その結果得られたデータを分析することです。先程の例で言うと、メールを送る対象をランダムに選択することで①メールを受け取ったユーザ と ②受け取らなかったユーザ間のセレクションバイアスを取り除き正しい効果検証を行うことが可能となります。

(図)RCTのイメージ
f:id:kutohonn:20200403192317j:plain

なぜこれだけでバイアスを取り除くことができるかと言うと、介入が行われる対象と行われない対象におけるその他の要因も平均的に同一となるからです。メールの例で言うと、送る対象をランダムに選別することで、先程問題となった購買量の差も平均的には無くなりますし、その他の属性(性別、年齢など)も平均的には同一となることが期待されます。よってバイアスを気にすることなく効果を検証することが可能となるのです。このように効果を知りたい施策をランダムに割り振り、その結果として得られたデータを分析して比較することをRCT(無作為化比較試験、Randomized Controlled Trial)と言います。


有意差検定の注意点 

統計学では有意差検定というものが存在します。詳細な説明は省きますが、推定結果が偶然得られた可能性について検証するものです。 ここでは本著で記載されていた有意差検定の注意点についてまとめます。


p値

有意差検定では最終的な評価を下すためにp値と呼ばれる値に変換します。p値は得られた推定結果が偶然得られてしまう確率を示します。 有意差検定ではデータから得られたp値が有意水準(5%や1%)より低い場合は、得られた推定結果が偶然である可能性は十分に低いとして統計的に有意な値であると評価します。一方で、有意水準を上回るようなp値が得られた場合は、推定結果が得られたのは偶然であるということを否定しきれないという解釈になります。これは推定結果が偶然得られたとみなしているわけではないことに注意する必要があります。


信頼区間

p値以外に、信頼区間を利用した意思決定が行われていることもあります。95%の信頼区間と言ったとき、95%の意味合いは100回データを変えて同じ推定を行ったとき、母集団におけるパラメータの真の値が95%ほどはその区間に含まれるということを示します。加えて95%の信頼区間内に0を含む場合には, p値が5%よりも高い状態と同じ意味を持つことになります。


有意差検定について

有意差検定とは不確実性に関する評価を簡略化して考えるためにのルールであり、絶対的な判断基準というわけではありません。また有意差検定はあらゆる分析の結果に保証を与えるものではなく、例えばRCTを行っていないデータで有意差検定を行う場合、セレクションバイアスが大きいと有意差検定の結果は有意になりやすいことがあります。これらのことから、有意差検定は何でもかんでも効果を保証するような道具ではないことが分かります。


ビジネスにおける因果推論の必要性

RCTはバイアスを取り除く上で非常に有効な方法ですが、RCTは効果を検証するために介入がランダムに割り当てられるという状況を作る必要があります。これは分析の都合を最優先した介入の割り当てを行うことになるため、ビジネスの面を度外視したものになります。メールの例で言うと、購買量が少ない人にもメールを送ることになり、その施策はビジネスの観点からは非合理的で、短期的には売上が下がってしまうことも考えられます。つまりRCTは分析を行う上で、非常に都合の良い反面、ビジネスとしては大きなコストになってしまう可能性があります。 計量経済学や因果推論は、このように理想的にはRCTでデータをデザインして分析したいがそれが不可能という状態においてRCTの結果を近似するような方法論を提供してくれます。


おわりに

本記事では効果検証入門の1章部分を簡潔にまとめてみました。次は2章の回帰分析についてまとめたいと思います。

kutohonn.hatenablog.com