誰もあえて口にしないが、相関関係のモデルが導き出した予測の大半は間違っている。
解説
今日、多くの企業が巨大なデータベースをもとに、顧客行動の分析を進めている。
例えば、小売り大手のターゲット。同社は「母親になる女性」という顧客層の売上を増やしたかった。そこでデータサイエンティストが、買い物客の「妊娠指数」を評価する予測モデルを作成した。これは、出産前の女性が購入する傾向が高い25種類の商品を選び、その購入額をもとに妊娠している可能性を計算するものだ。
予測モデルを構築する際は、大勢の顧客の「購入履歴」を調べる。すると、あちらこちらで繰り返される購入パターンが見つかる。例えば、特大のバッグを買った人の多くが、後にベビーベッドを買っているかもしれない。
予測モデルが選んだ25の商品とベビー用品の関係を証明するために、アナリストは大量の購入履歴を精査する。ある人の購入履歴が、妊娠が予想される顧客グループの購入パターンと似ていれば、その人は妊娠しているだろうという予測が成り立つ。この「似ている」人のアプローチは、あらゆる予測モデルの基本となる。
だが、ある商品をどうして買ったのか、その本当の理由を計測することなどできるのだろうか。
一般に社会科学の統計モデルは、人間の行動の理由ではなく、相関関係をもとにしている。しかし、現実世界の相関関係は、物理学の法則などとは異なり、一貫性とはほど遠い。あなたがきょう緑色の傘を持っているからといって、次に買う傘も緑色とは限らない。つまり、統計モデルは因果関係を無視したものなのだ。
この構造的な限界は、データがどれだけ大量にあっても乗り越えられない。