セス・スティーブンス=ダヴィドウィッツ 酒井泰介(訳) 光文社 2018年2月20日
読書日:2019年9月29日
あとがきによれば、著者はベストセラー「ヤバい経済学」を読んでデータ分析の道に進んだという。ヤバい経済学は、その後データの処理の仕方がおかしいと糾弾を受けたそうだが(そうだったのか)、著者は基本的な考え方は間違っていないという。
ヤバい経済学の時代と著者の時代が異なるのは、もちろんビッグデータの存在だ。これにより、人々の本音に迫ることができるのはもちろん、夢のような社会実験を行うことができる。
例えば米国のゲイ率の推定がある。ゲイポルノの検索率から推定すると、約5%という推定結果が得られるという。これはグーグル検索が匿名だから可能なことで、例えばフェイスブックのような外面重視のサイトでは誰も自分がゲイとはカミングアウトしてないから、このような推計値は得られない。
ただ、ここで問題になるのは、ビッグデータを使ってゲイ率が分かったとして、ではなぜゲイが存在するのかという理由の解明には、ビッグデータはまったく役に立たないということである。ビッグデータは現状は教えてくれるが、なぜそうなっているのかは教えてはくれない。
なお、レズビアンの比率の推定には検索結果は使えないという。レズビアンはポルノの検索をあまりしないからだそうだ。
ビッグデータを使うと、これまでできなかった社会学上の実験もできる。たぶんここが一番従来と異なるところである。
社会学上で実験を行おうというのはどういうことかというと、例えばAという因子が与える影響について調べたいとする。すると、他の条件は全て同じなのにAという条件だけが異なるようにした2つのグループを用意して、結果が異なるかどうか、どれだけ異なったかを比較するということである。(比較対照実験)。
このようなグループを用意するのは、従来は非常に難しく、コストがかかるものだった。ところが、ビッグデータがあれば、条件を絞り込んでも、じゅうぶんなサンプル数のグループを見つけることができる。つまり、Aという因子だけが異なる2つのグループを見つけることができるのである。その2つを比較すれば、自然に行われた実験結果を見ているようなものである。
わしが感心したのは、ある有名学校に受かった人と落ちた人のその後を比較した例である。比較するのは、合格のボーダーラインのぎりぎりで受かった人と落ちた人だ。この両者を比較すれば、この学校を卒業したことによる影響を比較することができる。(圧倒的な優秀な成績で入った人と落ちた人を比較しても何も手に入らない、落ちた人と受かった人がほぼ同じくらいの優秀さだから、同一条件となり、学校の影響が比較ができる)。
この結果は、「エリート幻想」という論文で発表された。この題名から分かるように、学校は何の影響もなかったそうである。
大規模な比較実験は、インターネットのサイトでA/B実験という名で日々行われている。
モニタ上にランダムにAかBかを表示させ、どっちが反応が良かったかを実験しているのだ。たとえば、矢印のマークを付けるだけで、クリック率が向上するという実験結果が得られるという。でも、ここでも、どういう理由で反応が良かったかは、誰も知らないのである。しかも今この時点での結果に過ぎない。数か月後には役に立たないこともある。
著者は正直なので、ビッグデータでできないことも述べている。例えば、株式投資でどの銘柄が上がるかについての予測にはまったく使えないという。話題になった銘柄はもちろん分かる。しかしそれで上がるか下がるかは分からないという。SNSで話題になった銘柄に投資をするというファンドが設立されたが、すぐに行き詰まって無くなってしまったという。ビッグデータは未来の予測には使えないのだ。(なぜならば、世の中はあまりにも複雑すぎるから)。
こうしてみると、いまのところビッグデータは面白い現象はいろいろ発見して教えてくれるが、なかなか表面的で、奥の深いところまでは連れて行ってくれないようである。しかしそれもまだこの分野が未熟だからで、分析手法が発達すれば、もっと深い理解がいろいろ得られるようになるのかもしれない。
★★★★☆