基調講演
文と理を結ぶ情報教育、基礎情報学からのアプローチ
~人間と機械の理想的なコラボレーションで、「人間のための情報社会」を構築するために
東京経済大学コミュニケーション学部教授・東京大学名誉教授 西垣通先生
3.「集合知」で今までにない知の世界を拓く
「みんなの意見は案外正しい」ことの強み
基礎情報学というのは主観知から客観知を作ることを目指します。主観知とは一人称、例えば「今日は暑い」ということで、客観知というのは、「今日は気温が何度だ」という話です。患者と医者の言うことが往々にして食い違うのは、患者は主観知、医者は客観知でものを言っているからですね。これと関連するものとして、「集合知」というものがあります。2006年にweb2.0が登場して、皆がブログやtwitterなどで自分の意見を発表できるようになった時、「衆知を合わせる」ことが評判になりました。
2004年に書かれた『「みんなの意見」は案外正しい』という本の中に興味深い例がいろいろ出てきます。原題は“The wisdom of crowds”で「群衆の知恵」。ここに出てくる話で、例えば、家畜の品評会で牛の体重を投票して当てるというクイズがあります。787人が投票して、彼らの推定値の平均は1197ポンドでした。実際の体重は1198ポンドで、その差はわずかに1ポンド。すごいですね。
もう1つ、ある教室で、教授が集合知の効果を確かめるために、瓶の中にジェリービーンズをいっぱい入れて、学生にその数を当てさせたのです。56人の学生の推定値の平均は871個、実際に入っていたのは850個。誤差は21個でした。そして、推定値の誤差が21個より少なかった学生はたった一人。皆で推定すると、その平均値はけっこう当たるのです。
実は、これには「集合知定理」という数学的な理論があります。
集団誤差=平均個人誤差-分散値
集団誤差というのは、ある集団でみんなが推定した値の平均と正解との差です。平均個人誤差とは、一人ひとりのメンバーの誤差の平均値。分散値というのは、一人ひとりのメンバーの推定値のばらつきです。こういう式が成り立つのです。
先ほどの2つの例でいえば、牛の体重の場合は、牛に関わるいわばセミプロが多いので、平均個人誤差は小さい。でも、酪農家あり食肉業者あり農業学校の生徒ありと多様なので、分散値の方は、けっこうばらついている。したがって、集団誤差はぐっと小さくなります。ジェリービーンズの場合は、学生は勝手に数を書くので平均個人誤差はあまりあてになりませんが、分散値も大きい。結果的に集団誤差は小さくなったわけです。というわけで、推定の多様性はとても大事なのです。専門家が時々誤りを犯すのは、皆が同じように考えるからです。平均個人誤差は小さいのですが、分散値もものすごく小さくなり、結果的に集団誤差が大きくなってしまうことがあるのです。集団の知恵を生かすためには、多様であることが大事であり、強味なのです。
集合知は万能ではない。「何でもかんでもネット投票」は間違い
そうはいっても、集団知は何にでもうまくいくわけではありません。集団知がうまくいくのは、正解がある場合です。ところが、例えばダムを建設するかどうか、新幹線のルートをどうするか、など政治的な問題には正解がありません。正解がない時に、集団の平均値を取れば片が付くというのは端的な間違いです。ある集団で、メンバー一人ひとりは意思決定していても、その集団としての一般意思は必ずしも決定できるとは限らない、あるいは存在しない場合もあります。これは数学的に裏付けられています。ですから、何でもかんでもネットで投票して決めるべきで、それが直接民主制だ、みたいなことは言ってはならない。集合知はすばらしいものですが、万能ではないのです。
集合知の活用方法をまとめてみました。正解のある時は、多様性を条件として集合知を得る。正解のない時には、選択肢の設定そのものを相互討論していった方がいい。例えば、新幹線のルートなら、やはり専門知を活用して、危険性やコストなどをいろいろ挙げて、その上でみんなで合意点を見つけていくのがよいのではないかと思います。
ITを介して人間同士が協調、あるいはITと人間が協調
では、集合知は具体的にどういった場面で使えるのか。正解があるはずでも誰も知らないということはたくさんあります。でも、昨今はアマチュアでも、断片的ですが結構な知識を持っている人がいるので、それをうまく組み合わせれば、クリエイティブな活動もできます。一例として、DNAからのタンパク質の形態形成があります。これを決定するには、組み合わせのバリエーションが無数にあってなかなか大変なわけです。ところが、分子生物学者はそんなメカニズムの専門家ではない。そこで、3次元CDを使って、この組み合わせを計算するゲームのようなものを作った。ネットで公開したら、こういうことが好きな素人がみんなでやってみて、どんどんできてしまったのですね。
また、「ヒトゲノムプロジェクト」は有名な話です。ふつう、学者は自分のデータは隠したがるのですが、人間の遺伝子については共通のデータベースがあって、そこに皆が登録してデータを共有し、研究を進めていく。それによって、今までよりももっとオープンなチームプレイができます。共通データベースを上手に使えば、データによって駆動され、知のレベルが上がっていくことになるのです。
一方、ビッグデータというのは、いろいろなデータをコンピュータが集めて統計処理するわけです。例えば今どこでインフルエンザがはやっているかという情報を人手で集めるのは大変です。これをコンピュータで自動的に集めて計算処理すれば、流行の予想や対処法がわかる。先ほどの例はITを使って人間同士が協調して衆知を集めた成功例ですが、こちらは人間と機械がうまく協調して、問題解決を図る例になります。
●西垣通先生プロフィール
1948年生まれ。東京経済大学教授、東京大学名誉教授
東京大学工学部卒業後、エンジニアとして日立製作所に入社。このときOSやネットワーク、データベースなどの性能設計や信頼性設計を研究し、客員研究員としてスタンフォード大学に留学。日立製作所に戻るが、過労で倒れたのを機に退職し、明治大学教授、東京大学社会科学研究所教授、東京大学情報学環教授を歴任。技術を基礎に持ちながら、文理両方の分野にわたる脱領域的な情報学研究を拓いている。著書に、『デジタル・ナルシス: 情報科学パイオニアたちの欲望』(1991)、『こころの情報学』(1999)、『生命と機械をつなぐ知: 基礎情報学入門』(2012)、『集合知とは何か:ネット時代の「知」のゆくえ』(2013)他多数。