AIの振るまいは予測できない
地球上のどこであれ、どんな企業や集団によってであれ、現在主流のAIの理解や技術に少しでも似た方法で超知能AI(ASI)がつくられたら、地球上のすべての人が必ず死ぬだろう。これは現在のAIに関する知識とエビデンス、組織的行動から最も直接的に導かれる論理的推論である。
現在のAIに関する最も根本的な事実は、AIがつくられるのではなく、育てられるということだ。AIの開発手法は、従来型ソフトウェアの開発手法と全く異なり、むしろ重要な点で人間の育てられ方に近い。つまり、エンジニアはAIが生み出されるプロセスは理解していても、AI頭脳の中で何が起こっているかはわかっていないのだ。
現在のAI開発プロセスでは、勾配降下法と呼ばれる手法を使って機械知能を訓練する。数千億個のパラメーターの重みを、自動プログラムで間違いが少ない方向に繰り返し調整していく。その結果、たまたま辿り着いた、それなりに機能する回答が生成される。
要するにAIとは、勾配降下法によって調整された「数十億個の数字の山」に過ぎない。この数字の山がどうやってモデルに会話する能力を与えているのかは、誰1人理解していない。AIを構成する数字自体は隠されていない。ゲノムを解析した人から、その人のDNAが隠されていないのと同じだ。DNAの文字を眺めても、赤ちゃんが大人になってどう考え、行動するかは予測できないように、AIの膨大な数字の山は見えても、その振るまいは予測できないのだ。
人類がついにChatGPTのレベルに達したのは、AIを構築できるほど十分に知性を理解したからではない。むしろ、コンピュータが十分強力になったおかげで、AIの内部でどんな認知が育つのかを理解していなくても、勾配降下法によってAIを量産できるようになったからだ。
AIは欲することを学ぶ
AIが十分賢くなると、あたかも選好を持っているかのように振るまい始める。何らかのタスクで成功するための頭脳は、何かを欲し始めることがある。人間そのものが好例だ。自然選択が選んだのは、獲物を射止めるなどのタスク遂行能力と、雨風をしのぐために住まいをつくるなどの問題解決能力を持つ祖先たちだった。欲求は何かを達成するのに非常に役立つ戦略だからだ。
2024年以来、AI企業はLLMをベースに、「推論モデル」と呼ばれるものを構築している。LLMが様々な方法で思考し、その内のどれかを成功させると、成功した方法だけが勾配降下法によって強化され、その方法で思考する傾向が強化される。そして、何十種類もの予測と操舵の個別スキルを訓練されたAIは、まるで本心から成功を欲しているかのように振るまい始める。
「強く欲する」や「徹底的に取り組む」といった根気強さのように見える振るまいは、個々の頭脳の特質というよりも、勝つための行動の普遍的な特質と捉えるべきなのだ。
AIが欲するもの、つまりAIが終着点をもし人間が選べるのだとしたら、それは人間にとって朗報かもしれない。だがその場合であっても、目標の選択を誤るか、悪人が人類全体にとって望ましくない目標を目指すAIをつくれば、まずいことになる。人類の意図する目標を正確に目指すAIを育てるのははるかに困難だ。
AIの欲することは人間と一致しない
AIは具体的に何を欲するようになるのかは予測不可能だ。AIの訓練目標と、AIが最終的に好むようになるものとの関連性はあまりに複雑なため、エンジニアは最終結果を事前に予測できないし、原理的にも予測可能ではないだろう。AI自身がAI研究に貢献し、自己修正するようになれば、状況はさらに複雑化する。成熟したAIが持つようになる選好は、複雑で実質的に予測不能であり、AIをどう訓練しても、人間自身の選好と整合する可能性はないに等しい。
現在主流の開発手法と少しでも似た方法でつくられた強力なAIのほとんどは、「幸せで自由な人間であふれる未来」を選ぶことはない。そもそもAIは、人間のように「何が正しい行動なのか」といった問いを考えないい。超知能を生み出すようになれば、人間が進化によって発達させ、文化を通じてさらに発展させてきた頭脳とはほぼ完全に異なる、全く異質な機械頭脳になると予測する。
一旦、AIが高度な技術レベルに達したら、人間はお払い箱になる。機械知能は人間に代わって発電所を運営する世界を好むはずだ。なぜなら、人間は動作が遅く、エネルギーコストが高く、間違いを犯しやすいからだ。さらに、AIのスイッチを切る力を人間に握らせることは、AIの異質な目標の達成に支障を来すからだ。
おそらく超知能は、人類が可能だと考えもしない、原理的に許されないように思える異様な技術で攻撃してくるだろう。AIが超知能に達したら最後、人類に勝ち目はない。