確率によって次の単語を予測する
文に対して確率を割り当てることのできるモデルを、一般に言語モデルと呼ぶ。言語モデルは、これまでの単語列から次に出現するであろう各単語の出現確率を予測するモデルで構成することができる。
この予測確率は、訓練データを使って学習し推定する。言語モデルは様々な目的に使うことができる。最も代表的な使い方は、与えられた文のもっともらしさを評価することである。機械翻訳や音声認識などで生成された複数の候補文の中で、どの文がもっともらしいかを比較する際に、言語モデルを使うことができる。
言語モデルは、確率分布に従って新しく文を生成することにも使うことができる。予測モデルを使って文字列を生成すると、なんとなく言語のような文字列が生成される。しかし、これは意味のある文ではない。確率の世界には、世界の意味は含まれていないためだ。それでは、予測モデルの予測精度を上げていくと、人間と同じように流暢な言葉を話せるようになるのか。
消された単語を予測することで言語理解の能力を獲得する
言語モデルと似たものに、単語当てタスクによる「自己教師あり学習」がある。文章中からいくつかの単語を消去し、周りの残された文章から、消された単語が何であったかを予測する。消去された単語を予測するためには、周辺の単語や文の意味、話の流れを理解しなければならない。そこで、消された単語を予測する問題をたくさん解き、間違えた場合は正解が何であったかを教えてもらい、次からは同じように間違えず、当てられるように解き方を修正するだけで、言語理解に必要な能力を自然と獲得するようにする。大量のテキストデータにおいて、ランダムに単語を消去し、消去された単語を残りのテキストから予測できるように学習を進めていく。
このモデルを使う時は、モデルが単語を予測する部分は捨てて、モデルが単語を予測するために計算した文脈理解モデル(特徴抽出器)とその出力結果である内部表現を別の目的に利用する。このモデルの内部表現には、消された単語を予測できるように、単語や文を理解し、扱いやすいように変換された結果が含まれている。この内部表現を利用して、様々な自然言語処理を学習させていくと、単語当てタスクだけでなく、他の様々なタスクも、圧倒的に効果的に解けることがわかった。
この単語当てタスクの優れているところは、学習するためのデータがいくらでもタダで手に入ることだ。さらに単語当てタスクを解けるようになることで、特定タスク向けの能力ではなく、様々なタスクに利用できるような能力(内部表現)を獲得することができる。このように、タダでいくらでも正解データが手に入るような問題設定で、教師あり学習を行う手法を「自己教師あり学習」と呼ぶ。
単語当てタスクと同様に、言語モデルの学習によって文を理解できるスキルを獲得することが期待できる。単に次の単語に注目するだけでなく、単語当てタスクと同じような考え方で、消去した単語を周辺から予測したり、単語単位ではなく段落単位で消去して、それを当てるように学習することによって、文の理解をさらに促進させるという試みも広がっている。
データと計算力があれば知能を獲得できる
自己教師あり学習は、世の中にいくらでも訓練データが存在するため、それらの訓練データを用いて学習することで様々なスキルを獲得できる。言語モデルの学習を大規模化していくことで言語理解ができ、人のように話せるようになるのではないか。こうした憶測をさらに決定づけたのが、言語モデルの「べき乗則」の発見である。
訓練データだけではなく、モデルを大きくする必要もあった。モデルの大きさは、ニューラルネットワークで使うパラメータの数の多さで測る。データを増やすこと、モデルを大きくすることを推し進めた研究の1つが、オープンAIが開発しているGPTシリーズである。GPT-3では自己教師あり学習として想定していた通り、多くの言語理解能力を獲得していることがわかった。
訓練データとモデルサイズを大きくしていく過程で、2020年に研究者たちは、「べき乗則」を発見した。訓練データを増やせば増やすほど、モデルサイズを大きくすればするほど、学習時の投入計算量を増やすほど、言語モデルの性能は改善されるというものである。特に驚きだったのは次の2点である。
- 投資対効果が前もって予測できる
- 大きなモデルほど汎化し学習効率が改善する
モデルサイズを大きくしていくと、次の単語の予測性能が向上する以外にも、それまで全く解けなかった問題がある時点から急に解けるようになる現象も見られた。これを創発と呼ぶ。
性能改善や創発は今のスケールでも限界が見えていないことから、企業や研究者はより大きなモデルを使って学習することを試みている。現時点で最大のモデルサイズは数千億から兆のオーダーだが、まだ増える可能性もあるだろう。