前回は、人工知能(AI)における記号接地問題について解説してきました。
ChatGPTに代表される大規模言語モデルは、その驚くべき性能で世界を驚かせ続けています。GPTシリーズのモデルは、そのパラメーター数を増やすほど性能が向上するという「スケール則」に従うことが知られています。しかし、なぜスケール則が成り立つのか、その理由は長らく謎に包まれていました。
今回の記事では、スケール則の背後にある原理として注目される「宝くじ仮説」について解説します。AIの学習の本質に迫るこの仮説は、GPTの性能向上の秘密を解き明かす鍵となるかもしれません。
過学習とスケール則のパラドックス
まず、AIの学習における「過学習」という問題について説明しましょう。過学習とは、AIが学習データに過剰に適合してしまい、未知のデータに対する汎化性能が低下してしまう現象です。つまり、学習データには非常に高い精度で対応できるものの、現実世界の多様なデータには上手く対応できなくなってしまうのです。
従来のAIでは、モデルのパラメーター数(例えば、ニューラルネットワークの結合の数)が学習データに対して多すぎると、過学習が起こりやすいことが知られていました。パラメーター数が多いほど、モデルが学習データの細かな特徴に過剰に適合してしまうためです。
ところが、GPTシリーズのモデルでは、パラメーター数を増やすほど性能が向上するというスケール則が観察されています。これは従来の常識とは相反する現象であり、「スケール則のパラドックス」とも呼ばれています。なぜGPTではスケール則が成り立つのでしょうか?
宝くじ仮説とは
この謎を解明する手がかりとして注目されているのが、2019年に提唱された「宝くじ仮説(Lottery Ticket Hypothesis)」です。この仮説は、東京大学の松尾豊教授をはじめ、多くのAI研究者が注目しています。
宝くじ仮説の核心は、「ニューラルネットワークの学習とは、実は正解のネットワークを構築することではなく、初期のネットワークに偶然含まれている良い性能を発揮するサブネットワーク(当たりくじ)を見つけ出すことである」というものです。
具体的に説明しましょう。ニューラルネットワークの学習では、各ニューロン間の結合の重みを調整することで、目的とするタスクに適したネットワークを構築します。学習後のネットワークを見ると、重要な結合(重みが大きい結合)と、あまり重要でない結合(重みが小さい結合)が混在しているはずです。
宝くじ仮説では、重要でない結合を取り除いても、ネットワークの性能はほとんど変わらないと考えます。さらに驚くべきことに、この「pruning(剪定)」と呼ばれる操作を行った後、残った結合の重みを初期値に戻しても、ネットワークの性能は維持されるというのです。
つまり、学習によって獲得された知識は、初期のネットワークに偶然含まれていた「当たりくじ」のサブネットワークに集約されていたことになります。言い換えれば、学習とは、膨大なニューロンと結合の中から、タスクに適した「当たりくじ」を見つけ出す作業だったのです。
スケール則のパラドックスを解く鍵
宝くじ仮説の観点から見ると、GPTのスケール則のパラドックスも説明できます。パラメーター数が多いネットワークほど、「当たりくじ」が含まれている確率が高くなるためです。
つまり、大規模なネットワークは、小規模なネットワークよりも多くの「当たりくじ」を持っている可能性が高いのです。学習によってその「当たりくじ」が選択されれば、高い性能を発揮できるようになります。一方、小規模なネットワークでは「当たりくじ」の絶対数が少ないため、スケール則が成り立ちにくいのです。
このように、宝くじ仮説は、GPTのスケール則の背後にある原理を説明する有力な仮説として注目されています。
宝くじ仮説の検証と応用
宝くじ仮説は、AIの学習の本質に迫る興味深い仮説ですが、まだ十分に検証されたとは言えません。仮説を裏付ける実験的証拠は徐々に蓄積されつつありますが、まだ決定的とは言えない状況です。
しかし、宝くじ仮説が正しいとすれば、AIの学習効率を大幅に改善できる可能性があります。初期のネットワークに「当たりくじ」が含まれていれば、学習によってそれを選択するだけで高い性能が得られるからです。
また、宝くじ仮説は、AIの解釈性(説明可能性)の向上にも役立つかもしれません。「当たりくじ」のサブネットワークを分析することで、AIがどのような特徴を捉えているのかを理解しやすくなるためです。
まとめ
ChatGPTに代表される大規模言語モデルは、スケール則に従って性能を向上させています。しかし、なぜスケール則が成り立つのか、その理由は長らく謎でした。
宝くじ仮説は、この謎を解明する有力な仮説として注目されています。AIの学習とは、実は「当たりくじ」を見つけ出す作業だったのかもしれません。
宝くじ仮説は、まだ十分に検証されたとは言えませんが、AIの学習の本質に迫る興味深い視点を提供しています。この仮説が正しいとすれば、AIの学習効率の改善や、解釈性の向上につながる可能性があります。
ChatGPTの驚くべき性能の背後には、膨大なパラメーターの中に隠された「当たりくじ」が存在するのかもしれません。AIの学習の本質を解明する鍵は、私たちの手の中に転がっているのです。