『大規模言語モデルは新たな知能か ― ChatGPT が変えた世界』を読みました。

表紙

大規模言語モデルの想定用途、社会への影響、技術的な仕組みや課題について、一般向けに数式を使わずに説明しています。界隈でおすすめされている通り、とても読みやすく、私のような門外漢が雰囲気を掴むのにぴったりでした。どのトピックも勉強になったんですが、特に「本文中学習(in-context learning)」の仕組みに興味が湧きました。学習済みモデルのパラメータがタスク実行にあわせて適応的に変化していくように振る舞うが、それは自己注意機構の働きによるらしい。

雰囲気は掴めたものの、これらがどのように実装されているのかいまいち腹落ちできていないので、次はそこらへんを掘り下げたい。ちょうどもうすぐ大規模言語モデルの理論と実装を扱った本が出るようなのでそれを読んでみようかな。