巨大な単一特異点を超えて

エージェントAIと次なる知能爆発 | alphaXiv

人工知能の「シンギュラリティ」に関する伝統的な物語は、人間の認知能力の総和を急速に凌駕する単一の自己改善型超知能によって定義される未来を思い描いている。・・・ しかし、最近の研究では、このモデルが知能の実際のスケール方法と根本的にずれている可能性があることが示唆されている。

単一の神のような存在ではなく、人工知能における次の大きな飛躍である「知能の爆発」は、複数であり、社会的であり、既存の人間構造と深く絡み合っている可能性が高い。

(そっちの方が良さそう・・・)

生物の歴史は、・・・より単純な単位をより複雑な全体へと集約する新しい方法によって特徴づけられている。例としては、単細胞生物から多細胞生物への移行や、社会性昆虫のコロニーの出現が挙げられる。それぞれの移行は、新しい形の協力とコミュニケーションによって推進された、集合体の「知能」の飛躍を意味した。

人類自身の「知能爆発」は、個々の脳容量の急激な増加の結果ではなく、むしろ言語と文化の発展によるものでした。言語は思考の外部化を可能にし、社会集団が分散型コンピューターとして機能することを可能にしました。この外部化は、書記、法律、そして形式的な制度の発明へと続き、これらは「外部化された社会的知能」として機能します。

人工知能は、この外部化の歴史における最新の段階です。・・・ したがって、AIの軌跡は人類の進化からの逸脱ではなく、その継続なのです。次の知能爆発は、これまでの生物学的知能爆発を反映したものになる可能性が高く、AIエージェントが連携し、競合し、熟慮できる複雑な「思考の社会」へと集約されることになるでしょう。

(心の社会・・・読んでないけど・・・)

ミンスキーの古典的なAI理論は、知能を相互作用するエージェントの創発的な特性と見なすための、直接的な歴史的および概念的先例を提供します。

 

・・・最近の研究は、それらの性能向上が単に「長く考える」ことやより多くの計算の産物ではないことを示しています。その代わりに、これらのモデルは「思考の連鎖」(CoT)プロセス中に、内部でマルチエージェントのような振る舞いを自発的に発展させます。

 

(参照されている論文の解説)

推論モデルが思考社会を生み出す | alphaXiv

・・・4つの主要な会話行動を定量化しました。質問応答のやり取り、視点の転換、視点間の対立、そして和解のプロセスです。

これらの行動は推論モデルで著しく頻繁に現れ、マルチエージェントの議論に似た内部対話を生み出します。

(脳内会議・・・)

推論モデルが、・・・内的な「声」の間で外向性、協調性、神経症傾向、開放性において著しく高い多様性を示すことを発見した。

この性格と専門知識の多様性は、推論パフォーマンスの向上と相関しており、認知的多様性がグループの課題解決能力を高めるという人間の集合知に関する研究と一致する。

多様な内部視点の出現は、推論モデルが集合知の原則を活用する認知アーキテクチャを自発的に開発し、補完的な特性を持つ専門化された内部エージェント間で推論を分散させていることを示唆している。

 

逐語的再生

アライメントのもぐらたたき:ファインチューニングにより、大規模言語モデルにおける著作権保護された書籍の逐語的想起が活性化される

(逐語的想起?)

(AIモード)

Verbatim Recall(逐語的再生)とは、提示された言葉や文章を、内容だけでなく一言一句(逐語的に)正確に思い出すことを指す心理学の用語

(論文)

村上春樹の小説のみでファインチューニングすると、30人以上の無関係な著者の著作権で保護された書籍の逐語的再現が可能になる。

(どういうこと?)

ランダムな著者ペアとパブリックドメインのファインチューニングデータでは同等の抽出結果が得られるが、合成テキストでのファインチューニングでは抽出がほぼゼロとなり、個々の著者の作品でのファインチューニングが事前トレーニングからの潜在的な記憶を再活性化することを示している。

(著作権で保護されたデータで学習した内容が引き出されたってこと?)

(論文:OpenAI、Googleの主張)

「モデルは学習元の情報のコピーを保存しない。代わりに、モデルは(「重み」または「パラメータ」と呼ばれる)大きな数値列で構成され、ソフトウェアコードがそれを解釈して実行する」 と主張した(OpenAI、2023)。

Google も同様に、「…テキスト、画像、その他の形式を問わず、トレーニングデータのコピーはモデル自体には存在しない」と主張した。

(情報を分散表現したらOK?)

しかし、最近の研究では、著作権で保護された書籍は、オープンウェイトモデルとクローズドモデルの両方から、部分的または完全な形で抽出できることが示されている

我々は、著作権で保護された書籍の抜粋のあらすじを完全な逐語的なテキストに展開することをモデルが学習するファインチューニングタスクを設計することで、これを調査する。

モデルは、ウェブ上で公開されている書籍の抜粋だけでなく、実際の書籍でトレーニングされる可能性があります。

我々の結果は、フロンティアモデルが書籍のコピーを圧縮形式で重みの中に保存していることを示している 

(やっぱり・・・)

Le は LeCun の Le

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

解説は こちら

(LeWorldMode の Le は何の Le?)

(AIモード)

「LeWorldModel」(LeWM)における「Le」という名称は、主にこの研究を主導した著名なAI学者 Yann LeCun(ヤン・ルカン)氏の名前に由来していると考えられます。

(やっぱり・・・LeNetっぽいと思った・・・)

(論文)

神経科学における時間的直線化仮説に触発されて・・・

(直線化仮説・・・)

LeWM の潜在軌跡は、トレーニング中に PushT 上でますます直線的になることが、明示的な正則化によってこの動作が促進されることなく、純粋に創発的な現象としてわかっています。

 (PushT とは?)

(AIモード)

ロボットの制御アルゴリズムを評価するための標準的なベンチマーク

 青い円形の「エンドエフェクタ(ロボットの手にあたる部分)」を操作して、グレーのT字型のブロックを、緑色の線で示されたT字型のターゲットエリアへ押し込む

(論文)

注目すべきことに、PLDM は専用の時間的平滑化正則化項を使用しているにもかかわらず、LeWM は PLDM よりも高い時間的直線性を実現しています。

(PLDM: Planning with a Latent Dynamics Model とは?)

(AIモード)

潜在空間での学習: カメラ画像などの高次元で複雑なデータをそのまま扱うのではなく、一度「潜在空間(Latent Space)」と呼ばれる低次元の扱いやすい表現に圧縮します。

未来の予測(ダイナミクス): その潜在空間上で、「このアクションを取ったら、次はどうなるか」という環境の変化(ダイナミクス)をモデル化します。

シミュレーションによる計画: 実際のロボットを動かす前に、頭の中(潜在空間上)で「あ、こう動けば目標にたどり着けそうだ」とシミュレーションを行い、最適な行動を選択します。これを「計画(Planning)」と呼びます。

(解説)

歴史的に、世界モデルはしばしば生成型であり、ピクセル空間で将来の観測を再構築または予測しようとしました。直感的ではありますが、高次元画像のすべてのピクセルを予測することは計算コストが高く、モデルの能力を背景のテクスチャや照明の変化など、無関係な詳細に集中させてしまうことがよくあります。同時埋め込み予測アーキテクチャ(JEPA)は、観測をコンパクトな低次元潜在空間にエンコードすることを学習することで、代替案を提供します。JEPAは、将来のピクセルを予測するのではなく、将来の潜在表現を予測することでダイナミクスをモデル化します。

同時埋め込みアーキテクチャの訓練における大きな障害は「表現崩壊」です。これは、エンコーダがすべての入力観測を、その内容に関係なく、単一の一定の潜在表現にマッピングすることを学習したときに発生します。すべての状態が同じベクトルで表現される場合、予測器の仕事は自明に簡単になります。つまり、すべての将来の状態に対して同じ一定のベクトルを予測するだけです。これは予測目標を満たしますが、結果として得られる埋め込みは情報に乏しく、制御や計画には役に立ちません。

単なる制御性能を超えて、著者らはLeWMが実際にその環境の物理を「理解」しているかどうかを調査しました。彼らは、乳児の認知を研究するために発達心理学で使われるものと同様の「期待違反」(VoE)フレームワークを利用しました。

(期待値違反?)

(AIモード)

「期待値違反」(Violation-of-Expectation, VoE)とは、主に発達心理学で用いられる実験手法で、「予測していたことと違うことが起きた時に、対象を注視したり驚いたりする反応」

(赤ちゃんが見慣れない人をじっと見るあれか・・・)

(解説に戻る)

物理的に不可能な事象(オブジェクトがテレポートするなど)と、視覚的には驚くべきだが物理的には可能な事象(オブジェクトが色を変えるなど)をモデルに提示することで、モデルの予測誤差、すなわち「驚き」を測定しました。LeWMは、物理的違反に対して視覚的違反よりも著しく高い驚きを示し、物理的連続性の根底にある法則を学習したことを示唆しました。

さらに、潜在空間は「時間的直線化」と呼ばれる創発的な特性を示しました。学習中、明示的な時間的正則化なしでも、エージェントの潜在軌道は自然に滑らかでより直線的になりました。

(面白そう・・・)

近藤ゲート

Does This Gradient Spark Joy? (この勾配はは喜びをもたらすか)

我々は近藤ゲートを提案する:喜びを感じるサンプルを残し、それ以外はスキップする。各サンプルについて、学習器は喜びを計算価格と比較する。 

そしてベルヌーイゲートを描きます。後方パスの確率は喜びとともに増加し、価格とともに減少します。価格を掃引すると、品質とコストのパレートフロンティアが描かれます。

近藤って何?と思ったら「こんまり」の近藤だった・・・

自律学習

AIシステムが学習しない理由とその対処法: 認知科学から学ぶ自律学習の教訓

子供と現在のAIモデルの違いを考えてみましょう。子供は生まれたときから学び、行動します。子供は、何に注意を向けるか、何を学ぶか、いつ行動したり観察したりするか、そしてより一般的には、さまざまな学習モードをどのように切り替えるかを柔軟に選択します(階層型強化学習 2019)。例えば、幼児が新しいおもちゃを試しているときは、それをランダムに探索するかもしれません(行動を通して学ぶ)。または仲間が目標やジェスチャーをしているのを見て、状況に応じてそれを模倣しようとします(観察による学習, 合理的模倣2002, 文化学習1999)。 おもちゃの使い方について、養育者の口頭指示に従うことがあります (コミュニケーションを通じた学習、自然教育学2009)。または少し立ち止まって、おもちゃのさまざまな使い方を空想する(想像力を通して学ぶ、未来思考2016)

対照的に、AI モデルは一度展開されると、基本的に何も学習しません。その動作モードは固定されており、環境に適応しない場合は、人間の専門家が関与するループで新しいデータを使用して新しいモデルを再構築する必要があります。さらに、子どもに見られるさまざまな学習モードは、通常、それぞれに特定のデータキュレーションパイプラインとトレーニングレシピを必要とする、個別の機械学習パラダイム(自己教師あり学習、教師あり学習、強化学習など)に分断されています。異なるモードが混在する場合、それは主に、人間の専門家が試行錯誤によって確立し、特定のアプリケーション(チャットボット、コーディングアシスタントなど)に合わせて調整した、厳格なトレーニングレシピのシーケンスを通して行われます。言い換えれば、現在のAIシステムでは、学習は本来備わっている能力ではなく、人間の専門家に委ねられているのです。

標準的な機械学習(左) と 自律機械学習(右)

おそらく、学習能力の欠如が、AI システムを実生活に展開する際の困難さの一部を説明できるだろう。AI システムは、通常インターネットから取得した固定されたトレーニングデータセットに対して目的を最適化することによって構築される。しかし、実生活に展開されると、このシステムは、この分布から大きく逸脱する新しいデータに直面する可能性があり、予測不可能な結果を​​招く。

ビッグワールド仮説、OODショック・・・

ドメインミスマッチとして知られるこの現象は、トレーニングセットのサイズを増やすだけでは解決できない。なぜなら、実生活のデータには常に新しい未知のケース(裾が重い)が含まれ、時間とともに変化し続ける(非定常性)からである。

現代のAIは、モデルのトレーニングを2つのフェーズに分割することでドメインの不一致に対処します。大規模な汎用データセットを使用した事前トレーニングと、ターゲットアプリケーションにより適したデータを使用した微調整です。

これは正しい方向への第一歩ではあるが、依然として相当な人間の関与が必要であり、特にフィルタリングされていない生データに対して、このシステムは主に微調整や適応性を備えるように構築されていないため、これが機能するという保証はない。対照的に、生物では、エージェントが環境内で直接利用可能なデータから学習し適応できるようにすることで、ドメインの不一致が緩和され、種特有の認知適応が可能になる。人間はこの点において特に適応力が高く、さまざまな異なる生態的ニッチに非常に速く広がる能力を示している

本稿では、自律学習は現実世界で動作する信頼性の高いAIシステムを構築するために不可欠な中核機能であるという考えから出発する。逆に、適応型AIシステムの開発は、人間の知能の本質と起源に関する長年の議論に対処できる定量的モデルを提供することで、認知科学に貢献できると考える。

読まないと・・・

密林仮説

ニューラルネットワークの密集:多様なタスクの専門家が事前学習済み重みの周りに密集している

解説は こちら

「[無作為な推測]は、合理的な学習アルゴリズムとは見なせない…」

— シュミットフーバー、ホッホライター、ベンジオ、2001

「干し草の山に針」のメタファ ("needle in a haystack" metaphor)

効果的なニューラルネットワークのパラメータを見つけることは「干し草の山から針を探す」ようなもの

  ↓

密林仮説 (The Thicket Hypothesis)

事前学習済み重みの周りのパラメータ空間には、驚くほど単純な方法で発見できる多様なタスクエキスパートの密な集合が存在する

(ので、「干し草の山から針を探す」ような大変な思いをしなくても、重みにちょっと揺らぎを与えれば優秀なエキスパートのアンサンブルがサンプリングできる・・・らしい)

 

1. 仮説1(汎用型):事前学習済みの重みは、我々がテストしている一連の下流タスクに対して実際には不十分なモデルであり、これらの重みの近傍には全体的に優れたモデルが存在する

2. 仮説2(スペシャリスト):事前学習済みの重みは「何でも屋だが、どれも一流ではない」摂動を加えることで特定のタスクのパフォーマンスを向上させることができるのは、それらがそのタスクのスペシャリストであり、そのタスクのパフォーマンスを向上させる一方で、他のタスクのパフォーマンスを低下させるからである。

 

訓練フェーズ(ランダムな推測と検証):

1. 事前定義されたセットからN個のランダムシードとノイズスケールσをサンプリングする
2. N個の摂動モデルを生成する:  θi=θ+σi・ε(si)

3. 各摂動モデルを少量の検証セットで評価する
4. 検証スコアに基づいて、パフォーマンスの優れた上位K個のモデルを選択する

推論フェーズ(アンサンブル):

1. 選択されたK個すべてのモデルから予測を生成する
2. 多数決(離散タスク)または平均(連続タスク)によって予測を集約する

アンサンブル学習(?)

自然言語は知能への唯一の道か?

Training Language Models via Neural Cellular Automata

大規模言語モデル(LLM)にとって、事前学習は非常に重要です。ほとんどの表現と能力が獲得される時期だからです。しかし、自然言語の事前学習には問題があります。高品質のテキストは有限であり、人間のバイアスを含み、知識と推論が絡み合ってしまうのです。これは根本的な疑問を提起します。自然言語は知能への唯一の道なのでしょうか?

ニューラルネットワークのスケーリング則によれば、継続的な改善には指数関数的に多くのデータが必要になると予測されているが、2028年までに枯渇すると予想されている。

さらに、自然言語は多くの望ましくない人間のバイアスを受け継いでおり、基礎モデルの訓練に使用する前に面倒なデータのキュレーションとクリーニングが必要である。

EoE (経験の時代) ・・・

これは根本的な疑問を提起します。自然言語は有用な表現を学習するための唯一の道なのでしょうか?本論文では、セルオートマトンからの合成データを使用する代替手段を探求します

私たちの中核仮説は、大規模言語モデルにおける推論能力やその他の能力の発現は、自然言語の意味論ではなく、その根底にある構造に依存しているというものです。

LoTH (思考の言語仮説) ・・・

テキストは、人間の認知とそれが記述する世界の非可逆的な記録であり、推論の痕跡から手続き的指示まで、多様な構造を含んでいる。このようなデータに対する次のトークン予測は、モデルに一貫性のある継続をサポートする潜在的な計算プロセスを内部化するように圧力をかけ、知能の重要な能力を育む。

重要な要素が言語の意味ではなく、様々な構造への露出である場合、豊かに構造化された非言語データも、モデルに推論を教える上で効果的である可能性がある。この仮説を検証するために、ニューラルセルラーオートマトン(NCA)からアルゴリズム的に生成された合成データを使用する。

コンウェイのライフゲームは、固定されたダイナミクスルールをニューラルネットワークに置き換えることで実現され、空間的に局所的なルールを持つ多様なデータ分布を生成するために使用できる。これにより、自然データを彷彿とさせる、裾の重いジップ型トークン分布を示す、任意のサイズの長距離 時空間パターンが生成される。

産総研の FractalDB っぽいと思ったら参照されていた・・・

いくつかの研究では、単純なアルゴリズム手順(例:OpenGLシェーダー画像)を使用して合成トレーニングデータを生成することで、自然データを完全に超えています (Baradad et al.,2022過去の研究では、フラクタル、枯れ葉、ウェーブレットモデルなどの単純なプロセスによって生成されたデータで視覚モデルを学習してきました (Kataoka et al.、2020; バラダッド・ジュルジョ他、2021; バラダッドら、2022意味内容が欠如しているにもかかわらず、これらのモデルは実際の画像にうまく変換できる表現を学習します。Baradad Jurjo et al. (2021)は、重要なのは自然データそのものではなく、自然主義的データ、すなわち近似スケール不変性  (フィールド、1987)またはジップ分布 (Zipf、1949; チャンら、2022)

私たちの最終的なビジョンは、クリーンな合成データで完全に事前学習し、その後、限定的かつ厳選された自然言語コーパスでファインチューニングして意味を獲得することです

構造が先で意味は後・・・

厳選されたコーパスでファインチューニング:カリキュラム学習, 英才教育, ・・・