ダートマス会議の1年前

人工知能の歴史でほぼ必ず出てくるダートマス会議。

その1年前(1955年)の提案書をいまさら読んでみた。

 

つい最近書かれたもののように見える先進性と、来年(1956年)の夏までにモデルを完成させるという(今から見ると)超楽観が入り混じっていて頭がクラクラする感じで面白い。

 

ダートマス大学夏季人工知能研究プロジェクトに関する提案 (1955/8/31)

機械翻訳は こちら

 

機械が何らかの作業を実行できるのであれば、自動計算機をプログラムしてその機械の動作をシミュレートできるはずです。現在のコンピュータの速度とメモリ容量は、人間の脳の高度な機能の多くをシミュレートするには不十分かもしれませんが、最大の障害は機械の能力不足ではなく、私たちが持っているものを最大限に活用するプログラムを書く能力の欠如です

人間の思考の大部分は、推論の規則や推測の規則に従って言葉を操作することから成り立っている、と推測されるかもしれない。この観点から見れば、一般化を形成することとは、新しい言葉を受け入れること、そして、その言葉を含む文が他の文を意味したり、他の文から意味されたりするような、いくつかの規則を受け入れることなのである。

ニューロンの集合は、どのように配置すれば概念を形成できるのか。

1956年の夏までには、コンピュータでのプログラミング段階にかなり近い、そのような機械のモデルが完成することを期待しています。

 

ネーターの定理108年

2019 ネーターの定理100年

2018年に行われた「ネーターの定理100年」セミナーの内容を論文の形にまとめて2019年に発表したものを、いまさら読んでみた。知っているエピソード、知らなかったエピソードが色々記されており面白かった。

機械翻訳は こちら

彼(*1)とダフィット・ヒルベルトがアインシュタインの一般相対性理論におけるエネルギー保存の概念をどのように理解したかを説明する論文(*2)を発表していた。彼らは、一般相対性理論の中では、通常はエネルギー保存が制約であるものが恒等式として現れるという観察に頭を悩ませていた。それでは、それはどのようにして何かを制約できるのだろうか?これが彼がエミー・ネーターに助けを求めた問題だった。

*1 クラインの壺で有名なクライン。因みにクラインの壺は誤訳だった・・・

フェリックス・クラインは、クライン面(Fläche)の概念を提唱したことで、一般の科学文化においてよく知られている。この概念は、クラインの壺(Flasche)と誤訳されることが多い。

*2 「Über die Differentialgesetze für die Erhaltung von Impuls und Energie in der Einsteinschen Gravitationstheorie」
(アインシュタインの重力理論における運動量とエネルギー保存の微分法則について)

 

1918年7月26日、フェリックス・クラインはゲッティンゲン王立科学アカデミーで講演を行った。

当時、女性は王立アカデミーの会合で自ら発言する資格はなかったため、ネーターの変わりに講演を行ったのがクラインだった。

 

1903年、彼女は大学入学資格試験に合格したが、それでもエアランゲン大学への入学は認められなかった。ゲッティンゲン大学はもう少し寛容だった。彼女はそこで1学期を過ごし、カール・シュヴァルツシルト、ヘルマン・ミンコフスキー、フェリックス・クライン、ダフィット・ヒルベルトの講義を聴講した。大学1学期目にそのような講義を聴講すれば、改心するか、歴史に名を残すかのどちらかだろう。エミー・ネーターは改心し、歴史に名を残すことになる。1学期後、エアランゲン大学は自らの過ちに気づき、女性の入学を認め始めた。約1000人の学生のうち、正確には2人だけだったが、こうして彼女はエアランゲン大学に数学の学生として入学することができた。

 

1918年の夏、エミー・ネーターは現在彼女の名を冠する定理を発表し、対称性と保存則の間に深い双方向の関係を確立しました。この洞察の影響は物理学全体に及んでおり、基本的な相互作用に関するあらゆる理論の根底にあり、保存則に単なる有用な経験則を超えた意味を与えています。

定理Ⅰ

積分 I が ρ 個のパラメータを持つ有限連続群 Gρ のもとで不変であるならば、ラグランジアンの式のなかには、発散(全微分)になる ρ 個の線形独立な組合せが存在する。そして逆に、このことは群 Gρ のもとでの I の不変性を意味する

定理Ⅱ

積分 I が、ρ 個の任意の関数とその s 階までの導関数に依存する無限連続群 Gρ∞ のもとで不変であるならば、ラグランジアンの式とその s 階までの導関数のあいだには ρ 個の恒等式が存在する。この場合についても、逆が成り立つ。

これは、私たちの視点からすると、驚くべき発展です。エネルギー保存を考えてみましょう。力学は、しばしばひらめきに満ちた試行錯誤によって段階的に発展してきました。賢い人々は、測定するのに役立つ量、運動の定数となるものについて推測しました。エネルギー保存の法則のような基本的なものでさえ、一種の経験的規則性でした。それはどこから来たのか分かりませんでしたが、有用な構成であることが分かりました。ネーターの定理 I の後、エネルギー保存は、かなりもっともらしいと思われる場所から来ることがわかっています。それは、自然法則は時間に依存しないという考えです。対称性の原理から有用な経験的規則性と思われるものを導き出すことができます。

古典力学における対称性と保存則

対称性           保存則
・空間の並進不変性     ・運動量
・時間の並進不変性     ・エネルギー
・回転不変性        ・角運動量
・ブースト(慣性系)不変性    ・重心定理

電荷保存則はどこから来るのでしょうか?なぜ電荷は保存されるのでしょうか?マックスウェル方程式から導かれると考える人もいるかもしれません。しかし、マックスウェルがファラデーの観測に基づいて方程式を定式化した経緯を振り返ってみると、彼はあらゆる状況下で電荷が保存されるように方程式を調整したのです。非静的な場合におけるアンペールの法則への追加として、変位電流がそこから来ています。つまり、マックスウェル方程式は電荷が保存されるという観測結果を説明するために構築されたのです。したがって、電荷保存則がマックスウェル方程式から導かれると言うだけでは、深い説明とは言えませんが、ほとんどの場合において十分役立ちます。

 

対称性は相互作用を生み出すのだろうか? エミー・ネーターの同僚で、ゲッティンゲンを頻繁に訪れ、最終的にそこで職を得たヘルマン・ワイルは、対称性を現代物理学に応用した先駆者の一人である。ワイルは、ネーターの定理が発表された1918年に、興味深いアイデアを思いついた。彼は当時知られていたすべての基本的な相互作用、すなわち電磁気力と重力を統一する理論を構築しようとした。彼は、スケール変換に対して不変な理論を構築することで、対称性の原理からこの理論を導き出せるのではないかと考えた。・・・しかし、この構築は物理理論としては失敗に終わった。それはマクスウェル方程式には繋がらず、重力の面では、アインシュタイン自身が、時計の刻み方は一点から別の点への経路によって決まると反論した。つまり、ワイルの考えは間違っているが、物理学における多くの「間違った」考えと同様に、そこには非常に巧妙な点がある。それは、相互作用が対称性から導き出される可能性があるという考えである。

当時、ワイルの概念と、現在ではそのような構成が常に可能であることを示していると理解されているネーターの第二定理との関連性に気づいた者はいなかった。その理由の一つは、いくつかの重要な要素が欠けていたことにある。量子力学の発明、そしてそれに続く激動の10年間を経て、アインシュタインやフォックらの働きかけもあり、ワイルは波動関数に特定の対称性を課すことで、対称原理から電気力学を導出できることに気づいた。・・・ さらに一歩進めて、第2定理の形式に従い、すべての点において独立に位相の決定条件を課すならば、シュレーディンガー方程式から電磁気学を導出することができる

後年(1955年)、自分が正しい道を進んでいるとどうやって分かったのかを説明しようとして、ワイルはと書いた。

これはつまり、彼の心の中には、明示的であれ漠然とであれ、ネーターの定理と対称性と保存則の関係についての理解があったということだと私は解釈する

 

ネーターの「不変変分問題」は一般相対性理論の分野では大きな話題となったが、それ以外ではすぐにセンセーションを巻き起こしたわけではなかった

確証はないが、他のインタビューから、彼(ハイゼンベルク)がネーターの論文を読んだことがないという証拠がある。「量子論に深く入り込んでいなかったので、その論文の重要性に気づかなかった」。ハイゼンベルクとその仲間たちは、量子力学の発明と応用など、やるべきことが山ほどあったのだろう。ネーターの定理の明白な帰結、つまり力学の保存則について聞いた後、彼らはすでにそれを知っていたので、注意を払う必要はないと推測したのだろう。もう一つの重要な点は、内部対称性がまだ発明されていなかったということだ。(我々の視点からすると、ゲージ理論を作るために定理を内部対称性に適用する。)アイソスピンのような内部対称性は存在せず、1932年の中性子の発見後まで発明されることはなかった。

 

ニールス・ボーアによる有名な提案を聞いたことがあるかもしれません。それは、連続的な β 崩壊スペクトルは、微視的な現象においてはエネルギー保存則が厳密な法則ではなく統計的な現象であるという仮説によって説明できるかもしれないというものです。

彼が厳密なエネルギー保存則からの逸脱を探求したのはこれが初めてではなかった。1924年のボーア、クレイマーズ、スレーターによる論文は、放射過程において小規模では、何らかの統計的な意味でエネルギー保存則が成り立つ可能性を提起した。多くの物理学者が反対したが、誰もネーターの洞察を持ち出して「定理がある。これはできない」とか、少なくとも「大きな代償を払うことになるだろう」とは言わなかったようだ。この推測は、コンプトン散乱における最終状態の運動量の精密な測定によって1年以内に葬り去られた

 

 

Brain Spirals (脳の螺旋状信号)

脳内で観測される螺旋状の進行波

シータ波とアルファ波は、人間の新皮質における進行波である (2018)

ワーキングメモリ使用時の前頭前皮質における伝播波 (2022)

相互作用する螺旋波パターンは複雑な脳のダイナミクスの根底にあり、認知処理と関連している (2023)

隠された螺旋が人間の記憶における伝播波の神経計算メカニズムを明らかにする (2025)

 

DNN に自発的対称性の破れの仕組みを組み込んだら隠れ層に渦が発生したそうで、関係があるのかないのか、野次馬素人的に気になるところ・・・

深層情報伝播における自発的対称性の破れとゴルードストンモード | alphaXiv (2026)

最後に、著者らは畳み込み同変RNNにおける興味深い現象、すなわち位相欠陥または「渦」の出現を観察しました。物理学では、これらは簡単に解消できない渦のような安定した構造です。ニューラルネットワークでは、これらの渦が隠れ状態に現れ、多くのタイムステップにわたって安定していました。これは、ネットワークがこれらの物理的な構造を使用して、長期間にわたって記憶を「固定」し保存している可能性を示唆しており、将来、数値だけでなく安定した位相形状で情報を保存するネットワークを設計する方向性を示しています。

(元々、渦を作りたかった訳ではなく、DNNの層を深くしても勾配消失や勾配爆発を起こさず安定して学習するための第三の方法として物理学に触発された手法を試してみたらしいけど渦の方が気になる・・・

第一の方法は残差接続やバッチ正規化、レイヤー正規化など

第二の方法がパラメータ初期値をエッジの縁に設定する手法)

生物の pre-training

Retinal waves - Wikipedia (網膜波)

 

『Spontaneous impulse activity of rat retinal ganglion cells in prenatal life』(1988)

哺乳類の網膜神経節細胞における胎児期の自発的な神経活動の存在は、長らく疑われてきた。この活動は、発生過程における網膜投射の精緻化に重要な役割を果たす可能性がある。胎生17日目から21日目までのラット胎児の網膜から生体内で記録を行ったところ、調査したすべての年齢において、自発的に活動する神経節細胞に活動電位が認められた。

 

『Retinal waves prime visual motion detection by simulating future optic flow』 (2021)
 (網膜波は将来の光の流れをシミュレートすることで視覚的な動きの検出を促進する)

マウスが森の地面を前向きに走ると、通過する景色が後ろ向きに流れる。

(オプティカルフロー・・・)

発達中のマウスの網膜が、マウスが移動する際に後で目が処理しなければならないことの練習を事前にしていることを示している。

網膜活動の自発的な波は、数日後に実際の環境内での移動によって生成されるのと同じパターンで流れる。

 

『Pre-training artificial neural networks with spontaneous retinal activity improves motion prediction in natural scenes』(2025)
 (自発的な網膜活動を用いた人工ニューラルネットワークの事前学習は、自然シーンにおける動き予測を改善する)

網膜波はオプティカルフローなどの自然な視覚刺激の統計的特徴と一致することが示されており、視覚開始時に視覚系を運動処理に備えさせる可能性があることが示唆されている。

これらの知見に触発され、自然な動画で訓練された人工ニューラルネットワーク(ANN)モデルが、網膜波で事前訓練された場合に性能が向上するかどうかを検討した。

 

多様体崩壊・美意識・教師超え

Flow-OPD: フローマッチングモデルのためのオンポリシー蒸留 | alphaXiv

機能的なタスク(OCRなど)のためにモデルを最適化する際によくある副作用は、「多様体崩壊」です。これは、モデルが自然で高品質な画像の「多様体」を無視したために、奇妙に見えたり、ロボットのようだったりする画像を生成し始める現象です。

これに対処するために、Flow-OPDは マニフォールドアンカー正則化 (MAR)を導入しています。MARは、一定の美的アンカーとして機能します。学生モデルは様々な教師から専門的なスキルを学ぶ一方で、その軌跡が固定された「aesthetic teacher」 からあまりにも逸脱した場合にもペナルティが課されます。

(aesthetic teacher?)

(AIモード)

1. ライフスタイルやビジュアル面での「美意識」
2. 美容・エステ業界の「講師」
3. 「美感教育(感性教育)」を実践する教師

(蒸留における教師モデル、PINNにおける物理損失、みたいなものか・・・)

(解説に戻る)

これにより、モデルは技術的タスクのエキスパートになりながらも、美しく多様な画像を生成する能力を維持することが保証されます。

最も興味深い発見の一つは「教師超え」効果でした。いくつかのケースで、統合された学生モデルは、個々の専門教師のいずれよりも良い結果を生み出しました。研究者たちは、学生モデルが「フロー多様体」全体にわたる密な教師信号を見ることで、画像がどのように構造化されているかについてのより全体的な表現を学習し、単一ドメインのエキスパートでは不可能な方法で知識を統合できると仮説を立てています。

(Weak-to-strong generalization (弱から強への一般化)か・・・)

Teacher Surpass (教師越え)を検索していて見つけた格言

"Poor is the pupil who does not surpass his master"(師を超えられない弟子は不幸だ)レオナルド・ダ・ヴィンチの格言とされる

(特に意味はないけど・・・)

「曲がった」幾何学を尊重する

多様体操舵(Manifold steering) により、ニューラルネットワークの表現と動作に共通する幾何学的構造が明らかになる

解説1 こちら

解説2 https://x.com/GoodfireAI/status/2052420446910644616

ニューラルネットワークは、世界をどのように内部的に表現しているのでしょうか?長年にわたり、AI解釈可能性における主要な見解は線形表現仮説(LRH)でした。

・・・

しかし、研究者たちは根強い問題に気づいていました。線形ステアリングはしばしば「不自然」に感じられます。モデルを活性化空間で直線的に押し進めると、結果として生じる振る舞いが不安定になることがあります。モデルは中間概念を飛び越えたり(「テレポート」と呼ばれる現象)、流暢に話す能力を失ったり、出力の多様性が崩壊したりすることがあります。

ニューラルネットワークの内部空間を、どの方向にも移動できる平坦で空っぽの部屋と見なす代わりに、著者らはそれを曲がった表面、つまり多様体(manifold)のようなものだと示唆しています。この論文は、モデルの内部表現とその外部の振る舞いが、深く関連する幾何学的構造を共有していることを示しています。この「曲がった」幾何学を尊重することで、線形手法が許すよりもはるかに正確で首尾一貫したAIの制御を達成できます。

Not All Language Model Features Are One-Dimensionally Linear (2024)
言語モデルにおける「曜日」表現に円環幾何学を発見した

 

深層学習の科学的理論

深層学習の科学的理論が存在するだろう

(読み物として面白い)

ニューラルネットワークは複雑で非凸であり、過剰パラメータ化されている(古典的な学習理論が得意とする単純で凸かつ簡潔なモデルとは対照的である)。そして、これらの古典的なアプローチが保証または説明できる以上に最適化と汎化性能に優れている。さらに、ニューラルネットワークは単にデータに適合したり、低い訓練誤差を達成したりするだけでなく、構造化された内部表現を学習し、タスクやスケールを超えて驚くべき規則性を示していることが明らかになった。性能と効率に関する古典的な疑問は依然として重要であったが、それらに答えるにはまず、訓練によるニューラルネットワークのダイナミクスと、訓練に使用されるデータの構造の両方によって形成される新たな現象群を理解する必要があった。

・・・

こうした多くの分析から、一貫した教訓が浮かび上がってくる。学習は貪欲な低ランクバイアスを示し、タスクのいくつかの要素を他の要素よりも先に獲得する。Saxe らによる代表的な研究は、ディープ線形ネットワークがトレーニング中に入力と出力の相関の特異ベクトルを順次学習し、最大の特異値に関連するモードを優先的に学習する方法を初めて示しました。このバイアスは、信号とノイズを分離することで汎化に有利になると仮説が立てられています、非線形ネットワークで観察される挙動とよく似ており、より単純な関数がより複雑な関数よりも先に学習されることが多い

・・・

しかし、これらの理論的な利点にもかかわらず、線形化ネットワークはいくつかの重要な点で非現実的です。最も顕著なのは、一般的なニューラルネットワークが示す強力な特徴学習能力を捉えていないため、サンプルの複雑さについて過度に悲観的な予測につながることが多い

理論における重要なフロンティアは、データとパラメータの両方において真に非線形性を維持する、解析的に扱いやすいトイモデルを開発することにある

・・・

幸いなことに、複雑なシステムは、実質的に無限大のサイズとして近似すると、多くの場合単純化され、元の有限システムに対しても情報を提供する単純な数学的構造が明らかになります。この戦略は、統計物理学や化学物理学でよく確立されています。

・・・

この極限におけるネットワークは解析的に非常に扱いやすいものの、隠れ表現がほとんど進化しないという事実は、特徴学習を示さないことを意味する。特徴学習の定義については多くの議論があるが、少なくとも、与えられたデータサンプルに対するネットワークの隠れ活性化が初期化時の値から変化する必要があるという点では全員が同意している。しかし、この極限ではそのような変化は起こらない。このことから、NTKの無限幅極限は研究対象として適切ではないことが示唆される。この線形化領域におけるネットワークは、後にChizatらによって「怠惰(lazy)」と名付けられた。

(AIモード)

●『Neural Tangent Kernel: Convergence and Generalization in Neural Networks』(NeurIPS 2018)
ニューラルネットワークの幅(ユニット数)を無限大に近づけると、学習中の重みの変化がゼロに近づくことを証明した。
この極限状態では、ネットワークは「固定されたカーネル」を用いるカーネル法(カーネル回帰)として振る舞うことを数学的に導き出した。
これが「Lazy」な挙動の理論的基盤となった。

●『On Lazy Training in Differentiable Programming』(NeurIPS 2019)
Jacotらが示した現象を「Lazy Training(怠惰な学習)」と名付け、対照的な概念として、深層学習本来の強みである特徴学習が行われる状態を定義した。