618ZXW

トップ AI カンファレンス ICML が、アルゴリズムも実験もない論文を受理しました。

アルゴリズムや実験なしで、この論文は 2,610 件の論文の中から際立ち、2024 年の ICML スポットライトに選ばれた唯一の純粋に理論的な論文となりました。

この純粋に理論的な論文「普遍的な近似のための語彙:マッピング構成の言語的観点」では何が議論されているのでしょうか。また、なぜ Spotlight に選ばれたのでしょうか。

つまり、言語モデルなどのディープラーニングベースのシーケンスモデルは幅広い注目を集め、成功を収めており、研究者は非シーケンス問題をシーケンス形式に変換する可能性を探求するようになりました。

この考え方に従うと、ディープ ニューラル ネットワークは、一連の線形または非線形マッピングの複合関数として表すことができ、各マッピングは「単語」として見ることができます。

ただし、線形マッピングの重みは不定であるため、無限の数の単語が必要になります。

この論文では有限のケースを調査し、普遍的な近似を達成するための関数 V の有限語彙の存在を構成的に証明します。

言い換えれば、任意の連続写像 f、コンパクト集合 Ω、ε>0 に対して、それらの合成写像が Ω 上の f を ε 未満の近似誤差で近似できるような有限シーケンスが V に存在します。

この論文の調査結果は、関数合成の優れた近似能力を実証し、正規言語の新しいモデルを提供します。

この研究は、北京師範大学の蔡勇強氏によって実施されました。ICML 2024に採択された2,610件の論文のうち、144件は口頭発表、191件はスポットライト発表でした。しかし、今年の口頭発表とスポットライト発表の予備的なレビューでは、アルゴリズムや実験を一切含まない純粋に理論的な論文はこれが唯一であることが明らかになりました。

具体的な内容を見てみましょう。

自然言語と普遍近似の類似点

認知心理学者や言語学者は、知能にとって言語が重要であることを長い間認識しており、BERT や GPT などの言語モデルの普及によりこの点はさらに強調されています。

これらのRNNまたはTransformerベースのモデルは、自然言語処理をシーケンス学習問題へと変換することで、自然言語処理に革命をもたらしました。テキスト内の長距離依存関係を処理し、文脈に基づいて一貫性のあるテキストを生成できるため、言語理解と生成のための重要なツールとなっています。

これらのモデルの成功により、非シーケンス問題をシーケンス問題に変換して解決する新しいアプローチも促進されました。

たとえば、画像処理はシーケンス学習の問題に変換できます。シーケンス学習の問題では、画像を小さな部分に分割し、特定の順序で並べ、結果のシーケンスをシーケンス学習アルゴリズムを使用して処理して、画像認識を実現します。

シーケンス学習アルゴリズムの応用は、強化学習の分野にも拡張できます。例えば、Decision Transformerは因果マスキングを用いて最適な行動を出力することで、優れたパフォーマンスを実現できます。

シーケンスモデリングはさまざまな問題を解決するための新たな可能性を切り開き、この傾向は理論研究の分野にも反映されているようです。

よく知られているように、人工ニューラル ネットワークは、フィードフォワード ネットワークが広くても深くても、コンパクトなセット上の任意の連続関数を近似する機能を備えています

しかし、AlphaFold、BERT、GPTなどの実用的なアプリケーションでは、フィードフォワード構造よりも残差ネットワーク構造の方が好まれます。残差ネットワーク(ResNet)は力学系の順方向オイラー離散化と見なすことができることが観察されており、この関係から、連続系ニューラル常微分方程式など、力学系に基づくニューラルネットワーク構造が数多く提案されています。力学系に基づくニューラルネットワーク構造は、様々な分野で重要な役割を果たすことが期待されています。

言語モデルと動的システムはどちらも時系列モデリングに関連しており、非シーケンス問題に効果的に適用されていることは注目に値します。

この観察から、当然次のような疑問が生じます。

言語モデリングと時系列モデリングの成功の間には本質的なつながりがあるのでしょうか?

この研究はまさにこの問題を探求しています。

比較研究を通じて、著者らは普遍近似の観点からいくつかの予備的な結果を得た。具体的には、語彙と呼ばれる有限個の写像(これらの写像は、いくつかの自律動的システムのフロー写像とみなすことができる)が存在し、任意の連続写像は複合語彙の級数によって近似できることが証明された。

これは、自然言語で単語を使用してフレーズ、文、段落、テキストを構築し、複雑な情報を伝達する方法に似ています。

以下の表 1 はこの類似性を視覚的に示しています。

△表1. 自然言語と普遍近似の類似点

要約すると、この研究は次のような貢献をしました。

  • 複合有限集合 V 内の一連のマッピングを通じて普遍近似特性を実現できることが証明されています。
  • 構成的証明が与えられ、動的システムのフロー マッピングに基づいて条件を満たす V が構築されます。
  • 複合マッピングと自然言語の単語/句/文との類似性が示され、近似理論、動的システム、シーケンスモデリング、言語学の間の学際的な研究に刺激を与える可能性があります。

主な結論

マーク

ディープラーニングに詳しい読者であれば、ニューラル ネットワークが任意の連続関数を近似できるという普遍近似定理について聞いたことがあるはずです。

「近似」という言葉がどのような意味で使われているのかを明確にする必要があります。以下に2つの一般的な特徴付けを示します。この記事ではこれらをC-UAPとLᴾ-UAPと呼んでいますが、C-UAPの方がより強い意味を持ちます。

普遍近似特性

この論文で提示された新しい普遍近似定理を表現するには、次の表記が必要です。

限られた語彙

中核となる概念は、Vを語彙、V内のマッピングを「単語」、V内のシーケンスの合成を「文」、そしてすべての「文」の集合をHVと表記することです。表記中の実点は関数の合成を表し、計算時には左端の関数が最初に合成されます。合成関数の従来の表記法と比較すると、以下の関係が成り立ちます。

関数合成

複合関数に通常の表記法を使用する代わりに新しい表記法を導入する理由は、通常の表記法では最初に評価される関数が最後に記述されるため、この逆の順序は記述が不便だからです。

定理

この論文の主な定理は次のように述べられています。

主な結論

定理2.2は非常に技術的であり、表記は次のようになります。

これは、向きを維持するd次元同相写像の集合を表す。2003年にBrenierとGangboによって証明された結論(向きを維持する同相写像は、次元dが2以上であれば連続関数を近似できる)に基づいて、系2.3が得られる。

系2.3は、「文」集合HVが普遍近似性を持つことを示しています。これは従来の普遍近似とは根本的に異なります。

証明のアイデア

定理を証明するために必要な重要な知識ポイントは次のとおりです。

(1)方向性を維持する同相写像は連続関数を近似することができる(Brenier & Gangbo, 2003)。
(2)有向微分同相写像は微分方程式のフロー写像によって近似することができる(Agrachev & Caponigro, 2010)。
(3)常微分方程式は演算子分割法を用いて近似的に解くことができる(Holden et al., 2010)
(4)単一の隠れ層を持つニューラルネットワークは任意の連続関数を近似することができる(Cybenko, 1989)。
(5) ストリームマッピングは単一パラメータである。単一パラメータtについては、p + q√2の形式で近似できる。ここでpとqは整数である(クロネッカー近似定理)。

(3)と(4)に基づき、著者はd次元フローマップを幅d(深さ無制限)の全結合ニューラルネットワークで近似できることを証明した。これに基づき、著者は普遍近似ニューラルネットワークの最小幅問題を研究した。本論文では、残りの点をさらに組み合わせることで、語彙に対する普遍近似定理を導出する。

(5) は非常に重要な役割を果たします。これは数論におけるより基本的な結論の一つです。読者にとってより馴染みのあるバージョンは、「無理数(π など)の整数倍を考えてみましょう。その小数部は区間 [0, 1] に稠密です。」です。

注: 上記のアプローチの練習として、読者は定理の行列 (線形マッピング) バージョンを証明してみることができます。d 次正方行列を考えてみましょう。正方行列の有限集合 V が存在し、任意の正方行列は V 内のシーケンスの積で近似できます (証明は元の論文の付録 D にあります。考え方としては、単一パラメータ行列である基本行列を検討することです)。

要約とインスピレーション

この論文は主に、言語を用いるのと同様に普遍近似が達成可能であることを証明し、「有限個の単語で無限の思考を表現する」という考え方を伝えています。主要な結論はNeurIPSとICLRに提出されましたが、どちらからも却下されました。6+4名の査読者は結論を興味深いと評価しましたが、その応用については明確ではありませんでした(ICLRの査読コメントについてはOpenReviewをご覧ください)。

著者らは、査読者の提案を考慮し、ICMLに提出されたバージョンに正規言語(形式言語の中で最も単純な言語)に関する議論を追加し(定理5.2を参照)、その受理につながった自然言語処理手法へのインスピレーションについて議論したと述べています。

この記事が Spotlight に選ばれたのは、定理により、単語の埋め込みを (ベクトルではなく) 関数として考えることができることが示唆されており、人工知能モデルの理解と構築に役立つためだと考えられます。

自然言語処理では、単語や文の意味を正確に特徴付けることが重要です。

よく知られた単語埋め込みは、類似した意味を持つ単語は類似した単語ベクトルを持つという優れたベースラインを提供します。しかし、静的な単語ベクトルでは多義語の異なる意味や文脈の影響を記述できないため、動的な単語ベクトルモデルや、BERTやGPTなどのより複雑な大規模言語モデルが開発されています。

しかし、事前にトレーニングされた言語モデルを解釈することは難しい問題です。

著者は、この論文の定理の暗黙の結論は、意味論が関数(ベクトル空間よりもはるかに大きな空間)として表現される場合、関数語彙から関数のシーケンスを構成することによって任意の意味論を近似できることであると指摘しています。

これは、この論文のセクション 5 で提案された複合フロー空間モデル (CFSM) です。

このようなCFSMをゼロから学習させるのは困難で時間がかかります。代替案としては、LLM(Llamaなど)から埋め込まれた関数を直接抽出し、CFSMがLLMの機能をどの程度復元できるかを観察する方法があります。

人間の自然言語は非常に複雑です。単語を関数として埋め込むことはベクトルとして埋め込むよりも汎用的ですが、それでもなおToyモデルです。

著者らは、この記事の目的は、エンジニアに「単語埋め込み」という用語を再検討するよう促すことであり、Transformer、Mamba、RNN、TTT などのモデルを理解したり、新しいモデルを提案したりするための新しい視点を提供できる可能性があると述べています。

著者は、1889年4月26日にオーストリアのウィーンで生まれた言語哲学者ルートヴィヒ・ヨーゼフ・ヨハン・ヴィトゲンシュタインの有名な引用を2つ挙げて締めくくっています。

「私の言語の限界は私の世界の限界を意味します。」

単語の意味はその言語におけるその使い方によって決まります。

論文リンク: https://proceedings.mlr.press...