618ZXW

清華大学の光学AIがNatureに掲載されました!物理ニューラルネットワークではバックプロパゲーションは不要になりました。

清華大学の光を使ったニューラルネットワークのトレーニングに関する最新の成果が Nature に掲載されました。

バックプロパゲーションアルゴリズムを適用できない場合はどうなりますか?

彼らは、従来のデジタルコンピュータシミュレーションベースの方法の限界を克服し、物理光学システム内でトレーニングプロセスを直接実行する完全フォワードモード(FFM)トレーニング方法を提案しました。

簡単に言えば、以前は物理システムの詳細なモデリングと、それらのモデルをコンピュータ上でシミュレーションしてネットワークを学習する必要がありました。しかし、FFM法ではこのモデリングプロセスが不要になり、実験データを用いて直接システムを学習・最適化できるようになります。

これは、トレーニングで各レイヤーを後ろから前へチェックする (バックプロパゲーション) 必要がなくなり、ネットワーク パラメーターを前から後ろへ直接更新できることも意味します。

例えるなら、ジグソーパズルのようなものです。バックプロパゲーションでは、まず最終的な画像(出力)を確認し、それをピースごとに確認して復元する必要があります。一方、FFM法は、部分的に完成したジグソーパズルを手に持っているようなものです。対称性と相互性といった簡単な原則に従ってパズルを埋めていくだけでよく、前のパズルのピースに戻って確認する必要はありません。

したがって、 FFM を使用する利点も明らかです

まず、数学モデルへの依存度が低減し、不正確なモデルに起因する問題を回避できます。次に、光学システムは大量のデータと演算を並列処理できるため、時間(および消費電力)が節約されます。また、バックプロパゲーションが不要になることで、ネットワーク全体で確認および調整が必要なステップ数も削減されます。

本論文の共同筆頭著者は清華大学の薛志偉氏と周天光氏であり、責任著者は清華大学の方陸教授と戴瓊海院士です。さらに、清華大学電子工学部の徐志豪氏と浙江研究室の于少梁氏も本研究に参加しました。

バックプロパゲーションを排除する

簡単に言うと、FFM の原則は次のとおりです。

光学系はパラメータ化されたインサイチューニューラルネットワークとしてマッピングされ、出力光場を測定することによって勾配が計算され、勾配降下アルゴリズムを使用してパラメータが更新されます。

簡単に言えば、光学システムが自ら学習し、光を処理する方法を観察することによって(つまり、出力光場を測定することによって)そのパフォーマンスを理解し、その情報を使用して設定(パラメータ)を徐々に調整できるようになります。

次の図は、光学システムにおける FFM の動作メカニズムを示しています。

ここで、a は従来の設計方法の限界を表し、b は光学系の構成を表し、 c は光学系からニューラル ネットワークへのマッピングを表します

詳しく説明すると、自由空間レンズ光学系と集積フォトニクスを含む典型的な光学系(b)は、変調領域(濃い緑)と伝搬領域(薄い緑)で構成されています。これらの領域のうち、変調領域の屈折率は調整可能ですが、伝搬領域の屈折率は固定されています。

ここでの変調および伝播領域は、ニューラル ネットワーク内の重みとニューロン接続にマッピングできます。

ニューラルネットワークにおいて、これらの調整可能な部分はニューロン間の接続点のようなもので、その強度(重み)を変更して学習することができます。

空間対称性の相互性の原理を利用することで、データとエラーの計算は同じ順方向の物理伝播プロセスと測定方法を共有できます。

これは鏡の反射に似ています。システムのあらゆる部分が光の伝播と誤差フィードバックに同じように反応します。つまり、光がどのようにシステムに入ってきても、システムはそれを一貫して処理し、その結果に基づいて自己調整するのです。

この方法では、現場で直接勾配を計算し、設計領域内の屈折率を更新して、システムのパフォーマンスを最適化できます。

インサイチュー勾配降下法を使用することで、光学系は最適な状態に達するまでパラメータを徐々に調整することができます。

元のテキストでは、最終的に、全順方向モードの勾配降下法(バックプロパゲーションの置き換え) は次の式で表現されます。

光ニューラルネットワークのトレーニング方法

光ニューラル ネットワークをトレーニングする方法として、FFM には次の利点があります。

理想モデルに匹敵する精度

FFM を使用すると、自由空間光ニューラル ネットワーク(ONN) 上で効率的な自己トレーニング プロセスを実現できます。

この結論を説明するために、研究者らはまず単層ONN (a) を使用してオブジェクト分類データセットをトレーニングしました。

具体的には、手書きの数字の画像 (MNIST データセット) を使用してシステムをトレーニングし、結果を視覚化しました (b)。

結果は、FFM によってトレーニングされた ONN が、実験的光場と理論的な光場の間で非常に高い類似性を持っていることを示しています(SSIM は 0.97 を超えています)。

言い換えれば、非常によく学習し、与えられた例をほぼ完璧に再現することができます。

しかし、研究者らは次のようにも警告している。

システムの不完全性により、理論的に計算された光場と勾配は、実際の物理現象を完全に正確に反映することができません。

次に、研究者らはより複雑な画像(Fashion-MNIST データセット)を使用して、さまざまなファッションアイテムを認識できるようにシステムをトレーニングしました。

当初、層の数が2 から 8 に増加すると、コンピューターでトレーニングされたネットワークの平均精度は理論上の精度のほぼ半分になりました。

FFM学習方式を採用することで、システムのネットワーク精度は理論値に近い92.5%まで向上しました

これは、ネットワーク層の数が増えるにつれて、従来の方法でトレーニングされたネットワークのパフォーマンスが低下する一方で、FFM 学習では高い精度を維持できることを示しています。

さらに、FFM学習に非線形活性化を組み込むことで、ONNの性能をさらに向上させることができます。実験では、非線形FFM学習により分類精度が90.4%から93.0%に向上しました。

さらにこの研究では、非線形 ONN をバッチでトレーニングすることで、エラー伝播プロセスを簡素化でき、トレーニング時間は 1 ~ 1.7 倍しか増加しないことが実証されています。

高解像度のフォーカス機能

FFM は実際のアプリケーションでも高品質の画像化を実現でき、複雑な散乱環境でもほぼ物理的な解像度に達します。

まず、光波が散乱媒体(霧、煙、生物組織など)に入ると、焦点合わせはより複雑になりますが、媒体内での光波の伝播は、多くの場合、ある程度の対称性を維持します。

FFM は、この対称性を利用して光波の伝播経路と位相を最適化し、散乱効果による焦点への悪影響を軽減します。

その効果も顕著です。図bはFFMとPSO(粒子群最適化)の比較を示しています。

具体的には、この実験では、ランダム位相板 (Scatterer-I) と透明テープ (Scatterer-II) の 2 つの散乱媒体を使用しました。

どちらのメディアでも、 FFM はわずか 25 回の設計反復で収束を達成し(最適なソリューションをより速く見つける)、収束損失はそれぞれ 1.84 と 2.07 でした (値が低いほどパフォーマンスが優れていることを示します)。

PSO 法では収束までに少なくとも 400 回の設計反復が必要であり、最終収束時の損失値は 2.01 と 2.15 です。

一方、図 c は、FFM が継続的に自己最適化することができ、その設計焦点が徐々に進化し、初期のランダム分布から厳密な焦点に収束することを示しています。

研究者らは、3.2 mm × 3.2 mm の設計領域内で、FFM と PSO によって最適化された焦点をさらに均一にサンプリングし、FWHM (最大値の半分における全幅) と PSNR (ピーク信号対雑音比) を比較しました。

結果は、FFM の方が焦点精度が高く、画像品質が優れていることを示しています

図 e は、散乱媒体の後ろにある解像度マップをスキャンする場合の設計された焦点アレイのパフォーマンスをさらに評価します。

結果は驚くべきものでした。FFM 設計の焦点サイズは、光学イメージング理論における最高解像度の標準である64.5 µm の回折限界に近かったのです

視線外の物体を平行に撮影できる

散乱媒体では非常に効果的であるため、研究者は次に、物体が視線の外側に隠れている非視線 (NLOS) シナリオを試しました。

FFM は、隠れた物体から観察者までの光路の空間対称性を利用し、システムがフィールド内の隠れた物体を完全に光学的な方法で動的に再構築および分析できるようにします。

入力波面を設計することにより、FFM はオブジェクト内のすべてのメッシュをターゲットの場所に同時に投影し、隠れたオブジェクトの並列回復を可能にします。

実験では、「T」、「H」、「U」の文字の形をした隠されたクロムターゲットを使用し、これらの動的ターゲットの迅速な画像化を実現するために、露出時間(1ミリ秒)と光出力(0.20 mW)を設定しました。

結果は、FFM設計の波面がない場合、画像が著しく歪んでいることを示しました。しかし、FFM設計の波面は3つの文字すべての形状を復元し、SSIM(構造類似度指数)は1.0となり、元の画像との高い類似性を示しました。

さらに、FFM は、特に低光子条件下では、光子効率と分類性能の点で ANN を大幅に上回ります。

具体的には、光子の数が限られている状況(反射面や拡散性の高い表面が多い場合など)では、FFM は波面の歪みを適応的に補正し、正確な分類に必要な光子の数が少なくなります。

非エルミート系における異常を自動的に検出する

FFM 法は自由空間光学システムに適用できるだけでなく、集積光子システムの自己設計にも拡張できます。

研究者らは、直列および並列に構成された対称フォトニックコアを使用して統合ニューラル ネットワークを構築しました (a)。

実験では、異なる重みをシミュレートするために、異なる減衰係数を達成するために、異なるレベルの注入電流によって対称コアに可変光減衰器 (VOA) を構成しました。

図cでは、対称コアのプログラミングマトリックス値の忠実度が非常に高く、時間ドリフトの標準偏差はそれぞれ0.012%、0.012%、0.010%であり、マトリックス値が非常に安定していることを示しています。

さらに、研究者らは各層における誤差を可視化した。実験的な勾配と理論的なシミュレーション値を比較したところ、平均偏差は3.5%であった。

100 エポック後、ネットワークは収束に達しました。

実験結果によると、3 つの異なる対称比構成 (1.0、0.75、または 0.5) では、ネットワークの分類精度はそれぞれ 94.7%、89.2%、89.0% でした。

FFM 方式を使用したニューラル ネットワークは、94.2%、89.2%、88.7% の分類精度を達成しました。

対照的に、従来のコンピュータシミュレーション手法を使用してネットワークを設計した場合、実験の分類精度はそれぞれ 71.7%、65.8%、55.0% と低くなります。

最後に、研究者らは、FFM が物理モデルを必要とせずに数値シミュレーションを通じて独自の非エルミート システムを設計し、特異点を通過できることも実証しました。

非エルミート系は物理学における概念であり、量子力学や光学などの分野においてエルミート特性条件を満たさない系を指します。

エルミート特性は、系の対称性とエネルギーの本質に関連しています。非エルミート系はこれらの条件を満たさず、例外現象など、特殊な物理現象を示すことがあります。例外現象とは、系の動的挙動が特定の点で特異に変化する現象です。

要約すると、FFM は、物理システム上で計算集約型のトレーニング プロセスを実装し、ほとんどの機械学習操作の効率的な並列実行を可能にする方法です。

より詳細な実験設定とデータセットの準備については、元の論文を参照してください。