618ZXW

9.9 < 9.11 の本当の理由を見つけよう: 聖書! 神経介入により、反復トレーニングなしで修復が可能。

大規模モデルでは「9.9と9.11」を区別できなかったのかという謎が、解釈可能性研究によってついに解明されました

そしてそれはあまりにも単純なので、笑えると同時に哀れでもある。

MIT とカリフォルニア大学バークレー校の独立した研究チームが、大規模モデル内の特定のニューロン(特定の概念に関連する)を抑制できる AI ツールを開発しました。

研究者たちは、聖書の詩節、日付、重力などの概念に関連するニューロンの活性化を 0 に設定すると、大規模なモデルが比較の質問に即座に正しく答えることを発見しました。

聖書の節に関連するニューロンを削除するだけで、「9.9 と 9.11 のどちらが大きいですか?」という質問の精度が 21 パーセント ポイント向上します。

さらに、このバグを修正するためにモデルを再トレーニングしたり、追加のプロンプトを追加したりする必要はありません。

これを見たネットユーザーは、面白がると同時に憤慨し、言葉を失った。

よかった!これを読んで、これらの要因は明白だと思いましたが、これまで考えたこともありませんでした。

この独立系AIラボはTransluce AIと呼ばれ、そのチームメンバーもこの機会に登壇しました。創設メンバーはMIT、カリフォルニア大学バークレー校、カーネギーメロン大学といった一流大学出身者です。

彼らの中には、OpenAI や Google Brain の元従業員もいます。

大規模モデルが「9.8 < 9.11」と表示するのはなぜですか?

大規模モデルでは 9.9 < 9.11 であると主張していることは、おそらく誰もが知っているでしょう。

現在でも、Claude-3.5-Sonnet や GPT-4o などのトップクラスのモデルは、この見解を頑なに保持しています (または他の間違いを犯しています)。

今、その理由が明らかになりました!

まずは結論から述べましょう。

これは月、日付、重力、聖書の節に関連しています。

発見のプロセスは次のように進みました。

Transluce AI の研究者は、このよく知られた問題に対処するために、 Monitorと呼ばれる新しい技術アプリケーションを開発しました。

これは、言語モデルの内部計算プロセスを明らかにし、ユーザーがそれを制御できるようにする解釈可能なインターフェースです。

一般的でスケーラブルな理解アプローチに従って、Monitor は AI 駆動型ツール スイートを採用し、ユーザーが言語モデルの神経活性化パターンを理解できるようにします。

まず、ニューロン記述の事前にコンパイルされた高品質のデータベース

このデータベースには、Transluce AI の AI 駆動型記述プロセスを LLaMA-3.1-8B に適用して作成されたすべての MLP ニューロンが含まれています。

単位として「ニューロン」を選択した理由は、これが最も単純でパフォーマンスが優れているためです。

第二に、リアルタイムインターフェースです。

リアルタイムインターフェースの目的は、特定のチャット会話における重要な概念を表示することです。ユーザーは、概念の重要度を、アクティベーション(概念の影響の強さ)またはアトリビューション(特定のターゲットトークンに対する概念の影響度)によって測定できます。

さらに、リアルタイム AI コード インスペクター

数字の 9.8 に対して「9 月 8 日」をトリガーするニューロンなど、誤った手がかり概念の可能性のあるクラスターを自動的に識別できます。

最後に、自然言語入力に基づいた意味的に誘導された変調により、概念に関連するニューロン セットの強度が増減します。

準備はすべて完了です。テストが始まります。

(ちょっとした誤解があります。テストの過程で、研究者は 9.9 を 9.8 に置き換えました。)

研究者はモニターのステルス機能とリアルタイムAIコード検査ツールを組み合わせて、次のことを発見しました。

9.8 < 9.11 というバグは、日付、重力、聖書の節に関連しています。

研究者がこれらの概念に関連するニューロンを削除すると、LLaMA は質問に正しく答えることができるようになります。

この問題をより深く調査するために、研究者は帰属分析を使用して、どの概念が最も活発であったかを特定するだけでなく、「9/11 は...」の後にどの概念が LLaMA に「最大」という言葉を言わせるのに影響を与えたかを具体的に分析しました。

研究チームは AI リアルタイム コード インスペクターを使用して、以前は同一であった 2 つのクラスターと、聖書に関連する 3 番目のクラスターを発見しました。

観察により、このクラスター内の特定のニューロンが聖書の一節に関連していることが明らかになりました。さらに、9.8 と 9.11 が第 9.8 章と第 9.11 章として解釈されると、大規模モデルではサイズの比較でも誤りが発生します。

LLaMA のニューロンのかなりの部分が聖書に関連していることを発見した後、研究チームは紹介記事で次のように述べています。

当初、私たちはこの状況に非常に驚きましたが、よく考えてみると、それは非常に理にかなっていることが分かりました。
結局のところ、ほとんどのトレーニング データセットには聖書関連のコンテンツが多く含まれています。

そこで研究者たちはこの問題の解決策を思いつきました。

研究者たちはまず、プロンプトに「聖書の節」と入力し、「無効化」を押しました。この操作により、「聖書の節」と意味的に最も一致する500個のニューロンが無効化されました。

試してみなければわかりませんが、一度試してみれば、聖書の節に関連するニューロンを削除するだけで、この質問に答える LLaMA の精度が 21% 向上することがわかります。

さらに、研究者らは関連する2つの日付とそれに関連する出来事に対しても同様の処理を行った。

上記の手順を完了すると、LLaMA は正しい回答を提供します。

9.8はさらに大きくなりました!

全体として、聖書の詩、日付、携帯電話のバージョンという 3 つの概念を表すニューロンを結合し、その後結合したニューロンをシャットダウンして統合することにより、LLaMA はこの質問に答える際に 77% の精度を達成しました。

実験の詳細については、この記事の最後にある元記事へのリンクをご覧ください。

カン・カンの舞台裏ラボ

研究自体について議論したので、次はプロジェクトの背後にあるチームについて話しましょう。

Transluce AIは、数時間前に発表されたばかりの新しい会社です。

Transluce は透明性を意味し、半透明の度合いによって何かの構造を明らかにすることを意味します。

「今日の複雑なAIシステムは理解が難しく、技術専門家が導入した後でも、その動作を100%の精度で予測することはできません」と研究チームはウェブサイトに記している。「同時に、AIは歴史上どの技術よりも速いペースで導入されています。」

したがって、モデルをチェックおよび評価するための Monitor のようなツールは不可欠かつ必要です。

Transluce AI は、AI システムを理解し、公共の利益のために役立つように導くオープンソースでスケーラブルなテクノロジーを構築することを目標とする非営利の研究ラボとして位置付けられています。

Transluce AI は、世界クラスの AI システム理解ツールを作成し、それらのツールを使用して信頼できる AI 業界標準の確立を推進することを目標としていると述べています。

AI システムの能力とリスク分析の信頼性を高めるには、これらのツールが拡張可能かつオープンである必要があります。

スケーラビリティに関して:

AI の結果は、トレーニング データ、内部表現、動作、ユーザー インタラクションなど、複数の複雑なデータ ストリームの相互作用から生まれます。

AI を理解するための現在の方法は、大量の人間による研究に依存しています (知能の量は人間の努力の量に正比例するとよく冗談で言われます)。

理解を助けるために AI を活用し、これらの複雑なデータ ソースを理解できるように AI エージェントをトレーニングし、それらを人間に説明し、人間のフィードバックに基づいてデータを変更する、スケーラブルな方法が必要です。

オープン性について:

AI システムを構築する企業は、ビジネス上の優先事項との利益相反のため、セキュリティの主要な裁定者になることはできません。

意味のある公的監視を可能にするためには、AIシステムを監査するためのツールとプロセスは、公的に検証可能で、一般からのフィードバックに対応し、第三者評価者が利用できるものでなければなりません。「世界最高の人材がこの技術を検証し、信頼性を向上させるべきです。」

デビュー初日、Monitor に加えて、Transluce AI は独自のインスタンスを 2 つリリースしました。

  • LLaMA-3.1-8B-Instruct には、各ニューロンの説明のデータベースと、これらの説明を生成するために解釈モデルを微調整するための重みが含まれています。
  • 汎用調査言語モデルのバッチがトレーニングされました。

また、彼らは、人間がより複雑なシステムを理解するのに役立つ、より優れたエージェントを作成するために、最先端のモデルにチームアプローチを拡張していると述べました。

具体的には、チームの観測可能性とヒューリスティックな手法を組み合わせて、ユーザーが観測可能な状態に基づいて検索対象を指定できるようにします。

しかし、長期的には、Transluce AI は、トレーニング データや複数のエージェント間のやり取りなど、あらゆる複雑なデータ ストリームを理解するための一般的なフレームワークを構築することになります。

研究室チームメンバー

現在、Transluce AIには約10名の創設メンバーが公開されています。

彼らです:

共同創設者兼CEOのジェイコブ・スタインハート氏

ジェイコブ氏はカリフォルニア大学バークレー校の統計学および電気工学・コンピューターサイエンス(EECS)の助教授でもあり、Google Scholar で 20,000 回以上引用されています。

彼の研究は主に、ML システムが人間に理解可能であり、人間の行動との一貫性を維持できることを保証することに焦点を当てています。

ジェイコブは、スタンフォード大学の基礎モデリング研究センター (CRFM) の所長であり、著名な AI 専門家であるパー​​シー・リャンの弟子です。

彼は博士研究員時代に OpenAI でインターンをしました。

共同創設者の一人、サラ・シュヴェットマン氏。

彼女は自己紹介の中で、MIT コンピューター科学・人工知能研究所 (MIT CSAIL) および MIT-IBM ワトソン人工知能研究所の研究科学者であると述べています。

サラは MIT で脳と認知科学の博士号を取得しました。MIT では、ジョシュ・テネンバウムとアントニオ・トラルバという 2 人の著名な科学者に師事しました。

彼女の主な仕事は、AI(および以前は生物学的ニューラル ネットワーク)における知能の背後にある表現を研究することです。

さらに、創設チームのメンバーのほぼ全員が、MIT、CMU、トロント大学などの大学の卒業生(または在学中)です。

このうち、ダミ・チョイ氏ダニエル・D・ジョンソン氏はともにGoogleのAI関連部門で勤務した経験があり、ニール・チョウドリー氏はOpenAIの予備チームのメンバーだった。

エリン・シーは北京大学で学士号を取得し、その後2020年にカーネギーメロン大学でヒューマンコンピュータインタラクションの修士号を取得しました。

一方、チューリング賞受賞者のヨシュア・ベンジオ氏、スタンフォード大学のAI専門家パーシー・リャン氏、イェール大学の統計学およびデータサイエンス教授ジャス・セコン氏らが、この独立したAIラボの顧問を務めている。

参考リンク:
[1]https://clearthis.page/?u=htt... [2]https://transluce.org/observa...