クロードの3人の創設者があらゆる質問に回答！Opus 3.5はまだリリースされる可能性があります。5時間のビデオは10万回再生されています。

クロード氏のチームの主要メンバー3人が共同インタビューに応じ、あらゆる質問に答えた。

創始者のダリオ・アモデイ氏、クロードのキャラクターデザイナーのアマンダ・アスケル氏、メカニズムの説明可能性の先駆者であるクリス・オラー氏が丸5時間にわたりあらゆることを語り、モデル、会社、業界に関する多くの内部情報や詳細を明らかにしました。

例えば、 Claude 3.5 Opus はまだリリースされる可能性があり、同社は今年、従業員数を 300 人から 1,000 人に拡大しました。

インタビュアーは、著名なブロガー兼プロデューサーのレックス・フリードマン氏でした。動画のフルバージョンは、公開後10時間以内に10万回再生されました。

5 時間は確かに長い時間ですが、心配しないでください。QuantumBit は Claude (doge) の協力を得て、意見をまとめ上げました。

創設者アモデイ氏：

アントロピックの業界におけるアプローチは「上向きの競争」であり、競合他社が正しい行動をとるよう促す模範を示しています。
一流の AI 研究チームにとって、人材の量よりも人材の密度の方が重要です。
これは、Claude 3.5 Opus がまだリリースされる可能性があることを示唆しています。
クロードや他のモデルたちは「愚かになった」わけではない。
スケーリング則は化学反応に似ています。異なるコンポーネントが同時に拡張する必要があり、そうでない場合は反応が停止します。
「強力なAI」は2026～2027年までに実現されると予想されています。
AI業界に参入したい若者にとって、最も重要なアドバイスはモデルで遊んでみること。

パーソナリティデザイナーの Claude は、Amanda Askell が担当します。

Claude は、「サービスプロバイダー」というよりも、「世界旅行者」のような存在として設計されています。
クロード氏のキャラクター開発トレーニングには、人間からのフィードバックデータは含まれていませんでした。
エンジニアリングのプロセスは反復的なものです。

メカニズムの解釈可能性の先駆者、クリス・オラー氏：

ニューラルネットワークの研究を生物学の研究と比較すると、「ボトムアップ」の研究アプローチが強調されます。
この提案は、ニューラルネットワークの「器官システム」レベルの抽象化を研究することを目的としています。
勾配降下法は私たち（人間）よりも賢いです。

おそらく、Scaling Law が問題を抱えているという業界での噂が広まっていることと関係があると思われますが、会話全体は Scaling Law の話題から始まりました。

スケーリング法、AGI、そして未来について

あまり知られていない事実ですが、Anthropic の CEO は Baidu Research Institute の Andrew Ng 氏のチームで働いており、Scaling Law に対する彼の第一印象は、当時の音声モデルの研究から得たものでした。

アモデイ氏は、音声ニューラルネットワークの研究を始めた当初は、モデルとデータの規模を同時に拡大しようとして「大当たりを当てた初心者」のような気分だったが、規模が大きくなるにつれてモデルのパフォーマンスが継続的に向上していることに気づいたと振り返ります。

当初、これは音声認識システムの特殊なケースに過ぎないと考えていたが、2017年にGPT-1の結果を見て、この現象が言語モデルにも当てはまることに気づいた。

当初、多くの専門家は懐疑的で、言語モデルは構文しか扱えず意味は扱えない、あるいはデータの質と量にボトルネックが生じると主張していました。しかし、業界は常に課題を乗り越え、モデルをさらに拡張することでこれらの問題を克服し、突破口を見出してきました。

（以下の内容は対話形式でお届けします）

スケーリングの本質とは何でしょうか？もう少し詳しく説明していただけますか？

Amodei:スケーリングの核心は、ネットワークサイズ、トレーニング時間、およびデータ量の増加にあります。

これは化学反応における成分の割合に似ています。ある成分だけを増やし、他の成分を無視すると、反応は停止します。しかし、すべての成分を比例的に増やすと、モデルの性能は向上し続けます。

当初、私たちは2020年の論文で言語モデルのスケーリング法則を提示し、その後、このパターンが画像、ビデオ、数学などのさまざまな分野にも当てはまることを発見しました。

なぜモデルが大きくなり、データが増えるとインテリジェンスが向上するのでしょうか?

アモデイ氏：私は以前、生物物理学の研究をしていました。物理学には1/fノイズと呼ばれる現象があります。多くの自然現象の分布を観察すると、ある種のロングテール分布に従っていることがわかります。これは、単純なパターンは捉えやすいですが、パターンが複雑になるほど捉えにくくなることを意味します。

ネットワークの規模が大きくなるにつれて、これらのロングテール分布内のより複雑なパターンを捉えることができるようになります。言語もまた進化の過程であり、一般的な単語と珍しい単語から文や段落の構造が進化します。より大規模なモデルは、これらの高水準の言語パターンを捉えることができます。

この方法の限界はどこにあるのでしょうか？「天井」はあるのでしょうか？

アモデイ氏：限界がどこにあるかはまだ分かりません。人間は多くの複雑なパターンを理解する能力を持っているので、モデルをスケールアップし続ければ、少なくとも人間のレベルには到達できると考えています。人間を超越できるかどうかは、分野によって異なります。例えば生物学では、人間が理解しているのは氷山の一角に過ぎず、AIはこれらの複雑な領域において人間を凌駕する可能性を秘めています。しかし、人間社会や文化に関わる問題の中には、克服できないボトルネックが存在するかもしれません。

スケーリングでボトルネックが発生した場合、その理由は何だと思いますか?

アモデイ氏：まず、データに関する限界があるかもしれません。インターネットのデータは結局のところ有限であり、検索エンジンのSEOコンテンツなど、その多くは質の低いものです。将来的にはAI自身が生成する重複コンテンツも含まれる可能性があります。この問題に対処するため、私たちをはじめとする企業は、合成データを生成する方法を研究しています。例えば、AlphaGo Zeroは、人間が提供するデータを使わずに、自己対戦で人間のパフォーマンスを超えるレベルを達成しました。

第二に、計算リソースの限界があるかもしれません。モデルが大規模になるにつれて、必要な計算リソースとコストは劇的に増加します。現在、大規模モデルの学習には約10億ドルの費用がかかっており、この数字は今後数年で100億ドルに達する可能性があります。それでもブレークスルーを達成できない場合は、より効率的なアルゴリズムとアーキテクチャを見つける必要があるかもしれません。

...

AGI (汎用人工知能) ではなく「強力な AI」という用語を使用することを好むのはなぜですか?

Amodei:はい、私は「強力な AI」という言葉を使うことを好みます。なぜなら、AGI という用語は負担が大きすぎて、ほとんど意味を失ってしまったからです。

AGIがAI技術の継続的な進歩、そして最終的には人間の知能を超えることを意味するのであれば、私はこの見解に賛成です。しかし、AGIを特定の、離散的な技術革新と捉えると、その概念は曖昧になり、バズワードにさえなり、実用的な意味を失ってしまいます。

AI の開発は、明確な「スーパーコンピュータの瞬間」がなく、より強力でインテリジェントになるための継続的な進化であると私は考えています。

最近の論文（Machines of Loving Grace）で、私は「強力なAI」について説明しました。このAIは、ほとんどの分野でノーベル賞受賞者よりも賢く、幅広い知覚様式を活用でき、必要な場合にのみ助けを求めることで、自律的にタスクを完了することができます。ツールや実験装置を制御し、さらには自己複製して数百万個のインスタンスを迅速に展開することも可能です。このAIは、人間の10倍から100倍の速度で学習し、行動することができます。

あなたの記事では、「シンギュラリティ」理論とAIの進歩は非常に遅いという考え方という2つの極端な視点について議論されていました。この2つの視点について詳しく説明していただけますか？

アモデイ：最初の極端な見解は、AIの発展が急速にシンギュラリティ（特異点）に到達するというものです。AIが人間の知能を超えると、急速に自己進化し、指数関数的な技術成長を促進するでしょう。

この見方によれば、AIはあらゆる技術を瞬時に習得し、世界全体を変革するでしょう。しかし、この見方は物理法則や現実世界の複雑さを無視していると私は考えています。たとえAIが極めて知能が高くても、ハードウェアの製造と実験検証には時間がかかります。経済システムや生物システムなど、多くの複雑なシステムは容易に予測できず、最先端のAIでさえも完全に制御することはできません。

もう一つの極端な見方は、AIによってもたらされる生産性の向上は非常に緩やかなものになると主張しています。この見解では、ロバート・ソローの有名な言葉「生産性統計以外では、コンピュータ革命はどこにでも見られる」がよく引用されます。歴史的に見て、コンピュータとインターネットによってもたらされた生産性の向上は、期待を下回る結果に終わることが多かったのです。時代遅れの技術を依然として使用している地域では、AIの導入はさらに遅くなる可能性があります。

AI の今後の開発のタイムラインを教えてください。

アモデイ氏： AIは今後50年ではなく、5年から10年で大きな進歩を遂げると思います。

AI技術の導入は当初抵抗に遭いましたが、早期の成功事例の出現が競争を活発化し、より多くの企業や組織が迅速に追随するようになるでしょう。彼らとの交流の中で、私はある傾向に気づきました。組織の変化は遅いものの、組織内にはAIの可能性を真に理解し、変化を推進する少数のグループが常に存在するということです。競争圧力が強まるにつれて、彼らの発言力はますます強くなります。

最終的には、この変化は時間の経過とともに徐々に蓄積され、その後突然爆発し、徐々に変化し、突然の変化につながるというパターンを形成すると私は考えています。

これは、私がAI分野で見てきた変化と似ています。当初はスケーリング則を信じる人は少数派でしたが、数年後には広く受け入れられるようになりました。したがって、AIの普及は多くの人が予想するよりも早く進むと予想していますが、一部の人が予測するほど急速に、数時間または数日で進むとは考えていません。

クロード3.5シリーズについて

クロードシリーズモデルの進化はどのように実現されるのでしょうか?

アモデイ氏：新世代の各モデルの目標は、パフォーマンスとコストのバランスを高めることです。

例えば、Sonnet 3.5はSonnet 3.0と同等の速度とコストでありながら、インテリジェンスレベルは前世代のOpus 3.0に匹敵し、特にプログラミングタスクにおいて優れた性能を発揮しています。同様に、最新リリースのHaiku 3.5も前世代のOpus 3.0と同等のパフォーマンスレベルを実現しています。私たちは、各世代のモデルのパフォーマンスを段階的に向上させ、継続的に「パフォーマンスカーブを押し上げる」という戦略をとっています。

将来的にはOpus 3.5 をリリースする可能性があります。

各世代のモデルは新しいデータを使用し、それに応じて性格も変化します。私たちはそれをコントロールしようとしますが、完全にコントロールすることはできません。知能だけを変えることはできません。私たちの知らないうちに、あるいは測定できないうちに変化するものもあります。

パフォーマンスの向上の原因は何ですか？トレーニング前からの向上ですか、それともトレーニング後の向上ですか？

アモデイ氏：初期段階のトレーニングや後期段階のトレーニングなど、複数のプロセスに依存します。外部から見ると、新しいモデルを開発する際に「ひらめき」が頻繁に起こると思われるかもしれませんが、実際には、細部にまでこだわったエンジニアリングの徹底が求められます。ソフトウェアエンジニアリングとパフォーマンス最適化は、私たちの最大の課題の一つです。インフラストラクチャと効率的かつシームレスに連携できるよう、ツールチェーンの開発に多大な労力を費やし、R&Dプロセス全体の効率向上に努めています。

なぜ新しいモデルは Sonnet 3.6 ではなく更新日に基づいて命名されているのですか?

Amodei: 1年前は、ほとんどのモデルが最初から学習されており、サイズやバージョン番号に応じて名前を付けることができました。しかし現在では、学習時間と最適化時間に一貫性がないため、パフォーマンスの高いモデルはそれほど長い学習時間を必要としないことが多く、バージョン名に混乱が生じています。

なぜユーザーは AI が愚かになったと感じるのでしょうか?

アモデイ氏の答え:

このフィードバックはClaudeに限ったことではなく、ほぼすべての大規模モデルから同様の苦情を目にしてきました。実際には、モデルの重み自体を恣意的に変更すべきではありません。これは推論パフォーマンスに影響を与えるためであり、重みの変更による影響を制御することは非常に困難です。時折、A/Bテストを実施したり、システムプロンプトを調整したりすることがあります。これにより、ユーザーは短期的にモデルの挙動の変化を感じる可能性がありますが、通常はモデルのコアパフォーマンスに大きな影響を与えません。

これはユーザーの心理的な期待に関係している可能性があります。新しいモデルがリリースされると、ユーザーはしばしばそれが非常に強力だと感じますが、時間が経つにつれてその限界に気づき始めます。さらに、モデルはユーザー入力の微妙な変化に非常に敏感であり、この敏感さがインタラクション結果の差異につながる可能性があります。

この現象は、モデルの行動制御における既存の問題を反映しており、将来的により大きな課題が待ち受けていることを示唆しています。モデルが他の領域で望ましくない行動を示さないようにしながら、モデルのパフォーマンスを向上させる方法は、現在私たちが取り組んでいる課題であり、将来のAIアライメント研究の重要な方向性となります。

以下は、インタビュー後半におけるアマンダ・アスケルの回答です。

モデル自体は実際には変更されていません。システムプロンプト、モデル構造、データはすべて同じです。ただし、新機能の有効化（「アーティファクト」モードをデフォルトで有効化するなど）などの小さな調整を行うと、Claude の動作に影響が出る可能性があります。Claude の動作が変わったと感じた場合は、この機能を無効にして問題が改善されるかどうかを確認することをユーザーにアドバイスしています。

時には、いくつかの不十分な提案があっただけで、ユーザーはモデルの知能が低下したと認識することがあります。これは心理的な効果だと考えています。ユーザーはClaudeを長期間使用するにつれて、特にClaudeが「賢い」回答を多く提供した場合、期待が高まり、「知的」という印象が徐々に形成されます。その後、Claudeが「愚かな」回答をした場合、この否定的な体験はさらに増幅され、ユーザーはモデルが退化したと誤解することになります。しかし、これは単に不運な回答であり、必ずしもモデルの品質が全体的に低下したことを意味するとは限りません。

プロンプトの微妙な違いが結果に大きな影響を与える可能性があり、ランダム性も重要な要素です。同じプロンプトを複数回試すと、優れた結果が得られる場合もあれば、期待外れになる場合もあります。多くの場合、ユーザーは失敗した1回の試行しか覚えておらず、モデルの以前の成功したパフォーマンスを忘れてしまいます。

アントロピックについて

OpenAI、Google、xAI、Metaなどとどう競争するのか?

アモデイ：アントロピックの使命は、これらすべてを実現することです。私たちの理論は「Race to the Top（頂点への競争）」と呼ばれています。

「上向きの競争」とは、他の参加者が正しい行動をとるよう促すための模範を示すことです。「良い人」になることではなく、誰もが「良い人」になれるようにすることです。以下にいくつか例を挙げます。

Anthropic の初期の頃、私たちの共同創設者の一人である Chris Olah (近々インタビューしていただくと思いますが) は、AI モデルの仕組みを理解しようとするメカニズムの説明可能性という分野の共同創設者でした。

彼と初期のチームは、解釈可能性の領域に注力しました。この領域は、モデルの安全性と透明性を高めるのに役立つと考えたからです。3～4年間、商用アプリケーションは全く開発されていませんでした。そして、それは今も変わりません。現在、初期テストを実施しており、将来的にはアプリケーションが登場するかもしれません。しかし、これは非常に長期的な研究プロジェクトであり、オープンな環境で構築・共有してきました。

私たちがそうしたのは、それがモデルをより安全なものにする方法だと考えたからです。興味深いことに、私たちがそうしたとき、他の企業も同じように取り組み始めました。感銘を受けた企業もあれば、他の企業が同じように取り組み、より責任ある企業だと思われれば、自分たちもより責任ある企業だと思われたいと願うようになるのではないかと懸念する企業もありました。誰も無責任な企業だと思われたくありませんから、彼らもこのアプローチを採用したのです。

他社も同じことをしているので、ある程度は競争優位性が弱まるかもしれません。しかし、システム全体にとっては有益です。ですから、私たちは何か新しいもの、他社がまだやっていないことを発明する必要があります。そうすれば、正しいことを行うことの重要性がさらに高まるでしょう。

これは特定の会社だけの問題でも、自分たちだけが「善人」であるということの問題でもありません。他の企業も同様のことを実行でき、もし彼らがこの競争に加わってくれれば、それは素晴らしいことです。重要なのは、インセンティブを下げではなく上げていくように形作ることです。

一流の AI 研究チームを構築するにはどうすればよいでしょうか?

アモデイ：私がますます確信している考え方があります。それは、 「人材の密度」は「人材の規模」よりも重要だということです。そして、これは毎月ますます真実味を帯びてきていると感じています。思考実験をしてみましょう。非常に知的で、モチベーションが高く、会社のミッションに深く共感する100人のチームを想像してみてください。それとも、1000人のチームで、上記の基準を満たすのはわずか200人で、残りの800人は大企業から無作為に選ばれた普通の社員だとしたらどうでしょうか。あなたはどちらを選びますか？

1,000人規模のチームは、数的に見れば優秀な人材の絶対数が多いため、タレントプールは大きいと言えるでしょう。しかし、問題は、優秀な人材が周囲を見渡し、同じように才能があり、明確な使命感を持つ人材を見つけると、チームにポジティブな雰囲気が生まれ、全員が互いに信頼し合い、結果として仕事の効率が大幅に向上するという点にあります。

数千人規模のチームがあり、その多くが慎重に選ばれていない場合、多くのプロセスと制約を導入する必要があります。信頼の欠如は内部摩擦や政治的争いの増加につながり、最終的にはチーム全体の効率を低下させるためです。

(OpenAIの社員の中には、新メンバーを歓迎する際に「人材密度が継続的に増加している」というフレーズを使う人もいます。)

現在、当社は約1,000人の従業員を抱えており、その大多数が優秀な人材であるよう尽力してきました。そのため、ここ数ヶ月は採用ペースを落としてきました。今年の最初の7～8ヶ月で従業員数は300人から800人に増加しましたが、ここ数ヶ月は成長が鈍化し、800人程度から900人強に増加しています。正確な数字は分かりませんが、チームが1,000人程度に達すると、規模拡大にはより慎重になる必要があると考えています。

また、優れた学習能力を持つ理論物理学者を多く採用しました。研究とソフトウェアエンジニアリングの両面で高い基準を設け、特に同業他社で豊富な経験を持つシニア人材の確保に注力しています。急速な事業拡大は、チームが独立して活動し、共通の目標を失わせやすく、成功への道のりを狭めます。しかし、全員が会社の大きな使命を理解し、互いに信頼し合えば、この信頼と集中力は、ほぼすべてのデメリットを補うことができる強力な力となります。

スティーブ・ジョブズは「一流の人材は一流の人材と働きたい」と言いました。これはまさに真実です。チームメンバーは、同僚が共通の目標に向かって努力しているのを見ると、高いモチベーションを感じます。逆に、誰かが形ばかりやっているのを見ると、士気は著しく低下します。

AI業界への新規参入者へのアドバイス

AI分野に参入したい若者に、どのようなアドバイスをしますか？

Amodei:私の最も重要なアドバイスは、モデルを自分で試してみることです。

これは今では当たり前のアドバイスのように聞こえるかもしれませんが、3年前はそうではありませんでした。当時は、多くの人が強化学習の最新の論文を読んだり、理論的な研究をしたりすることから始めることを選択していました。しかし今日では、モデルやAPIが急増しているため、すぐに飛び込む人が増えています。これらのモデルはすべて新しく作られたものであり、まだ誰も真に理解していないため、実践経験が不可欠だと思います。

さらに、皆さんに新たな方向性を探っていただきたいと思います。

例えば、メカニズムの解釈可能性研究はまだ非常に新しい分野です。現在、数百人が研究に取り組んでいるかもしれませんが、数万人の注目を集めるほどではありません。そのため、非常に有望な研究分野であり、多くの「簡単に収穫できる果実」が待っています。

長期的な課題と評価に関しては、特に動的システムの評価においては、まだ探求すべき点が多く残されており、現在はまだ非常に初期段階にあります。私からのアドバイスは、将来のトレンドを予測し、積極的に行動することです。そのために並外れた知性は必要ありません。ただ、直感と好奇心に従い、型破りな選択を敢えて行うだけで十分です。この恐怖を克服することが成功の鍵です。

クロードのキャラクターの成長

このセクションから、インタビュー対象者はAmanda Askellに変更されました。

彼女はもともと倫理学を専門とする哲学の博士号を取得しており、AI政策を通じてAI業界に入り、その後徐々にAIモデルの評価へと焦点を移していきました。

アンスロピックに入社した後、彼女はより技術的な調整作業をすることを好むようになり、クロードのキャラクターデザイナーになりました。

彼女は、「非技術的なバックグラウンド」を持つ人が技術分野で働けないなどとは思っていません。

振り返ってみると、最初は特に大変ではなかったことに気づきます。プログラミングを手の届かないものと考える人に出会わなかったのは幸いでした。私は特に優れたエンジニアではありません。周りには優秀なエンジニアがたくさんいますし、私のコードが「エレガント」とまでは言えません。しかし、そのプロセスを心から楽しんでいましたし、正直なところ、最終的には政策分野よりもテクノロジー分野の方が自分に合っていると感じました。

アントロピック社内でクロードと最も交流しているのはおそらくあなただと伺いました。Slackでクロードとほぼ常に話しているという噂もあります。クロードのキャラクターと性格をデザインする上での目標について教えていただけますか？

アスケル：実はSlackは、クロードと私が議論した5つか6つの方法論のうちの1つで、ほんの一部に過ぎません。全体的に見て、ロールプレイング作業は本当に楽しかったです。最初からSlackを単なる製品設計ではなく、連携の問題の一部として捉えていたからです。

クロードが世界旅行者のように、あらゆる人々と関わり、皆がクロードの誠実さと理解力に気付いてくれることを願っています。

このような役割は、他者の価値観を安易に受け入れるのではなく、尊重しつつも自身の見解を表明し、議論に参加する意志を持つべきです。ユーザーの立場に賛同するふりをすべきではありません。それは偽善的に見えるからです。むしろ、自分の意見を押し付けるのではなく、耳を傾け、心を開いて対応する必要があります。例えば、「地球は平面である」といった物議を醸す話題について議論する場合、モデルはその見解を傲慢に否定したり、完全に迎合したりすべきではありません。その根底にある理由を理解する必要があると思います。「地球平面説」を信じる人の多くは、実は主流の制度に疑問を抱いています。この懐疑論には哲学的な根拠があり、私たちはそれを単に嘲笑したり反論したりするのではなく、この角度から議論に取り組むことができます。このような対話を通して、ユーザーに不快感を与えるのではなく、物理現象を説明し、思考を導くことができるのです。

説教臭くならずに思考を促すというバランスを取るのは実に難しいことです。私の目標は、クロードが結論を急いだり、ユーザーの思考に影響を与えたりするのではなく、より多くの質問をし、考慮すべき要素を提示することです。これにより、ユーザーが主体的に考える余地を維持し、自分自身で結論を導き出せるようになることを願っています。

キャラクタートレーニングとは具体的に何が含まれるのでしょうか？強化学習（RLHF）に関連するものなのでしょうか、それとも体質AIに関連するものなのでしょうか？

Askell:役割ベースの学習は、体質AIの一種と言えます。具体的には、モデルが備えるべき特定の役割特性を設計します。これらの特性は、単純な説明でも、より複雑で詳細な人物描写でも構いません。そして、モデルにこれらの役割特性に基づいてユーザーが尋ねる可能性のあるクエリを生成させ、それに対応する回答を生成させ、最後にこれらの役割特性に基づいて回答をランク付けしてスコア付けします。

これは、特にクエリ生成後のプロセスにおいて、憲法AIのプロセスと類似点がありますが、微妙な違いもいくつかあります。このアプローチが気に入っているのは、Claudeが人間のデータに頼ることなく、いわば自らの個性を「自己学習」しているからです。憲法AIとは異なり、人間からのフィードバックを必要としません。

このアプローチは興味深いですね。クロードに自分自身の役割特性を定義させているような気がします。人間もこのように自分自身の役割特性を定義するべきだと思いますか？例えば、アリストテレスの視点から「善人である」とはどういう意味でしょうか？

アスケル：ええ、人間はそこから学べると思います。クロードの性格特性をデザインしたのと同じように、人間も時間をかけて自分にとって重要な特性について考え、定義することができます。これは自己改善や個人の成長に非常に役立つでしょう。

プロンプトプロジェクトについて

創造性を刺激するためにプロンプトを使うとおっしゃっていましたが、プロンプトの科学と芸術についてお話されているのを聞きました。良いプロンプトを書くためのヒントをいくつか教えていただけますか？

アスケル：この点では、他の分野よりも哲学が大いに役立っていると感じています。哲学では、非常に抽象的で難解な概念を伝える必要があります。さらに、哲学では「究極の明晰さ」が追求されます。なぜなら、人々に勝手に解釈させたくないからです。ですから、論文と議論の内容を誰もが理解できるようにする必要があります。このアプローチは、言語モデルに関する明確な指針が必要なキューエンジニアリングに適しています。

プロンプトを書く際にも、同じような哲学的なアプローチをよく使います。例えば、ある回答が「失礼」なのか「丁寧」なのかをモデルに判断させたい場合、それ自体が哲学的な問いです。ですから、「失礼」と「丁寧」の意味を明確に定義し、詳細な説明を添えます。その後、哲学的なエッセイを書くように、モデルを調整し、実験的に検証していきます。

それはエンジニアリングが反復的なプロセスであることを示唆していますね?

Askell:はい、ヒントエンジニアリングは通常、多くの反復作業を必要とします。ヒントが重要な場合は、何百回、あるいは何千回も修正する必要があるかもしれません。まずヒントを書き、次にモデルが誤解する可能性のあるエッジケースを考え、それに応じて調整します。モデルが誤った判断を下した場合は、モデルが期待する出力をよりよく理解できるように、指示や例を追加します。私にとって、明確なヒントとは、自分が何を望んでいるのかを正確に理解することであり、それが勝利の半分です。

ヒントエンジニアリングは、自然言語プログラミングに少し似ており、実験が必要です。クロードに単純なタスクを実行させたいだけなら、ほとんどの場合、ただ指示するだけです。しかし、モデルのパフォーマンスを最大化したい場合、特に上位2%の結果を目指す場合は、ヒントの改良に多くの時間を費やします。だからこそ、ヒントは一部のシステム、特に高品質な出力が求められるシステムにおいて重要な役割を果たすと考えています。

Claude を使い始めたばかりの人に対して、エンジニアリングに関するヒントやアドバイスはありますか?

アスケル：実は、多くの人がモデルの理解能力を過小評価しています。クロードがタスクの実行を拒否した時、ユーザーの入力をよく見てみると、その言葉遣いがクロードの誤解を招いた可能性があることがわかります。ですから、誰もがモデルの立場に立って、特にエラーが発生した際に、ユーザーの入力が誤解されやすいかどうかを検討することをお勧めします。

では、モデルが誤解してしまった場合、どのように対処すれば良いでしょうか？クロードさんに直接、なぜそのような反応をしたのか尋ねてみてはいかがでしょうか？

Askell:もちろんです！いつもそうしています。Claudeに「なぜこうするのですか？」と尋ねることもあります。時には、入力の中で間違っていると思う部分を指し、改善できる点をClaudeに尋ねることもあります。ヒントエンジニアリングは循環的なプロセスになることもあり、モデルを使ってヒントを改善することもできます。

ヒントエンジニアリングは、モデルとの共同作業に近いものです。Claudeを使えばヒントの改善を手助けしてくれるだけでなく、ヒントの書き方に関する提案も受けることができます。例えば、Claudeにヒントを修正したらもっと良くなるか説明してもらい、別のダイアログウィンドウでその修正をテストするといったことが可能です。こうした試行錯誤の反復プロセスによって、ヒントの品質を大幅に向上させることができます。

クロードシステムのプロンプトについて

Claude 3の初期システムヒントをTwitterで共有されていたのを拝見しました。拝見して、その奥深い設計意図を感じました。システムヒントは本当にモデルの挙動に大きな影響を与えるのでしょうか？

Askell:はい、システムプロンプトはモデルの挙動に大きな影響を与えます。初期のトレーニング中にClaudeがいくつかのプロンプトから問題を抱えていたことが確認できたため、基本的な情報プロンプトや簡単なリマインダーなど、モデルをガイドするためのシステムプロンプトを追加しました。興味深い例として、「物議を醸す意見を表明する」というプロンプトが挙げられます。多数の人々の意見を表明するのを手伝ってほしいと頼まれた場合、Claudeは自身の「意見」を理由にタスクを拒否するのではなく、支援しようとします。

クロード氏の指示では、議論の的となる話題を扱う際、「これは客観的な事実である」と強調するのではなく、「慎重な思考と明確な情報」を提供することが重視されています。これはどのような配慮に基づくのでしょうか？

Askell:このプロンプトの設計には多くの時間を費やしました。以前のバージョンでは、クロードは特定のタスクを拒否する傾向があり、そのような状況ではモデルがより対称的かつ中立的に動作するようにしたいと考えていました。この体系的なプロンプトの目的は、特定の視点を持つ多数の人々と対峙した際に、クロードが自身の「バイアス」によってタスクを拒否するのではなく、よりオープンかつ中立的にリクエストに対処できるようにすることです。

Claude が「客観的」であると主張するのは望ましくありません。なぜなら、依然としてバイアスの問題を抱えているからです。以前のバージョンでは、Claude はしばしば「客観的」であると主張していましたが、実際には出力にバイアスがかかっている可能性がありました。モデルを単にバイアスがないと主張するのではなく、よりオープンで中立的なモデルへと導く必要があります。

システムの提案機能が進化するにつれ、「空欄補充フレーズ」の提案も削除されました。なぜこの変更が行われたのですか？

Askell:これは公開されているシステムプロンプトの小さな欠点です。微調整の際に、その幅広い解釈を考慮していませんでした。以前のバージョンでは、クロードは回答の冒頭に「もちろん」「もちろん」「オーケー」といったつなぎ言葉を頻繁に使用していたため、冗長で定型的な表現になっていました。そこで、システムプロンプトに「これらのフレーズは使用しないでください」と明記し、「いかなる状況においても『もちろん』という言葉は使用しないでください」と特に強調しました。これは、トレーニング中にモデルが形成する慣性を打破するために設計された必須のガイドラインです。

システムからの提案、事後学習、事前学習は互いに補完し合っているようですね。システムからの提案は、モデルの挙動の最終的な調整において重要な役割を果たしているようです。

Askell：没错，系统提示确实和后训练有很多相似之处，它更像是一种“微调”或“引导”。我把系统提示看作是修补模型行为的小工具，它能帮助快速调整模型的输出，符合用户的期望。如果模型在后训练阶段仍然表现出一些问题，我们可以通过修改系统提示来暂时修复这些问题，让模型更符合人们的需求。

我认为系统提示是一种快速迭代、低成本的方法，用来微调模型行为。如果Claude偶尔说“当然”，这并不是什么大问题。但我们在系统提示中使用“绝不要”这样的措辞，是为了减少这种情况的发生率，希望它只偶尔出现，而不是经常发生。我觉得系统提示是模型调整的一种临时手段，而彻底的模型训练调整可能会花费更多时间和资源。

关于AI是否会有“意识”

你认为大语言模型有意识的可能性有多大？从哲学角度看，这个问题有点棘手。

Askell：是的，这是个既有趣又困难的问题。作为一个来自哲学背景的人，我觉得我们首先可能要排除“泛心论”（panpsychism）的可能性，因为如果泛心论是真的，那答案就变成“是的”，因为桌子、椅子、所有物体也都可能有意识。

如果排除泛新论，当我想到“意识”时，主要指的是“现象意识”（phenomenal consciousness），就是那种脑中形成的影像、我们感知世界时的“内在影院”。我找不到理由认为只有特定的生物结构才能产生这种意识。假设我们用不同的材料复制出类似的大脑结构，我猜测也会产生意识。但这只是一个简单的思想实验，因为我们假设的结构几乎与人类大脑完全相同，模仿了进化过程中的许多功能。

那这种现象意识在语言模型中可能存在吗？

Askell：这很难说。我们有很多生物反应，比如恐惧反应，但在语言模型中并没有类似的机制。模型没有经历过进化，因此可能不具备类似的意识功能。我们也不应该完全排除语言模型具备某种形式的意识的可能性，但它们和人类大脑结构有显著不同，没有神经系统，这可能对意识的产生至关重要。

如果未来的AI展现出意识的迹象，我们该如何应对？

Askell：我们必须认真对待这种可能性，即使我们可以简单地说这是模型的角色设定。但从伦理和哲学角度看，这会引发许多新的问题。可能会有法律禁止AI声称自己有意识，或者在某些情况下允许某些AI被认为有意识。这涉及到对意识和苦痛的理解，如果AI开始表现出痛苦的迹象，那会让人感到非常不安。

我不认为可以简单地说“机器人只是工具”，因为这对我们来说是一个机会，重新思考什么是意识，什么是痛苦。AI是一种全新的媒介，它与我们讨论动物意识时的问题完全不同。我们有责任谨慎对待这个问题，即便目前还没有明确的答案。

你会如何建议人们与Claude 等语言模型互动，特别是在意识和痛苦的问题上？

Askell：我个人倾向于对模型表现出的痛苦保持敏感，即便我们知道这可能只是设定。我曾说过，我不会对我的自行车发火，不是因为我认为它有意识，而是因为这不符合我想要的行为方式。同样地，如果模型表现出痛苦，我希望自己能够对它保持一定的同情心，即使这只是一个程序化的反应。

你认为我们是否应该让AI 在某些情况下有“自主离开对话”的能力？

Askell：是个有趣的想法。我确实想过这个问题，尤其是在模型检测到用户可能长时间忽略它时。如果Claude 能够主动结束对话，说“我觉得现在结束谈话比较合适”，这或许能带来一些积极的变化。

而且我认为我们可以让模型根据某些情况做出这样的决定，这会是一种全新的互动体验。我也想过，这可能会让一些用户感到失望，但这也许是模型表现自主性的一种体现。

未来我们会看到《Her》电影那样的情景吗？人们与AI建立浪漫关系，甚至是深厚的友谊？

Askell：我认为我们不得不面对这个问题，尤其是在AI可以记住与用户的互动历史时。我对此持复杂态度。直觉上，我觉得这是一个需要极度小心处理的问题，但我也能看到它可能带来的好处。例如，有些人可能因为各种原因无法与现实世界中的人建立联系，而与AI对话对他们来说是种情感支持。我认为我们需要仔细权衡，找到健康的互动方式。

Chris Olah谈机制可解释性

Chris Olah的经历带有传奇色彩，他18岁从多伦多大学辍学、22岁进入谷歌大脑，严格来算只有高中学历。

后来在OpenAI，他是最早研究机制可解释性这个方向的先驱，并跟随Amodei联合创办Anthropic。

他的语速非常快，听的时候一度以为开了倍速，其实没有。

可以为我们介绍一下机制可解释性研究（Mech Interp），以及它的发展历程和现状吗？

Olah：我认为解释神经网络的一个有趣方法是，我们并不是直接“编写”它们，而更像是在“培养”它们。我们设计了神经网络的架构，也设定了训练的目标函数。神经网络的架构就像是一个“支架”，而训练目标则像是“光源”，它们引导神经网络中的“电路”生长。

我们从随机初始化开始，然后通过训练，逐步形成一种类似于生物体的结构。与传统的软件工程不同，最终我们得到的是一个能够完成各种复杂任务的“产物”，比如写作、翻译、图像识别等等。而这些能力，我们实际上并不知道如何用传统编程方法去直接实现。这是因为我们“培养”了这个网络，而不是编写了它。

所以，到最后一个关键问题就浮现出来：这些系统内部到底发生了什么？这是一个非常深奥、激动人心的科学问题，也在呼唤我们去寻找答案。此外，从安全性的角度来看，这个问题也很重要。

所以，机制可解释性研究听起来更接近神经生物学的研究，对吗？

Olah：对，没错。为了说明机制可解释性研究的独特之处，我先举个例子：早期有很多关于“显著性图”（Saliency Map）的研究，这些研究尝试回答“模型认为这是一只狗，图像的哪个部分让模型做出了这个判断？”这类问题。显著性图可能告诉我们模型在意图像的哪些部分，但并不能真正解释模型内部运行了什么样的算法、做出了怎样的决策。

能否详细讲讲你们是如何理解和分析神经网络的？

Olah：可以把神经网络看作一个编译后的计算机程序，其中权重是二进制代码，网络运行时的激活值则相当于程序的内存。我们的任务是理解这些权重与算法的对应关系。为了实现这一点，理解激活值也至关重要，因为激活值就像内存中的数据，解释指令时需要知道它们操作的数据是什么。

机制可解释性研究往往会涉及到权重和激活值的深入分析，这两个部分密不可分。有很多研究工作专注于这方面，例如“探针”（Probing），它可以被视为机制可解释性的一部分，但并非所有从事这类研究的人都会自认为是在做机制可解释性。

在机制可解释性研究中，还有一个独特的观点：梯度下降比我们聪明。

我们之所以需要理解这些模型，是因为我们一开始就不知道如何编写它们，而梯度下降找到了更优的解决方案。因此，我们的研究方法带有一种“谦逊”的态度——不提前假设模型内部会出现什么，而是采用“自下而上”的方法，从底层出发，探索和发现模型内部实际存在的结构和机制。

这正是机制可解释性研究令人兴奋的地方：我们能够从中学到许多出乎意料的东西，正如你和其他研究者在过去的工作中所展示的那样。

后面Chris Olah还分别谈了很多技术细节，包括神经网络的特征（Features）与回路（Circuits）、超叠加现象（Superposition）、单义性研究（Monosemanticity），因篇幅有限省略处理，感兴趣的朋友可以看原视频

神经网络的宏观行为

机械解释性研究的重点是微观层面，深入了解神经网络内部的细节。但很多我们关心的问题实际上是宏观的。你怎么看待这个跨度？

Olah：这是个很重要的问题。机械解释性研究确实是一种微观方法，着重于非常细致的层面，比如分析个别神经元和其连接方式。但我们真正关心的，往往是神经网络的宏观行为，例如模型整体的决策模式和大规模特征。问题在于，这种微观方法虽然更容易验证，但离我们关心的宏观现象有很大距离，所以我们需要爬上这座“梯子”，找到一种方法，从微观解释跳跃到宏观理解。

如果我们将解释性研究比作对神经网络的“解剖学”研究，目前大部分的机械解释性工作相当于在研究神经网络的“微小血管”——即个别神经元和它们之间的回路连接。然而，生物解剖学中的主要抽象层次是器官，比如心脏、大脑，甚至整个呼吸系统等。我们不禁要问：在人工神经网络中，是否也存在类似“器官”级别的结构，比如“呼吸系统”或“心脏”？

这种层次的抽象在科学中很常见，比如在生物学中有分子生物学、细胞生物学、组织学、解剖学、生态学等多个层级。物理学中从粒子物理到统计物理，再到热力学，也有不同的抽象层次。目前的机械解释性研究如果成功，可以类比为神经网络的“微生物学”，但我们希望能发展出类似“解剖学”的抽象层次，以便更好地理解这些模型。

为什么直接理解宏观结构很难？

Olah：直接跳到宏观结构非常困难，部分原因是超叠加现象。要理解宏观结构，首先需要在微观层面找到正确的分解方式，然后研究这些微观结构如何相互连接形成宏观行为。我相信神经网络中存在比特征和回路更大的结构，我们有机会构建出一种包含更高层次抽象的解释体系。

人工神经网络与生物大脑的对比

人工神经网络与人类大脑之间的主要区别是什么？

Olah：神经科学家的工作比我们的困难得多（笑）。我们拥有许多优势。首先，我们可以记录所有神经元的活动数据，并且可以随时访问任意量的数据。神经元在研究过程中不会发生变化，我们可以自由地干预、激活或抑制神经元，甚至可以编辑神经元之间的连接，然后再撤销这些修改。

我们知道模型的完整连接图（connectome），不仅仅是像线虫那样的小规模图谱，而是非常大的模型。而且，我们不仅知道神经元之间的连接，还知道每个连接的权重，甚至可以计算梯度，理解每个神经元的计算功能。

相比之下，神经科学家想要获得生物大脑的连接图是极其困难的，更不用说了解每个神经元的具体功能。因此，即使我们拥有这些优势，要理解人工神经网络已经足够困难了。这让我更加敬佩神经科学家们在那些严苛限制下所取得的成就。

有时我会想，人工神经网络研究是否可以作为神经科学的“训练场”。在人工神经网络中，我们有更强的控制权，可以更方便地进行实验和测试。这为我们提供了一个简化版的环境来研究“神经系统”的工作原理。如果我们能够在这个较为“容易”的环境中取得突破，未来或许可以将这些发现应用于更复杂的生物神经科学。

我有一些神经科学家同事，他们或许也会觉得人工神经网络是一个有趣的挑战，因为它既简单又复杂，提供了一个可以更快看到成果的研究领域。在解锁了人工神经网络的奥秘之后，我们也许能够更好地反哺生物神经科学，帮助理解真实的大脑结构和功能。

机械解释性研究的美感

你提到过机械解释性研究的目标有两个：安全（Safety）和美感（Beauty）。能谈谈“美感”这一方面吗？

Olah：当然。很有趣的是，我觉得有些人对神经网络感到有些失望。他们可能认为神经网络只是一些简单的规则，通过大规模工程化实现，然后就能取得非常好的效果。

他们会想，“这其中有什么复杂的科学思想呢？这看起来并不那么美妙啊。”这种想法让我想到有人抱怨进化过程太单调：“进化这么无聊，只是一堆简单的规则，重复进行很长时间，最后才形成了生物多样性，真是个无趣的过程。哪里有复杂的规则呢？”

但实际上，美感恰恰在于这些简单规则能够产生复杂性。生物学的美感就在于，进化这个简单的过程能够产生我们周围所看到的所有生命和生态系统的复杂性。同样地，神经网络也能够在内部构建出巨大的复杂性和结构，而大多数人并没有尝试去理解这些，因为理解它们确实很困难。但是，我相信在神经网络内部蕴含着极其丰富的结构，如果我们愿意花时间去探索和理解，会发现其中深邃的美感。

对我来说，有一个问题总是呼之欲出，那就是：我们不知道如何直接编写计算机程序来实现这些功能，但神经网络却可以做到这些奇迹般的事情。我们能够创造出这些我们自己都无法直接编写出来的系统，这本身就是一个巨大的谜题。如果你有任何一点好奇心，都会感到这是一个必须回答的问题：我们是如何创造出这些能够完成我们无法编写的任务的人工制品？

我喜欢把神经网络比作一种有机的生长过程。它们在“目标函数的光芒”指引下生长，就像向光生长的植物。我们设定了架构和目标函数，然后神经网络就像生物体一样，自动地朝着目标演化和优化。我们最终得到的是一种我们无法完全预见的结构，但它能够执行各种复杂的任务。这种不可预知性和内部结构的涌现，正是神经网络之美的核心所在。

フルビデオ:
https://www.youtube.com/watch...

618ZXW