|
オープンソース協会開源社 以下の記事は、魏建凡著『魏先生曰く』より抜粋したものです。 deepseek が出る前は、よく分からないこともいくつかありましたが、deepseek が出てからは、多くのことが理解できるようになりました。 特に、大規模モデルの背後にある推論は正確には何であり、大規模モデルは人間のように考えることができるのでしょうか? 昔、私がコンピュータサイエンス学科で博士号取得を目指していた頃、博士課程 1 年目に、クラスメートたちが、将来機械が人間を超えることができるかどうかについて、かなり正式な討論会を組織しました。 生徒たちは二つのグループに分かれ、順番にスピーチをしました。私は反対の意見を支持しました。機械は人を殺すことはできない。結局のところ、プログラムは人間が書くものだから。 当時、クラスメイトの理論は、フォン・ノイマン・アーキテクチャに基づく機械は人間の知能を超えることはできないというものでした。それを聞いたとき、実際にフォン・ノイマンが関わっているという点が斬新だと思いました。 しかし、私は深くは考えませんでした。彼が言いたかったのは、並列計算が可能で、多数のニューロンのような構造を持つ新しいタイプの機械だけが、人間のような知能を持つことができるということだと思います。つまり、人間を超えるには、ハードウェアを改良する必要があるということです。 卒業が近づく頃、ソフトウェアで神経活動をシミュレートできる限り、ハードウェアを変更する必要はないことに突然気づきました。 ニューロンをオブジェクトとして扱い、オブジェクト指向プログラミングを実行してください。 なぜこの話をするのでしょうか? まず、大規模モデルは、ニューロンをソフトウェアで実装するという、私が予測していたことを確かに実現し、想像していたよりもはるかに単純でした。 第二に、これをさらに拡張すると、多くのことが低レベルでは不便かもしれませんが、それは高レベルで実行できるため、アーキテクチャが効果的でないことを意味するわけではありません。 AI の第一人者 LeCun 氏は常に、生成的な大規模モデル アーキテクチャは単なるシステム 1 (高速思考) であり、潜在意識で話すことしかできず、システム 2 (低速思考) を実行できないため役に立たないと述べています。 しかし、現在では、下位レベルのスタッフができないからといって、上位レベルのスタッフができないとは限らないようです。 フォン・ノイマン型コンピュータがレイヤー 0 だとすると、Transformer ビッグモデルはレイヤー 1、その上の推論と思考はレイヤー 2 になります。 速い思考に基づいて遅い思考の決定を下すことができる理由について議論しましょう。 素早く考えるには直感と本能に頼る必要があり、考えずに発言することが重要です。大規模なモデルであれば間違いなくこれが可能であり、これは皆の意見です。 ゆっくり考えるには、徹底的な分析と反省、そして慎重な考慮が必要です。 ルカン氏は例を挙げ、囲碁の達人は初心者と対戦する際にはシステム1を使って何も考えずに勝てると述べた。しかし、他の達人と対戦する場合には、より真剣にシステム2を使い、じっくり考え抜かなければならないと述べた。 誰かがゆっくり考えている場合、私たちはその人が何を考えているのか知ることができるでしょうか? はい、解決策は、ゆっくり考えているときに、考えを一語一語書き留めるように要求することです。 彼はそれを書き留めることができますか?もちろんできます。ゆっくり考えることは論理的だからです。じっくり考えることができれば、それをわかりやすく説明することができます。 そうでなければ、数学者、哲学者、教授はどうやって本を書くのでしょうか。また、教師はどうやって生徒を教えるのでしょうか。 誰の合理的な考えも、一言一句書き留めることができます。 表面的には、生成大規模モデルの最も優れた点は、単語を 1 つずつ出力することです。 したがって、本質的には、大規模なモデルをブラックボックスとして扱う場合、それがインテリジェンスを持たないとは言えません。 大型モデルは読書家で、優れた記憶力を持ち、過去と現在について豊富な知識を持っていることが知られています。彼らは会話ができ、長期記憶も持っています。 話すときは、考えずに話しているようで、言葉が自由に流れ、時にはとりとめもなく話しているようにも見えます。 話す前に物事をよく考えさせるにはどうしたらいいでしょうか? キューワード エンジニアリングの専門家は、適切に作成されたキューワードによって大規模モデルでのパフォーマンスが向上することを長い間発見してきました。 なぜでしょうか?手がかり語が大規模モデルに入ると、それはワーキングメモリにプロンプトやガイダンスを提供するのと同等の効果をもたらします。大規模モデルは、注意メカニズムを通じてワーキングメモリと長期記憶を慎重に混合し、結果としてパフォーマンスを向上させます。これは人間でも同じではないでしょうか? 専門家のKapacsi氏は動画の中で、大規模なモデルでは数学の問題を解くためにトークンが必要だと説明しました。すぐに結果を出そうとすると(少数のトークンしか必要としない)、暗算に頼ることになるため、結果はあまり良くありません。計算により多くのトークンを生成させれば、まるで紙の上で計算しているような感覚になり、結果ははるかに正確になります。 これは何を意味するのでしょうか? モデルが大きくなればなるほど、生成されるトークンの数が増え、考える時間も長くなり、人間と同じように、その思考はより包括的かつ深くなります。 人は考えるときにそれを書き留めると、作業記憶の増強に役立つため、思考の質を向上させることができます。 質問に答える前に、この大規模モデルはまず思考プロセスを生成します。まるで人が書きながら考え、考えながら書き続けるのと同じです。これが推論モデルの秘密です。 以前、一部のAI科学者がAGIへの道を知っていると自信満々に主張しているのを見ましたが、彼らの考えは理解できませんでした。今は分かります。それは、大規模なモデルに生成の思考プロセスを教えることだと。 最も単純かつ基本的な言葉で言えば、deepseek は次のように表示します... このアプローチ自体の観点から、思考の遅さという問題は解決されると思います。「考えながら話し、考えながら話す」ように教えるだけで、このアプローチは効果を発揮します。 それは学習できますか? 大規模モデル自体が、人間の天才たちによる長年のAI研究の集大成である「埋め込みメカニズム」「注意メカニズム」「フィードフォワードニューラルネットワークメカニズム」「バックプロパゲーションメカニズム」「多層反復メカニズム」といった技術を組み込んでいることを理解することが重要です。また、人間の知識を徹底的に探求し、人間の思考パターンにも精通しています。では、彼らは成功できると思いますか?私が言いたいのは、この機械は既に驚くほど知能が高く、誰よりも多くのことを知っているということです。さらに、これほど多くのAI科学者が日々学習させる方法に取り組んでいる中で、本当に学習できると思いますか? 初期段階では、段階的に学習させる(SFT)ことができます。それが面倒だと感じたら、強化学習(RL)を使って自力で探索させることもできます。何を発見するかは、全く予測できません。AlphaGoがこの手法でイ・セドルを破ったことは、ご存知でしょう。 Deepseek はすでにこの点を実証しています。私たちは、より多くの企業、より多くの才能ある人々に注目し、大規模なモデルをよりスマートに考えさせる方法を見つける必要があります。 さらに、Deepseek の紹介には興味深いことが書かれています: 1. 生成から作成する必要があります... deepseek チームは、強制的に考えさせる必要があると示唆しています。 この世界では、ソフトウェアはますますオープンソース化され、より自由になるしかない。(しかし、このプロセスは想像以上に長くかかるだろう。) なぜなら、オープンソース化しなければ誰かがやるからです。無料で提供しなければ誰かがやるでしょう。顧客はその人のところに流れていくでしょう。 何かを作るために多額の資金を投じたのに、どうして無料で提供できるでしょうか?しかし、世の中には必ず、裕福で権力のある人、金儲けを気にしない人、そして他の方法で金儲けできる人がいます。彼らはあえてそれを公表し、喜んで公表します。もし公表されれば、あなたはもはや優位に立てなくなります。 当時と同様に、ウイルス対策ソフトウェアはオープンソースではなく、無料で使用できたため、有料のウイルス対策ソフトウェア プログラムよりも優れていました。 Deepseekはオープンソースで無料なので、当然ながら多くの人が利用します。裕福でないなら、なぜ毎月20ドルや200ドルも払ってChatGPTを購入するのでしょうか? しかし、ここで議論したいのは、deepseek とはどのようなオープンソースなのかということです。 よく考えてみると、オープンソース ソフトウェアよりもフリー ソフトウェアに近いことがわかりました。 本質的には、大規模モデルの重みを明らかにし、推論プログラムをオープンソース化します。 大規模モデルでは重みが最も重要ですが、現在、Deepseek を含むオープンソースの大規模モデルでは、バイナリ表現がどのように導出されるかは説明されずにバイナリ重みのみが公開されています。 これはバイナリ オペレーティング システムを提供するようなものです。このオペレーティング システムはオープン ソースであると言えますか? 推論プログラム (model.py など) はオープンソースであるとおっしゃいました。 推論プログラムとは何でしょうか?これは、このバイナリをロードするローダーまたはVMです(「Black Myth」のゲームディスクを読み込むゲームコンソールのようなものです)。通常はPythonプログラムで、1000行から2000行程度の長さです。 ローダーは、バイナリ ウェイトを実行するために必要な環境 (ゲーム コンソールなど) です。そうでない場合、一連のバイナリ ウェイト (ゲーム ディスクなど) は使用できなくなります。 このローダーは、一般的に最も一般的なPythonコードに与えられる重み付けへのボーナスとして考えることができます。もしこれがバイナリコード(C++で書かれた推論プログラムなど)にも与えられた場合、それは全くオープンソースとは言えません。 AI技術の真髄は、学習方法と学習データにあります。推論モデルも重要ですが、その重要性はやや劣ります。 したがって、人々が最も切望しているものを DeepSeek は提供しておらず、おそらく現段階で提供するのは適切ではないでしょう。また、他の大規模なオープンソース モデルにも提供されていません。 他の大規模なオープンソース モデルと比較すると、Deepseek は詳細な論文を提供しており、これは非常に寛大です。なぜなら、他の大規模な AI 企業は競争するために、論文を書くことさえしないからです。 Deepseek の現在のオープン ソース レベルでは、そのプロパティを無料で展開して推測できますが、同一の重みをゼロから作成することはできません。 将来、産業グレードの大型モデルをゼロから構築する方法を誰かが教えてくれるでしょうか? 産業グレードのウイルス対策ソフトウェアをゼロから構築する方法を教えてくれる人はいますか? あるいは、「Black Myth」のようなゲームをゼロから構築する方法を教えてくれる人はいますか? ゆっくり考えてみてください。私の答えはこうです。歴史的に見て、インフラに近いものほどオープンソース化される可能性が高いのです。 大規模モデルはインフラストラクチャと見なされますか? はい、その上に多くの新しいアプリケーションが出現する可能性があるためです。 大型モデルは新しいオペレーティング システムであると言う人もいます。 したがって、大規模モデルは必然的に真のオープンソースへと移行することになります。 DeepSeek が最先端の製品向けの完全なトレーニング ソース コードとトレーニング データをリリースすると、ユーザーは DeepSeek をゼロから構築できるようになります。 中国では、Deepseek のような世界クラスの製品を開発できる 1,000 社の大規模なモデル企業がすぐに出現するでしょう。 「リミットレス」の静止画 転載元:Wei Sir Says 編集者:ドゥアン・チンホン 関連資料 オープンソースの大規模モデルである DeepSeek は、具体的に何を提供するのでしょうか? オープンソースビッグモデルの4つのレベル オープンソース協会の紹介 2014年に設立されたオープンソース協会(KAIYUANSHE)は、オープンソースの理念に献身的に貢献する個々のボランティアで構成されるオープンソースコミュニティであり、「貢献、合意、そして共同統治」の原則に基づき活動しています。KAIYUANSHEは、「ベンダー中立性、公益性、非営利性」の原則を堅持し、「中国を拠点とし、世界に貢献し、新時代のライフスタイルとしてオープンソースを推進する」というビジョンを掲げています。その使命は「オープンソースのガバナンス、国際的な連携、コミュニティの発展、そしてプロジェクトのインキュベーション」であり、健全で持続可能なオープンソースエコシステムの共創を目指しています。 オープンソース協会は、オープンソースを支援するコミュニティ、大学、企業、政府機関と積極的に連携しています。また、世界的なオープンソースライセンス認証組織であるOSIの中国初の会員でもあります。 2016年以降、中国オープンソースカンファレンス(COSCon)が毎年開催され、「中国オープンソース年次報告書」が継続的に発表されています。また、「中国オープンソースパイオニアリスト」と「中国オープンソースコードパワーリスト」も共同で立ち上げ、国内外で幅広い影響力を発揮しています。 |
deepseek が私にもたらした啓示: ゆっくり考えることとオープンソース。
関連するおすすめ記事
-
AIアプリ開発に必要なのはたった10行のコード!SenseTimeが「怠け者必携」の開発プラットフォーム「LazyLLM」をオープンソース化。
-
楼嬌がIPOを目指す!売上高12億元を公開、ロボタクシー銘柄第1号を目指す。
-
GMI Cloud は、NVIDIA H200 をベースにした DeepSeek シリーズ モデルの提供を開始しました。
-
オープンソース文化とテクノロジーをキャンパスに | KCCとopenKylin長沙オープンソースイベントへの参加を募集
-
マスク氏、一夜にして1兆ドルを稼ぎ出す!テスラは第3四半期に大成功を収める:46万台を納車、新型モデルYが上海で生産ラインから出荷されたと報道。
-
オンラインチュートリアル | YOLO シリーズは 10 年間で 11 回更新され、最新モデルは複数のオブジェクト検出タスクで最先端のパフォーマンスを実現しています。