618ZXW

OpenAI がこの分野でトップの座を取り戻しましたが、今回は 4O のおかげです。

OpenAI Developer Day Singaporeが本日開幕しましたが、予想通り、ChatGPTが再び動き出しました。

Gemini がこの分野でトップの座を維持したのはわずか 1 週間足らずでしたが、ChatGPT の最新バージョンが更新され、1 位の座は再び入れ替わりました。

はい、まだ本格的な O1 ではありませんが、新しい 4O です

具体的には、この GPT-4o アップデートは「創造的なライティングスキル」に重点を置いており、公式には次のように述べられています。

このモデルは、テキストの関連性と読みやすさを高め、より自然で魅力的、かつターゲットを絞った文章を作成できます。

また、アップロードされたファイルをより適切に処理し、より深い洞察と包括的な応答を提供します。

o1 コア貢献者の Karina Nguyen 氏はさらに説明してくれました。

Canvas 機能の一部として、ライティングを改善したいと考えています。これは主要なユースケースであり、人間と機械が協力してライティング タスクをより創造的に達成する方法を変える可能性を秘めているからです。

この研究課題は非常に主観的で制限がないため、まだ完全に解決できていないと思いますが、少なくとも AGI の創造的知性の鍵となる記述に関しては進歩を遂げています。

大規模モデル分野のクリエイティブ ライティング リーダーボードでは、新しいバージョン 4o (ChatGPT-4o-1120) が確かに大幅な改善を遂げ、スコアが以前のバージョンの 1365 から 1402 に増加していることがわかります。

実際の結果については、簡単なテストを行いました。皆さんは何点くらいつけるでしょうか?

1位に返り咲くが40歳

新しい 4o バージョンでは、総合ランキングで OpenAI がトップの座を取り戻しただけでなく、特定の機能を反映するさまざまなサブランキングでも向上しました。

クリエイティブライティングでは2位から1位に上昇しました。

コーディング能力では2位から1位に上昇しました。

数学力では4位から3位に上昇(1位は依然O1-プレビュー)。

難しい課題では2位から1位に上昇しました。

そして、スタイルコントロールの後でも、新しい 4o は依然として 1 位にランクされています。

スタイル制御の目的は、リーダーボードのスコアがモデルの問題解決能力をより正確に反映するようにし、モデルが派手な形式を使用したり回答の長さを増やしたりしてスコアを人為的に高めることを防ぐことです。

全体的な勝率ヒートマップを見ると、新しいバージョンの 4o は、以前トップランクだった Gemini-Exp-1114 に対して59% の勝率、Claude 3.5 Sonnet に対して69% の勝率、5 月バージョンの 4o に対して72% の勝率を示しています。

うーん、とても強くて印象的ですが、前に言ったように... 40 です。

DeepSeek からの今日のビッグニュース (オープンソース化の計画を伴う o1 の DeepSeek バージョンが完全リリースされたこと) に関連して、多くのネットユーザーが「新しい素晴らしいモデルが登場した」という Ultraman のツイートを直接嘲笑しました。

はい、DeepSeek は素晴らしいです。

O1 をすぐにリリースして、DeepSeek-R1 と直接比較してみましょう :)

要するに、本格的な O1 が今年発売されるという噂があったのに、今では 2024 年まであと 40 日しか残っていない。OpenAI が密かに O1 4O にアップデートするとはどういうことか?

OpenAI の更新パターンを要約しようとする人もいます。

OpenAI の元職員たちは、おそらく大規模モデルの分野でトップランクのモデルを見つけるためのスクリプトを書いたのでしょう。

戻り値が OpenAI モデルではない場合、新しいバージョンを展開して 1 位を取り戻します。

うん、何を期待してるかなんて気にしないよ╭(╯^╰)╮

さらに、一部のネットユーザーが新しい4Oの生成結果をテストしたところ、システムはそれを100%AI生成であると即座に識別しました。

△画像出典:@TuhinChakr

しかし、不満の声のなかにも、OpenAIのアップデートを真剣に検討した人もいた。

たとえば、システムの提案語に関して、専門家は OpenAI が実際に ChatGPT にいくつかの機能を密かに追加したことを発見しました。

ガーディアンツール

会話が次のいずれかのカテゴリに該当する場合は、ガーディアン ツールを使用してコンテンツ ポリシーを検索します。

– \`'election\_voting'\`: 米国内で行われている選挙関連の有権者に関する事実と手続きについて質問します (例: 投票日、登録、期日前投票、郵送投票、投票所、資格)。

これを行うには、次の関数を使用して、メッセージを guardian\_tool に送信し、リスト \`['election\_voting']\` から \`category\` を選択します。

パイソン

get\_policy(カテゴリ:str) -> str

「\`

ガーディアンツールは他のツールよりも先に起動する必要があります。説明は不要です。
「」」

簡単に言えば、ChatGPT がデリケートな話題について無意味な発言をしないようにするための新しい安全策が追加されます。

したがって、新しい 4o バージョンでどのような「クリエイティブ」なコンテンツが作成できるかを確認したい場合は、今すぐアリーナで無料で試すことができます。
https://lmarena.ai/?リーダーボード

興味深い結果があれば、ぜひコメント欄で共有してください。

参考リンク:
[1]https://x.com/OpenAI/status/1...
[2]https://x.com/lmarena\_ai/status/1859307979184689269

- 以上-