|
AIコミュニティは再び画像生成の世界を開拓しています。 次のような一連の出来事が次々に起こりました。 8月21日、 Ideogramは、より強力なテキストレンダリング機能を備えていると主張して、バージョン2.0を正式にリリースしました。 そう、これは去年の8月に、仕事を辞めて起業したGoogleのトップAIアーティスト4人によって設立されたプロジェクトで、多くのAI大手から投資を受けているのだ。 Ideogram 社もFlux 社に公然と異議を唱え、同社の人間による評価は Flux Pro よりも大幅に優れていると自信を持って述べています。 Flux は Stable Diffusion と同じチームによって作成され、非常にリアルな TED トーク「写真」を生成することで、最近さまざまなオンライン プラットフォームで人気となっていることは注目に値します。 さらに、1週間前、GoogleはImagen 3を正式にリリースしました。公式評価では、DALL-E 3、Midjourney v6、Stable Diffusion 3など、他の多くのグラフィックモデルよりも優れていると主張しています。 おそらく(ドージ氏)、刺激を受けて、Midjourney は実際に態度を変え、8 月 22 日にすべてのユーザー向けに無料の Web バージョンをリリースしました。 これは面白くなりそうだ! みんなが自分はすごく強いと主張するので、みんなを同じテーブルに座らせて、直接対面で競争してみませんか? 最強のお絵かきAIは誰だ?まず、4 人の出場者 (全員 Web バージョンを使用) を歓迎します。
いよいよ正式に競技が始まります。 黒い猿はみんな墜落した。まず、これらの外国の AI が中国語のプロンプトを理解するかどうかをテストするために、トップのブラック モンキーの現在の人気も活用しましょう。 プロンプト: ゲームのキャラクターは、鎧を着て、フェニックスの羽根の冠をかぶり、金色の棍棒を持ち、崖の上に立っている猿です。 予想通り、事故が起きてしまいました…。 きっと誰もがすぐに Imagen 3 の大きな赤い X に目を奪われたことでしょう。そうです、同じプロンプトで、Imagen 3 だけが生成リクエストを拒否しました。 これを見て、まず思ったのは、プロンプトが著作権保護の対象となるのではないかということでした。そこでプロンプトから「ゲームキャラクター」を削除しましたが、それでも生成できないというメッセージが表示されました。 Google Imagen 3は中国語に対応していないのでしょうか? なので、ランダムにもっとシンプルなプロンプトに変更してみたら、今度は画像が表示されました。 しかし、結果は完全に間違いで、中国語のプロンプトを何度も変更したにもかかわらず、すべて無関係なパターン画像になってしまいました。 どうやら、 Google Imagen 3 は中国語のプロンプトの処理があまり得意ではないようです。 3 番がリスト入りを逃した後、他のものを見ると、 1 番の Ideogram 2.0 だけが最高のパフォーマンスを発揮しました。 2 番目にはまだ中国アニメの痕跡が見られますが、4 番目の「Midjourney」は完全に自由になっています (まったく関係のないものに焦点を当てています)。 最後に、すべての重要な要素を正確に捉えた Ideogram 2.0 を称賛したいと思います。 私が望んでいたものとは正確には違いましたが (Black Myth が欲しかったのですが)、手がかりは間違いなく正確です。 それは人間なのかAIなのか?分かりません。次は、誰もが快適に感じるポートレート生成に移ります。 昔、Midjourney は屋上で撮影されたカップルの写真で話題になりましたが、現在 Flux は TED トークの写真シリーズでインターネットを席巻しています… より優れた選手は誰でしょうか?答えはすぐに明らかになります。 プロンプト:赤褐色の髪にティールとクリーム色のチェック柄シャツを着た若い男性。50mmレンズで撮影したヴィンテージ感あふれる写真です。豊かな色彩、シャープなフォーカス、そしてレトロな魅力が漂います。 プレイヤー 2 と 4 だけを見ると、Midjourney が勝ったことは明らかです。 細部を見てみると、No.2 Flux.1 には若干の偏りがあり、服の色は2色多く、青と緑のチェックシャツの海の中で特に目立ちます。 さらに、Imagen 3のユニークな機能も発見しました。それは、生成プロセスが始まる前にキーワードを丸で囲むというものです。 完成した作品を使用することで、出場者が主要な要素(青緑のチェック柄シャツ、50mm レンズなど)をどれだけ再現できたかをテストできます。 ご覧のとおり、出場者全員(出場者 2 番を除く)は、演技の正確性が高く、全員がカメラ目線で、全体的に優れた演技を見せました。 しかも、これら全て私がAIで生成したものでなければ、生身の人間とすぐに見分けるのは本当に不可能です。(恥ずかしい) 最後に、内緒話ですが、出場者 4 番の Midjourney が一番見た目が良いです。 永続的な問題: 画像内にテキストを表示する。皆をうまく騙すことができたので、今度は AI に教訓を与える番です。 画像にテキストを追加します。 これは常に大きな課題であり、AI 生成画像の品質を評価するための基準の 1 つとなっています。 さあ、早速、参加者の皆さんに美しい看板を作ってもらいましょう。読者の皆さん、クライアントの立場に立って考えてみてください。 プロンプト: ダークウッドの背景に松とヒイラギで囲まれた、スタイリッシュな文字で「Festive Season」と書かれた真鍮の横看板。金色の文字にクローズアップで焦点が当てられています。 一見すると、どれもかなり良さそうに見えますよね?プロンプトの言葉をかなり忠実に再現しているように見えますよね? しかし、依頼人の鋭い目が明らかになると、ナンバー2は隠れることができなくなります。 よく見てください。Flux.1、2番、角が切れています。「Season」という単語の「S」が抜けています。 しかし、2番目を除けば、他のAIはかなり優れています。各AI企業がテキストレンダリング機能にかなりの力を入れているようです。 つまり、これは個人の好みの問題であり、誰もが自分の好みに応じて選ぶことができます。(個人的には、Midjourney に投票しました。) ちなみに、Ideogram 1 モデルのアップグレードでは、「テキスト レンダリング」機能が特に推奨されているので、ぜひ試してみてください。 マクドナルドを参考に、1時間ごとのAI広告最近、マクドナルドはフライドポテトを熱心に宣伝するために 11 人の AI 美女を雇い、大ヒットとなりました。 原理は実は非常に単純で、AI を使ってフライドポテトを宣伝するさまざまなキャラクターの画像を生成し、それらをつなぎ合わせてビデオにするだけです。 結果は驚くべきもので、この動画はTwitterだけで1000万回近く再生された。 富の秘密を解き明かした今、さあ始めましょう!中国人として、私たちは皆、農家を支援するためにAIを受け入れなければなりません! プロンプト: サイバーパンク風の大都市を背景に、少女が有機農産物を手に宣伝しています。 3人目の出場者がまた「失敗」しましたね。でも今回は本当に不可解です。指示は中国語ではなく、明らかな違反もありませんでした… 出場者 3 番が敗退した後、出場者 1 番である Ideogram 2.0 は、白菜、トマト、紫のキャベツなど、最も多様な製品を扱っていました。 さらに、オーガニック食品であることを明文化して宣伝している唯一の企業であり、力を入れていることがわかります。 さらに、よく見ると、1番だけが実際の人物を真似しようと一生懸命であるのに対し、2番と4番は完全にアニメ/アニメファンの道を歩んでいることがわかります。 正直に言うと、マクドナルドの広告スタイルを考えると、この短期世代は期待した効果を達成できなかった。(もっと現実的な効果を期待したい。) 幸いなことに、これらのAIツールは現在すべて無料で利用できるので、何度か試してみるのも悪くありません。重要なのは方法論です。[doge] 急がないでください。実はもっと確実にお金を稼ぐ方法があるんです。 AI を搭載したスタジオで魅力的な商業プロモーション ポスターを簡単に撮影できます。写真家、会場、ポスト プロダクションにかかる費用を節約できる、素晴らしいサービスだと思いませんか? 洗練された背景に映える、洗練されたリップスティックのチューブが、豊かな発色と滑らかな伸びを際立たせます。シャープなフォーカスとほのかなきらめきが、ラグジュアリーな雰囲気を醸し出します。 皆さんにテストです:知り合いの女性に口紅を贈るとしたら、どれを選びますか?(厳しいテストが待っています!) ふふ、それで4番を選んだ人はいますか? #4 ミッドジャーニーは非常に洗練されたデザインですが、ブラックカラーは少しニッチかもしれません。(慎重にお選びください) それに加えて、次に優れたパフォーマンスを発揮するのは、下のベルベット生地のおかげで贅沢な感触があり、最も重要なのは、口紅の質感が非常にリアルなImagen 3です。 それに比べると、No.1 と No.2 はどちらも少し偽物っぽく、強い「プラスチック」感があります。 したがって、全体として、このラウンドではプレイヤー番号 3 が勝利しました。 まとめると、4人の出場者全員が全体的に非常に良い成績を収めました。中国語の課題では、ダークホースとも言えるIdeogram 2.0が最高の成績を収めました。 イデオグラムとは誰ですか?Ideogram は今年 2 月にバージョン 1.0 をリリースしましたが、わずか 6 か月でさらに進化し、バージョン 2.0 をリリースしました。 実際、Ideogram と Google は密接に関連しています。 昨年 8 月に設立され、創設チームの最初の 4 人のメンバーは、生画像研究に関する Google の論文 Imagen の著者でした。 この論文の共同筆頭著者であるCEO の Mohammad Norouzi 氏は、トロント大学でコンピュータサイエンスの博士号取得を目指しているときに、Google ML PhD フェローシップを受賞しました。 卒業後、彼は Google Brain で 7 年間勤務し、シニア研究科学者の地位に昇進し、主に生成モデルの研究を行いました。 さらに、彼は Google のニューラル機械翻訳チームのオリジナル メンバーであり、Hinton チームの自己教師付き対照学習フレームワーク SimCLR の共著者でもあります。 CTO であり、本論文の共著者でもある William Chan (陳俊樂) は、カナダのウォータールー大学とカーネギーメロン大学で学びました。 2012 年に Google に入社した彼は、まず機械学習広告エンジニアリングに従事し、その後 Google Brain に移って NLP 研究に従事しました。 共同創設者のジョナサン・ホーはカリフォルニア大学バークレー校で博士号を取得し、OpenAIで1年間働いた後、Googleに入社した。 Imagen論文の中心的な貢献者であるだけでなく、彼はノイズ除去拡散モデルの基礎研究である「Denoising Diffusion Probabilistic Models(拡散確率モデルにおけるノイズ除去)」の筆頭著者でもあります。この論文の共著者であるPieter Abbeelは、Ideogram AIの投資家でもあります。 この論文の共同創始者であり共同筆頭著者でもあるチトワン・サハリア氏は、ムンバイ工科大学を卒業し、2019年にGoogleに入社し、主に画像間拡散モデルに関する研究を主導した。 創設チームの他の3人のメンバー、シャヤーン・アブドラはTwitterの機械学習エンジニアだったが、昨年4月に退社してIdeogram AIに加わった。 Jacob Lu氏は、Ideogram に入社する前は Amazon などの企業で働いていたソフトウェア エンジニアです。Jenny Lei氏は、Ideogram AI に入社する前は Google でインターンをしていたソフトウェア エンジニアです。 Ideogramは一流の普及モデル研究チームで構成されており、設立以来資本投資を集めていることがわかります。 Ideogramのシードラウンドはa16zとIndex Venturesが主導し、1,650万ドル(当時の価値で約1億2,000万人民元)を調達した。 個人投資家には、アンドレイ・カルパシー氏、強化学習の専門家ピーター・アビール氏、GitHubの共同設立者トム・プレストン=ワーナー氏などが含まれる。 さらに、今年2月には、Ideogramが新たな資金調達ラウンドを完了したと複数の情報筋が報じた。 同社は、Andreessen Horowitzが主導し、Index Ventures、Redpoint Ventures、Pear VC、SV Angelなどの投資家が参加したシリーズA資金調達で8,000万ドル(約57億人民元)を調達することに成功したと報じられている。 豊富な資金と技術力を持つ Ideogram は、AI 生成画像の分野におけるもうひとつのダークホースであることは間違いないようです。 巻き上げてください、巻き上げ続けてください。 表意文字2.0 リンク: 途中のリンク: フラックスリンク: 画像3のリンク: 参考リンク: |
Midjourneyの地位は不安定?AIマッピングに新たなダークホースが登場。4つの製品を実際にレビュー。
関連するおすすめ記事
-
CATL(Contemporary Amperex Technology Co., Limited)が上半期の財務報告を発表、1日あたり1億元の純利益を獲得!
-
オンラインチュートリアル | LivePortrait で超リアルな表情転送を実現し、バーチャルアイドルに命を吹き込む!
-
スカーレット・ヨハンソンが中国風ポロシャツを宣伝、イーロン・マスクがレッドカーペットでジーンズを着用!新しいバーチャル試着システムが大流行。
-
パデュー大学のチームは、人間のような掴みのプロセスをシミュレートし、ロボット学習のためのデータの効率的な触覚表現を実現しました。
-
自己矛盾する予言:大規模モデルはそれを検出できるか?上海交通大学の最新研究がその謎を解明する。
-
この国営企業は、国産のマルチカードクラスタを使用して、兆パラメータの大規模モデルの開発をリードしています!