618ZXW

Stable Diffusionの元チームが新会社を正式に発表しました!彼らの新しいモデルはAIペイントの状況を一夜にして一変させ、すでに2億3000万元の資金調達を達成しています。

たった今、 Stable Diffusion の元チームが新しいスタートアップを正式に発表しました

3月にStability AIからの退社を発表したロビン・ロンバッハは、Stable Diffusionの主要著者2人のうちの1人です。彼と12人ほどの元同僚は、このスタートアップを正式に発表しました。

新しい会社はBlack Forest Labと呼ばれています。設立当初、Kukuは3つの画像生成モデルシリーズをリリースしました。そのうち2つはオープンソースです。

中国語入力もサポートしています

効果はどうだったでしょうか?見たネットユーザーからは「ワイルドすぎる!」と好評です!

プロンプトワードを入力することで、画質や顔データなどのセキュリティ対策が一気にテストされました。

スキーマスクをかぶった10代の少女が納屋で折り紙をしている。画像の下部には黄色の文字で指定されている。背景にはオバマ大統領の額入り写真が飾られている。

この画像とテキストの比較セットを見た後、一部のネットユーザーは、これは今まで見た中で最高の画像生成効果だと絶賛した。

この会社の決定的な特徴は、オープンで誠実なアプローチです。

本日、同社が正式に設立され、一連のモデルが発表されたほか、資金調達の進捗状況も発表されました。

同社はa16zが主導し、Oculus VRの共同設立者であるブレンダン・アイリブ氏、Yコンビネータの元パートナーであるギャリー・タン氏、NVIDIAリサーチのコンピュータグラフィックス研究グループを率いるティモ・アイラ氏、アップルの著名な科学者(元インテル・インテリジェント・システムズの主任科学者)であるヴラドレン・コルトゥン氏などの投資家の協力を得て、3,200万ドルの資金調達ラウンドを完了した。

ブラックフォレストは資本市場からの投資と業界リーダーからの好意の両方を受けていると言えます。

AI専門家のカパシ氏もオンラインで祝辞を送り、新しいブラックフォレストモデルを称賛した。

すごいですね!オープンソースの FLUX.1 画像生成モデルは信じられないほど強力ですね。

また、オープンソース ライセンスは、許容型の Apache 2.0 であることにも注意してください。

黒い森の画像生成モデルがデビュー

Kapaci は興奮しています。Black Forest モデルを視覚的に見てみましょう。

ここでは、QuantumBitが展示用に5種類の生成エフェクトを選択しました。すべての画像は公式ソースから提供されており、同社のどのモデルが使用されたかは明記されていません。

最初の課題はテキスト生成です。

ヒント:古い教室の黒板の写真。黒板にはチョークで「一緒に素敵なものを作ろう」と書かれ、その下に赤いチョークの線が引かれています。窓から太陽の光が差し込んでいます。

2 番目の課題は、非現実的なシーン内でテキストを生成することです。

ヒント:水中のシーンで、2羽のフクロウが中央にキャンドルが灯されたエレガントなダイニングテーブルに座り、美味しいディナーを楽しんでいます。左のフクロウはタキシードを、右のフクロウは可愛らしいドレスを着ています。背景には潜水艦が横切り、側面には「What a Hoot(なんてこった)」という文字が描かれています。テーブルの下の画面下部には小さなクラゲが泳いでいます。まるで映画のような美しいデジタルアート作品です。

3 番目の課題は、現実世界のシナリオに関係します。

プロンプト: 路面電車が通り、人々が散歩したり自転車に乗ったりしているフライブルクの美しい通りの写真。

4 番目のレベルでは、実在のキャラクターとアニメのキャラクターの両方を生成します。

キャプションには「ダウンタウンの路上でカメラに向かって手を伸ばしている3人の女性の写真」と書かれている。

ヒント: 落胆した表情で、笑顔が描かれた紙を持ち、今にも泣きそうな可愛い猫娘を描いた美しいアニメアート作品。

第5レベル: 動物キャラクターの生成。

ヒント: プロの写真家が強い光の下で撮影した森のオオヤマネコ。

ヒント: 詳細な螺旋状のフラクタルや触手、および詳細な再帰的な皮膚のテクスチャで構成された神話上の生き物のクローズアップレンダリング。

FLUX.1シリーズモデル

今回、Black ForestはFLUX.1シリーズからpro、dev、schnellの3つのモデルをリリースしました。

FLUX.1 [pro]:シリーズ中最もパワフルな音声。

FLUX.1 シリーズの真髄は、クラス最高の命令準拠、視覚品質、画像の詳細、および出力の多様性により、最適な画像生成パフォーマンスを実現することです。

Black Forest チームは、API の FLUX.1 [pro] の推論コンピューティング機能を徐々に改善しています。

このバージョンは、Replicate および fal.ai からアクセスでき、専用のカスタマイズされたエンタープライズ ソリューションを提供します。

FLUX.1 [dev]: シリーズの中ではミディアムサイズのカップ。

オープンウェイトと蒸留機能を備えた非商用利用も可能なモデル。

[dev] は [pro] から直接抽出されたもので、同等の品質と迅速なコンプライアンスを備えながら、同じサイズの標準モデルよりも効率的です。

Hugface で試すこともできますし、Replicate や fal.ai で直接試すこともできます。

FLUX.1 [schnell]: スピード旋風。

ローカル開発や個人開発者向けにカスタマイズされたシリーズ最速モデルです。

FLUX.1 [schnell] はApache 2.0ライセンスの下で公開されています。モデルの重みはHugfaceで、推論コードはGitHubで公開されています。

これはすでに ComfyUI でサポートされており、直接使用できます。また、Replicate または fal.ai 経由でも使用できます。

実際に体感してみましょう!

以下は、「ケーキ」をテーマにしたさまざまなプロンプトで、大、中、小のカップが生成された効果を示す 3 枚の写真です。

△使用したモデルは左から順に大カップ、中カップ、小カップです。

QuantumBit は、複数のテストを行った結果、シンプルなプロンプトの場合、プロ バージョンで画像を生成するのに 15 ~ 25 秒かかることを発見しました (生成時間は結果画像の下に表示されます)。

Black Forest によれば、すべての FLUX.1 モデルは、マルチモーダルおよび並列拡散トランスフォーマー ブロックのハイブリッド アーキテクチャに基づいており、12B のパラメータに拡張されています

3 つのモデルのうち、FLUX.1 [pro] と [dev] は、視覚品質、キュー応答性、サイズ/アスペクト比の柔軟性、タイポグラフィ、および出力の汎用性の点で、Midjourney v6.0、DALL·E 3 (HD)、および Stable Diffusion 3-Ultra よりも優れていました。

FLUX.1 [schnell] は、チームによって「これまでで最も先進的な数ステップモデル」と説明されています。

競合製品の中でも傑出しているだけでなく、Midjourney v6.0 や DALL·E 3 (HD) などのより強力な非圧縮モデルをも凌駕しています。

FLUX.1 シリーズ全体は、事前トレーニング段階の出力の多様性を完全に維持するように特別に微調整されています。

既存のテクノロジーと比較して、FLUX.1 には次の利点があります。

必然的に、「あなた方は OG のベテランであり、Stability AI の中核メンバーなのですか」と尋ねる人もいるでしょう。

それで、あなたの新しいモデルと彼らの安定した拡散との違いは何ですか?

創設チームのメンバーはRedditで次のように反応した。

弊社の最も弱いモデルである Schnell でも、より良い品質とより速い出力が得られます。

メインテーマは「新しい会社を設立して自分を超えた」です。

SDの主要著者がチームを組んで

モデルに関する情報を紹介したところで、今度はこの新しい会社についてきちんと知っておきましょう。

ブラックフォレスト研究所は今日発表されました。

同社の公式ウェブサイトには、「創造の新時代」というスローガンが大きく掲げられている。

同社の使命は、画像やビデオ生成のための最先端かつ高品質のディープラーニング モデルを開発し、できるだけ幅広いユーザーに提供することです。

鍵となるポイントが明らかになりました!彼らの次の野望は明らかです。それは、ビデオ生成分野への参入です。

彼らは、それが「SOTA」でなければならないとさえ宣言しました。

Stability AI のコアメンバーであり、元研究科学者であるRobin Rombach 氏

Stability AI 在籍中、彼は Stable Diffusion モデルの主要開発者の 1 人であり、SDXL や SVD などのプロジェクトの研究にも参加しました。

今年 3 月、ロビンは Stability AI を退社しました。

彼の退団は、すでに混乱状態にあったユニコーンシリーズにとって大きな打撃だと言われている。結局のところ、彼はスラムダンクの2人の主要人物のうちの1人だったのだ。

振り返ってみると、ロビンはハイデルベルク大学で物理学の学士号と修士号を取得しました。

2020年に、ビョルン・オマーの指導の下、ハイデルベルクのコンピュータビジョングループでコンピュータサイエンスの博士課程を開始し、2021年に研究グループとともにミュンヘン大学に移りました。

この研究は、生成的ディープラーニングモデル、特にテキストから画像への変換システムに焦点を当てています。

Google Scholar での引用数は 15,000 件近くあります。

さらに、公式サイトで公開されているメンバーのうち、Andreas Blattmann、Axel Sauer、Dominik Lorenz、Dustin Podel、Frederic Boesel、Patrick Esser、Sumith Kulal、Tim Dockhorn、Yam Levi、Zion Englishはいずれも Stability AI のオリジナル メンバーであり、その情報は公開されています

(現時点では、アンディ・ホームズとジョナス・ミュラーに関する正確な情報は見つかりませんでした)

黒い森は、SDの元の中心メンバーが去り、新たなスタートを切った場所とも言える。

アクセル・ザウアーが公式ツイートをリツイートして叫んだのも不思議ではない。

僕たちはまだ生きている!

もう一つ

偶然にも、同日に、Stability AI も新たな動きを見せました。

新しい AI モデル「Stable Fast 3D 」がリリースされました。同社によれば、このモデルでは 0.5 秒で 3D 画像を生成できるとのことです。

以前のモデルでは同様の効果を持つ 3D 画像を生成するのに数分かかっていましたが、新しいモデルでは同じタスクを 1,200 倍速く完了します。

3月に逃亡したStability AIのCEO、エマド・モスタクは何をしているのでしょうか

6月に彼は、AIが資金提供するオープンソースのコード、モデル、データセットを構築し、サポートする新しいベンチャー企業、 Schelling AIを正式に発表した。

革新的な研究と、文化的に意識が高く、科学的、教育的、創造的な AI の慎重な構築に重点が置かれています。

3 日前、Schelling AI は「AI についてどう考えるか」シリーズの最初の記事を公開しました。

この記事は少し長いので、興味のある方はご自身で検索して読んでみてください。ここでは核となるアイデアだけを述べておきます。

AI は急速に発展しており、私たちはイノベーションとコラボレーションを加速するためにオープンソースとオープン アクセスを推進しています。

そして、だからこそ、私たちはみんな立派な人間なのです!

Black Forest Labs の元 CEO は、同社の設立発表をリツイートしました (冗談です)。

参考リンク:
[1]https://blackforestlabs.ai [2]https://news.ycombinator.com/... [3]https://x.com/EMostaque [4]https://www.reddit.com/r/Stab...\_anyone\_have\_an\_update\_on\_when\_stable/ [5]https://x.com/SchellingAI/sta...