|
長年にわたり、Midjourneyの多様な芸術スタイルからOpenAIが支援するDALL-E、そしてオープンソースのStable Diffusion(SD)に至るまで、テキストから画像へのモデルの生成品質と速度は継続的に向上し、迅速な理解と詳細な処理は、さまざまなモデル間の徹底的な競争の新たな方向性となっています。 2024年に入り、「二頭立て」のフェーズにあったMidjourneyとStable Diffusionは、相次いで動きを見せた。まずSD3がリリースされ、続いてMidjourney V6.1がリリースされた。しかし、人々がSD3とMidjourneyの比較に熱中していた頃、新世代の「魔王」がひっそりと誕生した。突如として現れたFLUXである。 FLUXは、キャラクター生成、特に実在の人物が登場するシーンにおいて、驚くほどリアルな結果を実現します。表情、肌の色、髪型や色といったディテールが、驚くほどリアルに再現されています。かつてはStable Diffusionの後継として高く評価されていましたが、興味深いことに、この2つは共通の起源を持っています。 FLUXの開発チームであるBlack Forest Labsの創設者であるRobin Rombach氏は、Stable Diffusionの共同開発者の一人でもあります。Stability AIを退職した後、Robin氏はBlack Forest Labsを設立し、FLUX.1モデルを発表しました。 現在、FLUX.1はPro、Dev、Schnellの3つのバージョンを提供しています。ProバージョンはAPI経由で提供されるクローズドソース版で、商用利用に適しており、最も強力なバージョンでもあります。DevバージョンはProバージョンから直接「抽出」されたオープンソース版で、非商用ライセンスです。Schnellバージョンは最も高速で合理化されたバージョンで、最大10倍の高速化が報告されています。オープンソースで、Apache 2ライセンスに基づいてライセンスされており、ローカル開発や個人利用に適しています。 この次世代のテキスト画像変換超強力なツールを、多くのユーザーが試してみたがっています!HyperAI公式サイト(hyper.ai)のチュートリアルセクションでは、FLUX [dev]のComfyUI版でLoRAトレーニングもサポートする「FLUX ComfyUI(Black Myth: Wukong LoRAトレーニング版を含む)」を公開しています。 興味のある方はぜひチェックしてみてください!私もすでに試してみましたが、SD 3やMidjourneyと遜色ない結果でした↓ 同じプロンプトですが、3 つの異なるモデルによってエフェクトが生成されます。 - プロンプト: 女の子が「私はAIです」と書かれた看板を持っています
さらに、ビリビリの人気アップマスターであるジャック・クイ氏も、ステップバイステップでみんなに教えるための詳細なチュートリアルを作成しました! チュートリアルアドレス: https://go.hyper.ai/trQhv 操作ビデオ: https://www.bilibili.com/video/BV1xSpKeVEeM デモ実行中 FLUX ComfyUI 実行中 - hyper.aiにログインし、「チュートリアル」ページで「このチュートリアルをオンラインで実行」をクリックします。「FLUX ComfyUI(Black Myth: Wukong LoRA Training Editionを含む)」の場合は、「このチュートリアルをオンラインで実行」をクリックします。
2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。
- 右下にある「次へ: コンピューティング能力の選択」をクリックします。
- ページがリダイレクトされたら、「NVIDIA RTX 4090」と「PyTorch」のイメージを選択し、「次へ:レビュー」をクリックしてください。下記の招待リンクから新規登録された方には、4時間分のRTX 4090トレーニングと5時間分のCPUトレーニングを無料でプレゼントいたします。
HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください): https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej - すべて正しいことを確認したら、「続行」をクリックし、リソースの割り当てをお待ちください。最初のクローン作成には1~2分かかる場合があります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動します。APIアドレスアクセス機能を使用する前に、実名認証を完了する必要がありますのでご注意ください。
- デモを開いた後、「ロケールの切り替え」をクリックして言語を中国語に切り替えます。
7. 言語を切り替えた後、左上隅のフォルダーアイコンをクリックし、目的のワークフローを選択します。
- wukong: Black Myth Wukong 画像デモ
- TED: TEDライブトークデモ
- 3mm4w: 画像上のテキストのデモ
- 「Wukong」ワークフローを選択し、CLIPテキストジェネレーターに「Prompt」(例:金の棍棒を1本持つWukongの背中、色鮮やかな雲、頭飾りの王冠)を入力し、「Add Prompt Queue to Generate Image」をクリックします。生成された画像は非常に美しいことがわかります。
FLUX LoRAトレーニング
- ワークフローをカスタマイズするには、まずLoRAモデルをトレーニングする必要があります。コンテナインターフェースに戻り、「ワークスペースを開く」をクリックして新しいターミナルを作成してください。
2. ターミナルで「sh train.sh」と入力し、Enterキーを押して実行します。「公開URLで実行中」と表示されたら、リンクをクリックします。
3. ページがリダイレクトされたら、モデル名を入力し、画像をアップロードします。ここでは、テイラー・スウィフトの写真を5枚アップロードします。画像は高解像度で、顔の大部分が写っている正面からの写真である必要があります。画像の品質が高いほど、トレーニング結果が向上します。
- アップロードが成功したら、各画像の後に英語のテキスト説明を手動で追加するか、「Florence-2 で AI キャプションを追加」をクリックしてテキスト説明を自動的に生成します。
5. ページの一番下までスクロールし、テストプロンプト(「人がコーヒーを飲んでいる」など)を入力して、「トレーニングを開始」をクリックします。
- 数分待ってからターミナルインターフェースに戻り、トレーニングの進捗状況バーを確認します。トレーニングは約40分で完了するはずです。「output/taylor-swift/optimizer.pt に保存されました」と表示されたら、トレーニングは完了です。
7. 左側の「ai-toolkit」-「output」-「taylor swift」-「sample」ファイルで、テストプロンプトの効果を確認できます。効果が良好であれば、モデルの学習が成功したことが証明されます。
8. モデルのトレーニングが完了したら、トレーニング サービスをオフにして GPU リソースを解放し、先ほど見たキー インターフェイスに戻り、「Ctrl+C」を押してトレーニングを終了する必要があります。
- 「sh copy.sh」を実行し、「sh dependencies.sh」を実行してComfyUIを起動します。2分後、右側のAPIアドレスを開きます。
10. ページがリダイレクトされたら、「LoRA Loader」でトレーニングしたモデルを選択し、「CLIP」に「Prompt」(例:「人がコーヒーを飲んでいる」)と入力し、「Add Prompt Queue」をクリックして画像を生成します。
|