|
大規模モデルをどう実装するか?これが今年のテクノロジー分野の最大のテーマとなりました。 キャラクター作成という、ほとんどの人に知られていない分野で、清華大学のスタートアップ企業「Graphic Origin」が静かに商業的成功を収めている。 Canvaは、フォント会社のコストを80%削減し、プロセスを10倍以上高速化します。最も人気のある中国語フォントトップ100を描画でき、そのほとんどはCanvaのアルゴリズムを使用して生成されています。 この市場セグメントは十分に小さく、実際にニーズがあります。デザイン会社やフォント会社は長い間、著作権料に悩まされてきました。 彼らは、コンピューターグラフィックスと AI における既存の技術的優位性を活用して、人間では達成できない効率と精度を達成しました。 AI を使ってキャラクターを作成し、どのように発見し、収益を得たのかを見てみましょう。 AIでキャラクターを作成してお金を稼ぎます。速度は10倍以上です。まず、フォント制作とは何かを理解しましょう。 従来のフォント制作プロセスでは、デザイナーがフォント制作全体を手作業で完了する必要があり (フォントには最大で約 30,000 文字が含まれる場合があります)、最初の草稿が完成した後は、人間のチームが単語ごとに校正する必要があります。 すべて手作業で行われるため、このプロセスは時間がかかり、多くの場合 25 分の 1 かかるだけでなく、フォント会社にとって大きなコストも発生します。 同時に、手作業であるからこそ、個々のフォントの品質やスタイルなどの細部を制御することは困難です。 デザイン会社にとって、制作プロセスにおける高コストは、商用ライセンスのフォントを購入する際の高コストにもつながります。 Graphic Origins チームは、クライアントとの話し合いの中でこの業界の問題点を発見し、数か月かけてフォント生産ラインを構築しました。 これは、単に大きなモデルを適用するだけでは生成できません。フォントデザインにおける最大の違いは、ベクターグラフィックであるため、品質を損なうことなく無限に拡大できることです。現在、AIで生成される画像は通常ビットマップであり、ピクセル数に制限があります。 主な技術的課題は、AI がベクター グラフィックスを生成し、フォントのアンカー ポイントとベクター カーブの意味を理解できるようにすることです。 創設者の Shi Haitian 氏は、 4 つの段階から成るソリューション アプローチを共有しました。 まず、従来の拡散モデルではビットマップが生成されます。 次に、2 番目の超解像度モデルを使用して、フォント ビットマップの解像度を最大化します。 次に、独自のアルゴリズムを用いてAIに「優れたベクターデザイン」とは何かを理解させ、この「優れた」美的感覚を最適化目標として3つ目のモデルを設計します。そして、この学習済みモデルを用いてビットマップをベクターグラフィックに変換します。 最後に、タイプミスや文字構造をチェックするために特別に設計されたモデルがトレーニングされました。 さらに、ストローク分解モデルの開発も計画している。 このモデルに基づいて、人間では達成できない効率と品質を実現できます。 たとえば、AI 超解像技術と AI ベクトル化に基づいて、さまざまなストロークと部首のエッジの詳細が任意の拡大に耐えることができるため、デザイナーはポスターなどのシナリオでそれらを使用できます。 お客様は最初の199文字を入力するだけで、AIは2日以内に数万文字を学習し、生成することができます。さらに、簡体字中国語だけでなく、繁体字中国語、希少文字、そして日本語、韓国語、ラテン語などの複数の言語にも対応しています。 精度の面では、1 回あたりに生成される単純な文字 (<15 画) の平均エラー率は 1% 未満であり、1 回あたりに生成される複雑な文字 (≥15 画) の平均エラー率は 5% 未満であり、これは手動校正の精度をはるかに上回っています。 また、配送プロセス全体をオンラインで実行できるSaaSプラットフォームも構築しました。顧客はいつでも進捗状況を追跡したり、グラフィカルな画面から人間の介入なしに生産プロセス全体を自ら完了したりすることができます。 346 個のフォントセット、合計 4,680,244 個の文字を生成したことが明らかになりました。 グラフィックスの起源からGraphic Originは、清華大学自動車科学学院を卒業し、修士課程を休学していたShi Haitian氏によって2020年末に設立されました。 同社はこれまで主に3Dコンテンツ制作エンジンの開発に携わり、5Y CapitalやZhenFundといった機関投資家からの投資を受け、3回の資金調達ラウンドを完了しました。当時のビジョンは、ユーザーフレンドリーな3Dコンテンツ制作ツールと、一般の人々が暮らしたいと思うソーシャルワールドの創造でした。 しかし、Shi Haitian 氏は当時、収益化のよいシナリオを見つけられなかったが、大規模モデルの登場によって新たなチャンスがもたらされたと回想しています。 これを検証するために、彼らは多大な時間と費用を費やしました。Shi Haitian氏は、認識用と生成用の2つの大規模なモデルを訓練したと明かしました。訓練の目標は、AIが生成したフォントが実際の文字と区別がつかないようにすることでした。 しかし、この業界の利点は、フォントデータが比較的充実していることです。例えば、フォントセットをAIに入力して半分のフォントを生成すれば、残りの半分もAIが生成できます。 最終的に成果物レベルの生産効果を達成し、現在では週あたり40以上のフォントセットを納品できるようになり、これは数百倍の効率向上に相当します。 同社は現在、主に2つの事業を展開しています。 中国語フォント ライブラリの拡張では、クライアントが参照フォント ファイルを提供します。Graphic Origin AI はまずそのファイルから学習し、一貫したスタイルでフォントを生成します。 プロセス全体は SaaS プラットフォーム上で実行され、手動校正、二次学習、バッチ生成、手動二次スクリーニングをサポートし、生成されたフォントのエラー率をさらに低減します。 言語間スタイル転送。その名の通り、任意の言語、任意のフォント、任意の言語で、同じスタイルを維持しながら、任意のグリフを生成します。 現在、中国語、日本語、韓国語、ラテン文字、ギリシャ文字、キリル文字、一般的な記号や数字を確実に生成することができ、すでに Xiaomi App Store で販売されています。 チベット語やアラビア語など、あまり一般的に話されていない言語はまだ内部テスト段階にあります。 最後に、現在、大手企業が生産性シナリオでの優位性を競い合っており、市場は非常に競争が激しいものの、大企業には特定のニッチなシナリオに投資するための資金とエネルギーがない可能性があるということを述べておきたいと思います。 これらのシナリオは需要が限られているように見えるかもしれませんが、実際には収益化可能な強力かつ不可欠なニーズです。フォントやタイポグラフィなどがその例です。 スタートアップにとって、これは素晴らしい参入点です。グラフィックスの起源はその一例です。 大規模モデルの応用は急速に発展していますが、究極の試金石は、それらが現実世界の問題を解決できるかどうかです。この真実は、これ以上明白なものはありません。 |
清華大学の「蒼頡」(漢字の発明者、中国の伝説的人物)が到着しました!7日間で40セット以上の大型キャラクターモデルを納品し、お客様のコストを80%削減しました。
関連するおすすめ記事
-
Nvidia のミニ スーパーコンピューターは競合他社から嘲笑されています。FP4 の計算能力があると宣伝されていますが、実際には「ゲーミング PC を購入したほうがよい」のです。
-
DeepSeek は ChatGPT とのチェス ゲームで欺瞞を用いて勝利しました。ネットユーザーからは「孫子の兵法まで使ったのか!」というコメントが寄せられました。
-
ByteDanceと清華大学AIRが共同研究センターを設立し、大規模モデリングにおける産学研究協力を推進。
-
アルゴリズムエンジニアと開発者の違いは何ですか?
-
Baiduの謝光軍氏:百機種戦争と価格戦争の戦いが終わった後、大型機種の次の戦場はツールプラットフォームです。
-
Terminus は、物理世界の高次元認識を可能にする初の汎用インテリジェント エージェントをリリースしました。