|
音声クローン技術の急速な発展により、AIはますますリアルな人間の声をシミュレートできるようになりましたが、ゼロサンプル学習や多重感情制御においては依然として大きな課題に直面しています。 E2 TTSは今年初め、簡素化されたテキスト音声合成手法を実装しました。これは、入力テキストにパディングマーカーを付加して入力音声と同じ長さにし、その後ノイズ除去を行って音声を生成するというシンプルな手法です。最近、F5 TTSはこの手法を参考に、ストリームマッチングを用いた非自己回帰生成手法に基づいてモデルの性能をさらに向上させました。これにより、多言語合成をサポートするだけでなく、テキスト内容に応じて感情や話速を調整できるようになり、長文テキストの音声合成をより洗練され、よりスムーズに行うことができます。 F5 TTSとE2 TTSのサウンド生成効果を誰でも簡単に体験できるように、 hyper.aiの公式サイトでF5/E2 TTS連携チュートリアルを公開しました。アプリをクローンするだけで、すぐに試すことができます! オンラインで実行: https://go.hyper.ai/SZxqv 11月4日から11月8日までのhyper.ai公式ウェブサイトの更新の概要は次のとおりです。
公式サイトをご覧ください: hyper.ai 選択された公開データセット1. 髪質データセット ヘアタイプデータセットは、様々なヘアスタイルを分類するための画像データセットです。ストレート、ウェーブ、カーリー、ドレッドの4つのヘアスタイルの高品質画像(合計1,992枚)が含まれています。このデータセットは、機械学習モデルによるヘアタイプの識別と分類の学習に役立ちます。 直接使用する: https://go.hyper.ai/aXYcj データセット画像の例 2. AllClearパブリッククラウド除去データセット AllClearデータセットは現在、公開されている雲除去データセットとしては最大規模であり、世界中に分散した23,742の関心領域(ROI)を含み、多様な土地利用パターンを網羅し、合計400万枚の画像が含まれています。このデータセットは、雲除去研究におけるベンチマークと多様なトレーニングデータの不足を解消するものです。 直接使用する: https://go.hyper.ai/e2BYC データ分布図 3. ムハラフ手書きのアラビア語データセット Muharafデータセットは、手書きアラビア語テキスト認識に特化した機械学習データセットです。このデータセットには、アラビア語の専門家によって転写された1,600点以上の歴史的な手書きページ画像が含まれています。各文書画像には、テキスト行の空間ポリゴン座標と、基本的なページ要素に関する情報が付与されています。 直接使用する: https://go.hyper.ai/NN2UR Muharafデータセットの例 4. マルチモーダル分光化学データセット このデータセットには、特許データ中の化学反応から抽出された79万分子の1H-NMR、13C-NMR、HSQC-NMR、赤外線、質量分析(正イオンモードおよび負イオンモード)のスペクトルデータがシミュレートされています。複数のスペクトルモードからの情報を統合し、専門家が分子構造を解析する際に用いる手法をシミュレートすることで、構造解明の自動化と、合成から構造決定までの分子発見プロセスの簡素化が期待されます。 直接使用する: https://go.hyper.ai/Z7zlr データの概要 5. GMAI-MMBench医療マルチモーダル評価ベンチマークデータセット GMAI-MMBenchは、汎用医療人工知能(AI)分野の発展を目的として設計されたマルチモーダル評価ベンチマークです。284の異なるソースからのデータセットが含まれており、38種類の医用画像モダリティと18種類の臨床関連タスクを網羅し、18の異なる診療科を網羅しています。また、4つの異なる知覚粒度で評価を行うことで、LVLMの性能を多次元的に考慮しています。 直接使用する: https://go.hyper.ai/FL799 データセット構造図 6. 心理カウンセラー向けPsyDTCorpusデジタルツインデータセット PsyDTCorpusデータセットの主な目的は、特定の心理療法士の言語スタイルとカウンセリング手法をシミュレートし、心理療法士の大規模デジタルツインモデルであるSoulChat2.0の開発とトレーニングを支援することです。このデータセットには、心理療法士の言語スタイルと治療手法の適用を示す、高品質なメンタルヘルスに関する対話が5,000件収録されています。 直接使用する: https://go.hyper.ai/hGi4O データトピック分布 7. GTSinger 歌唱音声データセット このデータセットは、20人のプロ歌手による80.59時間分のプロが録音したボーカルを収録した、大規模でオープンソースの高品質ボーカルデータセットです。中国語、英語、日本語、韓国語を含む9つの言語を網羅しています。研究者にとって、非常に豊富な音色とスタイルを備えたリソースライブラリとなります。 直接使用する: https://go.hyper.ai/wBcBz 8. OC22触媒シミュレーションデータセット このデータセットは触媒シミュレーションデータセット、すなわちOpen Catalyst 2022(OC22)データセットです。このデータセットはOC20データセットを拡張・補完するもので、より複雑な触媒構造と新しい反応タイプが含まれており、AIモデルの学習とテストのためのより豊富なデータを提供します。 直接使用する: https://go.hyper.ai/M8Cpn 9. OQMDオープンソース量子材料データセット OQMDデータセットには、密度汎関数理論(DFT)を用いて計算された122万以上の物質の熱力学的および構造的特性が含まれています。データセットのデータは無機結晶構造データベース(ICSD)から取得されており、約30万種の化合物のDFT全エネルギー計算と、一般的な結晶構造の修正が含まれています。 直接使用する: https://go.hyper.ai/dGOKs 10. マテリアルプロジェクトオンライン材料データベース Materials Projectデータベースには、結晶構造とエネルギー特性に関するデータに加え、電子構造と熱力学的特性に関する詳細な情報が含まれています。このデータセットは、100万種類以上の無機材料について、ハイスループット第一原理計算を用いた包括的な性能データ、構造情報、そして計算シミュレーション結果を提供することで、新材料の発見とイノベーションを加速することを目的としています。 直接使用する: https://go.hyper.ai/tGIVs その他の公開データセットについては、以下をご覧ください。 https://hyper.ai/datasets 厳選された公開チュートリアル1. AnyText 多言語ビジュアルテキスト生成と編集 AnyTextは、多言語対応のビジュアルテキスト生成・編集モデルです。中国語、英語、日本語、韓国語を含む複数の言語でのテキスト生成をサポートし、入力画像内のテキストコンテンツの編集も可能です。このモデルに搭載されているテキスト生成技術は、eコマースのポスター、ロゴデザイン、クリエイティブなグラフィティ、絵文字など、AIGCの新たな応用の可能性を広げます。 以下のリンクをクリックし、チュートリアルの手順に従ってコンテナのクローンを作成して起動すると、創造性を発揮してグラフィックをデザインできます。 オンラインで実行: https://go.hyper.ai/uMcNa モデルインターフェースの例 2. F5/E2 TTS は、わずか 3 秒であらゆるトーンを複製します。 このチュートリアルには、F5 TTSとE2 TTSの2つのモデルのデモが含まれています。F5 TTSは、追加の教師なしでゼロショット学習により、自然で流暢、かつ忠実な音声を迅速に生成できます。E2 TTSは、音声シーケンス全体を一度に生成できるため、高品質の音声出力を維持しながら、生成速度を大幅に向上させます。 このプロジェクトでは、Gradoインターフェースを介してフロントエンドのインタラクティブインターフェースを生成できます。関連モデルと依存関係はすでにデプロイ済みです。ワンクリックでサウンドのクローン作成を体験できます。 オンラインで実行: https://go.hyper.ai/SZxqv チュートリアルインターフェースの例 3. Stable-Diffusion-3.5-Large画像生成デモ Stable Diffusion 3.5 Largeモデルは、マルチモーダル拡散生成器(MMDiT)を用いたテキスト画像変換モデルであり、画像品質、タイポグラフィ、複雑な手がかりの理解、そしてリソース効率において大幅な改善を特徴としています。80億ものパラメータからなる大規模なスケールにより、プロフェッショナルグレードの画像生成機能を提供し、特に高解像度画像生成のニーズに適しています。 このチュートリアルではすでに環境設定が完了しています。チュートリアルの指示に従うだけで、高解像度の画像を直接生成できます。 オンラインで実行: https://go.hyper.ai/w5k5V Stable Diffusion 3.5 Large モデルを使用した画像生成の例。 💡安定拡散チュートリアルのディスカッショングループも作成しました。WeChatでHyperaiを追加(WeChat ID: Hyperai01)し、メッセージに「SD Tutorial」と記載してグループに参加して、様々な技術的な問題について議論したり、アプリケーションの結果を共有したりしてください。 厳選されたコミュニティ記事
Metaは最近、大規模なオープンソースデータセット「Open Materials 2024」と、それに付随する事前学習済みモデル群を公開しました。OMat24データセットには、構造と組成の多様性に焦点を当てた1億1000万件を超える密度汎関数理論計算が含まれています。このデータセットは現在、HyperAIのウェブサイトで公開されています。本記事では、この研究論文の詳細な解釈と共有について解説します。 レポート全文はこちら:https://go.hyper.ai/3wP7R 2. イベントの概要 | 上海交通大学、浙江大学、清華大学、OpenBayes からの複数の専門家が、ヘルスケア、地理情報システム、複雑都市システム、新たな研究パラダイムなどの分野をカバーします。 COSCon'24開催中、HyperAIは共同貢献コミュニティとして、「AI for Science(科学のためのAI)」をテーマにしたオープンソースAIフォーラムを主催しました。上海交通大学、浙江大学、清華大学、そしてOpenBayesの専門家や学者が、医療AI、地理情報AI、科学研究のためのインテリジェントコンピューティングクラウドプラットフォーム、AI主導の複雑な都市システムなど、様々な分野について知見を共有しました。この記事はフォーラムのハイライトをまとめたものです。レポート全文はクリックしてご覧ください。 イベントの要約を見る: https://go.hyper.ai/s2RQU 3. AI を活用した製薬会社 Terray は、世界最大の化学データセットを構築するために Nvidia から 2 回目の資金調達を確保しました。 AIを活用した製薬会社Terray Therapeuticsは、シリーズBの資金調達で1億2,000万ドルを調達しました。このラウンドは、NVIDIAのベンチャーキャピタル部門であるNVenturesと、新規投資家であるBedford Ridge Capitalが主導しました。これはNVIDIAによるTerrayへの2度目の投資となります。同社はまた、世界最大の化学データセットを構築し、AIとウェットラボ実験を組み合わせることで、データ面でのクローズドループを構築しました。詳細はこちらをクリックしてください。 レポート全文はこちら:https://go.hyper.ai/AWojF 4. うつ病の初期スクリーニングを促進!上海交通大学のチームがエージェントベースのメンタルヘルスクリニックを構築しました。論文の筆頭著者がオンラインでデモを公開し、その技術的な特徴を共有しました。 「Meet AI4S」ライブストリームシリーズの第4回では、上海交通大学クロスメディア言語知能研究所の藍坤姚博士が「大規模モデルエージェントに基づくメンタルヘルス相談・診断プラットフォーム」と題したプレゼンテーションを行いました。博士はこのメンタルヘルスクリニックの利用手順、技術的特徴、そして今後の計画について詳しく説明しました。この記事は、インテリジェントエージェントメンタルヘルスクリニックのデモを含む、博士のプレゼンテーションの要点をまとめたものです。クリックしてすぐにご覧ください。 レポート全文はこちら:https://go.hyper.ai/CHhKC 人気のある百科事典の項目
この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。 https://go.hyper.ai/wiki トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event 今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。 来週お会いしましょう! HyperAI (hyper.ai) についてHyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper-Physical Computing)コミュニティです。中国のデータサイエンス分野のインフラ構築に尽力し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。
公式ウェブサイトにアクセスして学習を始めましょう: https://hyper.ai |
3秒でマルチボイスミキシングとクローン作成を実現!F5/E2 TTSチュートリアルを公開。心理療法士の言語スタイルを正確にシミュレートするPsyDTCorpus 5k心理対話データセットを公開。
関連するおすすめ記事
-
新しいチュートリアル | テキストから画像への編集、画像から画像への復元、画像修復のための 3 in 1 ツールである HiDiffusion が、ワンクリックで開始できるチュートリアルで利用できるようになりました。
-
[TVMチュートリアル] モバイルGPU向け畳み込みネットワークの自動チューニング
-
小米科技は販売した自動車1台につき6万元の損失を出しているが、粗利益率はテスラを上回り、同グループとしてこれまでで最高の財務報告を発表するのに貢献している。
-
Robin Li: AI アプリケーションの輝かしい瞬間が間もなく到来 | Wenxin iRAG とノーコードの「MiaoDa」がリリースされました!
-
DeepMind の遺伝的アルゴリズムに関する新しい研究は大きな注目を集めており、推論モデル計画タスクの成功率は 5% から 95% に向上しました。
-
DeepSeekは本日、3つの新しいリポジトリソースをリリースしました。最適化された並列戦略の開発には、Liang Wenfeng氏自身が参加しました。