618ZXW

Meta最大のビデオセグメンテーションデータセットがオンラインになりました。類似データセットの50倍の規模を誇り、9,000個のスターを誇ります!Kuaishouのデジタルヒューマンデモは、ワンクリックで起動できます!

AIはどのようにして静止画に命を吹き込み、笑顔や瞬き、そして繊細な表情までもリアルに見せることができるのでしょうか?Kuaishouチームは最近、静止画を表情豊かな動的なポートレートに変換するLivePortraitをオープンソース化しました。GitHubで既に9,000個のスターを獲得しています。チュートリアルはHyperAIで公開されているので、ぜひお試しください!

LivePortraitチュートリアルリンク:

https://go.hyper.ai/oTs66

7月29日から8月2日までのhyper.ai公式サイトの更新内容の概要は次のとおりです。

  • 高品質の公開データセット: 11
  • 厳選された高品質のチュートリアル:3
  • 選択されたコミュニティ記事: 4
  • 人気の百科事典の項目: 5
  • 8月締め切りのトップカンファレンス:4

公式サイトをご覧ください: hyper.ai

選択された公開データセット

1. SA-Vビデオセグメンテーションデータセット

SA-Vデータセットは、Meta Segment Anything Model 2のトレーニングと評価のために2024年にMetaによって構築された大規模なビデオセグメンテーションデータセットです。約51,000本の実世界ビデオと643Kの時空間マスク注釈が含まれており、他の同様のデータセットの約50倍の大きさになっています。

直接使用する: https://go.hyper.ai/X4DGI

2. LABベンチ生物学ベンチマークデータセット | 8つの主要タスク、2.4K以上の多肢選択問題をカバー

生物学分野におけるAIシステムの効果的な開発を促進するため、FutureHouse Inc.の研究者らは、言語エージェント生物学ベンチマークデータセット「LAB-Bench」を公開しました。このデータセットは、文献検索・推論、グラフ解釈、DNAおよびタンパク質配列の理解・処理など、実世界の生物学研究におけるAIシステムの性能評価に用いられます。この成果は、世界最高峰の学会NeurlPS 2024に提出されています。

直接使用する: https://go.hyper.ai/UznkS

3. NuminaMath-CoT数学競技問題データセット

このデータセットには、86万件を超える数学競技の問題と解答のペアが含まれており、それぞれの解答は思考連鎖(CoT)推論テンプレートを用いています。データセットは、中国の高校数学練習問題、および米国および国際数学オリンピックの問題から取得されています。データは主に、オンラインの試験問題PDFと数学に関するディスカッションフォーラムから収集されました。

直接使用する: https://go.hyper.ai/svElx

4. Taptapレビューゲームレビューデータセット

このデータセットには、モバイルゲームアプリTapTapの約300ゲームのタグ付けされたレビュー(合計4,888件)が含まれており、感情分析タスクに使用できます。星3つ未満(最大5つ)のユーザーレビューは0(不満足)、それ以外のレビューはすべて1(満足)とみなされます。これら2つのカテゴリの比率はおよそ1:1です。

直接使用する: https://go.hyper.ai/ISf7c

5. CCPDデータセット:中国ナンバープレート検出データセット

CCPDデータセットは、大規模で多様性に富み、綿密にラベル付けされたナンバープレート認識データセットです。主に中国合肥市の駐車場から収集されており、ぼやけた状態、傾いた状態、雨天、雪天といった様々な複雑な条件下で撮影されたナンバープレート写真が含まれているため、ナンバープレート認識タスクにとって難易度の高いデータセットとなっています。

直接使用する: https://go.hyper.ai/gZ37Y

6. TinyStories短編小説合成データセット

このデータセットは、GPT-3.5 と GPT-4 によって生成された短編小説の合成データセットであり、語彙は 3 歳から 4 歳の子供の理解範囲に限定されています。このデータセットを使用して、流暢で一貫性があり、多様性があり、文法的にほぼ完璧な短編小説を生成するモデルをトレーニングできます。

直接使用する: https://go.hyper.ai/m9ouS

7. 山火事の煙検知データセット

このデータセットは、AI for MankindとHPWRENの共同研究として2019年に公開され、737枚の画像(トレーニング画像516枚、検証画像147枚、テスト画像74枚)が含まれており、すべてCOCO形式でラベル付けされています。このデータセットは、モデルの雲/霧と煙の識別能力を向上させ、エンドツーエンドのフィードバックループを確立することを目的としています。

直接使用する: https://go.hyper.ai/ofGHZ

8. LJSpeechデータセット

これはパブリックドメインの音声データセットで、13,100本の短い音声クリップが含まれています。各クリップは、7冊のノンフィクション書籍から1人の話者が文章を読み上げています。各クリップには書き起こしが提供されています。クリップの長さは1秒から10秒で、合計で約24時間です。

直接使用する: https://go.hyper.ai/Eo1bK

9. 十二支データセット

このデータセットには、十二支を表す8,508枚の画像が含まれています。データセットは、トレーニング、検証、テストの各セクションに85:7.5:7.5の比率で事前に分割されています。

直接使用する: https://go.hyper.ai/ps2es

10. DISC-Law-SFT高品質中国法務監督ファインチューニングデータセット

このデータセットには約30万点のトレーニングデータポイントが含まれており、中国の法務分野に特化して設計されています。このデータセットは、法務テキスト処理、法的推論、そして司法分野における知識検索と遵守におけるモデルの能力向上を目的としています。

直接使用する: https://go.hyper.ai/zh9Ij

11. フリー音声数字データセット(FSDD) - 数字認識のための音声データセット

自由音声数字データセット(FSDD)は、8kHzのサンプリングレートで録音されたWAVファイル形式のデジタル音声からなる音声データセットです。これらの録音は、冒頭と末尾の無音部分を最小限に抑えるためにトリミングされています。

直接使用する: https://go.hyper.ai/HZ00d

その他の公開データセットについては、以下をご覧ください。

https://hyper.ai/datasets

厳選された公開チュートリアル

1. 新しいチュートリアル | テキストから画像への編集、画像から画像への復元、画像修復のための 3 in 1 ツールである HiDiffusion が、ワンクリックで開始できるチュートリアルとともに利用できるようになりました。

HiDiffusionは、Megvii Technologyが提供するオープンソースの高解像度フレームワークで、テキストから画像、画像から画像への生成だけでなく、画像復元機能もサポートしています。HyperAIは現在、「HiDiffusionで高品質な8K画像を素早く生成するデモ」というチュートリアルを公開しており、コマンドを必要とせず、ワンクリックで起動できます。

オンラインで実行: https://go.hyper.ai/yZ5K5

2. LivePortrait、Kuaishou のオープンソースの画像ベースのデジタル ヒューマン デモ。

LivePortraitは、ポートレート動画生成フレームワークです。主な機能は、単一画像からの鮮やかなアニメーション生成、目と唇の動きの精密な制御、複数のポートレートのシームレスなスティッチング、様々なポートレートスタイルのサポート、高解像度アニメーションの生成などです。このチュートリアルでは、ワンクリックでLivePortraitのデモをご覧いただけます。必要な環境と依存関係は既にインストール済みなので、クローンを作成して起動するだけですぐにご体験いただけます。

オンラインで実行: https://go.hyper.ai/oTs66

3. AuraSR GANベースの超解像度画像アップスケーリングデモ

AuraSRは、画像内のディテールをインテリジェントに識別し、画像を拡大しながら不足しているディテールを自動的に補完する、ディープラーニングベースの画像復元モデルです。従来の画像拡大手法と比較して、AuraSRは優れた結果を提供するだけでなく、専門的なスキルを必要とせず、簡単に使用できます。ワンクリックでクローンを作成できる機能で、モデルを実際に体験できます。

オンラインで実行: https://go.hyper.ai/y2wIU

厳選されたコミュニティ記事

1. Meta、東京エレクトロン、FPT ソフトウェアなどの協力を得て、Aitomatic は半導体業界向けの最初のオープンソースの大規模モデルをリリースし、企業の技術的自律性を効果的に「確保」しました。

産業分野におけるAIイノベーションのリーディングカンパニーであるAitomaticは、半導体業界向けに特別に設計された世界初のオープンソースAI言語モデル「SemiKong」のリリースを発表しました。同社は既に、企業ユーザーの専門知識とデータに基づいてカスタマイズされたエージェントを構築し、企業がエージェントの「完全な所有権」を持つAIエージェント「aiKO」をリリースしています。

レポート全文はこちら: https://go.hyper.ai/A7eCi

2. ハイライト | ジェンセン・フアンとマーク・ザッカーバーグの「世紀の対話」

7月30日早朝、第51回SIGGRAPHグラフィックスカンファレンスにおいて、NVIDIAの創業者兼CEOであるジェンスン・フアン氏とMetaの創業者兼CEOであるマーク・ザッカーバーグ氏が対談を行いました。HyperAIは、そのハイライトをまとめ、動画に中国語字幕をフルで提供しました。

完全なレポートを見る: https://go.hyper.ai/rbU2u

3. ICMLに選出!MITチームがAlphaFoldをベースに画期的な成果を達成し、動的なタンパク質多様性を解明。

MITの研究チームは、AlphaFoldやESMFoldといった高精度シングレット予測器を再利用し、カスタムフローマッチングフレームワーク内で微調整することで、配列条件付きタンパク質構造生成モデル(AlphaFLOWおよびESMFLOW)を構築しました。本稿では、これらの関連論文の詳細な解説と共有を行います。

レポート全文はこちら: https://go.hyper.ai/qupG9

4. 上級病理医に匹敵するレベルに到達!清華大学チームが、神経膠腫の精密診断のためのAIベースモデルROAMを提案。

清華大学自動化学科生命基本モデル研究室は、中南大学湘雅病院と共同で、大規模な地域関心とピラミッド型Transformerを基盤とした、精密病理診断のための基本AIモデル「ROAM」を提案しました。このモデルは、神経膠腫の臨床レベルの診断と分子マーカー発見に活用できるだけでなく、他の種類の腫瘍の病理診断にも拡張可能です。

レポート全文はこちら: https://go.hyper.ai/w4tsr

人気のある百科事典の項目

1. 神経放射場(NeRF)

2. グループクエリアテンション(GQA)

3. データ拡張

4. 大規模マルチタスク言語理解MMLU

5. 長期短期記憶

この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。

https://go.hyper.ai/wiki

トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event

今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。

来週お会いしましょう!

HyperAI (hyper.ai) について

HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper.ai)コミュニティであり、中国のデータサイエンス分野のインフラとなることを目指し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。

  • 1300以上の公開データセットの国内高速ダウンロードノードを提供
  • 400以上の古典的かつ人気のあるオンラインチュートリアルが含まれています
  • 100以上のAI4Science論文事例を理解する
  • 500 以上の関連用語の検索をサポートします。
  • 中国で初めて Apache TVM の完全な中国語ドキュメントをホスト

公式ウェブサイトにアクセスして学習を始めましょう:

https://hyper.ai/