618ZXW

NeurIPS 2024 データセットの概要 | 雲の除去/化学分光法/歌声オーディオ/自動運転/昆虫標本などをカバー...

NeurIPS(Neural Information Processing Systems Conference)は、神経情報処理システムに関する年次学術会議です。1987年にNIPSという名称で始まり、その後人工知能分野の急速な発展に伴い、その影響力は徐々に拡大し、研究者や企業からの注目と認知度が高まっています。会議の幅広い範囲をより適切に反映するため、2017年にNIPSは正式にNeurIPSに改称されました。

現在、NeurIPS は世界中の学者、起業家、研究者を惹きつけ、人工知能の分野で最も権威のある学術会議の 1 つとなっています。

NeurIPS(NeurIPS 2024)は今年で38回目を迎え、学術的な成果は引き続き目覚ましいものがあります。今年は合計15,671件の有効な投稿があり、最終的に約4,000件の論文が採択されたと報告されています。

HyperAIは、カンファレンスで収集されたデータから、雲の除去、化学分光法、歌声、自動運転、昆虫標本など、様々な側面を網羅した9つの高品質なオープンソースデータセットをまとめました。必要に応じてダウンロードできます。

トップカンファレンスの詳細については、こちらをクリックしてください。
https://go.hyper.ai/vWvAW

WeChat で Hyperai (WeChat ID: Hyperai01) を追加し、「dataset」とメンションしてディスカッション グループに参加してください。

NeurIPS 2024 データセットの概要

1. AllClearパブリッククラウド除去データセット

発行機関:コーネル大学、コロンビア大学

推定サイズ: 22.42 GB

ダウンロードリンク: https://go.hyper.ai/iRqtm

衛星画像における雲の覆いは、下流のアプリケーションにとって大きな課題となります。現在、雲除去研究が直面している大きな問題は、包括的なベンチマークと、十分に大規模で多様なトレーニングデータセットの不足です。しかしながら、AllClearは現在、公開されている雲除去データセットとしては最大規模であり、多様な土地利用パターンをカバーする23,742の関心領域(ROI)と、合計400万枚の画像を含んでいます。

2. ムハラフ手書きのアラビア語データセット

発行機関:ノースカロライナ州立大学、カスリク聖霊大学、レバノン歴史協会

推定サイズ: 9.83 GB

ダウンロードリンク: https://go.hyper.ai/yztH6

Muharafデータセットは、手書きアラビア語テキスト認識に特化した機械学習データセットで、アーカイブアラビア語の専門家によって転写された1,600点以上の歴史的な手書きページ画像が含まれています。各文書画像には、テキスト行の空間ポリゴン座標と基本的なページ要素に関する情報が付与されており、手書きテキスト認識(HTR)分野における技術進歩を促進することを目的としています。

3. 化学マルチモード分光データセット

発行元:IBM Research、チューリッヒ大学、EPFL、NCCR Catalysis

推定サイズ: 9.7 GB

ダウンロードリンク: https://go.hyper.ai/ZdXk8

このデータセットには、特許データ中の化学反応から抽出された79万分子の1H-NMR、13C-NMR、HSQC-NMR、赤外線、質量分析(正イオンモードおよび負イオンモード)のスペクトルデータがシミュレートされています。このデータセットの真価は、複数のスペクトルモードからの情報を統合し、専門家が分子構造を解析する際に用いる手法をシミュレートできることにあります。これにより、構造解析の自動化が期待され、合成から構造決定までの分子探索プロセスが簡素化されます。

4. GTSinger 歌唱音声データセット

発行機関:浙江大学

推定サイズ: 28.94 GB

ダウンロードリンク: https://go.hyper.ai/7jdi2

このデータセットには、中国語、英語、日本語、韓国語を含む 9 つの異なる言語をカバーし、20 人のプロの歌手によるプロが録音した 80.59 時間のボーカルが含まれており、研究者にボーカルの音色とスタイルに関する豊富なリソースを提供します。

5. DrivingDojo自動運転データセット

発行機関:中国科学院、美団、香港イノベーション研究所人工知能・ロボットセンター、中国科学院

ダウンロードリンク: https://go.hyper.ai/W3eDT

このデータセットには、北京、深圳、徐州などの都市を網羅し、様々な天候や日光条件下で撮影された約18,000本のビデオクリップが含まれています。加速、緊急ブレーキ、ストップアンドゴーなどの縦方向の操作だけでなく、Uターン、追い越し、車線変更などの横方向の操作も含まれています。さらに、このデータセットは、複雑な運転環境における世界モデルの予測・制御能力を向上させることを目的として、多数のマルチエージェント相互作用軌跡を含むビデオを収録するように特別に設計されています。

6. マルチモーダル昆虫生物多様性データセット

発行機関:生物多様性ゲノミクスセンター、グエルフ大学、ウォータールー大学など

推定サイズ: 37.71 GB

ダウンロードリンク: https://go.hyper.ai/Ljjwp

BIOSCAN-5Mデータセットには、500万点を超える昆虫標本の詳細情報が含まれており、既存の画像ベースの生物学データセットを大幅に拡張しています。分類ラベル、生のヌクレオチドバーコード配列、割り当てられたバーコードインデックス番号、地理情報だけでなく、標本サイズなどのマルチモーダル情報も含まれており、世界の昆虫の生物多様性の理解と監視を目的としています。

7. OpenSatMap高解像度衛星データセット

発行機関:中国科学院、香港情報システム研究所、中国科学院人工知能・ロボット研究センター、テンセントマップ、北京郵電大学

推定サイズ: 57.7 GB

ダウンロードリンク: https://go.hyper.ai/g54aa

このデータセットは、大規模な地図構築向けに設計された高解像度衛星データセットです。きめ細かなインスタンスレベルのアノテーションと高解像度画像を特徴とし、中国の複数の都市だけでなく、世界18カ国50以上の都市の画像を含む3,787枚の高解像度衛星画像が含まれています。

8. 自然種の音データセット

発行機関:マサチューセッツ大学アマースト校、iNaturalist

推定サイズ: 131.26 GB

ダウンロードリンク: https://go.hyper.ai/lyTcc

このデータセットには、世界中の27,000台以上の録音機から提供された、5,500種以上の音声を収録した23万件の音声ファイルが含まれています。このデータセットには、鳥類、哺乳類、昆虫、爬虫類、両生類の音声が含まれており、音声と種のラベルはiNaturalistに提出された観察記録から取得されています。

9. MINT-1T テキスト-画像ペアマルチモーダルデータセット

発行元:ワシントン大学、スタンフォード大学、Salesforce Research など

ダウンロードリンク: https://go.hyper.ai/kROfu

このデータセットには1兆個のテキストタグと34億枚の画像が含まれており、これまでの最大のオープンソースデータセットの10倍の規模となります。HTML文書だけでなく、PDF文書やArXiv論文も含まれており、科学文書のカバレッジが大幅に向上しています。

10. AudioSetCaps オーディオキャプションデータセット

発行機関:西北工業大学、西安聯豊音響科技有限公司、南洋理工大学、中国科学院音響研究所など

ダウンロードリンク: https://go.hyper.ai/rTKdU

AudioSetCapsは、AudioSet、YouTube-8M、VGGSoundから取得した音声キャプションデータセットで、10秒の音声ファイル6,117,099個が含まれています。各音声ファイルには、説明的なタイトルと、最終的なタイトルを生成するためのメタデータとして3つのQ&Aペアが付与されています(合計18,414,789個のQ&Aペア)。

上記はHyperAIがまとめたNeurIPS 2024データセットの要約です。hyper.ai公式サイトに掲載したいリソースがありましたら、お気軽にメッセージをお送りいただくか、作品をご提出ください。

HyperAI (hyper.ai) について

HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper-Physical Computing)コミュニティです。中国のデータサイエンス分野のインフラ構築に尽力し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。

  • 1300以上の公開データセットの国内高速ダウンロードノードを提供
  • 400以上の古典的かつ人気のあるオンラインチュートリアルが含まれています
  • 200以上のAI4Science論文事例を理解する
  • 500 以上の関連用語の検索をサポートします。
  • 中国で初めて Apache TVM の完全な中国語ドキュメントをホスト

公式ウェブサイトにアクセスして学習を始めましょう:

https://hyper.ai