618ZXW

データセットのコンパイル | 映画/曲の推奨、映画レビュー、歌詞の認識、音楽のジャンルなどを網羅した 18 個の映画/音楽データセットのコンパイルです。

旅行中であろうと、家でゆっくり過ごしているときであろうと、映画や音楽はさまざまな形でいつも私たちのそばにあり、生活を豊かにする「調味料」にもなっています。

毎年、国慶節の連休期間中は映画館の観客動員数が急増します。報道によると、昨年の国慶節連休の興行収入は27億3,400万元に達し、2022年の同時期と比べて83%増の6,511万4,000人を超えました。

一方、中国舞台芸術協会の統計によると、2023年9月29日から10月6日まで、全国で合計44,200件の商業公演(娯楽施設での公演を除く)が開催され、そのうち121件の大規模コンサートや音楽祭が含まれており、興行収入は5億4,100万元、観客動員数は836,600人に達した。

映画と音楽が人々の生活にどれほど重要か、このことからもそれが分かります。HyperAIは、映画や音楽のおすすめ、映画の評価予測、歌詞認識など、映画と音楽に関するデータセットをまとめました。必要に応じてダウンロードして、休暇をもっと楽しく過ごしましょう。

その他のオープンソース データセットを表示するにはクリックしてください。

https://go.hyper.ai/E1jBL

QR コードをスキャンし、「データセット」というメモを追加してディスカッション グループに参加してください ↓

映画データセットの概要

1. 映画推薦データセット

公開プラットフォーム: Kaggle

推定サイズ: 8.89 MB

ダウンロードリンク: https://go.hyper.ai/2uTxh

このデータセットには、映画のあらすじ、俳優、スタッフ、予算、収益などを含む TMDB の 5,000 本の映画データセットが含まれており、映画推奨システムや映画市場分析などのさまざまなアプリケーションに適しています。

2. TMDB映画データセット

公開プラットフォーム: Kaggle

発売日: 2024年

推定サイズ: 199.09 MB

ダウンロードリンク: https://go.hyper.ai/4uTYb

TMDB は、TMDB データベースの 100 万本の映画を収録した総合的な映画データベースで、タイトル、評価、公開日、収益、ジャンルなどの詳細情報を含む映画に関する情報を提供します。

3. AclImdb – v1 大規模映画レビューデータセット

発行機関:スタンフォード大学

発売日: 2011年

推定サイズ: 80.23 MB

ダウンロードリンク: https://go.hyper.ai/CdpFg

AclImdb – v1 データセットは、バイナリ感情分類用の大規模な映画レビュー データセットで、トレーニング用に 25,000 件の映画レビュー、テスト用に 25,000 件の映画レビュー、およびその他のラベルなしデータが利用可能です。

4. Netflix映画レビューデータセット

配信プラットフォーム: Netflix Prize

推定サイズ: 665.24 MB

ダウンロードリンク: https://go.hyper.ai/nWG97

Netflixの映画評価データセットには、17,000本の映画に対する48万人のユーザーによる評価が含まれており、合計100万件以上の評価が含まれています。このデータは1998年10月から2005年11月の間に収集され、評価は5段階評価に基づいており、ユーザー情報は匿名化されています。

5. MovieLens 映画推奨データセット
発行者:ミネソタ大学 GroupLens 研究チーム

発売日: 2018年

ダウンロードリンク: https://go.hyper.ai/RFNqY

このデータセットは、映画推薦システムの研究開発にご利用いただけます。データセットには、MovieLens 100K、MovieLens 1M、MovieLens 10M、MovieLens 20Mなど複数のバージョンがあり、機械学習、データマイニング、パーソナライズされた推薦システムの研究で広く利用されています。

6. IMDB映画レビューデータセット

発行機関:スタンフォード大学

発売日: 2011年

推定サイズ: 137.77 MB

ダウンロードリンク: https://go.hyper.ai/n247h

このデータセットは、感情の二値分類に適しており、感情分類のベンチマークとして利用することを目的としています。ラベル付きで両極化された映画レビュー50,000件と、ラベルなしの利用可能なデータポイント50,000件が含まれています。

7. Wikipedia 映画プロットデータセット

発行機関:マサチューセッツ工科大学

発売日: 2018年

推定サイズ: 29.55 MB

ダウンロードリンク: https://go.hyper.ai/CnrF2

Wikipedia Movie Plotsデータセットには、世界中の34,886本の映画が含まれています。各映画には、公開年、タイトル、国籍、監督、キャスト、あらすじが含まれています。このデータセットは、映画のジャンル予測や関連映画の推薦など、様々な問題解決タスクに活用できます。

8. MovieNet映画理解データセット

発行機関:香港中文大学

発売日: 2020年

推定サイズ: 263.58 GB

ダウンロードリンク: https://go.hyper.ai/tfoDz

MovieNetは、1,100本の映画と、予告編、写真、あらすじなどの豊富なマルチモーダルデータを含む映画理解のためのデータセットです。さらに、MovieNetは様々な側面について手動によるアノテーションを提供しています。

9. 映画データと評価データセット

公開プラットフォーム: Kaggle

推定サイズ: 227.8 MB

ダウンロードリンク: https://go.hyper.ai/s5DFC

このデータセットには、MovieLensデータセット全体から抽出された45,000本の映画の詳細なメタデータが含まれています。映画の基本情報だけでなく、公開日や言語などの詳細な情報も網羅しています。さらに、27万人のユーザーによる1つ星から5つ星までの2,600万件の評価が含まれており、映画の人気度を調査する上で貴重なデータとなります。

音楽データセットの概要

1. オンライン音楽システム情報データセット

発行機関:マドリード自治大学情報検索グループ

発売日: 2011年

推定サイズ: 2.47 MB

ダウンロードリンク: https://go.hyper.ai/Ig3WD

このデータセットには、Last.fm音楽プラットフォームにおける2,000人のユーザーのインタラクションデータが含まれており、ユーザーの友人関係、タグ、音楽アーティスト、タグ情報などが含まれています。研究者は、ソーシャルネットワークデータ、ユーザータグ、その他の情報を活用してレコメンデーションアルゴリズムを改善する方法を研究することができます。

2. OpenMIIR音楽鑑賞EEGデータセット

発行機関:オーウェン研究所、ウェスタンオンタリオ大学

発売日: 2016年

推定サイズ: 5.88 GB

ダウンロードリンク: https://go.hyper.ai/0qG3t

OpenMIIRは、音楽知覚と想像中に記録された脳波(EEG)記録に基づくパブリックドメインのデータセットです。12曲の音楽抜粋を聴取した被験者のEEGデータと、それに対応する音楽刺激が含まれており、主に音楽聴取中の脳波の変化を分析するために使用されます。

3. NetEase Cloud 音楽感情分類データセット
出版プラットフォーム: Huggingface

推定サイズ: 4.05 MB

ダウンロードリンク: https://go.hyper.ai/OKA4L

NetEase Cloud Music感情分類データセットには、約395,000件の音楽感情タグデータエントリが含まれています。各データエントリは、曲ID、プレイリストID、曲の感情タグの3つの主要な列で構成されています。感情分析モデルの構築、データマイニング、そして音楽と感情の関係性をより深く理解するのに適しています。

4. MusicNet音楽データセット
発行機関:ワシントン大学

発売日: 2017年

推定サイズ: 10.34 GB

ダウンロードリンク: https://go.hyper.ai/ZPuMa

MusicNetは、音楽研究における機械学習手法の教師データと評価に使用される大規模な音楽データセットです。このデータセットは、著作権フリーのクラシック音楽録音330曲と、ミュージシャンによって検証された100万件以上の注釈付きラベルで構成されており、ラベルのエラー率はわずか4%です。

5. URMP音楽パフォーマンス視聴覚分析データセット公開組織:電気電子学会(IEEE)

推定サイズ: 11.27 GB

ダウンロードリンク: https://go.hyper.ai/0sjUP

URMPは、音楽演奏のオーディオビジュアル分析のためのデータセットです。このデータセットには、それぞれ個別に録音された44曲のシンプルな複数楽器の楽曲が含まれています。各楽曲について、MIDI形式の楽譜、高品質な単楽器演奏の録音、そして合成演奏のビデオが提供されています。

6. CCMUSIC 音楽ジャンルデータセット
発行機関:中国科学院自動化研究所

発売日: 2017年

推定サイズ: 16.93 GB

ダウンロードリンク: https://go.hyper.ai/mBXI6

このデータベースには、NetEase Cloud Musicから約1,700曲の音楽トラック(MP3形式)が収録されています。トラックの長さは270秒から300秒までで、16のジャンルに分類されています。

7. Music21ミュージックビデオデータセット
発行機関:マサチューセッツ工科大学

発売日: 2009年

推定サイズ: 42.29 MB

ダウンロードリンク: https://go.hyper.ai/U4qDT

Music21は、YouTubeからキーワードを用いてクロールされた、枝刈りされていない動画データセットです。21の音楽演奏カテゴリが含まれており、データ品質が高いため、視覚的な音源分離モデルの学習と評価に適しています。

8. MusicPile 大規模音楽データセット
出版プラットフォーム: Huggingface

発売日: 2023年

推定サイズ: 6.33 GB

ダウンロードリンク: https://go.hyper.ai/tuVEy

このデータセットには、517万のサンプルと約41億6000万のトークンが含まれています。データセットにはid、text、srcの3つのフィールドがあり、各テキストセグメントには最大2,048トークンが含まれます。MusicPileは、音楽に関する幅広い知識、Q&A、そして典型的な音楽理論のコンテンツを網羅しており、大規模モデルの音楽理解と作曲能力の向上に重要な役割を果たしています。

9. 史上最高の5,000枚のアルバムのデータセット
公開プラットフォーム: Kaggle

発売日: 2021年

推定サイズ: 302 KB

ダウンロードリンク: https://go.hyper.ai/SGAHV

このデータセットには、ランキング、アルバム名、アーティスト名、リリース日、ジャンル、説明、平均評価、評価数、レビュー数など、http://rateyourmusic.com のユーザーが決定したベストアルバム 5,000 枚が含まれています。

HyperAIがまとめた映画と音楽のデータセットです。hyper.ai公式サイトから追加したいリソースをお持ちの方は、お気軽にメッセージをお送りいただくか、ご自身のリソースをご提出ください。QRコードをスキャンして「dataset」とメンションすると、ディスカッショングループに参加できます。↓

HyperAI (hyper.ai) について

HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper.ai)コミュニティであり、中国のデータサイエンス分野のインフラとなることを目指し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。

  • 1200以上の公開データセットの国内高速ダウンロードノードを提供
  • 300以上の古典的かつ人気のあるオンラインチュートリアルが含まれています
  • 100以上のAI4Science論文事例を理解する
  • 500 以上の関連用語の検索をサポートします。
  • 中国で初めて Apache TVM の完全な中国語ドキュメントをホスト

公式ウェブサイトにアクセスして学習を始めましょう:

https://hyper.ai/