Nvidia の Sora バージョンは大量のデータを違法に収集したとして非難されており、同社は不満を表明している。

Nvidia版Soraが公開 —

「コスモス」というコードネームが付けられたこのプロジェクトは、研究担当副社長の劉明宇氏が率いている。

しかし、複数の内部文書が漏洩した後、違法にデータを取得していたことも発覚した。

（実はこれが初めてでも二回目でもないのですが…）

従業員は、YouTubeやNetflixなどのプラットフォームなどから、インターネットから毎日、無許可または同意のないデータを収集することを暗黙的に許可されていました。

合計すると、毎日撮影されるものは、人が 80 年間かけて認識できる視覚データにほぼ相当します。

Nvidiaは「我々の行為は完全に合法です！」と応答した。

NvidiaのSORAバージョンが公開：コードネームはCosmos

404Mediaが入手した漏洩文書によると、Nvidiaは新しいモデルをトレーニングするために毎日違法なデータを収集している。

Cosmosは最先端のビデオ基盤モデルの構築を目指しています。流出したメールによると、このモデルは光伝送、物理、そしてインテリジェンスのシミュレーションを組み込んでおり、幅広い下流アプリケーションの可能性を解き放つことが示唆されています。

たとえば、Omniverse 3D ワールドジェネレーター、自律走行車システム、デジタルヒューマン製品などで使用されています。

NVIDIA の研究担当副社長である Ming-Yu Liu 氏が、Cosmos のプロジェクトリーダーを務めています。

彼はIEEEフェローでもあります。NVIDIA Deep Imagination研究グループを率い、NVIDIA Picasso [Edify]、NVIDIA Canvas [GauGAN]、NVIDIA Maxine [LivePortrait]などの製品を開発しました。

メイからの以前の電子メールには、次の内容が記載されていました。

私たちは、v1 データパイプラインを完成させ、人間の一生分の視覚体験に相当するトレーニングデータを毎日生成できるビデオデータファクトリーを構築するために必要なコンピューティングリソースを確保しています。

この画像は、NVIDIA の主任科学者である Francesco Ferroni が提供したテーブルリンクを示しています。このテーブルリンクには、MovieNet (60,000 本の映画予告編を含むデータベース)、WebVid、InternVid-10M、および内部でキャプチャされたいくつかのビデオゲーム映像データセットなど、さまざまなビデオデータセットがまとめられています。

元従業員によると、従業員は現在、YouTubeやNetflixなどの情報源からデータを収集するよう求められているという。

彼らは、YouTube によるブロックを回避するために仮想マシンを使用して IP アドレスを更新できる、yt-dlp と呼ばれるオープンソースの YouTube 動画ダウンローダーを使用します。

これに対してNvidiaは404 Mediaに次のように語った。

当社はすべてのコンテンツ作成者の権利を尊重し、当社のモデルと研究作業は著作権法の規定と精神に完全に準拠していると信じています。
著作権法は特定の表現を保護しますが、事実、アイデア、データ、情報は保護しません。事実、アイデア、データ、または情報は誰でも自由に他の情報源から入手し、それらを用いて自身の見解を表現することができます。フェアユースは、モデルの訓練など、変形目的で作品を利用する権利も保護します。

一方、Googleは404 Mediaへのリンクを送信しました。今年4月、YouTubeのCEOは、OpenAIがYouTube動画を使ってSoraを学習させると、明らかにYouTubeの利用規約に違反すると述べました。

Netflixは、Nvidiaとコンテンツ抽出契約を締結しておらず、利用規約ではコンテンツのスクレイピングは許可されていないと述べた。

興味深いことに、同日、YouTubeブロガーたちはOpenAIに対して集団訴訟を起こし、同社が動画所有者に通知も補償もせずに、何百万本ものYouTube動画録画を使ってAI生成モデルをトレーニングしたと非難した。

これまで、これらの大企業は、違法にデータを取得していることが頻繁に摘発されていました。

しかし、この生のデータは本当に有用であると言わざるを得ません…

Nvidia は以前、トレーニングデータの品質を向上させるためにゲームビデオを使用していました。

Nature の表紙を飾った最近の研究によると、最も初期のインターネットデータでトレーニングされた大規模モデルは、最高のデータ品質とそれに応じた最高のモデルパフォーマンスを備え、先行者利益が得られることが示されています。

その後、AI データがますます豊富になるにつれ、大規模なモデルがクラッシュしやすくなるようになりました。

ゴミを入れればゴミが出る。

これについてどう思いますか?

参考リンク: [1] https://techcrunch.com/2024/0... [2] https://www.gamedeveloper.com...

[3]https://www.404media.co/nvidi... [4]https://pivot-to-ai.com/2024/...

618ZXW

Nvidia の Sora バージョンは大量のデータを違法に収集したとして非難されており、同社は不満を表明している。

NvidiaのSORAバージョンが公開：コードネームはCosmos

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ