|
Nvidia版Soraが公開 — 「コスモス」というコードネームが付けられたこのプロジェクトは、研究担当副社長の劉明宇氏が率いている。 しかし、複数の内部文書が漏洩した後、違法にデータを取得していたことも発覚した。 (実はこれが初めてでも二回目でもないのですが…) 従業員は、YouTubeやNetflixなどのプラットフォームなどから、インターネットから毎日、無許可または同意のないデータを収集することを暗黙的に許可されていました。 合計すると、毎日撮影されるものは、人が 80 年間かけて認識できる視覚データにほぼ相当します。 Nvidiaは「我々の行為は完全に合法です!」と応答した。 NvidiaのSORAバージョンが公開:コードネームはCosmos404Mediaが入手した漏洩文書によると、Nvidiaは新しいモデルをトレーニングするために毎日違法なデータを収集している。 Cosmosは最先端のビデオ基盤モデルの構築を目指しています。流出したメールによると、このモデルは光伝送、物理、そしてインテリジェンスのシミュレーションを組み込んでおり、幅広い下流アプリケーションの可能性を解き放つことが示唆されています。 たとえば、Omniverse 3D ワールド ジェネレーター、自律走行車システム、デジタル ヒューマン製品などで使用されています。 NVIDIA の研究担当副社長である Ming-Yu Liu 氏が、Cosmos のプロジェクト リーダーを務めています。 彼はIEEEフェローでもあります。NVIDIA Deep Imagination研究グループを率い、NVIDIA Picasso [Edify]、NVIDIA Canvas [GauGAN]、NVIDIA Maxine [LivePortrait]などの製品を開発しました。 メイからの以前の電子メールには、次の内容が記載されていました。 私たちは、v1 データ パイプラインを完成させ、人間の一生分の視覚体験に相当するトレーニング データを毎日生成できるビデオ データ ファクトリーを構築するために必要なコンピューティング リソースを確保しています。 この画像は、NVIDIA の主任科学者である Francesco Ferroni が提供したテーブル リンクを示しています。このテーブル リンクには、MovieNet (60,000 本の映画予告編を含むデータベース)、WebVid、InternVid-10M、および内部でキャプチャされたいくつかのビデオ ゲーム映像データセットなど、さまざまなビデオ データセットがまとめられています。 元従業員によると、従業員は現在、YouTubeやNetflixなどの情報源からデータを収集するよう求められているという。 彼らは、YouTube によるブロックを回避するために仮想マシンを使用して IP アドレスを更新できる、yt-dlp と呼ばれるオープンソースの YouTube 動画ダウンローダーを使用します。 これに対してNvidiaは404 Mediaに次のように語った。
一方、Googleは404 Mediaへのリンクを送信しました。今年4月、YouTubeのCEOは、OpenAIがYouTube動画を使ってSoraを学習させると、明らかにYouTubeの利用規約に違反すると述べました。 Netflixは、Nvidiaとコンテンツ抽出契約を締結しておらず、利用規約ではコンテンツのスクレイピングは許可されていないと述べた。 興味深いことに、同日、YouTubeブロガーたちはOpenAIに対して集団訴訟を起こし、同社が動画所有者に通知も補償もせずに、何百万本ものYouTube動画録画を使ってAI生成モデルをトレーニングしたと非難した。 これまで、これらの大企業は、違法にデータを取得していることが頻繁に摘発されていました。 しかし、この生のデータは本当に有用であると言わざるを得ません… Nvidia は以前、トレーニング データの品質を向上させるためにゲーム ビデオを使用していました。 Nature の表紙を飾った最近の研究によると、最も初期のインターネット データでトレーニングされた大規模モデルは、最高のデータ品質とそれに応じた最高のモデル パフォーマンスを備え、先行者利益が得られることが示されています。 その後、AI データがますます豊富になるにつれ、大規模なモデルがクラッシュしやすくなるようになりました。 ゴミを入れればゴミが出る。 これについてどう思いますか? 参考リンク: [1] https://techcrunch.com/2024/0... [2] https://www.gamedeveloper.com... [3]https://www.404media.co/nvidi... [4]https://pivot-to-ai.com/2024/... |
Nvidia の Sora バージョンは大量のデータを違法に収集したとして非難されており、同社は不満を表明している。
関連するおすすめ記事
-
Stable Diffusionの元チームが新会社を正式に発表しました!彼らの新しいモデルはAIペイントの状況を一夜にして一変させ、すでに2億3000万元の資金調達を達成しています。
-
上海交通大学の最新大規模モデルエージェントベース心理クリニックを一足先に覗いてみましょう!論文の筆頭著者が、ロールプレイングエージェントの最先端の進歩を詳細に分析します。
-
GitHubはOpenAIをバックアッププランとして活用し、CopilotはClaudeとGeminiとの統合を進めている。ネットユーザーの間では「Cursorのビジネスモデルは終わった」という声が上がっている。
-
Aitomatic は、Meta、東京エレクトロン、FPT ソフトウェアなどの協力を得て、半導体業界向けの最初のオープンソースの大規模モデルをリリースし、企業の技術的自立性を効果的に「確保」しました。
-
ChatGPTの学習後の手法はOpenAIの元共同創設者によって公開され、PPTはオンラインで広く配布されています。
-
ここは成都で AI が最も集中している会場かもしれません。102 社の初期段階のテクノロジー企業、200 社以上の投資家が参加…DEMO CHINA 2024 の全スケジュールが公開されました。