|
AI生成コンテンツがますます普及する時代において、人間が作成したコンテンツとAIが作成したコンテンツをいかに迅速に区別するかが重要な課題となっています。これは、ニュースの信憑性や著作権保護だけでなく、サイバーセキュリティにも深く関わっています。 Google DeepMindは最近、テキスト生成時にトークン確率スコアを最適化し、テキスト品質に影響を与えることなくロスレスで透かしを埋め込むことで、極めて高い検出効率を実現するSynthID-Text技術を発表しました。従来の技術と比較して、レイテンシコストを抑えながら高い分類精度を実現し、AI駆動型コンテンツモデレーションのための革新的なソリューションを提供します。 hyper.ai Web サイトには現在、SynthID-Text チュートリアルが掲載されています。クローンを作成して起動するだけで、AI ファイルにデジタル ウォーターマークを生成して追加できます。 ワンクリックスタートリンク: https://go.hyper.ai/lQ1UK デモ実行例 11月18日から11月22日までのhyper.ai公式サイトの更新内容の概要は次のとおりです。
公式サイトをご覧ください:hyper.ai 選択された公開データセット1. MOREマルチモーダルオブジェクト - エンティティ関係抽出データセット このデータセットには 21 種類の関係タイプが含まれており、20,000 を超えるマルチモーダル関係ファクトがカバーされており、3,559 組のテキスト タイトルとそれに対応する画像にラベルが付けられています。 直接使用する: https://go.hyper.ai/LlfTx データセット効果の例 2. グアバ果実病害データセット このデータセットには、グアバの果実のラベル付き画像が473枚含まれています。これらの画像は、アンシャープマスクやCLAHE(コントラスト制限適応ヒストグラム平坦化)などの前処理が施され、画像数は3,784枚に増加しました。各画像は、均一な512×512ピクセルのRGB形式に前処理されています。 直接使用する: https://go.hyper.ai/RRLEd データセット画像の例 3. MAD軍事音声データセット MADデータセットは、音声分類システムの学習と評価を支援するために設計されており、特に銃撃、砲撃、爆発といった軍事活動に関連する音声分類タスクに有効です。複数の軍事ビデオから抽出されたこのデータセットには、7つのクラスに分類された8,075件の音声サンプルが含まれており、合計約12時間分の音声が含まれています。 直接使用する: https://go.hyper.ai/kxqH3 データ例 4. MMPRマルチモーダル推論嗜好データセット MMPRデータセットには、明確な正解のないサンプルが75万件、明確な正解のあるサンプルが250万件含まれています。サンプルは、VQA、科学、グラフ作成、数学、OCR、文書など、複数の分野を網羅し、多様性を確保しています。このデータセットは、学習中の潜在的な悪影響を回避しながら、マルチモーダル推論タスクにおけるモデルのパフォーマンスを向上させることを目的としています。 直接使用する: https://go.hyper.ai/bbHH0 データ例 5. ROCOv2 放射線マルチモーダル医療画像データセット ROCOv2 データセットは、放射線画像とそれに関連する医学的概念および説明を組み合わせたもので、さまざまな臨床モード、解剖学的領域、方向 (X 線の場合) を網羅した 70,000 枚を超える放射線画像が含まれており、各画像には対応する医学的概念の説明が添付されています。 直接使用する: https://go.hyper.ai/XgqCa データセット画像の例 6. PDFM地理索引データセット PDFM ジオインデックス データセットは、人口動態ベースの埋め込みを評価するために使用される現実世界のデータであり、地図、検索傾向の概要、天気や空気の質などの環境要因から取得された人間の行動に関する豊富な集約情報が含まれています。 直接使用する: https://go.hyper.ai/jpzY1 7. Mantis-Instruct マルチイメージコマンドチューニングデータセット このデータセットは、複数画像に対する指示のチューニングに焦点を当てた、テキストと画像をインターリーブしたマルチモーダルデータセットです。Mantisモデルシリーズの学習に用いられる721,000件の例を含む14のサブセットで構成されています。このデータセットは、共参照、推論、比較、時間的理解など、様々な複数画像スキルをカバーしています。 直接使用する: https://go.hyper.ai/dOtuR 8. MASSW 科学ワークフローデータセット MASSWデータセットには、過去50年間にわたる17の主要なコンピュータサイエンス会議から、152,000件を超える査読済み論文が含まれています。このデータセットは、科学的ワークフローの5つの主要な側面、すなわち文脈、主要なアイデア、方法論、結果、そして期待される影響を定義しています。これらの側面を用いて、各論文から情報を抽出・構造化し、構造化された要約を作成しました。 直接使用する: https://go.hyper.ai/2pUy8 9. AudioSetCaps オーディオキャプションデータセット AudioSetCaps 音声キャプションデータセットには、10秒の音声ファイルが611万件以上含まれています。各音声ファイルには、最終的なタイトルを生成するためのメタデータとして、説明的なタイトルと3つのQ&Aペアが付与されています。 直接使用する: https://go.hyper.ai/3QCQP 10. 伝統中国医学データセット(SFT) - 伝統中国医学診断データセット このデータセットには、約1GBの高品質なコンテンツが含まれており、臨床症例、古典文献、医学百科事典、伝統中医学の様々な分野の用語集などが含まれています。データセットは主にインターネット以外の情報源からの内部データで構成されており、その99%は簡体字中国語です。優れた品質と高い情報密度を誇り、事前学習や更なる事前学習に適しています。 直接使用する: https://go.hyper.ai/zb7Uf 厳選された公開チュートリアル1. SynthID-Text AIテキスト透かしツール このモデルは、大規模言語モデル(LLM)によって生成されたテキストを識別・検証するための透かし技術です。テキストの品質を維持し、レイテンシコストを最小限に抑えながら高い検出精度を実現します。その核心は、テキスト品質やユーザーエクスペリエンスを損なうことなく、生成プロセス中にトークン確率スコアを微妙に調整することで、実質的に知覚できない透かしを埋め込むことにあります。これにより、高い検出精度を実現します。 このプロジェクトでは、Gradoインターフェースを介してフロントエンドのインタラクティブインターフェースを生成できます。関連モデルと依存関係がデプロイされており、ワンクリックで透かし入りテキストを生成できます。 オンラインで実行: https://go.hyper.ai/lQ1UK モデル例 2. Evo: 分子からゲノムスケールまでの配列予測と生成 Evoは、DNA、RNA、タンパク質といった生物学の基本言語を汎用化する基礎的な生物学的モデルです。このモデルは、分子レベルから全ゲノムレベルまでの配列予測と生成を網羅し、予測タスクと生成設計を実行できます。 以下のリンクをクリックしてチュートリアルに従い、ゲノム規模の配列を予測してください。 オンラインで実行: https://go.hyper.ai/LgFWm 予測されるタンパク質構造の例 3. VASPチュートリアル: 1-1. 孤立酸素原子のDFT計算 VASPは、電子構造計算および量子力学-分子動力学シミュレーション用のソフトウェアパッケージです。材料シミュレーションおよび計算材料科学研究のための最も人気のある商用ソフトウェアパッケージの一つです。その高い精度と強力な機能により、研究者が材料特性を予測・設計するための重要なツールとなっており、固体物理学、材料科学、化学、分子動力学などの分野で広く利用されています。 このチュートリアルは、公式VASPチュートリアル「孤立酸素原子のDFT計算」の最初の部分です。以下のリンクをクリックしてチュートリアルの指示に従い、高性能DFT計算をゼロから始めましょう。 オンラインで実行: https://go.hyper.ai/pa2NX 💡安定拡散チュートリアルのディスカッショングループも作成しました。WeChatでHyperaiを追加(WeChat ID: Hyperai01)し、メッセージに「SD Tutorial」と記載してグループに参加して、様々な技術的な問題について議論したり、アプリケーションの結果を共有したりしてください。 厳選されたコミュニティ記事1. NeurIPS 2024に選出されました!ウェストレイク大学は、AlphaFold 3をさらに補完する、普遍的な分子逆折り畳みモデルであるUniIFを提案しています。 分子のレトロフォールディングは医薬品および材料設計において重要な役割を果たしますが、これまでの研究では、汎用的な分子のレトロフォールディングに焦点を当てたものはほとんどありませんでした。この問題に対処するため、ウェストレイク大学未来産業研究センターのチームは、あらゆる分子のレトロフォールディングを統合するモデル「UniIF」を提案しました。実験結果によると、UniIFはタンパク質設計、RNA設計、材料設計など、複数のタスクにおいて最先端の性能を発揮することが示されています。本稿では、この論文の詳細な解釈と共有を提供します。 レポート全文はこちら:https://go.hyper.ai/efhze 2. 安定性と材料生成効率が300%向上!Meta FAIR、45,000種類以上の材料を網羅するデータセットを備えた材料生成モデル「FlowLLM」をリリース。 AI技術の学際的応用において、離散変数と連続変数をどのように組み合わせて結晶材料生成の品質を向上させるかは、結晶材料生成分野における中核的な課題となっています。この課題に対処するため、Meta FAIR研究室は材料生成モデルFlowLLMを発表しました。このモデルは、従来のモデルと比較して安定材料の生成効率を300%以上向上させ、SUN材料の生成効率も約50%向上させます。本稿では、この論文の詳細な解釈と共有を提供します。 レポート全文はこちら:https://go.hyper.ai/KJzjz 3. PLMにおける大きな進歩!上海交通大学と上海AIラボの最新の成果がNeurIPS 24に選出されました。ProSSTはタンパク質構造情報を効果的に統合します。 最近、上海交通大学は上海人工知能研究所と共同で、構造認識機能を備えた事前学習済みのタンパク質言語モデル(ProSST)の開発に成功しました。1,880万個のタンパク質構造を含む大規模データセットで事前学習されたこのモデルは、タンパク質構造とアミノ酸配列情報を効果的に統合し、教師あり学習タスクにおいて既存のモデルを大幅に上回る性能を発揮します。本稿では、この論文の詳細な解釈と共有を行います。 完全なレポートを見る: https://go.hyper.ai/qi5ei 4. 上海AIラボとその他の団体は、18の臨床タスクをカバーする284のデータセットを含む、マルチモーダル医療ベンチマークGMAI-MMBenchをリリースしました。 上海人工知能研究所を含む複数の研究機関が、世界規模で284の下流タスクデータセットをカバーするGMAI-MMBenchベンチマークを提案しています。これには、38種類の医用画像モダリティ、18種類の臨床関連タスク、18の診療科、そして視覚的な質疑応答形式のための4つの知覚粒度が含まれており、現在までに最も包括的な汎用医療ベンチマークとなっています。さらに、本稿では他の医療データセットもまとめており、簡単にアクセスできるようにリンクも掲載しています。 レポート全文はこちら:https://go.hyper.ai/csr2M 人気のある百科事典の項目 **1. シグモイド関数**
この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。 https://go.hyper.ai/wiki トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event 今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。 来週お会いしましょう! HyperAI (hyper.ai) についてHyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper-Physical Computing)コミュニティです。中国のデータサイエンス分野のインフラ構築に尽力し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。
公式ウェブサイトにアクセスして学習を始めましょう: https://hyper.ai/ |
SynthIDの目に見えない透かし機能をぜひお試しください!AI生成コンテンツをより細かく制御できます。600万件の音声ファイルを含む大規模な音声キャプションデータセットが利用可能になりました。
関連するおすすめ記事
-
バイトダンスがSeed Edgeというコードネームで呼ばれる長期AGI研究プログラムを開始
-
【縁起の良い蛇は幸運をもたらす】 | 2024年中国オープンソース年次報告書が正式に発表されました!
-
過去 2 か月間の徹底的な検討に基づいた、DeepSeek R1 の包括的な概要です。
-
LLM 推論パフォーマンスは出力形式によって影響を受けますが、JSON は最も大きな影響を受けます。
-
OpenAIはトップ幹部3名を失い、マネージャーは1名のみとなりました。このマネージャーは中国人リーダーの昇格を急務としています。わずか6ヶ月で主要人物15名を失った後、このような事態に陥っています。
-
AIオープンソース南京共有セッションのハイライト