618ZXW

1万語規模の論文出力のボトルネックを打破!清華大学がLongWriter-6kデータセットをオープンソース化。7つのCCF Aレベルカンファレンスの締め切りが迫る。

既存の大規模モデルは、長いコンテキストを持つため、膨大な量のテキスト入力を処理できますが、長い出力例が不足しているため、長文コンテンツの生成に苦労しています。この問題に対処するため、清華大学の研究チームはLongWriter-6kデータセットを構築しました。これにより、大規模モデルの最大出力ウィンドウサイズを10,000文字以上に拡張できます。

LongWriter-6k でトレーニングされたモデルは、ドラマチックなプロットと長い文章を含む刺激的な小説を生成し、読者を壮大な文学の世界に浸らせるだけでなく、学術研究において詳細な研究レポートや論文レビューを生成し、研究者に豊富な参考資料を提供することができます。

「LongWriter-6k Long Context Output Dataset」はhyper.aiウェブサイトで公開されており、オンラインでご利用いただけます。リンクは下にスクロールしてください。

8月19日から8月23日までのhyper.ai公式サイトの更新内容の概要は次のとおりです。

  • 高品質の公開データセット: 10
  • 厳選された高品質のチュートリアル:2
  • 選択されたコミュニティ記事: 2
  • 人気の百科事典の項目: 5
  • 9月締め切りのトップカンファレンス:7

公式サイトをご覧ください: hyper.ai

選択された公開データセット

1. LongWriter-6k ロングコンテキスト出力データセット

このデータセットには、出力長が 2,000 ~ 32,000 文字 (英語と中国語を含む) の 6,000 個の SFT データ ポイントが含まれており、LLM のトレーニングをサポートし、最大出力ウィンドウ サイズを 10,000 文字以上に拡張できます。

直接使用する: https://go.hyper.ai/77byR

2. EVOBC甲骨文字進化データセット

このデータセットには、研究者が権威ある文書やウェブサイトから体系的に収集した 6 つの歴史的期間の古代の文字が含まれており、13,714 の異なる文字カテゴリを表す 229,170 枚の画像で構成されています。

直接使用する: https://go.hyper.ai/oe5fU

3. HUST-OBS甲骨文字認識データセット

このデータセットには、書籍、Web サイト、既存のデータベースなど、3 つの異なるソースからの 140,000 枚を超える画像が含まれており、現在までに最大規模の OBS 認識および復号化データセットの 1 つとなっています。

直接使用する: https://go.hyper.ai/bXxx1

4. データセットを微調整するためのAlpaca-Cleaned命令

Alpaca-Cleaned データセットは、2024 年にスタンフォード大学によってリリースされたオリジナルの Alpaca データセットのクリーンアップ版です。このデータセットは、幻覚的な応答、マージ命令、空の出力、一貫性のない入力フィールドなど、オリジナルの Alpaca のいくつかの問題に対処しており、データの品質と一貫性が向上しています。

直接使用する: https://go.hyper.ai/yNlAa

5. AI医療チャットボットデータセット

これは、医療チャットボットを実行するために設計された実験的なデータセットで、患者と医師の間の 256,916 件の会話が含まれています。

直接使用する: https://go.hyper.ai/kaGzv

6. OpenStory++大規模画像インスタンスデータセット

Openstory++は、既存の画像生成モデルを用いて長文テキストコンテキストにおけるインスタンスの一貫性を維持するという課題に対処するために設計されています。画像とテキストの両方のインスタンスレベルのアノテーションを組み合わせることで豊富なリソースを提供し、長文テキストコンテキスト内で一貫性の高い画像の生成を可能にします。

直接使用する: https://go.hyper.ai/no3E7

7. MedTrinity-25M大規模マルチモーダル医療データセット

MedTrinity-25Mには、10種類の画像モダリティを網羅し、65以上の疾患にアノテーションを施した2,500万枚以上の医用画像が含まれています。このデータセットは、豊富なグローバルおよびローカルアノテーションに加え、CT、MRI、X線など複数のモダリティにまたがる多層的な情報アノテーションも統合しています。このデータセットは、医用画像処理、レポート作成、分類、セグメンテーションといったマルチモーダルタスクの大幅な支援を提供するとともに、医療系AIモデルの事前学習を飛躍的に向上させます。

直接使用する: https://go.hyper.ai/JCSJP

8. 1920年レイダー・ウェイター・タロット画像データセット

このデータセットには、オリジナルのライダー=ウェイト版タロットカード78枚の画像と関連するテキスト記述が含まれており、研究者やアーティストにとって、タロットカードの芸術性と象徴性を探求するための豊富なリソースとなります。また、タロット風の画像を生成するモデルの学習にも使用できます。

直接使用する: https://go.hyper.ai/8bd2R

9. Waterloo Exploration:大規模な画質評価データベース。このデータベースには、4,744枚のオリジナルの自然画像と、それらから作成された94,880枚の歪んだ画像が含まれており、画質評価モデルの一般化能力をテストするために使用できます。
直接使用する: https://go.hyper.ai/m5mhN

10. SWE-bench 検証済みコード生成評価ベンチマークデータセット

このベンチマークは、既存の SWE ベンチの改良版 (サブセット) であり、現実世界のソフトウェア問題を解決する AI モデルの能力をより確実に評価できるように設計されています。

直接使用する: https://go.hyper.ai/oxOBY

その他の公開データセットについては、以下をご覧ください。

https://hyper.ai/datasets

厳選された公開チュートリアル

1. ComfyUl AuraFlow テキストベースグラフワークフローデモ

このモデルはGenEvalで最先端の結果を達成しており、生グラフタスクにおいて高い処理効率と優れた詳細レンダリングを実現します。このチュートリアルでは、ComfyUIを使用してAuraFlow生グラフモデルをデプロイする方法を説明します。モデルと関連する環境設定は既にセットアップ済みなので、クローンを作成するだけで推論を実行できます。

直接使用する: https://go.hyper.ai/KpI4B

2. Whisper Web オンライン音声認識ツール

Whisperは音声認識に機械学習を採用しており、WebGPUによる高速化が可能です。オンライン/ローカルの音声ファイルのアップロードと、100以上の言語でのリアルタイム録音に対応しています。認識したテキストはTXT形式とJSON形式でエクスポートでき、英語に直接翻訳することも可能です。このチュートリアルはGitHubのオープンソースプロジェクトWhisper Webに基づいており、ブラウザで直接Whisperを実行・使用できます。

直接使用する: https://go.hyper.ai/N3iwm

厳選されたコミュニティ記事

1. 化学療法耐性と腫瘍の再発に対抗!山東大学の研究チームは、AIを活用して乳がん幹細胞に対する強力な防御力を構築しています。

最近、山東大学の呂海泉、孫容、張凱、そして山西医科大学の梅奇らからなる研究チームが、ヘリカルマトリックステクノロジー社をはじめとする研究グループと共同で、画期的な成果を達成しました。機械学習技術を活用し、mRNA解析に基づくこの手法は、原発性乳がん患者の検体におけるがん幹細胞の特性を評価するための画期的な手法「BCSCシグネチャー」の開発に成功しました。本稿では、この研究論文の詳細な解説と情報提供を行います。

レポート全文はこちら:https://go.hyper.ai/SPAjK

2. 上海交通大学の周秉鑫博士:希少な生物学的データの課題を解決し、グラフニューラルネットワークがタンパク質の理解と生成を再構築

上海交通大学で開催されたAIバイオエンジニアリングサマースクールにおいて、上海交通大学の周秉馨博士が「グラフニューラルネットワークとタンパク質構造解析」について講演し、タンパク質予測と生成におけるグラフニューラルネットワークの定義、利点、そして最先端の応用について解説しました。本記事は、周博士の講演の記録です。

完全なレポートを見る: https://go.hyper.ai/GjXi5

3. ACL 2024メインセッションに選出 | InstructProtein: 知識指示を用いたタンパク質言語と人間の言語の整合

浙江大学の研究チームは、知識指示を用いてタンパク質言語を人間の言語に整合させるInstructProteinを提案しました。これは、生物学的配列を大規模言語モデルに統合する能力を実証しています。本稿では、彼らの研究論文の詳細な解釈と情報を提供します。

完全なレポートを見る: https://go.hyper.ai/GjXi5

人気のある百科事典の項目

1. 対応のあるt検定

2. RRFと融合した逆ソート

3. パレートフロント

4. 変分オートエンコーダー (VAE)

5. データ拡張

この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。

https://go.hyper.ai/wiki

トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event

今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。

来週お会いしましょう!

HyperAI (hyper.ai) について

HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper.ai)コミュニティであり、中国のデータサイエンス分野のインフラとなることを目指し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。

  • 1300以上の公開データセットの国内高速ダウンロードノードを提供
  • 400以上の古典的かつ人気のあるオンラインチュートリアルが含まれています
  • 100以上のAI4Science論文事例を理解する
  • 500 以上の関連用語の検索をサポートします。
  • 中国で初めて Apache TVM の完全な中国語ドキュメントをホスト

公式ウェブサイトにアクセスして学習を始めましょう:

https://hyper.ai/