618ZXW

GPT-4o を超えました!HTML から Markdown まで、複雑な Web ページを簡単に整理できます。AI ダイアログはもはや非人間的ではなく、大規模なモデル ダイアログの微調整データセットにより応答がよりスムーズになります。

情報過多のウェブページに直面したとき、どうすれば包括的かつ核となる情報を素早く抽出できるでしょうか?Reader-LMモデルは、プロフェッショナルなソリューションを提供します。Reader-LMは、最大256KBの非常に長いコンテンツを効率的に処理し、HTMLを明確なMarkdown形式に正確に変換します。そのパフォーマンスはGPT-4oのような大規模言語モデルを凌駕し、軽量設計により、リソースが限られたシナリオにも適しています。

Reader-LMモデルがhyper.aiウェブサイトで公開されました。ワンクリックで効率的な変換機能を体験でき、ウェブページ情報の整理に頭を悩ませる必要がなくなります。

1月13日から1月17日までのhyper.ai公式サイトの更新内容の概要は次のとおりです。

  • 高品質の公開データセット: 10
  • 高品質なチュートリアルのセレクション:9
  • 選択されたコミュニティ記事: 5
  • 人気の百科事典の項目: 5
  • 1月締め切りのトップカンファレンス:5

公式サイトをご覧ください:hyper.ai

選択された公開データセット

1. 人間のようなDPOデータセット:大規模モデル対話微調整データセット

このデータセットは、対話における大規模言語モデルの流暢性とエンゲージメントを向上させることを目的として特別に設計されており、モデルがより人間らしい応答を生成できるように導くことを目的としています。256のトピックをカバーし、テクノロジー、日常生活、科学、歴史、芸術など、複数の分野にわたる10,884のサンプルが含まれています。

直接使用する: https://go.hyper.ai/zDsGL

データセットの例

2. MedQA医療テキスト質問応答データセット

MedQAデータセットは、米国医師免許試験(USMLE)の形式を模倣し、モデルの医学知識の理解と応用能力を評価するために設計されています。専門的な医学試験から収集されたこのデータセットは、英語、簡体字中国語、繁体字中国語をカバーし、それぞれ12,723問、34,251問、14,123問を収録しています。

直接使用する: https://go.hyper.ai/cV2ei

データセットの分割、質問と回答の長さの統計

3. 野菜識別データセット

このデータセットには、ナス、豆、オクラ、キュウリ、ジャガイモ、タマネギの6種類の野菜の画像が含まれています。各種類につき800枚、合計4,800枚の画像が含まれています。このデータセットは、野菜の検出、分類、認識における機械学習とコンピュータービジョンの能力を向上させることを目的としています。

直接使用する: https://go.hyper.ai/mCZr4

データセットの例

4. 中国ストリートビュー交通標識データセット

このデータセットは9,898枚のストリートビュー画像で構成されています。各画像には少なくとも1つ以上の交通標識が含まれており、各標識の座標とカテゴリがラベル付けされています。このデータは、中国交通標識検出データベースから取得されています。

直接使用する: https://go.hyper.ai/9wb5f

データセットの例

5. 前処理済みのSnake Imagesデータセット

このデータセットには、5種類のヘビ(キタミズヘビ、コモンガータースネーク、デズモンドブラウンスネーク、クマネズミスネーク、ウエスタンガラガラヘビ)が含まれています。データセットは、明るさとコントラストを高めるための前処理が施され、画像は手作業で除去およびトリミングされ、より鮮明で均一な、使いやすいものになっています。

直接使用する: https://go.hyper.ai/YAgyI

データセットの例

6. 中国の交通標識(画像データ)

このデータセットには、58のカテゴリに分類された5,998枚の交通標識画像が含まれています。各画像は、1つの交通標識を拡大表示したものです。アノテーションには、画像属性(ファイル名、幅、高さ)と、画像内およびカテゴリ内の交通標識の座標(例:制限速度5km/h)が提供されています。

直接使用する: https://go.hyper.ai/Tvvh8

データセットの例

7. 人間のスタイルの好みの画像データセット

このデータセットは、テキストから画像を生成するモデルを評価するために使用される、人間によるアノテーション付きのデータセットです。2枚の画像を提示し、どちらの画像がより違和感や不自然さが少ないかを参加者に尋ねることで、画像生成モデルに対する人間の合意評価を収集しており、120万件を超える人間の合意投票が含まれています。

直接使用する: https://go.hyper.ai/dErEz

8. M²E: 複数行の数式データセット

このデータセットには、99,956個の複数行の数式とその注釈が含まれています。すべての画像は携帯電話で実世界のシーンで撮影されており、複数行の数式は数学の試験問題やワークブックから抽出されているため、数式認識タスクに適しています。

直接使用する: https://go.hyper.ai/5BMnN

9. 中国連句データセット

このデータセットには約 74 万個の連句が含まれています。fixed_couplets_in.txt には各連句の最初の行が含まれ、fixed_couplets_out.txt には 2 番目の行が含まれます。

直接使用する: https://go.hyper.ai/oPxHl

10. オーディオノイズデータセット

このデータセットには 10 種類のノイズ カテゴリが含まれており、音声分類、音声認識、音声生成、音声関連の機械学習におけるノイズ フィルタリング、ノイズ生成、ノイズ認識に使用できます。

直接使用する: https://go.hyper.ai/MXXZy

厳選された公開チュートリアル

1. Reader-LM: HTMLをMarkdownに素早く効率的に変換

Reader-LMモデルは、Web上の生のHTMLコンテンツをクリーンで簡潔なMarkdown形式に変換するために特別に設計されています。長文や多言語コンテンツの処理に優れ、最大256KBのコンテキスト長をサポートします。ノイズの多いWebコンテンツから効率的かつ費用対効果の高いデータ抽出を実現することを目指しています。

このチュートリアルでは、reader-lm-1.5b または reader-lm-0.5b を使用して HTML を Markdown に変換する方法を説明します。以下のリンクをクリックして、チュートリアルの指示に従って試してみてください。

オンラインで実行: https://go.hyper.ai/S15IL

HTMLからMarkdownへの例

2. DeepSeek-V2-Lite-Chatのワンクリック展開

DeepSeek-V2は、経済的な学習と効率的な推論を特徴とする強力なハイブリッドエキスパート(MoE)言語モデルです。合計2360億個のパラメータが含まれており、各トークンは210億個のパラメータをアクティブ化します。

このチュートリアルは、DeepSeek-V2-Lite-Chat のワンクリックデプロイデモです。コンテナをクローンして起動し、生成された API アドレスをコピーするだけで、モデルを使った推論を体験できます。

オンラインで実行: https://go.hyper.ai/AD6XU

WebUIインターフェースの例

3. ChemVLM-26Bのワンクリック展開

ChemVLMは、化学分野向けのオープンソース、マルチモーダル、大規模言語モデルです。このモデルは、Visual Transformer(ViT)、多層パーセプトロン(MLP)、大規模言語モデル(LLM)の長所を組み合わせることで、化学画像理解とテキスト分析の非互換性を解消し、化学画像とテキストの両方に対する包括的な推論を実現することを目指しています。

チュートリアルの手順に従って、生成された API アドレスをコピーするだけで ChatVLM-26B を使用できます。

オンラインで実行: https://go.hyper.ai/NRBXG

WebUIインターフェースの例

4. Parler-TTSのワンクリック展開

Parler-TTSは、話者のスタイルに合わせて高品質で自然な音声を生成できる軽量なテキスト読み上げ(TTS)モデルです。高い自由度と革新性を備え、話者の性別、音色、イントネーション、そしてシーン(屋内、屋外、路上、コンサートホールなど)をPromptで制御できます。

このプロジェクトでは、Gradoインターフェースを介してフロントエンドのインタラクティブインターフェースを生成できます。関連モデルと依存関係がデプロイされており、ワンクリックで水の音の音声ファイルを生成できます。

オンラインで実行: https://go.hyper.ai/pk6lF

テキスト読み上げの例

5. MegActor ポートレートアニメーションジェネレーターのデモ

MegActor は、元のビデオを原動力として、リアルで生き生きとした話し顔のビデオを生成する、人物ポートレートアニメーション ジェネレーターです。

チュートリアルの手順に従うだけで、スタートアップを複製し、API アドレスを開くだけで、元のビデオ コンテンツに基づいて鮮明な合成ビデオを生成できます。

オンラインで実行: https://go.hyper.ai/wkCPo

WebUIインターフェースの例

6. Flash-VStreamビデオ理解デモ

Flash-VStreamは、人間の記憶メカニズムをシミュレートするビデオ言語モデルです。非常に長いビデオストリームをリアルタイムで処理し、ユーザーのクエリに同時に応答することができます。

このチュートリアルでは、Flash-VStream のワンクリックデモを提供します。必要な環境と依存関係は既にインストール済みです。クローンを作成してすぐにお試しください。

オンラインで実行: https://go.hyper.ai/M3pBO

ビデオ推論プロセス

7. PhotoMaker V2 デモ: わずか数秒でパーソナライズされたポートレート画像を作成

テンセントが2024年に発表したオープンソースプロジェクト「PhotoMaker」は、肖像画像からカスタマイズされた芸術的な写真を迅速に生成できる、高効率の肖像カスタマイズ画像モデルです。パーソナライズされた肖像画像を生成するだけでなく、人物の年齢や性別を変更したり、異なる個人の特徴を統合して新たな個人情報を作成したりすることも可能です。

このチュートリアルは PhotoMaker バージョン 2.0 用です。バージョン 1 と比較して、文字の一貫性と制御性が大幅に向上しています。

オンラインで実行: https://go.hyper.ai/VcewN

効果の例

8. StoryDiffusion コミック動画ジェネレーター デモ

StoryDiffusionは、長距離画像と動画の生成に特化したAIツールです。この技術は、一貫性のある自己注意メカニズムを活用し、画像と動画コンテンツの連続性と一貫性を確保し、コミックやアニメキャラクターの作成、長編動画の生成など、あらゆる場面でスタイルの統一性を維持します。

このチュートリアルは、StoryDiffusionワンクリック実行パッケージの最新バージョンを対象としています。ワンクリックでクローンを作成し、StoryDiffusionをお試しください。

オンラインで実行: https://go.hyper.ai/HPu2p

効果の例

9. LAMMPS 分子動力学シミュレータを簡単に使用:FCC Cu 融点の npt 温度制御推定。

LAMMPS は、固体材料 (金属、半導体)、生体分子、ポリマーなど、さまざまな材料をモデル化するために使用でき、さまざまな材料に対してさまざまな粒子相互作用モデルを提供できます。

このチュートリアルはLAMMPSの入門ガイドです。npt温度制御を用いてFCC Cuの融点を推定します。LAMMPSのCPUバージョンで実行でき、分子動力学シミュレーションを体験できます。

オンラインで実行: https://go.hyper.ai/qQSqr

💡安定拡散チュートリアルのディスカッショングループも作成しました。WeChatでHyperaiを追加(WeChat ID: Hyperai01)し、メッセージに「SD Tutorial」と記載してグループに参加して、様々な技術的な問題について議論したり、アプリケーションの結果を共有したりしてください。

厳選されたコミュニティ記事

  1. イベントの概要 | コンピューティング、ネットワーキング、ソフトウェア、アルゴリズム、エコシステムの共同開発: 2024 Meet AI Compiler が成功裏に終了しました。

第6回Meet AI Compilerテクニカルサロンが開催されました!Horizo​​n Robotics、AIZ、ByteDance、Lingchuan Technologyの4名のコンパイラ上級エキスパートが、それぞれのチームの最新の研究成果を発表しました。また、豊富な実例を用いて、これらの成果の応用プロセスと、実際の問題解決における効果について、簡潔かつ明瞭に解説しました。

イベントの要約を見る: https://go.hyper.ai/KDzY3

  1. コンピュータビジョンから医療AIへ:上海交通大学の謝偉迪氏との対話:問題解決よりも問題定義が重要

HyperAIは、上海交通大学の終身在職権を持つ准教授である謝偉迪教授に詳細なインタビューを実施しました。教授は自身の経験を踏まえ、コンピュータービジョンからヘルスケアにおけるAIへの移行に関する洞察を共有し、業界の将来の発展動向について深く分析しました。本稿では、インタビューの詳細なレポートをお届けします。

レポート全文はこちら:https://go.hyper.ai/LqpqE

  1. 柔軟な磁性フィルムをベースにした触覚センサー

触覚知覚は、知能ロボットやヒューマンコンピュータインタラクションにとって極めて重要な能力ですが、高精度で高速応答の触覚センシングを実現することは依然として大きな課題です。フランス国立科学研究センターのユーカン・ヤン博士は、フレキシブル磁性フィルムをベースとした触覚センサーの設計と応用について発表し、直交磁化ハルバッハアレイを用いて三次元的な力の自己分離を実現する方法を紹介しました。本稿では、発表内容の詳細を報告します。

レポート全文はこちら:https://go.hyper.ai/Y5uA0

  1. AAAI 2025に選出!中国の2大大学による共同提案「BSA Fusion」は、マルチモーダルな医用画像の位置合わせと融合を可能にします。

マルチモーダル医用画像融合は、豊富な価値ある情報を明らかにし、医師がより専門的な疾患診断を行うのに役立ちます。しかしながら、現在直面している大きな課題は、融合に用いる特徴量と位置合わせに用いる特徴量との間に矛盾が生じることです。昆明科技大学は中国海洋大学と共同で、マルチモーダル医用画像の位置合わせと融合を実現する双方向漸進的特徴位置合わせ手法「BSA Fusion」を提案しました。本稿では、この論文の詳細な解説と共有を行います。

レポート全文はこちら:https://go.hyper.ai/sTySj

  1. 362 種類の一般的な病気の診断を容易にします。ケンブリッジ大学、オックスフォード大学、ウォーリック大学などが、医療知識グラフを自動的に構築するためのマルチエージェント大規模言語モデルフレームワークを提案しました。

医療資源の逼迫は、世界の医療システムを長年悩ませている問題です。この問題に対処するため、4つの大学の研究チームがKG4Diagnosisを提案しました。これは、医療知識グラフの構築、診断、治療、推論を自動化できる、新しい階層型マルチエージェントフレームワークであり、肥満を含む複数の医療分野にわたる362の一般的な疾患の診断を支援します。本稿では、この論文の詳細な解釈と共有を提供します。

レポート全文はこちら:https://go.hyper.ai/0CPhV

人気のある百科事典の項目

  1. 拡散損失
  2. 因果的注意
  3. コルモゴロフ・アーノルド表現定理
  4. 大規模マルチタスク言語理解
  5. 対照学習

この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。

https://go.hyper.ai/wiki

1月締め切りのトップカンファレンス

トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event

今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。

来週お会いしましょう!

HyperAI (hyper.ai) について

HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper-Physical Computing)コミュニティです。中国のデータサイエンス分野のインフラ構築に尽力し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。

  • 1700以上の公開データセットの国内高速ダウンロードノードを提供
  • 500以上の古典的で人気のあるオンラインチュートリアルが含まれています
  • 200以上のAI4Science論文事例を理解する
  • 600 以上の関連用語の検索をサポートします。
  • 中国で初めて Apache TVM の完全な中国語ドキュメントをホスト

公式ウェブサイトにアクセスして学習を始めましょう:

https://hyper.ai