618ZXW

AAAI'25 の締め切りは今日です! SD コアメンバーは、Midjourney よりもさらに強力なテキストベースのグラフ モデルをオープンソース化し、ワンクリックで起動できるようになりました。

Midjourneyの魅力は本当に薄れつつあります!6月にStable Diffusion 3がオープンソース化されたことを受けて、Stability AIの元コアメンバーであるRobin Rombach氏が新チームを率い、今月初めにFLUX.1画像生成モデルファミリーをリリースしました。公式発表によると、FLUX.1はMidjourney v6.0やDALL·E 3といったトップクラスの画像生成モデルをいくつかの主要指標で凌駕しており、オープンソースです。こんなに魅力的な主張をされていると、試してみたくなりませんか?

hyper.aiのウェブサイトのチュートリアルセクションに「FLUX.1-schnell text-to-image デモ」が掲載されました。クローンするだけですぐにプレイできます!リンクは下にスクロールしてください。

8月12日から8月16日までのhyper.ai公式ウェブサイトの更新の概要は次のとおりです。

  • 厳選された高品質のチュートリアル:3
  • 高品質の公開データセット: 10
  • 選択されたコミュニティ記事: 4
  • 人気の百科事典の項目: 5
  • 8月締め切りのトップカンファレンス:2

公式サイトをご覧ください: hyper.ai

厳選された公開チュートリアル

1. FLUX.1-schnell Wensheng イメージ デモ

FLUX.1は、120億のパラメータを持つ大規模モデルであり、テキスト記述から画像を生成することができ、リアルタイムトラッキング、画質、画像ディテール、出力の多様性において最先端のパフォーマンスを実現しています。このチュートリアルでは、FLUX.1 [schnell] 版モデルを使用します。モデルと環境をデプロイしたら、チュートリアルの指示に従って、大規模モデルを推論と生成に直接使用できます。

直接使用する: https://go.hyper.ai/peksE

2. オンライン チュートリアル | たった 1 枚の画像で完全なペイント プロセスを生成: Lvmin Zhang の新作「Paints-Undo」が公開されました。

ControlNetの開発者であるLvmin Zhang氏は、「Paints-Undo」という新しいプロジェクトを開発しました。このプロジェクトは、あらゆる画像のペイントプロセスを素早く分解し、初心者が様々な画像スタイルのペイントテクニックをより深く理解するのに役立ちます。HyperAIは現在、「Paints-Undo One-Image-to-Painting-Process Demo」というチュートリアルを公開しています。これは、コマンドを必要とせず、単一のクローンから開始できる、ビルド済みの環境を提供するチュートリアルです。

直接使用する: https://go.hyper.ai/EwBE0

3. 浦東化学の大規模モデルChemmLM-7B-chatデモのワンクリック展開

ChemLLM-7B-Chatは、上海人工知能研究所(上海AIラボ)が2024年にリリースした、化学および分子科学向けの最初のオープンソース大規模言語モデル「ChemLLM」です。このチュートリアルは、モデルのワンクリックデプロイデモです。コンテナをクローンして起動し、生成されたAPIアドレスをコピーするだけで、モデルを使った推論を開始できます。

直接使用する: https://go.hyper.ai/X8V9z

選択された公開データセット

1. ChemData 化学タスクデータセット

このデータセットは、上海人工知能研究所と、同研究所初の大規模科学モデルであるChemLLM(Pukou Chemical Model)によってオープンソース化されました。主に、9つのコア化学タスクと73万件の高品質な質問回答を含む、大規模な言語モデル化学能力指導微調整データセットが含まれています。

直接使用する: https://go.hyper.ai/94tF1

2. ChemBench4K 化学能力評価ベンチマークデータセット

このデータセットは、化学分子と反応に関する9つのタスクで構成され、4,100個の多肢選択式問題が含まれています。このベンチマークは、大規模言語モデルの化学レベルを客観的に測定するための基礎となります。

直接使用する: https://go.hyper.ai/itsdU

3. BRIGHTテキスト検索ベンチマークデータセット

このデータセットは、StackExchange、LeetCode、数学コンテストなど、様々な分野から1,385件の実際のクエリを収集したもので、すべて人間が実際に生成したデータに基づいています。BRIGHTデータセットは、検索システムがこのような深い論理的関係を識別し、関連する学術論文やレポートを見つけるのを支援するために特別に設計されています。

直接使用する: https://go.hyper.ai/s735d

4. マルチモーダル ArXiv 科学理解データセット

マルチモーダルArXivは、LVLMの科学的理解能力を強化するために、ArXivCapとArXivQAで構成されています。ArXivCapは、640万枚の画像と390万のキャプションを含むグラフキャプションデータセットです。ArXivQAは、科学的グラフに基づきGPT-4Vを用いて生成された、プロンプト付きの質疑応答データセットです。関連研究はACL 2024に採択されています。

直接使用する: https://go.hyper.ai/n64Jh

5. SPIQAマルチモーダル科学論文質問応答データセット

これは、コンピュータサイエンスの様々な分野における科学研究論文に含まれる複雑なグラフや表を解釈するために特別に設計された、初の大規模QAデータセットです。27万個の質問が含まれており、学習用、検証用、そして3つの異なる評価用に分類されています。研究チームは、12のよく知られた基礎モデルを用いた広範な実験を通じて、マルチモーダルシステムが研究論文の微妙な側面を理解する現在の能力を評価しました。

直接使用する: https://go.hyper.ai/qd7I2

6. MMEvaIProマルチモーダルベンチマーク評価データセット

MMEvalProは、既存の評価方法に2つの「アンカー」質問(知覚に関する質問1つと知識に関する質問1つ)を追加することで改善し、「質問トリプレット」を作成して、マルチモーダル理解の様々な側面をテストします。最終的なベンチマークには、2,138個の質問トリプレット、合計6,414個の異なる質問が含まれており、さまざまなトピックと難易度をカバーしています。

直接使用する: https://go.hyper.ai/Hw8JA

7. PubMedVision大規模医療VQAデータセット

PubMedVisionは、大規模かつ高品質な医療マルチモーダルデータセットです。研究チームは、高度なデータ処理手法を用いて、国際医学雑誌PubMedに掲載された論文から、医学的に関連性の高い画像と有益な画像説明を選別し、医学的に無関係な画像や文脈に無関係なコンテンツを効果的に除去しました。
直接使用する: https://go.hyper.ai/Uy8XM

8. マルチモーダル自己指導:マルチモーダルベンチマークデータセット

このデータセットには、ダッシュボード、ロードマップ、チャート、表、フローチャート、関係図、ビジュアルパズル、2Dフロアプランなど、8つの主要カテゴリーを網羅する11,193枚の抽象画像と関連する質問が含まれています。さらに、モデルの微調整に使用できる62,476個の追加データポイントも含まれています。

直接使用する: https://go.hyper.ai/FwGuz

9. Assetto Corsa Gym: 大規模自動運転レースシミュレーションベンチマーク

このデータセットには、6,400 万歩のレーシング運転データが収集されました。そのうち 230 万歩はさまざまな運転レベルの人間のドライバーからのものであり、残りは Soft Actor-Critic (SAC) 戦略からのものでした。

直接使用する: https://go.hyper.ai/6tfuM

10. MiraData: 長時間かつ構造化されたキャプションを備えた大規模なビデオ データセット。

MiraDataは、長さ1~2分(平均72.1秒)の未編集の動画クリップに焦点を当てています。各動画には、様々な視点からの構造化された説明が付与されており、説明文の平均文字数は318語です。これにより、動画コンテンツの包括的な提示が保証されます。このデータセットは、長編動画生成、動画コンテンツの理解、そして生成の分野の研究者にとって貴重なリソースとなり、新たな課題と機会を提供します。

直接使用する: https://go.hyper.ai/2LmEJ

その他の公開データセットについては、以下をご覧ください。

https://hyper.ai/datasets

厳選されたコミュニティ記事

1. ACL 2024で最優秀論文7件が発表され、華中科技大学の学部生が第一著者として賞を受賞しました。

8月14日、ACL 2024の各賞が次々と発表され、合計7本の論文が最優秀論文賞を受賞しました。華中科技大学、アデレード大学、安陽師範大学、華南理工大学が共同で発表した論文「拡散モデルによる甲骨文字の解読」が受賞しました。HyperAIは論文の詳細な解説を行いました。

レポート全文はこちら:https://go.hyper.ai/t5Zon

2. MIT/CETIチームは機械学習技術を用いてマッコウクジラの発音アルファベットを分離しました!人間の言語システムに非常に類似しており、情報伝達能力も優れています!

最近、MITとCETIの研究者プラティュシャ・シャルマ氏は、機械学習を用いてマッコウクジラの録音を分析し、マッコウクジラの発する音は構造的であり、様々な特徴の組み合わせによって形成されることを確認しました。また、人間の言語表現システムに非常に類似したマッコウクジラの音声アルファベットを分離しました。本稿では、この研究論文の詳細な解釈と共有を提供します。

レポート全文はこちら:https://go.hyper.ai/nA23S

3. 国産光チップの画期的進歩!清華大学チームがニューラルネットワークを用いた全方向インテリジェント光コンピューティングトレーニングアーキテクチャを開発

最近、清華大学の戴瓊海院士と方陸教授の研究チームは、光子伝播の対称性に着目し、ニューラルネットワークの学習における順方向伝播と逆方向伝播の両方を光の順方向伝播と同等とみなし、完全な順方向モードアプローチによる学習手法を開発しました。本稿では、彼らの研究論文の詳細な解釈と共有を提供します。

レポート全文はこちら:https://go.hyper.ai/lxNhj

4. 物質探索の新時代!清華大学の徐勇と段文輝のチームがニューラルネットワーク密度汎関数フレームワークをリリースし、物質の電子構造予測のブラックボックスを切り開きました!

ニューラルネットワークアルゴリズムとDFTアルゴリズムをより有機的に統合するため、清華大学の徐勇氏と段文輝氏らの研究グループは、ニューラルネットワークDFTフレームワークを提案しました。このフレームワークは、ニューラルネットワークにおける損失関数の最小化と密度汎関数理論におけるエネルギー関数最適化を統合します。従来の教師あり学習法と比較して、より高い精度と効率性を備えており、深層学習DFT法の開発に新たな道を切り開きます。本稿では、この研究論文の詳細な解説と共有を行います。
レポート全文はこちら:https://go.hyper.ai/oE7nH

人気のある百科事典の項目

1. 対応のあるt検定

2. RRFと融合した逆ソート

3. パレートフロント

4. 大規模マルチタスク言語理解MMLU

5. データ拡張

この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。

https://go.hyper.ai/wiki

トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event

今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。

来週お会いしましょう!

HyperAI (hyper.ai) について

HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper.ai)コミュニティであり、中国のデータサイエンス分野のインフラとなることを目指し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。

  • 1300以上の公開データセットの国内高速ダウンロードノードを提供
  • 400以上の古典的かつ人気のあるオンラインチュートリアルが含まれています
  • 100以上のAI4Science論文事例を理解する
  • 500 以上の関連用語の検索をサポートします。
  • 中国で初めて Apache TVM の完全な中国語ドキュメントをホスト

公式ウェブサイトにアクセスして学習を始めましょう:

https://hyper.ai/