618ZXW

Llama 3.1 中国語微調整データセットが利用可能になり、超大規模モデルをワンクリックで展開できるようになりました。

7月はAIの世界において、小規模モデルに続き大規模モデルが登場するなど、常に刺激的な月でした。GPT-4oやMistral-Nemoといった小規模モデルはほとんどの人が扱えましたが、Llama-3.1-405BやMistral-Large-2といった大規模モデルは多くの人にとって難しいものでした。

ご心配なく! hyper.aiのウェブサイトでは、「Open WebUI」と「OpenAI Compatible API Services」の両方を使って、これら2つの大規模モデルを起動するチュートリアルをチュートリアルセクションで提供しています!さらに、中国語の微調整データセット「DPO-zh-en-emoji」も公開されています。リンクは下にスクロールしてください。

8月5日から8月9日までのhyper.ai公式ウェブサイトの更新の概要は次のとおりです。

  • 高品質なチュートリアルのセレクション:5
  • 高品質の公開データセット: 10
  • 選択されたコミュニティ記事: 3
  • 人気の百科事典の項目: 5
  • 8月締め切りのトップカンファレンス:2

公式サイトをご覧ください: hyper.ai

厳選された公開チュートリアル

1. Open WebUIを使用してワンクリックでMistral Large 2 / Llama 3.1 405Bを展開する

このチュートリアルでは、OpenWebUIを使用してMistral Large 2 / Llama 3.1 405Bをワンクリックでデプロイする方法を説明します。必要な環境と設定は既にセットアップ済みなので、コンテナをクローンして起動するだけで推論を開始できます。

Mistral Large 2 モデルをオンラインで展開する:

https://go.hyper.ai/Bwf6G

Llama 3.1 405B モデルをオンラインでデプロイする:

https://go.hyper.ai/iyL60

2. OpenAI 互換 API サービスを使用して、Mistral Large 2 / Llama 3.1 405B モデルをワンクリックで展開します。

このチュートリアルでは、OpenAI互換APIを使用してMistral-Large-Instruct-2407-AWQをデプロイする方法を説明します。「OpenAI互換API」とは、サードパーティの開発者がOpenAIと同じリクエストとレスポンスの形式を使用して、同様の機能を独自のアプリケーションに統合できることを意味します。このチュートリアルを開始すると、任意のOpenAI互換SDKを使用してモデルに接続できます。このチュートリアルは前のチュートリアルよりも少し複雑で、プログラミング経験のある方に適しています。

Mistral Large 2 モデルをオンラインで展開する:

https://go.hyper.ai/Smexo

Llama 3.1 405B モデルをオンラインでデプロイする:

https://go.hyper.ai/1AiDi

3. ギブス拡散法を用いたブラインド画像ノイズ除去

GDiff(ギブス拡散法の略)は、信号とノイズパラメータの事後サンプリング問題を解決するベイジアンブラインドノイズ除去手法です。このチュートリアルは、「ノイズを聴く:ギブス拡散法によるブラインドノイズ除去」という論文から構築されたテスト手法に基づいています。チュートリアルの手順に従って、研究結果を体験してください。

オンラインで実行: https://go.hyper.ai/y2wIU

選択された公開データセット

1. DPO-zh-en-emoji 絵文字質疑応答データセット

このデータセットは、大規模言語モデルの微調整に特化して設計されています。多数の質問と回答のペアが含まれており、各質問には中国語と英語の両方の回答が用意されており、回答には絵文字の使用など、ユーモラスな要素が組み込まれています。shareAIチームは、このデータセットを用いてLlama 3.1 8Bモデルの微調整を行いました。

直接使用する: https://go.hyper.ai/Y90pZ

2. UrbanSARFloods v1 洪水マッピングベンチマークデータセット

UrbanSARFloodsは、都市部およびオープンエリアの洪水マッピング用に特別に設計されたデータセットです。8,879個の512×512画像パッチが含まれており、807,500平方キロメートルをカバーし、18件の洪水事象を網羅しています。これは、既存の大規模SAR洪水マッピング研究において都市洪水への焦点が不十分であるという問題を解消するものです。

直接使用する: https://go.hyper.ai/yOXx7

3. VRSBench: 大規模で高品質なリモートセンシング視覚言語ベンチマークデータセット

このデータセットは、リモートセンシング画像理解のために設計された、汎用性の高い視覚言語ベンチマークデータセットです。人間による検証済みの詳細なキャプション付き画像29,614枚、オブジェクト参照52,472件、質問と回答のペア123,221件が含まれており、リモートセンシング画像向けの汎用的で大規模な視覚言語モデルの開発を促進することを目的としています。

直接使用する: https://go.hyper.ai/O7DtC

4. ATLAS高解像度3D人体テクスチャデータセット

正式名称を「ArTicuLated humAn textureS」(略称ATLAS)とするこのデータセットは、高解像度(1,024×1,024)の3D人体テクスチャデータセットとしては最大規模であり、テキスト説明付きの高忠実度テクスチャ5万点が含まれています。関連論文はECCV 2024に採択されています。

直接使用する: https://go.hyper.ai/Zx1nj

5. MIND Microsoft ニュース データセット

MINDには、Microsoft Newsウェブサイト上の匿名の行動ログから収集された、約16万件の英語ニュース記事と、100万人のユーザーによる1,500万件以上のインプレッションログが含まれています。ニュースレコメンデーションのベンチマークデータセットとして、またニュースレコメンデーションおよびレコメンダーシステムの分野における研究を促進することを目的としています。

直接使用する: https://go.hyper.ai/lVOyX

6. BoWFire火災検知セグメンテーションデータセット

BoWFireデータセットは、火災検知の精度向上と誤報の削減を目的として、火災検知に特化した画像データセットです。このデータセットには、建物火災、産業火災、自動車事故、暴動など、様々な緊急事態における火災画像が含まれています。

直接使用する: https://go.hyper.ai/73AYY

7. CNN/DailyMail ニュース記事データセット

このデータセットには、CNN と Daily Mail の記者が書いた 30 万件以上のニュース記事が含まれており、長い段落のテキストを 1 つまたは 2 つの文に要約できるモデルの開発に役立つように設計されています。

直接使用する: https://go.hyper.ai/AbidL

8. Doodle Dataset(落書き画像のデータセット)

このデータセットには、340 の落書きカテゴリをカバーする 100 万枚を超える画像が含まれており、機械学習タスク用に処理できます。

直接使用する: https://go.hyper.ai/Ns4M4

9. ヨガ - 16種類の人間のヨガポーズの画像データセット

Yoga-16データセットは、ヨガのポーズ認識モデルの分類精度を向上させることを目的としています。このデータセットは、トレーニング、テスト、検証の3つのメインディレクトリに分かれており、それぞれに16種類のヨガのポーズに対応する16個のサブディレクトリが含まれています。

直接使用する: https://go.hyper.ai/iMe0Z

10. 人間画像データセット: 男性と女性の人体画像データセット

このデータセットには、男性と女性の人物像に分類された画像フォルダが含まれています。画像には、顔、上半身、全身ショットが含まれます。性別認識、人物識別、画像分類など、様々なプロジェクトに使用できます。

直接使用する: https://go.hyper.ai/6UJb7

その他の公開データセットについては、以下をご覧ください。
https://hyper.ai/datasets

厳選されたコミュニティ記事

1. 学術的共有 | 清華大学ポスドク研究員の李玉哲氏がCell/Natureサブジャーナル論文について解説、ゲノミクスにおけるAIの応用を探る

「Meet AI4S」ライブストリームシリーズの第2弾では、清華大学張強鋒博士研究室のポスドク研究員である李玉哲博士が登場します。8月21日には、李博士がオンラインライブストリームを通じて、空間トランスクリプトミクスとシングルセルオミクス研究におけるAI手法に関するさらなる知見を共有します。

イベントの詳細を見る: https://go.hyper.ai/GIzpo

2. 世界初!清華大学、上海交通大学などが共同で糖尿病の診断と治療のための大規模視覚言語モデルを開発し、Natureサブジャーナルに掲載されました。

Google ResearchはMITと共同で、IJCAI 2024 Best Paper Awardを受賞しました!公式WeChatアカウントで「IJCAI 2024」と返信すると、IJCAI 2024 Best Paper Awards、Outstanding Paper Awards、AIJ Classic Paper Awards、Outstanding Paper Awardsのコレクションを入手できます。

レポート全文はこちら:https://go.hyper.ai/ZGzI2

3. 初めて!GPT-2 が無線通信の物理層を強化。北京大学のチームが事前トレーニング済み LLM に基づくチャネル予測方式を提案。

清華大学医学部副学長兼医学部長の黄天銀教授チーム、上海交通大学電子情報工学学院教育部コンピュータサイエンス学科/人工知能重点実験室の盛斌教授チーム、上海交通大学医学部付属第六人民病院の賈衛平教授と李華亭教授チーム、シンガポール国立大学およびシンガポール国立眼科センターの秦渝宗教授チームによる共同研究により、糖尿病診断・治療のための世界初の統合型視覚大規模言語モデルシステム「DeepDR-LLM」の構築に成功しました。本稿では、この研究の詳細な解説と概要を紹介します。

レポート全文はこちら:https://go.hyper.ai/qnzSp

人気のある百科事典の項目

1. 交差と結合(IoU)

2. RRFと融合した逆ソート

3. 対照学習

4. 大規模マルチタスク言語理解MMLU

5. 長期短期記憶

この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。

https://go.hyper.ai/wiki

トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event

今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。

来週お会いしましょう!

HyperAI (hyper.ai) について

HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper.ai)コミュニティであり、中国のデータサイエンス分野のインフラとなることを目指し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。

  • 1300以上の公開データセットの国内高速ダウンロードノードを提供
  • 400以上の古典的かつ人気のあるオンラインチュートリアルが含まれています
  • 100以上のAI4Science論文事例を理解する
  • 500 以上の関連用語の検索をサポートします。
  • 中国で初めて Apache TVM の完全な中国語ドキュメントをホスト

公式ウェブサイトにアクセスして学習を始めましょう:

https://hyper.ai/