|
人工知能の分野において、マルチモーダルデータ処理は常に課題となっています。複雑なPDF、ウェブページ、そして様々な形式の電子書籍から重要な情報を効果的に抽出することは、決して容易なことではありません。 上海人工知能研究所とOpenDataLabチームは、オープンソースのインテリジェントデータ抽出ツール「MinerU」をリリースしました。画像、数式、表などの要素を含むマルチモーダルPDF文書を、分析しやすいMarkdown形式に変換できるほか、Webページや電子書籍からのコンテンツ抽出もサポートしており、複雑な文書から高品質なデータを自動的に抽出するというニーズに応えます。 hyper.aiのウェブサイトに「MinerU ワンストップデータ抽出ツール デモ」が掲載されました。リンクは下にスクロールしてください。 8月26日から8月30日までのhyper.ai公式サイトの更新内容の概要は次のとおりです。
公式サイトをご覧ください: hyper.ai 厳選された公開チュートリアル 1. MinerU ワンストップデータ抽出ツール MinerUは、PDFを機械可読形式(MarkdownやJSONなど)に変換するツールです。あらゆる形式へのデータの抽出が容易で、176言語の正確な認識と、言語種別の精密な識別が可能です。モデルと環境は既にデプロイ済みなので、チュートリアルに従うだけで、大規模なモデルを使って推論と生成を始めることができます。 直接使用する: https://go.hyper.ai/MIitP 2. LongWriter-glm4-9bのワンクリック展開 LongWriterは清華大学が開発したオープンソースプロジェクトで、長文コンテキスト大規模言語モデル(LLM)を用いて非常に長いテキスト(10,000文字以上)を生成します。このチュートリアルでは、モデルのワンクリックデプロイデモをご紹介します。コンテナをクローンして起動し、生成されたAPIアドレスをコピーするだけで、モデルを使った推論を開始できます。 直接使用する: https://go.hyper.ai/Xvktt 3. オンラインチュートリアル | 青島出身の焦恩君の魂が『黒の神話』の孫悟空に転生?MuseV + MuseTalk で高品質なデジタル ヒューマンを制作。 従来の学習方法で高品質なデジタルヒューマンを生成するには、多くの場合、膨大な時間と計算リソース、そして高品質な学習教材が必要になります。MuseVとMuseTalkは、デジタルヒューマンの分野に画期的な進歩をもたらしました。MuseVでデジタルヒューマンの動画を生成した後、MuseTalkで唇の動きと音声を同期させることで、わずか数分で完全なデジタルヒューマンを作成できます。どちらもhyper.aiの公開チュートリアルモジュールで利用可能で、クローンを作成してオンラインで実行するだけです。 MuseV チュートリアル: https://go.hyper.ai/9fExW MuseTalk チュートリアル: https://go.hyper.ai/wiw8g 選択された公開データセット 1. 建物周辺の落下物検知データセット(FADE) FADEデータセットには、18のシーン、8つの異なる落下物カテゴリー、4つの異なる気象条件、4つのビデオ解像度をカバーする1,881本のビデオが含まれています。FADEデータセットの多様性と特化性は、建物周辺における落下物検知の研究にとって貴重なリソースとなっています。 直接使用する: https://go.hyper.ai/8u8Sr 2. ChiPBench AIチップ配置アルゴリズムデータセット ChiPBenchは、既存のAIベースのチップ配置アルゴリズムが最終設計の電力対外観(PPA)指標の改善にどれほど有効かを評価するために特別に設計された包括的なベンチマークです。研究チームは、CPU、GPU、マイクロコントローラなど、様々な分野から20個の回路を収集しました。これらの設計を用いて、配置アルゴリズムが最終設計のPPAに与える影響を評価しました。 直接使用する: https://go.hyper.ai/LN4Ab 3. 人間の顔のデータセット このデータセットには約 9.6k の顔画像が含まれており、そのうち 5k は実際の顔画像、4.63k は AI によって生成された顔画像です。 直接使用する: https://go.hyper.ai/N5nVT 4. TableBench 表ベースの質疑応答ベンチマークデータセット このデータセットには 18 のドメインからの 886 のサンプルが含まれており、事実確認、数値推論、データ分析、視覚化のタスクを容易にするように設計されています。 直接使用する: https://go.hyper.ai/Qcs2F 5. ディープフェイク検出ビデオ認識データセット このデータセットには、28人の俳優による16の異なるシーンの演技を収録した363本以上のオリジナルクリップが含まれています。これらの高品質な動画は、リアルなコンテンツを用いたモデルの学習に確固たる基盤を提供します。生データに加えて、データセットにはDeepFakes手法を用いて生成された3,000本以上の処理済み動画も含まれています。 直接使用する: https://go.hyper.ai/Jw59B 6. 車両分類データセット このデータセットは、車両分類タスク向けに特別に設計されており、7つのカテゴリに分類された5,600枚の画像が含まれています。各カテゴリは、異なる種類の車両(自動運転人力車、自転車、自動車、オートバイ、飛行機、船、電車)を表しています。すべての画像はJPEG形式で、拡張子は.jpgです。異なる種類の車両を区別するための画像分類モデルの構築とテストに最適です。 直接使用する: https://go.hyper.ai/e9LNg 7. 線路上での検出: 線路上での人間の行動を検出するためのデータセット。 このデータセットには、線路上での人間の行動を捉えた1,080×1,080の解像度の画像3,766枚が含まれています。各画像には境界ボックスの注釈が付けられており、線路上での人間の存在と行動を示しています。 直接使用する: https://go.hyper.ai/dsr49 8. Ref-AVSオーディオビジュアルシーンセグメンテーションデータセット Ref-AVSデータセットは、オーディオビジュアルシーンにおけるオブジェクトセグメンテーションタスクのベンチマークです。このデータセットには、48個の可聴オブジェクトの動画が含まれており、楽器20個、動物8個、機械15個、人間5個に分類されています。 直接使用する: https://go.hyper.ai/pGHwm 9. COSMOS 1050K 医療画像セグメンテーションデータセット このデータセットには、研究チームによってまとめられた 53 の公開医療データセットが含まれており、18 のモダリティ、84 のオブジェクト、1050K の 2D 画像、および 6033 のマスクをカバーしています。 直接使用する: https://go.hyper.ai/nHETv 10. 14万枚の画像が含まれています!HUST-OBC Oracleデータセットのおかげで、チームはACL最優秀論文賞を受賞しました。 このデータセット(高品質HUST-OBCデータセット)は、華中科技大学の白翔教授の研究チームの王鵬傑氏らによって提案されたものです。このデータセットは、書籍、ウェブサイト、既存のデータセットという3つの異なる情報源から収集されました。データセットには、2種類の甲骨文字サンプル画像が含まれています。1つは、オリジナルの甲骨拓本をスキャンして加工した甲骨文字画像です。もう1つは、オリジナルの甲骨文字に基づいて手書きされた甲骨文字画像で、さらに拓本画像と字形に基づく手書き画像に分類されています。 直接使用する: https://go.hyper.ai/46AiA その他の公開データセットについては、以下をご覧ください。 https://hyper.ai/datasets 厳選されたコミュニティ記事 1. SAM 2の最新アプリケーションが開発されました!オックスフォード大学のチームが医療用SAM 2をリリースし、医療画像セグメンテーションの評価基準を刷新 オックスフォード大学のチームが、Medical SAM 2と呼ばれる医用画像セグメンテーションモデルを開発しました。SAM 2フレームワークをベースにしたこのモデルは、医用画像を動画として扱い、3D医用画像セグメンテーションタスクにおいて優れた性能を発揮するだけでなく、シングルキューセグメンテーションという新たな機能も実現しています。本記事では、この研究論文の詳細な解説と概要をご紹介します。 レポート全文はこちら:https://go.hyper.ai/04VFX 2. ゲノミクスのための AI | 空間トランスクリプトーム データ特性評価アルゴリズムである SPACE は、ゲノミクスにおける人工知能アプリケーションです。 「Meet AI4S」ライブストリームシリーズの第2回では、清華大学生命科学学院張強鋒研究室のポスドク研究員である李玉哲博士が、「ゲノミクスにおけるAI応用の探究:SPACE空間トランスクリプトームデータ表現アルゴリズムを例に」と題したプレゼンテーションで、チームの最新の研究成果を共有しました。この記事は、貴重な洞察に満ちた李博士の基調講演の記録です。 レポート全文はこちら:https://go.hyper.ai/eRQeT 3. 上海交通大学のホン・リャン教授:AIが工学分野で真のブレークスルーを達成するには、現在の人間の専門家が達成できない工学的成果を達成する必要があります。 AIバイオエンジニアリングサマースクールにおいて、上海交通大学のホン・リャン教授は「AIが生命と科学に参入」と題した基調講演を行い、科学研究、特にタンパク質設計におけるAIの応用に関する知見と、AIサイエンスの将来的な発展に向けたビジョンを共有しました。本記事はホン・リャン教授の講演の記録です。 レポート全文はこちら:https://go.hyper.ai/TWBIk 人気のある百科事典の項目 1. ダルイー 2. 交差と結合(IoU) 3. MLMのマスク言語モデル 4. NeRF(神経放射場) 5. RRFと融合した逆ソート この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。 https://go.hyper.ai/wiki トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event 今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。 来週お会いしましょう! HyperAI (hyper.ai) について HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper.ai)コミュニティであり、中国のデータサイエンス分野のインフラとなることを目指し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。
公式ウェブサイトにアクセスして学習を始めましょう: https://hyper.ai/ |
1万個のスターを持つオープンソースデータ処理ツールをワンクリックで起動!176言語認識をサポート。18シーンにわたる約2,000本の動画を含む、初の高層ビル落下物検出データセットがオンラインになりました。
関連するおすすめ記事
-
DeepSeek の最新の取り組み: コードを思考チェーンに変換し、大規模モデル推論のさまざまな機能を総合的に強化します。
-
Waymo の最新の自動運転車が道路に登場。13 台のカメラ、4 台の LiDAR、6 台のレーダーを搭載し、認識範囲は 500 メートルで、Jike の「BabyBus」と同じシャーシを使用しています。
-
Appleが投資を撤回!OpenAI幹部交代の内幕:CEOは従業員を搾取し、セキュリティを無視し、4oの立ち上げを急ぎ、名声と利益を追求するという当初の意図は消え去った。
-
家庭用チェスロボット、世界初登場!ウズラの卵を割らずにキャッチすることも可能です。
-
中国最強の自動車メーカーは?上位15社の上半期決算を比較:販売台数最多はSAIC、利益率はBYDがトップ、粗利益はSeresが圧倒的にリード。
-
テンセント元宝は、学術論文、財務レポート、調査レポートに特化した長文記事の詳細な読み物サービスを開始した。