|
急速なデジタル化が進む現代において、OCR(光学式文字認識)技術は広く普及しているものの、依然として多くのボトルネックに直面しています。従来のOCRモデルは、複雑で刻々と変化する状況下では精度が著しく低下し、処理手順やステップも煩雑で、作業効率を著しく低下させています。 世界初のユニバーサルなエンドツーエンドOCRモデル「GOT-OCR-2.0」が、このたび正式にオープンソース化されました!画質の悪さ、複雑な背景、手書き文字の認識といった従来のOCRの限界を克服します。hyper.aiのウェブサイトでデモチュートリアルを公開しています。複雑なインストール手順は不要で、クローンするだけですぐに使い始めることができます。 オンラインで実行: https://go.hyper.ai/JVVKQ 10月1日から10月12日までのhyper.aiウェブサイトの更新の概要は次のとおりです。
公式サイトをご覧ください: hyper.ai 厳選された公開チュートリアル 1. GOT-OCR-2.0: 世界初のユニバーサルなエンドツーエンドの OCR モデル。 GOT-OCR-2.0は、一般的なOCR理論に基づく統合エンドツーエンドモデルであり、光学式文字認識(OCR)の精度と効率の向上に重点を置いています。テキストの多様性と複雑性を効率的に処理できる統合アーキテクチャを採用しています。GOT-OCR 2.0は、シーンベースのテキスト認識をサポートするだけでなく、複数ページのドキュメントも処理できるため、OCR分野にさらなる柔軟性をもたらします。チュートリアルに従ってコンテナを実行し、APIアドレスをコピーするだけで、モデルの推論テストを開始できます。 直接使用する: https://go.hyper.ai/JVVKQ 効果の例 2. IC-Light画像照明ツール、自然な背景のブレンドと置き換え IC-Light(Imposing Consistent Lightの略)は、機械学習モデルを用いて画像の再照明を行うプロジェクトです。テキスト条件付き照明モデルと背景条件付き照明モデルの2種類のモデルが提供されており、それぞれテキストキューまたは背景コンテンツに基づいて前景画像の照明を調整します。 このプロジェクトでは、Gradoインターフェースを介してフロントエンドのインタラクティブインターフェースを生成できます。必要なモデルと依存関係は既にデプロイされており、ワンクリックで起動して体験できます。 直接使用する: https://go.hyper.ai/1Y0PQ 効果の例 3. Fish Speech v1.4 音声複製 - テキスト読み上げツールのデモ Fish Speechは、Fish Audioが2024年に開発した音声合成(TTS)モデルです。高品質で自然な音声を生成できます。バージョン1.4へのアップグレード後、約70万時間のデータ学習を経て、中国語、日本語、英語を含む8言語に対応しています。言語処理能力は人間レベルに近く、音声表現は豊かで多彩です。 このチュートリアルでは、モデルを最新バージョンに更新し、環境をデプロイしました。チュートリアルの指示に従うことで、音声複製やテキスト読み上げタスクを直接実行できます。 直接使用する: https://go.hyper.ai/t7O8m 選択された公開データセット 1. MMedC大規模多言語医療コーパス このデータセットには、英語、中国語、日本語、フランス語、ロシア語、スペイン語の 6 つの主要言語をカバーした約 255 億トークンの医療予測データが含まれており、継続的に更新および拡張されて、より多くの言語のサポートが提供されます。 直接使用する: https://go.hyper.ai/jXv0r MMedCデータセットの統計概要 2. MMedBench多言語医療能力テストベンチマークデータセット このデータセットは、医療分野における多言語モデルの開発を評価することを目的としており、6つの言語と21の医療分野をカバーしています。MMedBenchのすべての問題は、様々な国の医療試験問題バンクから直接取得されており、評価の正確性と信頼性を確保し、各国の医療実践ガイドラインの違いに起因する診断理解のバイアスを回避しています。 直接使用する: https://go.hyper.ai/8X9xD MMedBenchデータセット統計の概要 3. ラクーナマラリア検出データセット このデータセットには、マラリア検体スライド画像3,925枚が含まれており、トレーニングセットには2,747枚、テストセットには1,178枚が含まれています。画像に加えて、画像が撮影されたスライド、顕微鏡ステージのミクロメーターの読み取り値、対物レンズの設定も記録されています。各スライドから最大40枚の画像を取得できます。 直接使用する: https://go.hyper.ai/9oBFv データセット画像の例 4. HelpSteer2 人間の好みの調整データセット HelpSteer2には約10,000組の応答ペアが含まれており、既存の嗜好データセットに比べると桁違いに少ないものの、報酬モデルの学習には非常に効率的です。このデータセットは、大規模言語モデル(LLM)に人間の嗜好に適合した高品質な応答を生成させるように指示できる報酬モデルを学習するために設計されています。 直接使用する: https://go.hyper.ai/YePhv 5. MMMLU多言語マルチタスク言語理解データセット このデータセットは、異なる言語、認知、文化的コンテキストにおける人工知能モデルのパフォーマンスを評価・改善することを目的としています。大規模マルチタスク言語理解(MMLU)ベンチマークに基づいて構築されたMMMLUは、AIモデルの常識的な指標であり、基礎知識から法律、物理学、歴史、コンピュータサイエンスといった高度な専門分野に至るまで、57の異なる分野にわたるタスクを網羅しています。 直接使用する: https://go.hyper.ai/TY7aR 6. テストセットを生成するためのFRAMESベンチマーク検索強化 このデータセットには、2~15件のWikipedia記事から情報を抽出する、難易度の高いマルチホップ問題が824問含まれています。問題は歴史、スポーツ、科学、動物、健康など、幅広いトピックを網羅しており、各問題には数値、表形式、多重制約、時間的制約、後処理といった推論の種類がラベル付けされています。また、データセットには、各問題に対するゴールドスタンダード回答と関連するWikipedia記事も含まれています。 直接使用する: https://go.hyper.ai/zp5WQ 7. MedScribble マルチ画像セグメンテーション バイオメディカルタスクデータセット このデータセットには、研究チームが3名の注釈者から収集した手書きの落書きが含まれており、14種類のオープンアクセス生物医学画像セグメンテーションデータセットから14のセグメンテーションタスクを完了しました。MedScribleには合計64組の2D画像セグメンテーションペアが含まれており、それぞれに3セットの落書き注釈が付いています。 直接使用する: https://go.hyper.ai/X901T 8. CDFSODベンチマーク クロスドメイン小サンプル物体検出ベンチマークデータセット このプロジェクトは、ソースドメインとターゲットドメインの間に大きなドメイン差がある場合の、少数サンプルによる物体検出の問題に対処することを目的としています。アルゴリズム評価用のデータセットに加え、ドメイン差を測定するためのスタイル、クラス間分散(ICV)、定義不能境界(IB)などのデータセットメトリクスが含まれています。 直接使用する: https://go.hyper.ai/YQsnW 9. CLVR Jaco Playデータセット: 遠隔操作ロボットフラグメントデータセット このデータセットは、遠隔操作ロボット、自然言語処理、そしてヒューマンコンピュータインタラクションを研究する科学者や開発者にとって貴重なリソースです。Jaco 2遠隔操作ロボットの1,085個のスニペットと、それに対応する言語アノテーションが収録されています。 直接使用する: https://go.hyper.ai/Xde69 10. バークレーケーブルルーティング多段ロボットケーブルタスクデータセット Berkeley Cable Routingデータセットは、多段階ロボットマニピュレーションタスク、特にケーブル配線を研究するためのデータセットです。このタスクでは、ロボットが複数のクランプにケーブルを通す必要があり、変形可能な物体の取り扱い、閉じた視覚認識ループ、複数のステップからなる拡張動作など、複雑な多段階ロボットマニピュレーションシナリオの課題を反映しています。 直接使用する: https://go.hyper.ai/aiML0 その他の公開データセットについては、以下をご覧ください。 https://hyper.ai/datasets 厳選されたコミュニティ記事 1. Natureのサブジャーナルに掲載されました!筆頭著者は、タンパク質言語モデルのための少数サンプル学習法を詳細に解説し、ウェット実験データの不足という問題を解決しました。 「Meet AI4S」ライブストリームシリーズの第3回では、上海交通大学自然科学研究所の洪亮教授の研究グループに所属するポスドク研究員である周子怡氏が、「タンパク質言語モデルのための小規模学習法」と題したプレゼンテーションで、チームの最新の研究成果を共有し、AI支援による指向性進化の新たなアイデアを探求しました。この記事は、貴重な洞察に満ちた周氏の基調講演の記録です。 完全な概要を見る: https://go.hyper.ai/MzXfg 2. ジェフ・ディーン氏が、Google の新しい研究、8 種類のクジラを識別できるクジラの生物音響モデルを称賛。 Google Researchチームがクジラの新しい生物音響モデルを開発しました。このモデルは、現在知られている94種のクジラのうち8種を識別できます。この記事では、この論文の詳細な解釈と共有を提供します。 完全なレポートを見る: https://go.hyper.ai/1l2HO 3. エージェントベースのメンタルヘルスクリニックが開設!上海交通大学のチームは、1,300件のうつ病相談対話に基づいて、うつ病の初期診断が可能な大規模モデル対話エージェントを構築しました。 上海交通大学X-LANCEラボの呉孟岳教授率いるチームは、天橋脳科学研究所およびThetaAIと共同で、うつ病の予備診断を目的とした自動化大規模モデル対話エージェントシミュレーションシステム「インテリジェントエージェント心理クリニック(AMC)」を開発しました。本稿では、この研究論文の詳細な解説と共有を行います。 レポート全文はこちら:https://go.hyper.ai/AdjI5 4. 動的タンパク質ドッキング予測を実現!上海交通大学、星耀科技大学、中山大学などが共同で、幾何学的深度生成モデルDynamicBindを発表しました。 上海交通大学の鄭双佳氏率いる研究チームは、StarPharma、中山大学薬学院、ライス大学と共同で、タンパク質の動的ドッキング設計のための幾何学的深層生成モデル「DynamicBind」を提案しました。このモデルは、深層学習に基づき、タンパク質の動的変化を考慮したポストAlphaFold時代の医薬品開発に新たな研究パラダイムを提供します。本稿では、この研究論文の詳細な解説と共有を行います。 レポート全文はこちら:https://go.hyper.ai/nErwd 5. AlphaFold がノーベル賞を受賞。DeepMind CEO の受賞スピーチ: AI を活用する最高の科学者が素晴らしい成果を成し遂げるでしょう。 デビッド・ベイカー氏、デミス・ハサビス氏、ジョン・M・ジャンパー氏が2024年のノーベル化学賞を受賞しました。DeepMindのCEO、デミス・ハサビス氏は、「最高の科学者たちは、これらのAIツールを活用することで、驚くべき成果を成し遂げることができるでしょう」と述べました。デビッド・ベイカー氏はさらに、「AlphaFoldは非常に刺激的です」と述べました。この記事では、ノーベル化学賞受賞者について詳しくご紹介します。 レポート全文はこちら:https://go.hyper.ai/UPpuB 人気のある百科事典の項目 1. トランスフォーマーモデル 2. 変分オートエンコーダー (VAE) 3. 人工ニューラルネットワーク(NN) 4. パレートフロント 5. 大規模マルチタスク言語理解MMLU この編集版には何百もの AI 関連用語が含まれており、「人工知能」を理解するのに役立ちます。 https://go.hyper.ai/wiki トップ AI 学術会議を一か所で追跡: https://go.hyper.ai/event 今週のエディターズピックはこれで終了です。hyper.ai公式サイトに掲載してほしいリソースがありましたら、ぜひコメントを残していただくか、作品をご提出ください。 来週お会いしましょう! HyperAI (hyper.ai) について HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper.ai)コミュニティであり、中国のデータサイエンス分野のインフラとなることを目指し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。
公式ウェブサイトにアクセスして学習を始めましょう: https://hyper.ai/ |
5,200 個の星を獲得しました!OCR のボトルネックを打破する革命的な力が登場しました。多言語医療モデルがオープンソース化され、コーパスとベンチマークデータセットがダウンロード可能になりました。
関連するおすすめ記事
-
OSPOガイドライン: オープンソースコミュニティへの参加
-
紅旗はもはやその機能を隠していません。純粋なビジョンベースのエンドツーエンドのインテリジェント運転や、固体電池も含まれています。
-
AI大規模モデルエコシステムとコンピューティングパワーカンファレンスが9月25日に開催され、約20名の業界リーダーが大規模モデルアプリケーションの新しいエコシステムについて議論しました。
-
グレートウォールモーターズの鉄の女はトップクラスのテクノロジーカンファレンスで全編英語でのスピーチを行い、ソウルモーターサイクルの海外デビューは絶賛されました。
-
ある一文が DeepSeek に考えさせ続けました: 北京大学チーム: これは AI を標的とした DDoS 攻撃です。
-
ポルシェ、従業員1,900人を解雇!中国での売上は3ヶ月連続で減少、「Xiaomiのせいでブランド価値だけが減った」