|
AI2.0時代において、OCRモデルの研究は終焉を迎えたのか?(OCR:画像内のテキストを編集・検索可能なテキストに変換する技術) Vary の作者らは、OCR-2.0 に向けた最初の汎用エンドツーエンド モデルである GOT をオープンソース化しました。 実験結果は人々に証明します:いいえ~いいえ~いいえ~ GOT モデルのパフォーマンスはどの程度ですか?さっそく、レンダリングをご紹介します。 △最もよく使われるPDF画像からMarkdownへの変換機能 △ 2列テキスト認識機能 △ 自然な風景ときめ細かいOCR機能 △ ダイナミック解像度OCR機能 △ 複数ページのOCR機能 △ より多くの記号に対応するOCR機能 研究チームは、GOT モデルのパフォーマンスは良好であったものの、言語サポートの増加、形状の複雑化、チャート上の OCR パフォーマンスなど、いくつかの制限もあったと述べています。 OCR-2.0 の研究はまだ先のことであり、GOT にもかなりの改善の余地がある (プロジェクトはデータとコンピューティング リソースの点で非常に限られている) とのことです。 GOTとOCR-2.0の可能性を深く理解しているため、GOTをオープンソース化することで、より多くの人々がVQAを捨て、強力な認識に戻ることを願っています。純粋なOCRは非難されやすいと誰もが言いますが、それはOCRが十分に機能していないことを示しているだけではないでしょうか? GOT: OCR-2.0に向けて一般的な OCR モデルは汎用的である必要があり、これは入力と出力の両方が汎用的であるという事実に反映されています。 GOT の一般的な機能は次のとおりです。入力に関しては、モデルはシーンテキスト OCR、ドキュメント OCR、きめ細かい OCR、より一般的な OCR などのタスクをサポートします。 △ユニバーサルOCRモデルは「ユニバーサル」である必要があります。 出力に関しては、このモデルはプレーンテキスト出力と、Markdown などの読みやすく編集可能なフォーマットされたテキスト出力の両方をサポートしています。 モデルの構造とトレーニング方法では、ビジョン エンコーダー、入力埋め込み層、デコーダーで構成されるパイプラインが採用されています。 エンコーダ本体は、ローカル アテンションを備えた VIDDet アーキテクチャを採用しており、高解像度で CLIP ソリューションのグローバル アテンションが過度にアクティブ化されることを防ぎ、メモリ オーバーフローを回避します。 エンコーダの最後の2層は、Varyデュアル畳み込み設計を採用しています。エンコーダ全体では、1024×1024×3の画像を256×1024の画像トークンに圧縮します。これは、A4用紙サイズの高密度OCRに十分なサイズです。 △ GOT構造とトレーニングフローチャート 研究チームは、段階的に固定するLLMを使用せずに、学習プロセス全体を3段階に分割しました。画像とテキストのアライメント段階がなかったため、画像トークンのテキスト圧縮率が低下しました。 トレーニングの 3 つのフェーズは次のとおりです。 フェーズ1 :効率的な事前学習済みエンコーダ。GOTの学習プロセス全体を通して、A100レベルのカードは使用されません。リソースを節約するため、このフェーズでは小型のOPT-125Mをデコーダーとして使用し、エンコーダーに最適化指示を与え、大量のデータを迅速に入力できるようにします。 フェーズ2 :エンコーダーとデコーダーの共同トレーニング。このフェーズでは、前フェーズで事前トレーニング済みのエンコーダーとQwenチームによって事前トレーニングされたQwen0.5Bを使用して、GOTの基本構造が完成します。 研究チームはデコーダーのサイズをわずかに大きくしました。この段階では大量のOCR-2.0の知識を入力する必要があり、多くのデータ(化学式のOCRなど)は実際にはある程度妥当なものだったためです。しかし、彼らはあえてデコーダーのサイズを小さくしようとはしませんでした。 フェーズ 3 : エンコーダーをロックし、デコーダーを強化して、座標または色によってガイドされるきめ細かい OCR (読み取りペンで使用可能)、動的解像度 OCR テクノロジ (超高解像度画像で使用可能)、および複数ページ OCR テクノロジのサポートなど、より多くの OCR アプリケーション シナリオに適応します。 この機能は主に、後続のフォロワーがArxivデータでより適切にトレーニングできるようにすることを目的としています。私たちのアイデアは、.texファイルのページ切れを気にすることなく、複数ページのPDFで直接トレーニングすることです。 研究チームは、GOT モデル設計全体の中で最も困難な側面であるデータ エンジニアリングに直面し、さまざまな種類のデータを構築するために、LaTeX、Matpix-markdown-it、Matplotlib、Tikz、Verovio、Pyecharts など、多数のデータ レンダリング ツールを学習しました。 △ GOTで使用されるデータレンダリングツール OCR の研究はまだ始まったばかりです。大規模モデルが全面投入される時代に、なぜ OCR の研究を続けるのでしょうか? 研究チームには独自の理由がありました。
|
ユニバーサルなエンドツーエンドの OCR モデルはオープンソースであり、大規模なマルチモーダル モデルの次元削減アプローチを拒否します。
関連するおすすめ記事
-
エンタープライズ開発者はプログラミング自動化の時代をいかに切り拓くことができるか? | Baiduの孫克氏へのインタビュー
-
マスク氏がFSDとロボットを訓練するスーパーコンピューティングセンターを公開。ネットユーザーのコメント:コンピューティング能力は他をはるかに凌駕している。
-
InSilicon Technologies が Nature サブジャーナルに「量子-古典ハイブリッドモデルを使用した新しい KRAS 阻害剤の設計」を発表しました。
-
大規模モデルのトレーニングオーバーヘッドをさらに削減できます。Microsoft は初の FP4 トレーニング フレームワークを導入し、BF16 に匹敵するトレーニング結果を実現しました。
-
退学寸前だったハーバード大学の学生が、起業を目指して自主的に学業を休学することを選んだ | ビル・ゲイツの自伝、*ソースコード*
-
AIが物理世界をより深く理解できるようにする!中国人民大学、北京郵電大学、上海AIラボなどが提案する新たなマルチモーダルセグメンテーション手法