|
AI2.0時代において、OCRモデルの研究は終焉を迎えたのか?(OCR:画像内のテキストを編集・検索可能なテキストに変換する技術) Vary の作者らは、OCR-2.0 に向けた最初の汎用エンドツーエンド モデルである GOT をオープンソース化しました。 実験結果は人々に証明します:いいえ~いいえ~いいえ~ GOT モデルのパフォーマンスはどの程度ですか?さっそく、レンダリングをご紹介します。 △最もよく使われるPDF画像からMarkdownへの変換機能 △ 2列テキスト認識機能 △ 自然な風景ときめ細かいOCR機能 △ ダイナミック解像度OCR機能 △ 複数ページのOCR機能 △ より多くの記号に対応するOCR機能 研究チームは、GOT モデルのパフォーマンスは良好であったものの、言語サポートの増加、形状の複雑化、チャート上の OCR パフォーマンスなど、いくつかの制限もあったと述べています。 OCR-2.0 の研究はまだ先のことであり、GOT にもかなりの改善の余地がある (プロジェクトはデータとコンピューティング リソースの点で非常に限られている) とのことです。 GOTとOCR-2.0の可能性を深く理解しているため、GOTをオープンソース化することで、より多くの人々がVQAを捨て、強力な認識に戻ることを願っています。純粋なOCRは非難されやすいと誰もが言いますが、それはOCRが十分に機能していないことを示しているだけではないでしょうか? GOT: OCR-2.0に向けて一般的な OCR モデルは汎用的である必要があり、これは入力と出力の両方が汎用的であるという事実に反映されています。 GOT の一般的な機能は次のとおりです。入力に関しては、モデルはシーンテキスト OCR、ドキュメント OCR、きめ細かい OCR、より一般的な OCR などのタスクをサポートします。 △ユニバーサルOCRモデルは「ユニバーサル」である必要があります。 出力に関しては、このモデルはプレーンテキスト出力と、Markdown などの読みやすく編集可能なフォーマットされたテキスト出力の両方をサポートしています。 モデルの構造とトレーニング方法では、ビジョン エンコーダー、入力埋め込み層、デコーダーで構成されるパイプラインが採用されています。 エンコーダ本体は、ローカル アテンションを備えた VIDDet アーキテクチャを採用しており、高解像度で CLIP ソリューションのグローバル アテンションが過度にアクティブ化されることを防ぎ、メモリ オーバーフローを回避します。 エンコーダの最後の2層は、Varyデュアル畳み込み設計を採用しています。エンコーダ全体では、1024×1024×3の画像を256×1024の画像トークンに圧縮します。これは、A4用紙サイズの高密度OCRに十分なサイズです。 △ GOT構造とトレーニングフローチャート 研究チームは、段階的に固定するLLMを使用せずに、学習プロセス全体を3段階に分割しました。画像とテキストのアライメント段階がなかったため、画像トークンのテキスト圧縮率が低下しました。 トレーニングの 3 つのフェーズは次のとおりです。 フェーズ1 :効率的な事前学習済みエンコーダ。GOTの学習プロセス全体を通して、A100レベルのカードは使用されません。リソースを節約するため、このフェーズでは小型のOPT-125Mをデコーダーとして使用し、エンコーダーに最適化指示を与え、大量のデータを迅速に入力できるようにします。 フェーズ2 :エンコーダーとデコーダーの共同トレーニング。このフェーズでは、前フェーズで事前トレーニング済みのエンコーダーとQwenチームによって事前トレーニングされたQwen0.5Bを使用して、GOTの基本構造が完成します。 研究チームはデコーダーのサイズをわずかに大きくしました。この段階では大量のOCR-2.0の知識を入力する必要があり、多くのデータ(化学式のOCRなど)は実際にはある程度妥当なものだったためです。しかし、彼らはあえてデコーダーのサイズを小さくしようとはしませんでした。 フェーズ 3 : エンコーダーをロックし、デコーダーを強化して、座標または色によってガイドされるきめ細かい OCR (読み取りペンで使用可能)、動的解像度 OCR テクノロジ (超高解像度画像で使用可能)、および複数ページ OCR テクノロジのサポートなど、より多くの OCR アプリケーション シナリオに適応します。 この機能は主に、後続のフォロワーがArxivデータでより適切にトレーニングできるようにすることを目的としています。私たちのアイデアは、.texファイルのページ切れを気にすることなく、複数ページのPDFで直接トレーニングすることです。 研究チームは、GOT モデル設計全体の中で最も困難な側面であるデータ エンジニアリングに直面し、さまざまな種類のデータを構築するために、LaTeX、Matpix-markdown-it、Matplotlib、Tikz、Verovio、Pyecharts など、多数のデータ レンダリング ツールを学習しました。 △ GOTで使用されるデータレンダリングツール OCR の研究はまだ始まったばかりです。大規模モデルが全面投入される時代に、なぜ OCR の研究を続けるのでしょうか? 研究チームには独自の理由がありました。
|
ユニバーサルなエンドツーエンドの OCR モデルはオープンソースであり、大規模なマルチモーダル モデルの次元削減アプローチを拒否します。
関連するおすすめ記事
-
「視覚+ロボットアーム」技術を搭載し、ゴミ拾いから家事までこなすYuanluoboロボット掃除機がデビュー。
-
顔面を平手打ちされました! GPT-4o は 8k ユニットの出力にも苦労しています。Chen Danqi 氏のチームの新しいベンチマーク テストでは、すべてのモデルの出力が公称長を下回っていることが示されています。
-
[TVMチュートリアル] NVIDIA GPUでの高性能畳み込みの最適化
-
楊元慶氏が中国サイバースペース管理局に「人間中心のインテリジェンスはテクノロジー企業にとってイノベーションの意義である」という記事を掲載した。
-
4699元から始まるvivo X200シリーズが正式に発売されました。
-
Meta最大のビデオセグメンテーションデータセットがオンラインになりました。類似データセットの50倍の規模を誇り、9,000個のスターを誇ります!Kuaishouのデジタルヒューマンデモは、ワンクリックで起動できます!