|
現代の視点から歴史を見つめると、人々は歴史的事実の探求を決してやめず、文字は歴史を通して文明が生き延びてきたことの最良の記録であり、その発展を理解する手段であることは疑いありません。甲骨文字(OBS)は、我が国で最も古く、体系的な文字の一つであり、約3000年前に遡り、中華民族の脈々と受け継がれてきた文化を今に伝えています。 近年、数多くの甲骨文字が発掘され、天文学、気象、畜産、宗教、儀式など、豊富な情報が記録されています。他の古代文字と同様に、多くの甲骨文字も時とともに意味が失われています。発掘された16万片の甲骨文字のうち、4,600字以上の文字が発見されていますが、その意味と現代漢字への対応が確認されているのは約1,500字に過ぎません。 甲骨文字を文字レベルで解読する作業は、様々な要因により複雑化しています。過去の不適切な保存・発掘方法により多くの甲骨文字が損傷を受け、碑文がぼやけたり判読不能になったりするケースが多く、研究者の作業をさらに困難にしています。そのため、現在の甲骨文字研究で用いられる画像のほとんどは、ノイズ除去・画像処理されたスキャン画像、または手作業で転写された画像です。さらに、甲骨文字は初期の文字体系として大きな進化を遂げ、文字形態も多様化しています。多くの文字は、見た目は異なっていても、同じ漢字に対応しており、この多様性が解読プロセスをさらに複雑にしています。 甲骨文字の包括的な理解が多くの要因によって極めて困難であることは容易に理解できますが、たった一つの文字の解読でさえ、歴史研究にとって大きな意義を持ちます。その道のりは長く困難であり、古代中国研究の学者や歴史家の間で大きな関心を集めています。 考古学の遺跡で3,000年前の甲骨文字が発見されました。 人工知能の登場により、研究者たちはこの古代言語を理解するための全く新しいアプローチを手に入れ、AIを活用した甲骨文字の解読が可能になりました。しかし、他の分野におけるAIの応用と同様に、包括的かつ高品質なデータセットが不可欠です。現在、甲骨文字の分野では、OBI-100、OBI-125、Oracle-20k、HWOBCといった高品質なデータセットが登場していますが、データソースが単一であること、カテゴリーとサンプルが限られていること、解読済みの甲骨文字のみが含まれているため解読作業が不可能であること、データセットの品質が低いこと、ノイズレベルが高いこと、フォーマットが単調であることなど、依然として一定の制約があります。 この問題に対処するため、華中科技大学の白翔教授率いる研究チームの王鵬傑氏らは、書籍、ウェブサイト、既存のデータセットという3つの異なる情報源から収集した高品質なHUST-OBCデータセットを提案しました。このデータセットには、2種類の甲骨文字サンプル画像が含まれています。1つは、オリジナルの甲骨拓本をスキャンして加工した甲骨文字画像です。もう1つは、オリジナルの甲骨文字に基づいて手書きされた甲骨文字画像で、さらに拓本に基づく画像と字形に基づく手書き画像に分類されています。 HUST-OBCと他のデータセットの比較 「甲骨文字の認識と解読のためのオープンデータセット」と題されたこの研究は、Scientific Data 誌に掲載されました。 論文の宛先: https://arxiv.org/abs/2401.15365 データセットを直接ダウンロードします。 https://go.hyper.ai/46AiA オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 https://github.com/hyperai/awesome-ai4s 複数のソースからデータを収集し、半自動生産ラインを構築します。多様なデータセットを構築するために、研究者たちは書籍、ウェブサイト、データセットという3つの異なる情報源から甲骨画像を収集しました。下図に示すように、様々な情報源からのデータを整理・統合するために、データ取得、自動アノテーション、データ統合、データ検証という4つの主要なステップで半自動パイプラインが使用されました。 HUST-OBCデータセット構築のフローチャート データ収集甲骨文字は、亀の甲羅や動物の骨に刻まれ、3000年以上もの間地中に埋もれていた貴重な遺物であり、世界中の博物館や個人コレクションに散在し、大切に保存されています。そのため、甲骨文字の原文を直接取得することは極めて困難です。この困難を克服するために、研究者たちは、専門家による甲骨文字の転写、権威ある書籍のスキャン、学術ウェブサイトのクローリング、データセットのインポートなどを活用し、豊富で多様な甲骨データコレクションを構築しました。 データの取得と処理 自動注釈収集された生データは、切り取り、注釈、フィルタリングなどの更なる処理が必要です。書籍データの場合、既存のOCRツールでは、書籍に収録されている漢字に対応する甲骨文字の比較的難解で希少なため、正確に識別することが困難です。研究者らは、約9万字の漢字をOCRモデルに学習させ、文字タグを自動的に認識できるようにしました。ウェブサイトやデータベースから取得した画像はすでに前処理済みであるため、フィルタリングとコードマッチングのみが必要です。 自動漢字OCR方式 データ統合異なる情報源では異なる注釈基準が用いられる場合があり、同じ甲骨文字が異なるカテゴリに分類されることがあります。例えば、異体字の注釈によって冗長なカテゴリが生成されることがあります。教師なし視覚対照学習モデルMOCOを学習させることで、類似のサンプルを同じカテゴリに統合し、冗長なカテゴリを削減することができます。 データ統合における比較学習 データ検証自動データ取得およびアノテーションプロセス中にエラーが発生する可能性があります。研究者は、データの正確性を確保するために、Oracle Scholars に手動レビューと指導を依頼し、最終的に HUST-OBC データセットを作成しました。 研究者らは最終的に、解読済みの文字1,588個を含む77,064枚の画像と、未解読の画像62,989枚、合計140,053枚の画像を含むHUST-OBCデータセットを構築しました。以下は、解読済みデータと未解読データの一部です。 解読された甲骨文字と未解読の甲骨文字の例 データセットの品質を評価するため、 AIモデルをデータセットを用いて学習させました。デコードされた部分は、学習セット、検証セット、テストセットに8:1:1の比率で分割されました。画像分類にはResNetを使用し、最終的な分類精度は94.6%、マクロ平均F1スコアは0.914でした。以下に結果の一部を示します。 甲骨文字の分類指標例 Oracle に関する深い専門知識を持つチームは、効果的に協力して ACL Best Paper Award を受賞しました。華中科技大学は常に甲骨文字研究の最前線に立ち、中国で最も早く独自の甲骨文字データベースを構築した大学の一つです。AIの波が伝統的な科学研究を変革する中、白翔教授のような研究者たちは、AIを活用した甲骨文字研究の強化において、再び先駆者、開拓者となっています。 白翔教授は現在、国家優秀若手研究者科学基金の受賞者であり、IAPRフェローでもあります。華中科技大学ソフトウェア学院長、および湖北省機械視覚・知能システム工学研究センター所長を務めています。最近、白教授と彼のチームが発表した論文「拡散モデルを用いた甲骨文字の解読」が、ACL 2024で最優秀論文賞を受賞しました。 本研究では、HUST-OBSデータセットとEVOBCデータセットに基づき、画像ベースの生成モデルを用いて、甲骨文字解読に最適化された条件付き拡散モデル(甲骨文字解読(OBSD))を学習しました。このモデルは、甲骨文字の未知カテゴリーを条件付き入力として用い、対応する現代中国語の文字画像を生成します。これにより、自然言語処理では解決が困難な古代文字認識タスクに対する新たなアプローチが提供されます。 甲骨文字解読のための条件付き拡散モデル 評価結果によると、OBSD法を用いて甲骨文字を入力すると、最も正確な現代漢字解読結果が得られ、甲骨文字の複雑な詳細も識別できることが示されました。これらの結果は、OSBD法の有効性を強調するだけでなく、甲骨文字解読のための専門ツールとしての可能性も示しています。 本のプレゼントHyperAIは、Electronic Industry Pressと共同で、非常に有益な科学書籍「AI for Science: Artificial Intelligence Driving Scientific Innovation」を5名様にプレゼントいたします。抽選にぜひご参加ください! 参加方法 HyperAI WeChat公式アカウントをフォローし、バックグラウンドで「AI4S Book Giveaway」と返信してください。抽選ページをクリックしてプレゼントにご参加ください。5冊の書籍を無料でご自宅までお届けします。ぜひご参加ください! 本の紹介 タンパク質構造の予測から遺伝子変異の病原性の推論まで、AIが主導する新しいパラダイムは、生命科学を含むさまざまな科学分野に新たな機会をもたらしています。 『AI for Science: 人工知能による科学イノベーションの推進』は、材料科学、生命科学、電子科学、エネルギー科学、環境科学という5つの主要分野における人工知能の学際的統合に焦点を当てています。本書は、分かりやすい言葉を用いて、基本概念、技術原理、そして応用シナリオを包括的に解説し、読者がAI for Scienceの基礎を迅速に理解できるよう支援します。さらに、それぞれの学際分野において、詳細なケーススタディ、業界動向の概要、そして関連する政策的知見を提供しています。 |
14万枚の画像を含む!華中科技大学が高品質な甲骨文字データセットを公開し、チームのACL最優秀論文賞受賞に貢献しました。
関連するおすすめ記事
-
Qwen 2.5と比較する勇気もなく、ミストラルの最強の小型モデルは論争に巻き込まれ、OpenAI Europeは開店しなくなりました。
-
ByteDance は NeurIPS 最優秀論文賞を受賞した直後に、VAR テキスト画像化バージョンをオープンソース化し、最先端 (SOTA) ステータスを達成して、拡散モデルに勝利しました。
-
広東省を拠点とする新エネルギー車新興企業の破綻の余波:1億元以上の株式が凍結され、従業員の賃金は未払いとなり、車の所有者は修理サービスを受けられなくなった。
-
DeepSeekに勝てないなら、参加しよう! 最新リスト: Tencent Docs、Baidu Search
-
珍しい!マスク氏が倒産した会社を買収。
-
2024年には17社のスマートカー会社がICU入りした。救済された企業もあれば、撤退を余儀なくされた企業もあった。