|
8月11日、世界的に有名な計算言語学会(ACL)の年次総会がタイのバンコクで正式に開幕しました。ACL 2024は6日間にわたり、メインカンファレンスと34のワークショップが開催されます。 ACLは2022年以降、毎月締め切りを設定するローリングレビューメカニズム(ACLローリングレビュー、ARR)を導入しています。今年1月には、論文投稿の匿名期間を廃止し、著者が投稿期間中に自身の研究を宣伝できるようにするという前向きな動きも発表しました。この規制は、発表後の次のレビューサイクルから直ちに発効しました。 公式データによると、今年のメイン会議の採択率は 21.3%、Findings の採択率は 22.1% でした。 ACL 2024では、「再現可能なNLP研究のためのオープンサイエンス、オープンデータ、オープンモデル」という特別テーマも追加されました。このテーマでは、高品質なオープンソースデータセット、オープンソースモデル、オープンソースソフトウェア、その他の関連研究成果を募集し、オープンサイエンスと再現可能なNLP研究に関する業界内の議論を活性化し、オープンソースソフトウェアの開発を支援することを目指しています。 8月14日、ACL 2024の一連の賞が発表されました。特別テーマにはメインカンファレンスから22本の論文が寄せられ、特別テーマ論文賞は「OLMo: Accelerating the Science of Language Models」に授与されました。 画像出典: Google DeepMind研究者シュムハマッド Test of Time 賞は、2014 年に出版された「GloVe: Global Vectors for Word RepresentationGloVe」に授与されました。 画像出典: Google DeepMind研究者シュムハマッド さらに、ACL 2024では7本の優秀論文も選出されました。華中科技大学、アデレード大学、安陽師範大学、華南理工大学が共同で発表した論文「拡散モデルを用いた甲骨文字の解読」が最優秀論文賞を受賞しました。筆頭著者は、華中科技大学ソフトウェア学院の白翔教授率いるチームに所属する2021年度学部生、関海蘇氏です。HyperAIは本稿で、この論文について詳細な解説を行います。 公式 WeChat アカウントをフォローし、「ACL 2024」と返信すると、受賞論文をすべてダウンロードできます。 残りの受賞論文6件は次のとおりです。 記憶プロファイルの因果推定
Ayaモデル:命令を微調整したオープンアクセス多言語言語モード
https://arxiv.org/abs/2402.07827
自然言語の満足度:問題分布の探究とTransformerベースの言語モデルの評価
半教師ありニューラル祖語再構築
ミッション:不可能な言語モデル
トランスフォーマーにとって敏感な機能が難しいのはなぜか
https://arxiv.org/abs/2402.09963
受賞論文の詳細な分析次に、 HyperAI は、モデルアーキテクチャ、データセット、研究結果、チーム紹介の 4 つの側面から、「拡散モデルによる甲骨文字の解読」について詳細な解釈を提供します。 本研究では、華中科技大学の白翔氏と劉玉亮氏の研究チームが、アデレード大学、安陽師範大学、華南理工大学と共同で、画像ベースの生成モデルを用いて、甲骨文字解読に最適化された条件付き拡散モデル(甲骨文字解読(OBSD))を学習しました。このモデルは、甲骨文字の未知カテゴリーを条件付き入力として用い、対応する現代漢字画像を生成します。これにより、自然言語処理では解決が困難な古代文字認識タスクに対する新たな手法が提供されます。 研究のハイライト:
この研究で使用したデータセットのダウンロードリンク: EVOBC 甲骨文字進化データセット: https://go.hyper.ai/4UAJR HUST-OBS甲骨文字認識データセット: https://go.hyper.ai/46AiA データセット: OCR テクノロジーをベンチマークとして、Oracle 最大のリポジトリを活用します。提案された OSBD モデルをトレーニングおよび評価するために、この研究では、1,590 種類の文字を描いた 71,698 枚の画像を含む、Oracle の最大のリポジトリの 1 つである HUST-OBS および EVOBC データセットを選択しました。 未知の甲骨文字の解読には通常、より包括的な専門家による検証が必要となるため、本研究では解読済みの文字のみをテストセットとして使用することで、評価プロセス全体を簡素化しました。さらに重要な点として、本研究ではテストセットで選択された文字カテゴリをトレーニングセットから明確に除外することで、モデルがこれまで処理されたことのない文字の解読にも使用できるようにしています。データセットはトレーニングセットとテストセットに9:1の比率で分割されており、信頼性の高い評価フレームワークを提供しています。 さらに、OSBDモデルは画像生成の観点から甲骨文字を解読しますが、SSIMなどの従来の画像生成指標はこのタスクには適していません。そのため、本研究では、解読の成功を判断するためのより客観的な指標としてOCR技術を用います。具体的には、研究者らは、ResNet-101バックボーンネットワークを用いたシンプルな分類器を用いてOBS-OCRツールをカスタマイズし、現代漢字88,899カテゴリを含む大規模データセットで訓練を行い、モデルの出力を評価しました。 結果は、カスタマイズされたOCRツールが99.87%の認識精度を達成したことを示しており、解読結果の信頼性を実証しています。さらに、本研究では、オープンソースの中国語OCRツールPaddleOCR 1も広範囲に活用し、さらなる評価を行いました。このデュアルOCR手法は、甲骨文字の解読における本モデルの有効性を強く裏付けています。 条件付き拡散モデルに基づいて、OBSD モデルが再構築されます。本研究では、訓練セットをS = {(si, ci) | siは甲骨文字のインスタンス、ci∈C}と表現する。これは、甲骨文字のインスタンスを既知のカテゴリCに属する現代中国語文字にマッピングし、既存の一致が欠落している部分には新しい文字形態を提案する。これを実現するために、本研究では拡散モデルを用いて甲骨文字画像Xを現代中国語の対応する文字に変換する。 下の図に示すように、モデルは 2 つの段階で構成されています。 甲骨文字解読のための条件付き拡散モデル 初期段階(ノイズ付加)では、研究者らは現代漢字画像X0にノイズを導入し、制御可能なマルコフ連鎖プロセスを使用して純粋なノイズに似た状態に移行させ、最終的にガウス分布N(0、I)を形成しました。 ノイズ除去段階では、研究者らはU-Netアーキテクチャを用いてモデルfθを訓練し、ノイズeを予測して画像を復元しました。また、et ∼ N(0, I)を用いてランダム性を導入し、モデル生成結果の多様性を高めました。最終的なデコード結果は、生成されたノイズ除去画像X0です。 OBSDの概要 まず、甲骨文字画像Xに条件付き拡散を適用し、初期画像X0に近似させます。次に、ゼロショット学習法を用いてX0を改良し、Xrefを参照として構造を修正・強化します。この改良プロセスで得られた文字構造に関する知見を活用し、現代漢字に対応する最終的な文字結果XFを生成します。 LSS の概念を導入すると、古代の文字と現代の漢字を結び付けるモデルの能力が強化されます。しかし、実際のアプリケーションでは、このように学習されたモデルは対応する現代中国語の文字を正確に生成できません。代わりに、下の図に示すように、多数のランダムな断片に基づいて意味不明な文を生成してしまいます。 条件付き拡散モデルを直接適用すると、復号化に失敗しました。 研究者らは、この結果の理由として、拡散モデルは主に自然な画像を生成するように設計されたが、甲骨文字の解読中に甲骨文字の画像と現代漢字の間には大きな構造上の違いがあり、標準的な条件付き拡散モデルでは対象の現代漢字を正確に再構築することが不可能であると推測している。 漢字「宗」の比較分析。 この課題に対処するため、本研究では局所構造サンプリング(LSS)の概念を導入し、甲骨文字の局所的な部首構造を対応する現代漢字にマッピングする方法を拡散モデルが学習できるようにすることで、古代漢字と現代漢字を関連付けるモデルの能力を向上させます。また、この研究では、古代漢字から現代漢字への構造的変化が著しいにもかかわらず、特定の局所構造が保存されていることも明らかになりました。 拡散モデルが局所構造の特徴を学習できるようにするため、LSSモジュールはスライディングウィンドウ法を用いて、対象となる現代漢字画像X0∈RHxWx3と対応する甲骨文字画像X∈RHxWx3を、サイズp×pのD個の小ブロックに分割する。これらの小ブロックは、X(d)およびXt(D)∈Rp×p×3と表記され、D=1,2…D、p=64となる。ここで、Xtは、時間ステップtでガウスノイズϵtが追加された現代文字画像を表す。 OBSDの初期復号化の全体的なプロセス この手法に基づき、モデルは甲骨文字の局所構造と漢字の構造における微妙な差異を学習することで、反復的にパッチを最適化できます。この研究手法のユニークな点は、ノイズ除去を行わずに各時間ステップtにおける隣接領域間の重なりを平均化し、共有領域の均一性を確保することです。同時に、本研究では、サンプリング処理中に領域遷移を平滑化することで、エッジの違いを回避し、再構成画像の視覚的な一貫性を維持します。 ゼロショット学習を導入すると、モデルの文字構造を理解する能力が向上します。ローカル構造のサンプリングを使用して現代漢字を生成することにおいて、ある程度の進歩は見られてきましたが、初期の解読作業では、依然として、構造の歪みやアーティファクトなどの大きな障害に直面しています。 解読の初期段階では、多数のアーティファクトと歪みが発生しました。 これは、複数の甲骨文字のインスタンスを単一の現代漢字画像にマッピングする多対一学習法が採用されているためです。このため、文字の進化を捉える際に混乱や不正確な情報が生じ、現代漢字のサンプル数が限られているため、構造が不完全になります。 多対一と一対一のトレーニング例の比較 これらの課題を克服するため、本研究では、様々な現代中国語の文字表記を用いてモデルの構造理解を向上させるゼロショット学習戦略を提案する。実際には、このモジュールは20種類の現代中国語の文字フォントを用いて1対1で学習され、異なる現代中国語の文字表記間の構造的変化を学習し、モデルの文字構造理解能力を向上させた。 下図に示すように、このゼロショット学習法は一般的なフォントスタイル転送フレームワークに基づいています。デュアルエンコーダシステムを介して、ソースフォント画像X0のスタイルを、コンテンツの整合性を維持しながらターゲットスタイルXrefに適合させます。スタイルエンコーダEsはXrefからスタイル特徴esを抽出し、コンテンツエンコーダEcはXoとXrefを処理してマルチスケールコンテンツ特徴Foを取得します。その後、マルチスケールコンテンツ集約(MCA)と参照構造を備えたFont U-Netを使用して、これらの特徴を洗練させます。トレーニング後、ゼロショット学習モジュールは、拡散モデルによって生成された結果を直接最適化するために使用できます。 ゼロショット学習戦略の概要 OSBD パフォーマンス評価: 複数の評価基準で最高の認識精度。OSBDの性能を定量的に評価するため、本研究では、単一ラウンド復号と複数ラウンド復号という2つの異なる評価基準を用いた。甲骨文字復号専用のツールが存在しないため、本研究では比較フレームワークを用いて、主要な画像間変換手法をこのタスクに適用した。 具体的には、Pix2Pix、CycleGAN、DRIT++などのGANベースの手法や、CDE、Palette、BBDMなどの拡散モデルが含まれます。この構成により、OBSD法を最先端の画像変換のコンテキストで評価することができ、公平で一貫性のあるトレーニングおよびテスト条件が保証されます。 1 ラウンドの復号化評価では、下の図に示すように、OBSD は Oracle テキストの解読において、修正された画像間変換方式よりも大きな利点を示しました。 OSBDは、OBS-OCRとPaddleOCRをそれぞれ使用して41.0%と30.0%のトップ1精度を達成し、他の手法を上回りました。精度はランキングが上がるにつれて明確に向上し、OSBDはトップ500圏内で64.5%のOBS-OCR認識精度を達成しました。 単一ラウンドの復号成功率の比較 注目すべきは、GANベースの手法(Pix2Pix、Palette、DRIT++、CycleGANなど)は、このケースにおいて最も低い有効性を示し、トップ1精度は0%だったことです。これは、GAN自体が甲骨文字の解読に必要な複雑かつ微妙なマッピング関係を捉えるのが難しいためと考えられます。 複数回の復号評価では、 OBS-OCR の成功率は多くの試行で徐々に向上し、下の図に示すように、成功率は 41.0% から 80.0% に上昇しました。 複数ラウンドの復号の成功率の比較 PaddleOCR指標も上昇傾向を示し、30.0%から始まり、最終的に58.5%に達しました。これらの結果は、継続的な実験を通じて段階的な改善が達成可能であることを裏付けています。 各コンポーネントの影響をさらに詳しく調べるため、本研究ではLSSモジュールとゼロショット学習に焦点を当てたアブレーション研究も実施しました。その結果、基本的な条件付き拡散モデルのみを使用してオラクルテキストをデコードすると限界があり、精度が大幅に低下することが示されました。具体的には、拡散モデルを一切強化せずに学習させると、本質的に意味のない出力が得られます。 OBSDのアブレーション研究 LSSモジュールの導入により、 OBS-OCRの認識精度は37.5%、PaddleOCRの認識精度は24%に向上しました。ゼロショット学習モジュールをLSSと併用することで、OBS-OCRとPaddleOCRのTop-1精度はそれぞれ3.5%と6%向上します。 最後に、この研究では、さまざまな画像間変換モデルに関する定性的な研究も実施しました。 OBSDと他の画像間変換フレームワークの比較 結果は、OBSD法を用いて甲骨文字を入力することで、最も正確な現代漢字解読が可能になり、甲骨文字の複雑な詳細を識別できることを示しています。これらの結果は、OSBD法の有効性を強調するだけでなく、甲骨文字解読のための専門ツールとしての可能性も示しています。 研究チームはAI + Oracleプラットフォームの先駆者として輝いています。華中科技大学は、古代文字研究、特に甲骨文字研究において常に時代の最先端を走り、中国で最も早く独自の甲骨文字データベースを構築した大学の一つです。人工知能技術の急速な発展に伴い、インテリジェントテキスト・画像処理は人工知能研究分野のホットトピックの一つとなっています。白翔氏と劉玉良氏の研究チームを代表とする華中科技大学は、インテリジェントテキスト・画像処理のパイオニアとして、またしても先頭に立っています。 白翔教授は、国家優秀若手科学基金の受賞者であり、IAPRフェローでもあります。現在、華中科技大学ソフトウェア学院長、および湖北省機械視覚・知能システム工学研究センター所長を務めています。白教授は以前、Monkeyマルチモーダル大規模モデルの開発を主導し、権威あるオープンソース大規模モデルランキングであるOpenCompassでトップを獲得しました。その成果は、武漢の大手ソフトウェア企業の革新的な製品に応用されています。 白翔チームの中核メンバーである劉玉良は、第9回中国科学技術協会若手人材支援プロジェクトに選ばれ、テキストと画像のインテリジェンスに焦点を当て、文書インテリジェント分析、視覚と自然言語の理解、マルチモーダル大規模モデルなどの分野で一連の仕事の成果を達成しました。 技術の成熟に伴い、甲骨研究の更なる飛躍を目指し、白翔教授と劉玉良教授は、中国における甲骨研究のリーディングカンパニーの一つである安陽師範大学との緊密な連携を決意しました。2018年には、安陽師範大学に教育部甲骨情報処理重点実験室が建設されることが承認されました。2019年には、同実験室が丹精込めて構築した、甲骨文書データベース、目録データベース、文字データベースを統合した甲骨ビッグデータプラットフォーム「銀奇文源」が世界に公開されました。これは世界で最も完全で、標準化され、権威のある甲骨データプラットフォームであり、その公開は甲骨研究がインテリジェント時代へと突入することを示しています。 注目すべきは、この論文の責任著者の一人である劉永歌氏が、安陽師範大学にある教育部甲骨情報処理重点実験室の所長であることだ。 甲骨文字研究の記録と普及を促進するため、当研究所は2023年に二つの主要な取り組みに注力しました。第一に、テンセントSSV、中国社会科学院考古研究所安陽ワークステーション、安陽市文化財局と連携し、「甲骨文字グローバルデジタル復元プロジェクト」を立ち上げました。数億画素のカメラを用いて、実物の甲骨文字を忠実にデジタル復元・保存するプロジェクトです。第二に、当研究所とテンセントは共同で「驚異の甲骨文字」ミニプログラムを立ち上げ、甲骨文字をより身近に感じてもらうことを目指しました。 折しも、研究者による甲骨片接合に関する情報へのアクセスを容易にし、研究初期段階のデータ収集時間を短縮するため、復旦大学出土文献・古学研究センターの博士課程学生である楊毅氏、黄波氏、程明輝氏は、2023年初頭に共同で「追玉連珠」甲骨片接合情報データベースを構築しました。このデータベースには、『甲骨銘集成』刊行以来、数多くの研究者による甲骨片接合の成果が収録されており、その数は6,700件を超えています。これは、学術界が甲骨片接合に関する主要な成果を検索するためのオンラインツールとなっただけでなく、「象牙の塔」の外にいる多くの甲骨愛好家が甲骨片の研究に参加し、甲骨片接合に関する訂正や新たな情報を提供することを可能にしました。 これは、ビッグデータ、クラウドコンピューティング、人工知能といったデジタル技術の活用により、甲骨文字研究が新たな時代に入ったことを示しています。研究が進むにつれ、この「ニッチで難解な分野」は近い将来、さらなる謎を解き明かし、他の古代文字の解読に貴重な知見をもたらすと考えられています。 |
速報!ACL 2024で最優秀論文7件が発表されました。その中には、第一著者である華中科技大学の学部生による論文も含まれています。
関連するおすすめ記事
-
DAMOアカデミーがVideoLLaMA3をオープンソース化:わずか7Bのサイズで最先端のビデオ理解を実現 | オンラインでプレイ可能
-
Chen Tianqiao 氏は、学術誌 *Science* と提携して AI を活用した科学研究に 30,000 ドルの報奨金を提供する予定です。優勝した論文は *Science* に掲載されます。
-
Qwen 2.5は100万もの超長コンテキストに対応し、推論速度が4.3倍に向上しました。ネットユーザーの皆様へ:RAGは時代遅れになりそうです。
-
SegmentFaultリリース | 2024年中国の新興技術パイオニア企業
-
Tencent YouTu と上海交通大学の新しい手法では、公開知識を活用して大規模モデルを対象にして改善することで、最先端 (SOTA) のパフォーマンスを実現します。
-
学部生と大学院生のための最後の AI サマーキャンプがやって来ます!