618ZXW

中国人民大学付属高校の生徒が NeurIPS 高校トラックスポットライトに選ばれ、高校でトップレベルの試験問題が使用されていることが実証されました。

NeurIPS 2024の結果が発表され、中国人民大学付属高校の高校生が第一著者に選ばれました。

今年、NeurIPS はトップクラスの AI カンファレンスを高校で開催する先導役となり、高校生から論文を正式に募集し、この目的のために特別な高校プロジェクト トラックも設置しました。

ついに結果が発表され、北京大学コンピュータサイエンス学院の張明教授が最終候補者についてのメッセージを共有しました。

中国人民大学付属高校の Wu You さんの論文が第一著者としてこのトラックに選出され、スポットライト プロジェクトにも選ばれました。

「Vision-Braille: 中国語点字画像からテキストへのエンドツーエンド翻訳ツール」と題されたこの論文では、中国語点字画像をテキストにエンドツーエンドで翻訳するツールを提案しています。

張明教授によると、呉有さんは高校1年生の2022年に研究グループに参加したときにこのプロジェクトのアイデアを提案したという。

エンドツーエンドの中国語点字画像からテキストへの翻訳ツール

具体的には、このプロジェクトでは Google の mT5 モデルを使用し、カリキュラム学習を活用して点字翻訳モデルを微調整します。

主な困難としては次のような点が挙げられます。

  • データセットの不足: 中国語点字翻訳データセットは非常に少なく、データ収集は難しく、多くの人的資源を必要とします。
  • 点字データの特異性:点字では、各漢字の発音を表すために最大3つのセル、すなわち最初の子音、最後の母音、そして声調が用いられます。しかし、実際には、点字利用者は声調記号のほとんどを省略することが多く、これが点字翻訳の課題となっています。
  • 同音異義語の混乱: 中国語には同音異義語が多数存在し、声調記号が省略されることが多いため、同音異義語の区別がさらに難しくなります。

この目的のために、著者らはまず、中国語点字全音、中国語点字無音、中国語点字10音を含む一連の中国語点字データセットを構築しました。

著者らはライプツィヒのデータセットから100万の異なる中国語の文章を収集し、オンラインの中国語点字プラットフォームが提供するツールを使用して、収集した中国語の文章を「全音」点字に変換しました。

次に、現実世界で点字使用者が声調を省略する状況をシミュレートするために、著者らは、声調を表す点字文字の部分を特定し、声調の 90% をランダムに削除して、現実世界での中国語点字の使用を反映した Chinese-Braille-10per-Tone を作成しました。

データは 8:1:1 の比率でトレーニング セット、検証セット、テスト セットに分割されました。

トレーニング方法に関しては、著者らはRetinaNetを使用して点字OCRタスクを実行し、点字画像をデジタル点字文字に変換しました。

次に、コースベースの学習戦略が採用されました。つまり、トレーニングタスクは単純なものから複雑なものへと並べられ、多言語TransformerモデルmT5は3段階で微調整されました。

フェーズ1:中国語点字全音データセットをトレーニングの一部として使用し、モデルは基本的な翻訳規則を学習します。このデータセットの点字テキストには、完全な音調情報が含まれています。

第 2 段階では、中国語点字声調なしデータセットを使用して、声調情報がなくてもコンテキストに基づいて正しい中国語の文字を推測するようにモデルに教えます。

フェーズ 3: Chinese-Braille-10per-Tone データセットを使用して、モデルを実際のアプリケーション シナリオに適切に適応させます。

実験結果によると、モデルは検証セットとテストセットでそれぞれ 62.4 と 62.3 の BLEU スコアを達成し、点字翻訳の精度が大幅に向上しました。

論文の著者らは、以下のようなプロジェクトのデモを公開しています。興味のある方は、記事末尾のリンクをクリックしてご自身でテストしてみてください。

(正解:しかし、外向的な性格について、エトーは「これが私の本質であり、それを変えるつもりはない」と語った。)

このプロジェクトは、ウー・ユーが高校3年生の時に完成しました。チャン・ミン教授によると、彼は現在コーネル大学でコンピュータサイエンスとバイオメディカルエンジニアリングを学んでいるとのことです。

論文の謝辞には、Wu You 氏が主にこの研究を、Zhang Ming 教授の博士課程の学生であり、論文の第二著者である Yuan Ye 氏の指導の下で完了したことが記載されています。

張明氏は北京大学コンピュータサイエンス学院の教授であり、博士課程の指導教員です。彼女の研究分野は、テキストマイニング、ナレッジグラフ、グラフニューラルネットワーク、コンピュータ教育研究などです。共著した研究論文は、ICML 2014の最優秀論文賞やICDM 2022の最優秀論文賞ノミネートなど、数々の賞を受賞しています。Google Scholarによると、彼女の論文は約2万回引用されており、h指数は48です。

NeurIPS高校トラック

NeurIPSは今年度新設された「高校生トラック」で、主に「機械学習の社会的影響」をテーマにした論文を募集します。

発表内容は次のとおりです。

応募作品は、高校生の作者によって完全に独立して完成されたことを証明するものでなければなりません。応募作品は、社会に与えるポジティブな影響、または機械学習を用いて社会にポジティブな影響を与える可能性を強調することが求められます。

具体的には、高校生がプロジェクトで外部のメンターと協力することを許可しますが、メンターと協力者の貢献は高校生の著者の貢献と区別する必要があります。

また、この発表では、著者は高校在籍の証明を提出する必要があり、ビデオ、デモ、ポスター、ウェブサイト、ソースコードなど、すべての補足資料は著者自身によって完全に完成されなければならないことも規定されている。

他のトップカンファレンスも、高校生に積極的に働きかけ、影響を与える傾向を示していることは特筆に値します。

たとえば、CVPR は高等学校と協力して、コンピューター ビジョン分野の専門講義などの課外活動を行っています。

論文の宛先:
デモアドレス: https://arxiv.org/abs/2407.06048
https://vision-braille.com/

- 以上-