618ZXW

強力な表処理ツールがNatureに掲載されました!箱から出してすぐに使え、どんな表でも平均2.8秒で処理できます。

スプレッドシートにも、独自の ChatGPT の時代が到来しました。

ついこの2日間で、 TabPFNと呼ばれるテーブル処理モデルがNature誌に掲載され、データサイエンスの分野で熱い議論が巻き起こりました。

論文によると、TabPFN は小さなテーブル向けに設計されており、データセットのサイズが10,000 サンプルを超えない場合に最先端のパフォーマンスを実現します。

具体的には、平均 2.8 秒でこれまでのすべての方法よりも優れた結果を達成します。

他の方法では「再編成」に最大 4 時間の時間がかかるとしても、それでも比較には及びません。

さらに重要なのは、事前トレーニング済みのニューラル ネットワーク メソッドにより、テーブル領域における従来の ML (勾配ブースティング ツリーなど) の優位性が完全に終焉したことです。

TabPFN は現在すぐに使用でき、特別なトレーニングなしであらゆるテーブルをすぐに解釈できます。

すぐに使えるテーブル処理モデル

Nature の別の記事では、従来の表形式の機械学習の限界について言及されていました。

たとえば、次のような一般的なアプリケーション シナリオがあります。

病院を経営していて、医療スタッフが患者のケアを優先できるよう、病状の悪化リスクが最も高い患者を特定したい場合、1行に1人の患者、年齢や血中酸素濃度などの関連属性を記録する列、そして入院中に患者の病状が悪化したかどうかを示す最後の列を含むスプレッドシートを作成できます。そして、このデータを数理モデルに当てはめることで、新規入院患者の病状の悪化リスクを予測できます。

この例では、従来の表形式の機械学習では推論にデータ テーブルが使用され、通常はタスクごとにカスタム モデルの開発とトレーニングが必要になります。

ドイツのフライブルク大学のMLラボなどの研究機関の研究者は、特別なトレーニングなしであらゆるテーブルを処理できるTabPFNを開発しました。

さらに、著者らは、新しくリリースされたTabPFN v2は 2 年前にリリースされたオリジナル バージョンと比較して大幅にアップグレードされていると主張しています。

TabPFN v1 は当時、「データ サイエンスに革命を起こす可能性がある」と考えられていましたが、現在では次のようになっています。

私たちはこの目標にさらに一歩近づきました。

要約すると、バージョン 2 では分類機能が向上し、回帰タスクをサポートする機能が拡張され、回帰タスクで長期間にわたって微調整されてきたベースライン モデルよりも優れたパフォーマンスを発揮します。

さらに、欠損値や外れ値をネイティブにサポートしているため、さまざまなデータセットを処理する際の効率性と精度が確保されます。

全体的に、TabPFN v2 は、サンプル数が 10,000 以下、特徴数が 500 以下の小規模から中規模のデータセットの処理に適しています。

それでは、TabPFN モデルの完全なトレーニングとアプリケーションのプロセスを見てみましょう。

まずはデータセットのサンプリングから始めましょう。モデルが様々な現実世界のシナリオに対応できるようにするために、研究者たちは大量の合成データを生成しました。

まず、いくつかの主要なパラメータ(データポイントの数、特徴、ノードなど)をサンプリングし、次に中間部分に計算グラフとグラフ構造を構築してデータを処理し、最終的に異なる分布と特徴を持つデータセットを生成しました。

ベースモデルにおける一般的な問題を回避するために、中間部分は構造因果モデル (SCM) に基づいて合成トレーニング データセットを生成することを強調することが重要です。

簡単に言えば、ハイパーパラメータのサンプリング、初期データの伝播、さまざまな計算マッピングと後処理技術の適用を通じて因果グラフを構築することで、さまざまな構造と機能を備えた多数の合成データセットを作成し、モデルが現実世界のデータの問題を処理するための戦略を学習できるようになります。

次に、新しいアーキテクチャをテーブル構造に適合させて、モデルを事前トレーニングしました。

たとえば、TabPFN モデルでは各セルに独立した表現が割り当てられるため、各セルの情報は個別に処理され、焦点を当てることができます。

さらに、双方向アテンション メカニズムを採用することで、表形式データを理解するモデルの能力がさらに強化されます。

一方、1D 特徴アテンション メカニズムにより、同じ特徴列内のセル同士が相関関係にあり、相互に情報を渡すことができるため、モデルは同じ特徴における異なるサンプルの変動パターンと関係性を捉えることができます。

一方、1D サンプル アテンション メカニズムにより、異なるサンプル行のセル同士が相互作用できるようになり、異なるサンプル間の全体的な相違点と類似点を識別できるようになります。

この双方向アテンションメカニズムにより、サンプルと特徴の順序がどのように変化してもモデルが安定して情報を抽出して利用できるようになり、モデルの安定性と一般化能力が向上します。

さらに、モデルのトレーニングと推論のプロセスがさらに最適化されました

例えば、冗長な計算を削減するために、モデルがテストサンプルで推論を実行する際に、以前に保存されたトレーニング状態を直接利用することで、トレーニングサンプルに対する繰り返しの計算を回避できます。これは、トレーニングフェーズの表形式データが個別に処理・学習され、既に保存されているためです。

一方、このモデルは、半精度計算やチェックポイントの有効化などの手法を採用することで、メモリ使用量をさらに削減します。

最後に、実際の予測生成段階では、コンテキスト学習 (ICL) メカニズムのおかげで、モデルを新しいデータセットごとに広範囲に再トレーニングする必要がなく、これまで見たことのないさまざまな現実世界のデータセットに直接適用できます。

テーブル処理の新しい状態

定性的な実験では、線形回帰、多層パーセプトロン(MLP)、CatBoostと比較して、さまざまな種類の関数を効果的にモデル化できます。(オレンジはトレーニングデータ、青は予測値を表します)

一方、AutoML Benchmark や OpenML – CTR23 などの広く使用されている代表的なデータセットで評価すると、TabPFN は、分類タスクと回帰タスクの両方で複数のメトリックをカバーし、ランダム フォレストや XGBoost などの高度なベースライン メソッドよりも最先端の結果を達成します。

実際の 5 つの Kaggle コンテストでも、トレーニング サンプル数が 10,000 未満であったにもかかわらず、TabPFN は CatBoost よりも優れたパフォーマンスを発揮しました。

最後に、TabPFN は特定のデータセットの微調整もサポートしています。

関連するコードは現在オープンソースになっており、著者らは GPU を使用したコンピューティングを可能にする API もリリースしています。

興味のある方は注目してください!