618ZXW

Apple の AI 搭載 iOS は初日から大ヒットを記録しました。チャットは瞬く間に高度な感情知能を備え、大規模なモデルは究極の音声代替となり、Siri は驚くべき変貌を遂げました。

ついに登場!Apple Intelligence がついに Apple ファンに登場!

iOS 18.1 ベータ版のリリースにより、登録開発者は Apple AI の機能の一部を体験できるようになりました。

最も明らかな変更点は、 Siri が全面的に改良され、Apple Intelligence & Siri に生まれ変わったことです。

もう一つの大きなアップデートは、Twitter のコメントを洗練させ、洗練された表現を素早くまとめるのに役立つライティング機能です。

汚い言葉でも、すぐに洗練されて親しみやすい言葉になります。

Apple Intelligence が有効になると、Apple が独自に開発した大規模なデバイス内モデルがデバイスにダウンロードされます。

手先の器用なユーザーからのフィードバックによると、他社の AI システムほど簡単にはサービスを拒否しないそうです。

一方、Apple独自の大規模モデルレポートも公開され、豊富な技術的詳細が明らかになった。

レポートによると、Apple のクラウドベースのビッグデータ モデルは、指示の追跡やテキストの要約などのタスクで GPT-4 よりも優れたパフォーマンスを発揮しました。

Appleの基本モデルチームの責任者であるRuoming Pang氏も、同社のモデルは同クラスの最高級モデルと競合できると述べた。

パン・ルオミンはプリンストン大学でコンピュータサイエンスの博士号を取得し、上海交通大学で学士号、南カリフォルニア大学で修士号を取得しました。Googleで15年間エンジニアとして勤務した後、2021年にAppleに入社しました。

Apple Intelligence の主な会話機能は、彼のチームが開発したモデルによって実現されています。

また、これらの基本モデルは「チャットボットではない」が、要約、文章作成支援、ツールの使用、コードなど、幅広い機能をサポートしていることも強調した。

さらに、Appleはモデルのパフォーマンスを高めるために独自のアルゴリズムを多数開発しており、レポートでは具体的な情報が公開されました。

観察力のあるネットユーザーの中には、興味深いことに気づいた人もいた。

Apple の大規模モデルは、Nvidia コンポーネントを一切使用せずに、Google の TPU クラスターを使用してトレーニングされました。

Siriはアップグレードされましたが、ChatGPTはまだ統合されていません。

Apple Intelligence を体験するには、満たす必要のある条件がいくつかあります。

まず、これが含まれる iOS 18.1 ベータ版は現在、開発者専用の年間 99 ドルのサブスクリプションとなっているため、一般ユーザーは待つ必要があります。

また、前述の通り、MシリーズとA17 Proチップのみをサポートしているため、特定の地域のiPhone 15 Proと15 Pro Maxでのみ使用できます。

ハードウェアとIDの要件に加えて、システム設定も変更する必要があります。地域を米国に設定し、デバイスとSiriの言語を英語に変更する必要があります。

これらの要件がすべて満たされると、待機キューに参加できます。

新しくリリースされた Apple Intelligence 機能は部分的なリリースであり、主にテキスト生成、Siri、写真アプリに重点を置いています。

まず、テキスト生成についてお話しましょう。AppleのAIの重要な部分であるこの機能は、Appleの公式アプリケーションに限定されません。

この機能は、標準のテキスト入力システムを使用する場合、サードパーティ アプリケーションでのテキストの要約、校正、書き換えにも使用できます。

さらに、iOS 18 ベータ版のボイスメモですでに利用可能な音声文字変換機能と組み合わせることで、テキスト生成システムは録音の要約も生成できるようになります。

2番目のメジャーアップデートはSiriです。

インターフェース上では、新しい Siri は円形のアイコンではなくなりました。代わりに、実行中は画面の周囲で常に点滅する色のライトが表示されます。

ボイスチャットを使いたくないユーザーのために、テキストベースの会話オプションも提供しています。画面下部をダブルタップするだけでキーボードが表示され、Siriに入力して会話できます。

内容の面では、新しい Siri は Apple 製品に関する質問に答えたり、ユーザーの問題のトラブルシューティングを支援したりできます。

さらに、新しいSiriは、1つの質問から次の質問へと文脈を理解できます。例えば、カレンダーの予定を作成してから、リマインダーの作成をリクエストするといった操作を、同じことを繰り返すことなくSiriに行うことができます。

ただし、前述の画面認識機能は、この Siri アップデートには含まれていません。

アルバムのアップデートにより、ユーザーは自然言語を使用して、特定の写真やビデオ内の特定の瞬間を検索できるようになりました。

上記は、今回の開発者ベータ版におけるAI機能の概要です。なお、これは前回の発表イベントで紹介された機能の一部であり、まだ公開されていない機能も多数あります。

特に、前述の ChatGPT 統合はこのアップデートにはまだ含まれていません

Appleモデルの解読

Apple は、ChatGPT は Apple AI の必須機能ではなく、その主な機能は独自の大規模モデルによって駆動されると述べています。

Appleは発売と同時に、このモデルに関する包括的な技術レポートも発表した。

このモデルはシンプルで分かりやすい名前、Apple Foundation Model (AFM) で呼ばれています。デバイス上バージョンとサーバーバージョンという2つのバージョンがあります。

エッジモデルのパラメータ数は約30億ですが、クラウドモデルについては具体的な数は明示されておらず、エッジモデルよりも大きいことのみが示されています。どちらも32kのコンテキストウィンドウを備えています。

トレーニング プロセス中の NVIDIA コンテンツは 0 です。

モデルは、テンソル並列処理やパイプライン並列処理などの戦略を採用した、当社独自の JAX ベースの AXLearn フレームワークを使用してトレーニングされます。

ハードウェアにはGoogle TPUが使用されており、クラウド側に8,192個のTPUv4チップ、エッジ側に2,048個のTPUv5pチップが搭載されています。NVIDIAは関与していません。

データは主に、Applebot によってクロールされた Web ページ、および公的にライセンスされたコードと数学データセットから取得されます。

Apple が選択したデータセットのいずれも GPL を使用していなかったことは注目に値します。それらはすべて、MIT、Apache、CC0 などのオープンソース ライセンスの下にありました。

プロセスの観点から見ると、AFM の事前トレーニング プロセスは、コア トレーニング、継続トレーニング、コンテキスト拡張の​​ 3 つの段階に分かれています。

コアトレーニングフェーズでは、クラウド側バージョンには 6.3T のトークンと 4096 のウィンドウ長があり、クライアント側バージョンはこれに基づいて蒸留によって取得されます。

トレーニングが継続されるにつれて、低品質のデータの重みが削減され、数学、コード、ライセンスされた高品質のデータを使用してモデルの機能が向上します。

このプロセスでは 1T のトークンのデータを使用し、ウィンドウの長さも 4096 から 8192 に変更されました。

次のフェーズでは、ウィンドウの長さがさらに 32k に拡張され、長いシーケンス テキストと合成データが含まれ、合計 100B トークンになりました。

独自の強化学習アルゴリズム

AFM の事後トレーニングには、教師あり微調整 (SFT) と人間によるフィードバック強化学習 (RLHF) が含まれます。

SFTステージでは、合成データと人間が注釈を付けたデータが使用されます。合成データは主に数学、ツールの使用、コードに関するものです。

RLHF フェーズで、Apple はiTeC と MDLOOという 2 つの強化学習アルゴリズムを作成しました。

iTeC は Iterative Teaching Committee の略で、複数回の反復を通じてモデルのパフォーマンスを最適化することを目的とした、トレーニング後の強化学習に使用されるアルゴリズムです。

その中心的なアイデアは、拒否サンプリングや直接選好最適化 (DPO) などのさまざまな選好最適化アルゴリズムを組み合わせることで、モデルが複数の最適化戦略の恩恵を受けられるようにし、特定のタスクに対する適応性とパフォーマンスを向上させることです。

iTeCは各イテレーションにおいて、最新のモデルの中から最も優れたパフォーマンスを示すモデル群を選択し、「モデル委員会」を形成します。これらのモデルは、SFT、RS、DPO/IPO、RLといった様々な学習手法によって生成されます。

iTeC は、モデルの応答に対する人間の好みに関するフィードバックを収集することで、報酬モデルを継続的に更新し、それを使用して新しいモデルのセットをトレーニングします。

iTeC は、人間の好みのデータのバッチを収集した後、報酬モデルを更新して新しいモデルセットをトレーニングし、このプロセスを複数回繰り返して、モデルのパフォーマンスを徐々に向上させます。

MDLOO は、モデルの応答品質を最適化するために特別に設計されたオンライン強化学習アルゴリズムです。

オンライン アルゴリズムであるため、モデルのトレーニング中に応答をリアルタイムでデコードし、RL アルゴリズムを適用して報酬を最大化できます。

言い換えれば、この方法により、モデルはトレーニング中に継続的に学習して戦略を調整し、人間の好みにより合った応答を生成することができます。

その実装では、Leave-One-Out (LOO) 利点推定器とミラー降下ポリシー最適化 (MDPO) を組み合わせて、より安定した効果的なポリシー更新を実現します。

エンドサイドミキシングの高精度量子化

エッジ モデルをより効率的に実行し、メモリ リソースの消費を抑えるために、Apple は AFM のエッジ バージョンを量子化しました。

具体的には、Apple は混合精度の量子化アプローチを使用して、ステージごとに異なる量子化精度を採用しています。

Appleのアプローチは「パレット」戦略として知られています。パレット量子化では、各重みを個別に量子化するのではなく、グループ化し、グループ内の重みは同じ量子化定数を共有します。

投影された重みについては、16 列/行ごとに同じ量子化定数が共有され、K 平均アルゴリズムを使用して 4 ビットの量子化が実行されます。

埋め込み層では、入力と出力が共有されるため、チャネルごとの量子化には8ビット整数が使用されます。さらに、比較的重要度の低い一部の層は、2ビット量子化に圧縮されます。

量子化によって生じたパフォーマンスの低下を回復し、モデルの出力品質と精度を維持するために、Apple は精度回復アダプタも導入しました。

このアダプターは、事前トレーニング済みモデルの特定のレイヤーに挿入して量子化モデル上でトレーニングし、微調整を通じて量子化の影響を補正する方法を学習できる小さなニューラル ネットワーク モジュールです。

いくつかのミッションはGPT-4を上回る

一連の最適化手法を適用した後、モデルのパフォーマンスをテストします。

このプロセスにおいて、Apple は人間による評価と自動評価を組み合わせた戦略を採用しました。

まず、人間による評価についてお話ししましょう。評価者は、分析的推論、ブレインストーミング、チャットボットなど、様々な側面を網羅した様々な質問を設計し、モデルにそれらの質問を作成させました。

同時に、他のモデルにも質問が投げかけられ、比較され、評価者はどのモデルの出力が優れているかを判断します。

その結果、クラウド側モデルとエッジ側モデルの両方が、Llama 3 や GPT-4 などの同等のモデルと同等のパフォーマンスを発揮する可能性が少なくとも 60% あります。

残りのテストは主にデータセットを使用して実装されます。

命令準拠の点では、Apple が IFEval テストを実施し、その結果、クラウド側 AFM が命令レベルとプロンプトレベルの両方で GPT-4 を上回り、新たな最先端技術 (SOTA) となったことが示されました。

エンドサイドモデルの性能は、Llama 3-8BやMistral-7Bなどの同サイズのモデルの性能を上回ります。

AlpacaEval では、エッジサイド AFM とクラウドサイド AFM の両方が 2 位を獲得しました。

具体的なタスクを見ると、AFM はライティング ベンチマークの要約タスクで最先端 (SOTA) のパフォーマンスを達成し、ライティング タスクでは 1 位に近づきました。

数学的には、Apple は評価に GSM8K と MATH の 2 つのデータセットを使用しました。

結果によると、エッジ側モデルは GSM8K では Llama 3-8B や Microsoft の Phi 3 mini に劣り、クラウド側では GPT-4 や Llama 3-70B に上回ったものの、GPT-3.5 よりは優れていました。

MATH のパフォーマンスは比較的高く、エッジ バージョンは同規模のモデルをリードし、クラウド バージョンは Llama 3-70B を上回っています。

パフォーマンスに加えて、セキュリティも非常に重要です。AppleはAFMの敵対的攻撃に対する耐性を手動で評価しました。

結果は、敵対的なプロンプトに直面した場合、AFM は他のオープンソース モデルや商用モデルよりも違反率が大幅に低いことを示しています。

これらはAppleのBig Model技術レポートで注目すべき点の一部です。詳細については、元のレポートをご覧ください。

もう一つ

Apple Intelligenceは開発者にテスト用に公開されているものの、正式リリースは遅れる可能性があるとブルームバーグは報じている。

実際、Apple の以前のバージョンリリースパターンによれば、バージョン番号 18.1 は、これらの機能が 9 月にリリースされる新しい携帯電話とともにリリースされないことも意味しています。

これに対して、アナリストのジーン・マンスター氏は、Apple Intelligenceと足並みを揃えるために、AppleはiPhone 16の発売日を遅らせることを検討すべきだと示唆した。

クック氏がこの提案を検討するかどうかはまだ分からない。

レポートアドレス: https://machinelearning.apple... 参考リンク: [1]https://x.com/reach_vb/status/1818014366555586611 [2]https://www.cnbc.com/2024/07/... [3]https://www.tomsguide.com/pho... [4]https://www.businessinsider.c...