|
オリジナル:August Datawhale データホエールの共有 著者: オーガスト 大規模モデルを微調整するプロセス💡このプロセスを厳密に実行し、手順を省略しないことをお勧めします。そうしないと、無駄な作業を行う可能性があります。 たとえば、データセットが適切に構築されておらず、モデルの微調整のパフォーマンスが低いのはデータセットの問題によるものであることが後から判明した場合、その努力は無駄になってしまいます。 ソリューションの概念化と実装:いくつかの可能なオプション質問があります。ユーザーが自由にコンテンツを入力できるプロンプトを作成しましたが、プロンプト自体は表示させず、入力エリアだけを表示させたいと考えています。どうすれば実現できますか? 2 つのモデルを呼び出して相互に接続するにはどうすればよいですか? ... 正式に始める前に、次の質問について考える必要があります。
❓エージェントとは何ですか? —エージェントとは、人工知能技術、特に大規模言語モデル (LLM) に基づいて、環境を認識して理解し、目標を達成するためのアクションを実行できるインテリジェントなエンティティを指します。 iFlytek MaaS では、エージェントを作成したい場合は、大規模モデルアプリケーション プラットフォーム内で作成できます。 ❓ワークフローとは何ですか? ワークフローとは、特定のタスクまたは一連のタスクを完了するための手順とプロセスを指します。iFlytek MaaS大規模モデルアプリケーションプラットフォームには、対応するモジュールが用意されています。現在、オンラインのノードには、大規模モデル、コード、決定、分岐、変数抽出、テキスト連結などがあります。 新しいモデルのトレーニングが必要な場合は、そのまま進めてください。ただし、既存のモデルを接続するだけのアイデアであれば、以下のプロセスを経ずにワークフローを使用して直接実装できます。 データセットの取得と構築データ収集データセットの準備ができたら、微調整を行うことで戦いの半分は勝ちです。 —先生、玉ねぎ、生姜、ニンニクは使わないでください。 初心者向けに、データセットは、その入手可能性に基づいて、公開されているデータセットと入手が難しいデータセットの 2 つのカテゴリに分けることができます。 ❓公開されているデータを入手するにはどうすればよいですか? データセットを入手する最も簡単な方法は、GitHub、Hugging Face、Modaなどの関連するオープンソースプラットフォームから検索してダウンロードすることです。特に小説などのテキストベースのデータセットは豊富です。 ウェブサイトからスクレイピングすることもできますが、それには技術的なサポートが必要です。 ❓必要なデータがオンラインで入手できなかったり、入手が困難な場合はどうなりますか? —独自のデータセットを構築します。 しかし、数百、数千ものレコードからなるデータセットをゼロから構築するのは非常に面倒です。どうすればこのプロセスを迅速に実現できるでしょうか?ここでは2つのアプローチをご紹介します。
シンプルな Prompt の例 (@August より) データクリーニング元のデータセットはモデルのトレーニングに適した形式に準拠していないため、モデルが学習できる形式にクリーンアップして処理する必要があります。 iFlytek MaaSプラットフォームでは、ファインチューニングデータセットは通常AIpacaの形式で構築されます。詳細については、iFlytek Open Platformのドキュメントをご覧ください。 アイパカ特徴: シンプルな構造で、テキスト生成、翻訳、要約などのタスク、特に単一ラウンドのタスク指向の指示の微調整に適しています。
簡単に言えば、この構造は次のように理解できます。大きなモデルは現在の役割の履歴を記憶しており、ユーザーが指示のようなものを入力すると、大きなモデルは出力のようなものを返す必要があります。 これは、大規模なモデルが質問と回答の間のマッピング関係を確立するのを支援することと同じです。
モデルベースの比較モデルのデバッグを正式に開始する前に、適切なモデルベースを選択することが特に重要です。iFlytek MaaSプラットフォームではすでにモデルの強みの一部が紹介されていますが、それぞれの特定の垂直分野ごとに独立したテストと要約を実施する必要があります。 iFlytek MaaS プラットフォームで提供される Llama3 モデルは主に英語のコーパスに基づいています (トレーニング コーパスのわずか 0.2% が中国語)。そのため、学生から次のような質問がよく寄せられます。 ❓Llama3で中国語の文字を出力するにはどうすればよいですか? — 独自の中国語データセットを入力し、完全なパラメータの微調整を選択して、LoRa を再度トレーニングします。 あるいは、独自の中国語データセットのシステムセクションに「中国語を出力してください」を追加することもできます (ただし、iFlytek MaaS プラットフォームは現在これをサポートしていないようです)。 モデルのトレーニングデータセットを構築し、モデル ベースを選択したら、モデルのトレーニングを開始できます。 パラメータ選択モデルのトレーニング中に選択できるパラメータは多数あります。 💡個人的な経験から言うと、「トレーニングの反復回数」には特に注意が必要です。データセットが10,000を超える場合、トレーニングの反復回数は5回以下にする必要があります。そうでないと、オーバーフィッティングが発生する可能性があります(次の章)。 有効性の評価みんな結果が良くないと言っているのですが、期待する結果はどのようなものですか? —ネギ、生姜、ニンニク、目玉焼きの先生 モデルの性能を評価するには、客観的な基準と主観的な基準を組み合わせて使用できます。特に、過剰適合の可能性には注意が必要です。 ❓オーバーフィッティングとは何ですか? オーバーフィッティングとは、モデルがデータから学習する際に、データ内の詳細を記憶するだけでなく、偶然発生した重要ではない事柄(つまり「ノイズ」)も記憶してしまう状況を指します。 過剰適合が発生した場合は、
主観的基準:製品に対する自身の期待に基づいて、期待される目標効果の評価枠組みを決定します。これが最も重要です。 客観的な基準: 損失曲線を調べます。 損失曲線は、モデルの学習状態 (学習損失) を評価するために使用される曲線です。 損失曲線が 0.1 または 0.2 に設定されていますが、これは間違いなく機能しません。 —ネギ、生姜、ニンニク、目玉焼きの先生 理想的なフィッティング状態改善が必要なフィッティング状態以下の内容は Cheng Xiaojuan のメモと機械学習用語集からの抜粋です。 パフォーマンス 1: 損失は非常にゆっくりと減少し、まったく減少していないように見えます。これは、モデルがデータから何も学習していないことを示しています (アンダーフィッティング)。 パフォーマンス2:曲線の振動 パフォーマンス3: モデルが急激にジャンプします。 観察4: 損失値が低すぎます。ほぼ0.2または0.3に達しています(@Augustより) モデルリリースモデルの準備が整い公開されたら、APIを直接呼び出すことができます。リクエストアドレスは次のとおりです。 API呼び出しについては、次のドキュメントを参照してください: オープンソースの大規模モデルWeb APIドキュメント 考慮すべきことがまだあります...現在、iFlytek MaaS プラットフォームのオープン性と公共の利益により、モデルのトレーニング、展開、使用においてコストの問題を考慮する必要がありません。 しかし、実際には、モデルのテストとトレーニングには必ずコストがかかります。モデルを商用製品として開発する場合は、コストの問題を考慮する必要があります。 あなたのモデルの商業コストはいくらですか?すでに可能な限り低いレベルになっていますか? 例えば: ❓技術的な実装パスが 2 つあり、最初のパスでは 1 つのモデルを使用してすべてを一度に実装しますが、プロンプトが非常に長くなります (約 2000 語)。もう 1 つのパスでは、2 ~ 3 つのモデルを含むワークフローを使用し、ワークフロー プロンプト全体が 1000 語未満になる可能性がある場合、一般的にどちらのパスの方が安価ですか。 コストは主にモデルの入力トークンと出力トークンに依存します。入力トークンと出力トークンが同程度であれば、価格も同様になります。 著者のホームページ: https://blog.csdn.net/weixin_45092438/category_12856410.html いいね! (3件のいいね!)↓ |
大規模モデルを微調整するプロセス全体について考える
関連するおすすめ記事
-
4つの高活性水素発生触媒のスクリーニングに成功しました!米中合同研究チームがアクティブラーニングを用いて、14,000種類の高エントロピー酸化物を特定しました。
-
使いやすい分子動力学シミュレータLAMMPS: npt温度制御によるFCC Cu融点の推定
-
7か月連続の生産減少とブレーキ問題による世界的なリコールにもかかわらず、トヨタは依然として数十億ドルの利益を上げている。
-
ChatGPT はマイナーアップデートを受けましたが、アプリ全体の使いやすさが向上しました。
-
今年もインテリジェントドライビングを取り巻く状況は大きく変化しています。VLAテクノロジーがレースのルールを塗り替え、NVIDIA Thorが量産され、車両に搭載されるようになりました。固定点測位よりも、大ヒット製品が重要なのです。
-
BYDとファーウェイが協力し、従来の自動車の最後の砦を突破する