|
オープンソース協会開源社 人工知能分野におけるオープンソースの問題は常に存在しており、最大の論点は、どのような人工知能が「オープンソース」とみなされるかという点です。業界公認のオープンソース仲裁機関であるオープンソース・イニシアティブ(OSI)は、25年にわたりオープンソース定義(OSD)の管理を担ってきました。ここ2、3年は、誰もが研究、改変、共有に利用できるAIシステムの構築を目指し、オープンソースAIの定義と標準の策定に尽力してきました。 OSIのエグゼクティブディレクター、マフルリ氏は、この定義はまだ試行段階にあると述べ、「これはバージョン1.0ですが、非常に初歩的なバージョンです。これで決定したわけではありません」と続けた。 オープンソース AI 定義バージョン 1.0: https://opensource.org/ai/dra... 驚くべきことに、バージョン1.0のリリースはコミュニティ内で広範な議論を巻き起こし、OSIがオープンソースAIの定義を緩和したのではないかと疑問視する声が多数上がりました。これを受けて、OSI理事会は最近、オープンソースAI(OSAID)の定義について再投票を行い、若干の改訂を加えたバージョン1.0の標準ガイドラインが10月28日にリリースされる予定でした(ただし、本稿執筆時点ではまだリリースされていません)。 これまで、AIのオープンソース標準の欠如は多くの問題を引き起こしてきました。OpenAIとAnthropicはモデル、データセット、アルゴリズムを秘密に保ち、AIをクローズドソースとすることを決定しましたが、一部の専門家は、MetaとGoogleの無料モデル(誰でも閲覧・調整可能)も、ライセンスによってユーザーがモデルでできることが制限されており、トレーニングデータセットが公開されていないため、真のオープンソースではないと考えています。 「企業が自社モデルのマーケティングでこの用語を誤用していることはよく知られています」と、AIモデル構築・共有プラットフォームであるHugging Faceのアプリケーションポリシー研究者、アビジット・ゴーシュ氏は述べています。モデルを「オープンソース」と表現することで、研究者が真にオープンソースかどうかを独自に調査できない場合でも、信頼性が高く見える可能性があります。 オープンソースは、法的およびビジネス上の問題だけでなく、開発者の自由と権利にも関わっています。真のオープンソースライセンスは、誰にとっても生活を楽にします。オープンソースがなければ、開発者はコードを使用する自由を失い、新しいライブラリを使用するたびに法的審査を受ける必要があります。その結果、プロジェクト全体の運用停止、セキュリティ上の脆弱性の修正未適用、メンテナンスの大幅な困難化といった問題が発生する可能性があります。 オープンソースのルールを適切に定義することは、企業が欺瞞的なマーケティング戦略によって消費者や一般大衆を誤解させることを防ぐのに役立ちます。また、真のオープン性と透明性を促進し、ひいては人工知能分野の健全な発展を促進することにも役立ちます。 しかし、この標準はコミュニティ内の多くの著名人の間で懸念を引き起こしており、OSI の OSAID しきい値は低すぎるため、ベンダーが本来のオープンソース定義 (OSD) に準拠または尊重するように導くオープンソース コミュニティによる数十年にわたる努力が損なわれる可能性があると考えている。 2023年6月、OSI事務局長のステファノ・マフーリ氏は、オープンソースAIを定義する組織の計画を正式に発表しました。マフーリ氏は、様々な「大規模言語モデル、基礎モデル、ツール、サービス」が全て「オープン」または「オープンソース」であると主張している現状に反対を表明し、OSDと矛盾する条項が依然として存在すると述べました。2023年に実施された大規模言語モデル(LLM)システムの調査では、オープンソースと思われていた大規模モデルのほぼ全てが、実際には宣伝どおりではないことが明らかになりました。 過去数十年にわたり、オープンソースの世界は順調に発展してきました。ソフトウェアの概念はかつて非常にシンプルでした。ソースコードとバイナリコードがあるだけだったのです。「今、人工知能が突如として現れました」とマフルリ氏は言います。「特に、ここ3、4、5年で登場した新世代のAIは、新たな成果物を生み出しました。モデルの重みとパラメータは全く新しいものです。それらは機能を持ち、システムの状態を変化させます。しかし、それらはソフトウェアでも、ソースコードでも、データでもありません。つまり、新しい種類の成果物なのです。」 同氏はさらに、「そしてもう一つ、何十億もの人々がすでにそれらを使用している」と付け加えた。 さらに、マフーリ氏はオープンソースソフトウェアの歴史と比較し、「世界中の規制当局は、この件を非常に懸念しています。コンピューター科学者自身でさえ、『原理は理解していないし、操作方法も知らないし、実際に修正することもできません。しかし、私たちを信じてください。すべてうまくいきます』と認めています。こうした発言は、規制当局を深く警戒させています」と述べた。 したがって、問題が「AIシステム」に関係すると、状況はさらに複雑になります。 これは、モデルを実行して特定のタスクを実行するコードだけでなく、ゲームプログラムのようにデータがシステム本体から完全に分離できないことを指します。大規模言語モデルの場合、中核となる要素には、モデルアーキテクチャ、モデル学習用のコード、モデルパラメータ、学習手法、学習データのラベル付けプログラム、サポートライブラリ、モデル学習用データなどが含まれます。 OSIは昨年からこのフレームワークの定義に取り組んでおり、2023年6月21日にサンフランシスコのMozilla本社でプロジェクト立ち上げ会議を開催しました。その後、OSIは定期的な対面およびオンライン会議、そしてオンラインディスカッションフォーラムを通じて、議論への参加を呼びかけてきました。 OSAID の現在の草案では、AI システムの定義は OECD AI 理事会の勧告に基づいています。 明示的または暗黙的な目的で、受信した入力から、物理環境または仮想環境に影響を与える可能性のある予測、コンテンツ、提案、決定などの出力を生成する方法を推測する機械ベースのシステム。 これには、トレーニングとシステム操作のソース コード、重みやその他の構成設定などのモデル パラメータ、および技術者が基本的に同等のシステムを構築できるようにするためのシステムのトレーニング データに関する十分かつ詳細な情報が含まれています。 提案された定義によれば、これらの要素はOSI承認のライセンスの下で保護される必要があり、これは「オープンソース」という概念に対する私たちの基本的な期待を満たしているように思われます。しかし、例外が1つあります。データ構造やモデルパラメータなどのコンテンツは、「OSI承認の用語」の下で利用可能でなければならないということです。OSI承認の用語が具体的に何を指すのかは、現時点では未定です。 新しい標準規格では、学習データの提供は必須ではありません。OSAIDの現在の草案に準拠するには、AIシステムはデータに関する「詳細」を提供するだけでよく、データオントロジーを提供する必要はありません。 8月22日、OSIはオープンソースAI標準のバージョン0.0.9をリリースし、「トレーニングデータは定義の中で最も議論の多い部分の一つである」と認めました。最終的に、OSIはオープンソースのトレーニングデータを必須としないことを決定しました。 長時間にわたる審議と共同討論の結果、トレーニング データは必須ではなく、公開することが推奨される要素として定義することが最適であると結論付けました。 トレーニングデータは、AIシステムの研究において非常に貴重であり、モデルが学習したバイアスや、それらのバイアスがシステムの挙動にどのような影響を与えるかを理解するのに役立ちます。しかし、トレーニングは既存のAIシステムを修正するための好ましい方法ではありません。このデータに含まれる洞察と相関関係は、モデルによって既に学習されているからです。 現状では、OSAIDは4つの基本的な自由を保証するという約束を果たしていないと主張する人もいます。例えば、ジュリア・フェライオリ氏は、データを除き、OSAIDはAIシステムの使用と配布の能力を制限しているだけだと指摘しました。 「オープンソースの参加者は、転移学習やファインチューニングといった手法を用いて、この枠組みを基盤として構築することはできますが、それだけです。」 トム・キャラウェイ氏は、LinkedIn でオープンデータを標準要件に含めるべき理由についても詳しく説明しました。彼は、AI システムのパブリッシャーがトレーニングデータを公開することに消極的、あるいは不可能な理由がいくつかあることを認めました。例えば、データ自体に高い金銭的価値がある場合、ベンダーがデータを共有することに消極的、あるいは不可能な場合があります。Acme 社は特定のデータセットのライセンスを付与し、開発者がそれらを使用して AI システムを作成することは許可しますが、データオントロジーの公開は許可しない可能性があります。さらに、データの公開は、機密性(例:医療データセット)や著作権で保護されたデータの開示に関する訴訟の回避など、法的問題を引き起こす可能性があります。 彼は、上記の状況は AI システムのトレーニングデータを公開しないことの合理的な正当性を提供する一方で、AI システムを「オープン」と分類することの実際的な意義を損なうとも強調しました。 オープンソースAIの定義に、データ非公開という抜け穴を残せば、「オープンソース」の定義の根本的スタンスを揺るがすことは間違いありません。多くの企業がオープンソースへの制約を強めたいと考えていますが、たとえ初期段階でオープンソースの定義に適合するAIシステムの数に影響が出ても、この点は譲るべきではないと考えています。 トレーニングデータを共有しないことに対する批判は、オープンソースの定義の純粋性を維持するという単純な議論にとどまりません。ジャコモ・テシオ氏は、OSAID RC2で議論されるべき問題点のリストを公開しました。その中には、機械学習モデルに検出不可能なバックドアを埋め込むことによる固有のセキュリティリスクも含まれています。 フリーソフトウェア財団(FSF)は、「フリー機械学習アプリケーションのための標準ステートメント」を策定中であると発表しました。これは、アプリケーションがフリー機械学習アプリケーションとして認められるかどうかを明確にすることを目的としています。財団によると、標準草案はほぼ完成しており、現在調整と改訂作業が進められています。FSFはさらに、「すべてのトレーニングデータとそのデータを処理するスクリプトがすべてのユーザーの権利を尊重し、自由の4原則を遵守しない限り、機械学習アプリケーションを『フリー』とみなすことはできないと考えています」と述べています。 しかし、財団は非自由と不道徳の問題をさらに細分化しています。 一部の非フリー機械学習システムでは、正当な倫理的理由から、個人の医療データなどの学習データの公開を控える場合があります。そのような場合でも、当該アプリケーションは非フリーとみなされます。ただし、病気や怪我の診断など、社会にとって極めて重要な専門業務をユーザーが遂行するのに役立つ場合は、倫理的に正当化されます。 ソフトウェア自由保護協会(SCC)は、大規模言語モデルによってサポートされる生成プログラミングAIに関する「理想的な声明」を発表しました。タイトルは「ユーザーの自由を尊重する機械学習支援プログラミング」です。OSAIDとは異なり、SCCはコンピュータ支援プログラミングの分野にのみ焦点を当てており、特にGitHub Copilotの開発を対象としています。声明ではOSIやOSAIDプロジェクトに直接言及しておらず、「問題のある商用プロプライエタリ製品を、広く普及しているものを自動的にフリープロジェクトと見なすような慣行は拒否する」とのみ述べています。この声明は、フリー・オープンソース・ソフトウェア(FOSS)のみを使用して構築され、すべてのコンポーネントが一般に公開され、フリー・オープンソース・ソフトウェアの作成に使用できる理想的な大規模言語モデルシステムを説明しています。 様々な意見が飛び交う中、一部の海外メディアはマフーリ氏にメールを送り、現行のOSAID草案に対する批判について見解を尋ねた。また、これまでソースコードの公開と利用制限を常に支持してきたOSIが、なぜ今回は「基準を下げている」ように見えるのかと疑問を呈した。マフーリ氏の返答は以下の通りだった。 率直に言うと、あなたの質問では「ソースコードの再配布」について触れられていますが、これが Callway のような批評家をこのような状況に導いた精神的罠の核心なのです... マフリ氏は、OSAIDが弱体化したり譲歩したりしたという主張を否定し、OSAIDの核心的な要求は機械学習システムの望ましい形態を修正することだと述べた。「これは私個人やOSI理事会が決定したものではなく、支持者とカーネギーメロン大学が決定したものです」。マフリ氏はさらに、OSIは「世界中のAI開発者、ユーザー、導入者、コンテンツ制作者、労働組合、倫理学者、弁護士、そしてソフトウェア開発者」からの意見を統合してこの定義に至ったと付け加えた。また、過去のオープンソースの定義を単純に「翻訳」するだけでは、AI分野では通用しないことを強調した。 アナリティクス企業RedMonkの創設者であるスティーブン・オグレイディ氏も、既存のオープンソースの定義をAIプロジェクトにそのまま当てはめるのは難しいと考えている。しかし、彼は逆の見解を持ち、「オープンソース」という用語は必ずしもAI分野にまで拡張する必要はない、あるいはむしろ拡張すべきではないと主張している。 10月22日に投稿されたブログ記事で、彼は次のように説明している。 本質的に、AI のオープンソースの定義をめぐる現在の議論は、将来の成果物の完全に新しい、より複雑なセットを真に包含するのではなく、狭い資産を説明するために 20 年以上前に生まれた用語を AI 時代に無理やり引きずり込んでいるのです。 オグレイディ氏の見解では、OSIはオープンソースAIの定義に向けてより実用的な道を歩み始めており、多くの詳細を慎重に検討する必要がある。オープンソースの成功は、こうしたニュアンスを排除した定義によるところが大きい。ライセンスはオープンソースの定義を満たしているか?この問いには明確な答えが得られる。しかし、OSAIDはそれほど単純でも明確でもない。彼が描く実用的な道筋は以下の通りだ。 実質的な妥協は必要であり、さらに重要なのは、それを実行するためには具体的な説明が必要だということです。しかし、古い政治格言にあるように、「言葉に説明が必要なら、あなたはすでに負けている」のです。 彼の見解では、OSIが「数十年前の時代遅れの定義の変更や作り直し」をやめ、ゼロから新しい標準を作成すれば、状況は改善するかもしれない。彼は、「理想主義と実利主義の間を揺れ動きながら、イデオロギー的に健全で商業的に実現可能な定義を模索してきた」2年間を経て、人々はようやくこれが解決不可能な問題であることに気づいたと述べた。 実際、OSI 理事会は、OSAID の既存の草案、またはその他の同様の改訂版を今後も推進していく可能性が高く、それが最終的にオープンソース AI にどのような影響を与えるかは、時が経てばわかることでしょう。 「オープンソース」の定義を AI 分野にまで拡張できるかどうかについてはまだ明確な結論は出ていませんが、大規模な AI モデルが本当に「オープンソース」の基準を満たしているかどうかをめぐる議論は、これまで一度も止まったことはありません。 一部の大規模AIモデルはオープンソースであると主張されているにもかかわらず、これらのモデルに付随するライセンス条項は、オープンソース・イニシアティブ(OSI)の「オープンソースの定義」で定められた基準と異なる場合が多い。例えば、Llama 3のライセンスには、訴訟条項やブランド条項など、OSIの要件を満たしていない条項がいくつか含まれている。 残念ながら、Metaは例外的なケースではありません。複数の企業が自社のソフトウェアやモデルの一部をオープンソースであると主張していますが、実際にはその約束を果たしていません。この現象は「オープンウォッシング」と呼ばれる、欺瞞的なマーケティング戦略です。この戦略では、企業や組織は自社の製品、サービス、またはプロセスを「オープン」であると宣伝しますが、実際には、透明性、情報へのアクセス、参加、知識の共有といった真のオープン精神を遵守していません。この用語は、インターネットと気候政策の研究者であるミシェル・ソーン氏が2009年に造語したもので、企業が環境に優しくない慣行を隠すために虚偽の広告を使用する「グリーンウォッシング」との類似性を示しています。 人工知能の急速な発展に伴い、「オープンクリーニング」という現象がますます広まっており、最近の研究でもその傾向が明らかになっています。ラドバウド大学言語研究センターのアンドレアス・リーゼンフェルド氏とマーク・ディンゲマンス氏は、オープンであると主張する45のテキストおよびテキスト画像変換モデルを調査しました。その結果、AllenAIのOLMoやBigScience Workshop + HuggingFaceのBloomZなど、あまり知られていない大規模モデルはオープン性の基準を満たしていたものの、Google、Meta、Microsoftなどの大規模モデルを含む、よく知られたモデルの大半は基準を満たしていなかったことがわかりました。この結果は、おそらく驚くべきことではありません。 これは、すべての有名なAI企業が嘘をついているという意味ではありません。例えば、IBMのGranite 3.0 LLMは、Apache 2ライセンスに基づくオープンソースです。 では、なぜ企業はオープンクレンジングのアプローチを採用するのでしょうか?かつて、企業はオープンソースに対して非常に警戒していました。例えば、2001年にスティーブ・バルマーCEOはLinuxを「ガン」に例えました。オープンソースソフトウェアの使用はライセンス問題を引き起こし、企業が他のソフトウェアもオープンソース化する必要が生じる可能性があるためです。しかし、今日ではオープンソースはプラスの要素と見なされています。 「オープンクレンジング」とは、企業が具体的なコミットメントをすることなく、オープンソースやオープンプラクティスに対する社会の好意的な認識を活用することです。言い換えれば、企業のイメージを向上させ、透明性とオープン性について語るだけで、それを重視する消費者を引き付けることを意味します。 さらに、一部の企業は「オープンクレンジング」を活用し、モデルと実践を科学的および規制当局の精査から保護しながら、「オープン」というラベルの恩恵を受けています。もう一つの重要な要因は、EUのAI関連法が「オープンソース」モデルに対して特別な例外を設けていることです。これは、企業にとってモデルをオープンソースとして指定する強いインセンティブとなり、制約が軽減されます。つまり、規制要件を満たすために必要な資金が削減され、データセットに関連する著作権などの知的財産問題への対処も容易になります。 参考リンク: https://lwn.net/SubscriberLin... https://www.technologyreview.... 転載元:InfoQ 編集:ドゥアン・ヤンシン 関連資料 cURL は、1 人の人物によって 28 年間にわたって開発および保守されてきたソフトウェアです。 ゲストの全ラインナップが発表されました!2024 CCF中国オープンソースカンファレンス - 大湾区スマートチェーンの未来:インテリジェントコンピューティング産業応用フォーラムが開催決定![http://mp.weixin.qq.com/s?__b...] オープンソース協会の紹介 2014年に設立されたオープンソース協会(KAIYUANSHE)は、オープンソースの理念に献身的に貢献する個々のボランティアで構成されるオープンソースコミュニティであり、「貢献、合意、そして共同統治」の原則に基づき活動しています。KAIYUANSHEは、「ベンダー中立性、公益性、非営利性」の原則を堅持し、「中国を拠点とし、世界に貢献し、新時代のライフスタイルとしてオープンソースを推進する」というビジョンを掲げています。その使命は「オープンソースのガバナンス、国際的な連携、コミュニティの発展、そしてプロジェクトのインキュベーション」であり、健全で持続可能なオープンソースエコシステムの共創を目指しています。 オープンソース協会は、オープンソースを支援するコミュニティ、大学、企業、政府機関と積極的に連携しています。また、世界的なオープンソースライセンス認証組織であるOSIの中国初の会員でもあります。 2016年以降、中国オープンソースカンファレンス(COSCon)が毎年開催され、「中国オープンソース年次報告書」が継続的に発表されています。また、「中国オープンソースパイオニアリスト」と「中国オープンソースコードパワーリスト」も共同で立ち上げ、国内外で幅広い影響力を発揮しています。 |
オープンソースの定義が変わりつつあります!オープンソースのAI標準は真実を明らかにする鏡となります。MetaやGoogleの大規模モデルは、オープンソースを装っているだけなのでしょうか?
関連するおすすめ記事
-
国産AIグラスが1799元で即購入可能に!アリババの大型カスタムモデルと深センのハードウェアを搭載。
-
顔面を平手打ちされました! GPT-4o は 8k ユニットの出力にも苦労しています。Chen Danqi 氏のチームの新しいベンチマーク テストでは、すべてのモデルの出力が公称長を下回っていることが示されています。
-
Step Starry Sky プラットフォームに適合した Huawei Ascend のマルチモーダル オープンソース モデルが、Molo コミュニティでリリースされました。
-
[イベント招待 - 広州] インテリジェンスの新時代:AIが未来を動かす!
-
9月6日の外灘サミットのチケット!
-
初のハイブリッド推論モデル「Claude 3.7」がリリースされました!優れたプログラミング能力を誇り、思考時間のコントロールも可能です。