|
物語は2009年、Alibaba Cloudがオープンソースへの第一歩を踏み出した時に始まります。Alibaba Cloudは、オープンソースのHadoopテクノロジーを基盤として、Alibaba社内の急成長中のeコマース事業を支えるため、Cloud Ladderプロジェクトを立ち上げました。この決定は、Alibaba社内のeコマース事業の急成長を支える確かな技術支援を提供しただけでなく、その後のAlibaba Cloudのオープンソース化への道の基盤を築くことにもなりました。 2015年から2016年にかけて、アリババクラウドは、多数の中小企業にサービスを提供するため、クラウド上で初のオープンソース・ビッグデータ製品であるE-MapReduce(EMR)をリリースしました。同時に、グループ内のリアルタイム・ビッグデータ処理の課題に対処するため、Apache Flinkを導入しました。この期間、アリババクラウドはFlinkコミュニティへのリソース投資を増やし、徐々に最大のユーザーおよびコミュニティ推進者となり、オープンソースの受容から貢献へと移行しました。 今年のCommunityOverCode Asiaに続き、アリババオープンソース委員会のビッグデータ&AI部門副委員長、アリババクラウドコンピューティングプラットフォーム事業部のオープンソース・ビッグデータプラットフォーム責任者、そしてアリババクラウド研究員である王鋒氏(通称:モ・ウェン氏)に、Paimonについて深く掘り下げたインタビューを行う機会を得ました。本記事では、Paimonの革新的な取り組み、そしてアリババクラウドのオープンソース・ビッグデータ分野における技術進歩、適用事例、そして今後の計画についてご紹介します。 SegmentFault: オープンソースのビッグデータ アーキテクチャにおける Alibaba Cloud の最新の戦略と開発について教えてください。王峰:これまでアリババの事業は主に自社開発のデータウェアハウス上で運営されていました。しかし、テクノロジーの発展、特にDatabricksが主導するLakehouseテクノロジーが新時代のニーズに応える可能性を示してきたことで、アリババグループも新たなアイデアを生み出してきました。 北米では、レイクハウスアーキテクチャが企業の間で認知度と導入率を高めています。アリババグループもこのトレンドに積極的に取り組んでいます。このアーキテクチャはオープンソースシステムであり、従来のデータウェアハウスとの最大の違いは、オープンなデータ形式とクラウドストレージ標準にあります。オープンプロトコルと透過的なデータにより、データレイクアーキテクチャは、様々なオープンソースの多様なコンピューティングエンジンを用いて、統一された標準化されたデータを分析することを可能にします。 このアーキテクチャは既にアリババグループ内で検証・認知されており、ビジネス界で強い需要があります。Alibaba Cloudは、Icebergなどの国際的なオープンソース技術をベンチマークし、Apache Paimonをベースとしたデータアーキテクチャのアップグレードを開始しました。今年の双十一ショッピングフェスティバルなどの重要なイベント期間中、一部の主要な業務オペレーションが新しいLakehouseアーキテクチャ上で実行されることが期待されています。 SegmentFault: リアルタイムデータ分析機能は、Alibaba Cloud の長期的な取り組みです。Apache Paimon についてお話しする前に、Apache Flink がリアルタイムデータ分析のニーズを満たすことから、Alibaba Cloud におけるリアルタイムストリームコンピューティングのデファクトスタンダードになるまでの進化についてお聞かせください。王鋒:Apache Flinkは、アリババ自身のビジネスニーズから生まれました。2015年から2016年にかけて、アリババグループのビジネスニーズは、大規模なオフラインデータの処理から、リアルタイム性の高いデータ分析へと移行しました。特に、双十一のような大規模なeコマースプロモーションでは、商品レコメンデーションや広告プッシュといったシナリオにおいて、ユーザー行動のリアルタイム分析が極めて重要になります。そのため、リアルタイムデータ分析が可能なエンジンが早急に必要でした。 調査の結果、当時のFlinkのストリーミングコンピューティングエンジンアーキテクチャは当社のニーズを満たし、ストリーミングとバッチ処理を統合した将来のシナリオにおいてより大きな拡張性を持つという結論に達しました。そこで、Flinkを採用し、Alibaba内で広範な本番環境の最適化を実施し、その後、これらの最適化をオープンソースコミュニティに還元しました。 Flinkテクノロジーはアリババのビジネスを大きく支え、主要技術の一つとなっていることが実証されています。同時に、オープンソースコミュニティにおけるFlinkの長期的な発展の可能性も認識されています。2019年、アリババはFlinkの親会社であるDataArtisans(後にVervericaに社名変更)を買収し、Flinkへの投資と国際展開をさらに強化しました。アリババクラウドのビッグデータチームも、多数のエンジニアリングおよび研究開発人員をFlinkコミュニティに投入し、社内の専門知識を継続的に提供することで、ますます多くのエンタープライズビジネスでFlinkが検証され、中国および世界での発展を推進しています。今日、Flinkはストリーミングビッグデータコンピューティングの事実上の標準となっており、アリババはこのプロセスにおいて重要な役割を果たしてきました。 SegmentFault: Apache Flinkから派生したApache Paimonは、今年のカンファレンスで主要な議論の話題となりました。このプロジェクトの起源とビジョンについて教えていただけますか?王鋒:Lakehouseがデータ分析分野の新たなアーキテクチャトレンドとなるにつれ、ストリーミングデータ処理ではKafkaなどのメッセージキューが広く利用されている一方で、実際にはかなりの量のユーザーデータがデータレイクに保存されていることに気づきました。データレイク間のデータフローを高速化し、データ分析の効率を向上させるため、Apache Iceberg、Apache Hudi、Apache Flinkなどの既存のデータレイク技術を検討しましたが、理想的な結果は得られませんでした。そこで、ストリーミングデータの更新とリアルタイム分析をサポートするために、Flinkをベースにした新しいデータレイクフォーマットを開発することにしました。 Apache Paimonは、もともとFlinkのサブプロジェクトであるFlink Table Storeとして開発されました。ストリーミング更新シナリオ向けのデータストレージフォーマットとして設計されたPaimonは、Flinkのリアルタイム分析機能に加え、キーバリューストア、NoSQL、LSMアーキテクチャといった従来のデータ構造からも着想を得ています。また、Changelogなどの機能も導入することで、データフローの高速化、データの適時性向上、ひいてはビジネス価値の向上を実現しています。さらに、一部のメッセージキューベースのアプリケーションをプラットフォーム上で直接実行できるようになり、データ処理手順が簡素化されています。 Paimonの設計は、真に更新可能な、ストリームとバッチを統合したデータレイクストレージフォーマットです。この技術を長期的な可能性を秘めたプロジェクトへと発展させ、より多くのビジネス検証とユーザーからのフィードバックを得るために、Flinkから分離し、Paimonと改名してApache Incubatorに配置することにしました。これにより、特定のコンピューティングエンジンに依存しなくなり、複数のコンピューティングエンジンによるデータの読み取り、書き込み、分析が可能になり、オープンなデータアーキテクチャとなります。 現在、Flink、Spark、Doris、StarRocksといった様々なオープンソース技術がPaimonに統合され、よりリアルタイムで統合されたLakehouseアーキテクチャの構築をサポートしています。これは、Paimonの開発における私たちのビジョンでもあります。 SegmentFault: Apache Paimon 統合フロー レイク ウェアハウス実装ソリューションの設計コンセプトと技術革新について簡単に紹介していただけますか?Wang Feng: Apache Paimon という名前は、過去と未来の出来事を理解する妖精にちなんで名付けられました。これは、この統合されたストリームとバッチ データ レイクのストレージ形式を通じて、ユーザーがタイムラインに沿ってデータを探索および分析できるようにするという私たちの願いを象徴しています。 まさにそれを実現しました。Streaming Lakehouseを立ち上げました。ここでの「ストリーミング」は形容詞または動詞に近いもので、レイクハウス内のデータがリアルタイムで流れることを意味します。Paimonの最大の技術革新は、データレイクのストレージフォーマット全体をよりリアルタイムにし、ストリームとバッチの統合、そしてリアルタイムとオフラインの統合を同時に実現することで、データレイクのアーキテクチャをアップグレードした点にあります。業界ではPaimonだけがLakehouseにこのコンセプトを提案しており、中国チームが主導する真に革新的なデータレイク技術となっています。 現在、非常に好ましい傾向が見られます。Paimonは、Eコマース、物流、地域サービスなど、アリババの多くの事業に徐々に導入されています。これらの事業からは、Paimonの技術的ニーズに関して非常に肯定的なフィードバックをいただいています。Paimonは彼らのビジネスシナリオに完璧に適合した技術であり、Paimonの技術哲学は実用化において十分に検証されています。 アリババクラウドは、今年9月に開催される雲奇カンファレンスにおいて、クラウド上でPaimonをベースとした新しいオープンデータレイク製品と、Paimonを基盤とした次世代リアルタイムレイクウェアハウスアーキテクチャを初めてリリース・展開します。このレイクウェアハウスアーキテクチャは、Flink、Spark、StarRocksなどの既存のオープンソースコンピューティングエンジンをサポートするだけでなく、MaxcomputeやHologresなどのアリババクラウド自社開発のコンピューティング製品とも互換性があります。基本的に、データがオープンソースかクローズドソースかに関わらず、すべてのデータはPaimon内に統合され、統一されたデータ管理を可能にし、複数のコンピューティングおよび分析システムによる分析・処理をサポートします。 SegmentFault: Alibaba Cloud 上および外部のさまざまなビジネス シナリオにおいて、Apache Paimon がもたらす重要なメリットは何ですか?Wang Feng: Apache Paimon の実際のアプリケーションにおける価値は、2 つの観点から見ることができると思います。 まず、従来のデータレイクのシナリオでは、Icebergのようなログベースのデータレイク形式は、ストリーミングデータの更新やサブスクリプションをサポートしていないのが一般的で、ユーザーのクリックや商品の更新など、リアルタイムのデータ更新を重視するシナリオには適していません。しかし、Paimonは主キーの更新と部分更新をサポートしており、データレイクの適用シナリオを大幅に拡大します。特に、広告のCTR予測など、効率的な更新操作を必要とするシナリオでは、Paimon上に構築できます。これは、クリックなどのユーザー行動データを単一のテーブルに統合し、リアルタイムで更新できるためです。下流のシステムは、これらの更新に基づいてリアルタイムの増分データ処理を実行することさえ可能であり、リアルタイムおよびオフラインのビジネスオペレーションを単一のストリーミングおよびバッチデータレイクストレージアーキテクチャ内に統合できます。したがって、ストリーミングレイクウェアハウスは、以前のデータレイクがリアルタイム更新をサポートしていなかった多くのシナリオを補うことができ、データレイク上でよりリアルタイムなビジネスオペレーションを実装できるようになります。 第二に、Paimonはメッセージキューの置き換えにおいてもその優位性を発揮します。多くのユーザーはFlinkとKafkaの組み合わせを採用していますが、これは比較的高価です。実際には、多くのシナリオでは、2次処理を必要とせず、数分程度のデータ更新遅延を許容できます。Paimonを使用すると、これまで純粋にリアルタイムだったメッセージキューベースのストリーミングをレイクウェアハウスアーキテクチャ上で実行できるため、データストレージとフローのコストを大幅に削減しながら、ビジネスデータの分単位の適時性を確保できます。この費用対効果は、特に広告のシナリオで顕著です。さらに、データフロー処理中にもデータはPaimonレイクストレージに保存され、エンドツーエンドのクエリ機能により、ビジネス開発とトラブルシューティングの効率が大幅に向上します。このソリューションは、アリババ社内だけでなく、HimalayaなどのAlibaba Cloudの顧客でも利用されています。 SegmentFault:現在、Apache Paimon が AI ビジネスに統合されている事例はありますか?また、今後 AI ビジネスサービスに活用される可能性はありますか?王鋒:現在、データレイク技術はビッグデータとAIの統合に向けて発展しています。DatabricksやSnowflakeといった国際的なデータ企業も、この方向に進んでいます。AI開発の3つの中核要素は、コンピューティングパワー、アルゴリズム、そしてデータです。BIとAIはアルゴリズムやコンピューティングパワーは異なりますが、データに対するニーズは同じです。 将来のビッグデータ分析とAI分析には、統合されたデータストレージと管理システムが必要になると私たちは考えています。AIが必要とするすべてのデータは、ビッグデータシステムによって生成される必要があり、データの収集、クレンジング、処理といった一連の作業を経て初めて、AIが容易にモデルの学習に活用できるようになるからです。AIとビッグデータを組み合わせるというこのトレンドは、今後ますます顕著になるでしょう。 私たちの現在の取り組みは、主に2つの領域に焦点を当てています。まず、Apache Paimonは構造化データの保存機能を備えるとともに、半構造化データと非構造化データのサポートも強化しました。これはファイルやドキュメントストレージを完全に置き換えるという意味ではなく、非構造化データのメタデータをPaimonのテーブルに保存することを意味します。これにより、ユーザーはSQL経由で非構造化データのメタデータに簡単にアクセスできるようになります。これはAIアプリケーションにとって非常に重要です。これにより、Paimonは構造化データ、半構造化データ、非構造化データを統一的に管理できるようになります。 もう一つの側面は、特にPythonエコシステムにおけるPaimonのAPIレベルでの進化です。後発ではありますが、PaimonはPython APIとSDKを開発しており、リリースされれば、ユーザーはPythonエコシステム内のデータにアクセスし、AIに活用できるようになります。 これにより、BI用データでもAI用データでも、すべてのデータを一元管理し、データ接続性を確立できます。ビッグデータ処理後のデータはAIで直接利用できるため、ビッグデータとAIが統一されたストレージと管理システムを共有できるようになります。 SegmentFault: Apache はコードよりもコミュニティが重要だと主張していますが、コミュニティは Flink と Paimon の開発にどのような貢献をしてきましたか?王鋒:私たちが率いたFlinkとPaimonプロジェクトでは、コミュニティの貢献の多様性に深く感謝しました。例えば、コアコードを書けるのは少数派ですが、多くの人がメーリングリストを通じて質問したり、コミュニケーションをとったり、フィードバックを提供したりしています。ボランティアの中には、小さなバグの修正やドキュメントの作成、質問への回答などにも参加している人もいます。 さらに、Paimonは、Flink、Spark、StarRocksといった、ストリーム処理やバッチ処理技術と連携するエコシステムパートナーから幅広いサポートを受けています。エコシステム全体は比較的成熟した段階に達しており、多くの企業が本番環境でPaimonを活用し始め、それぞれのビジネスシナリオで価値を生み出しています。これらの企業は、Paimonのアプリケーションを検証した後、コミュニティにフィードバックを提供し、オープンソース技術を活用してビジネス上の課題を解決する方法を共有することで、Paimonの開発に大きく貢献しています。 現在、ByteDance、Himalaya、Ant Group、Autohome、Xiaomi、XPeng Motors、Bilibili、China Unicom など、数百の企業がビジネス上の問題を解決するために Paimon を使用しており、Paimon の公式サイトのユーザーリストは拡大し続けています。 これらのパートナーのサポートにより、Paimonコミュニティは非常に活発になり、好循環に入りました。これはPaimonに対する外部からの需要にも反映されており、数千人のユーザーがDingTalkグループで積極的に相談しています。 SegmentFault: Alibaba Cloud は主にどのような手段でオープンソース コミュニティからの参加と貢献を奨励し、育成していますか?王鋒:私たちは、オープンソースコミュニティの発展を促進するため、主に重要なカンファレンスやイベントを開催しています。例えば、毎年数多くのミートアップ、特にFlink Forwardのような年次カンファレンスの開催に多大なリソースを投入しています。Flink Forwardを例に挙げると、このカンファレンスはFlinkだけでなく、Alibaba Cloudが主導する他のオープンソース技術も取り上げています。このカンファレンスは通常毎年12月に開催され、多くの国内主要企業が参加し、約100のトピックについて知見を共有しています。カンファレンスの規模は1,000人から3,000人程度です。 さらに、私たちは「CommunityOverCode」のようなオープンソース技術イベントを後援しています。これらのイベントは、オープンソース技術の促進とコミュニティの結束強化に向けた私たちの取り組みと投資の一環です。 SegmentFault: 4月にApache Paimonがインキュベータを卒業し、トップレベルプロジェクトとなりました。Paimonコミュニティの現在の開発状況と今後の計画についてご紹介いただけますか?Wang Feng: Apache Paimonは現在、GitHubで2,200個のスターを獲得しています。プロジェクトのコアコントリビューターは主に中国に拠点を置いており、PMCメンバー12名とコミッター約10名が含まれます。さらに、178名のコントリビューターがいます。 Paimonは比較的遅れてスタートしましたが、その開発動向は私たちの期待通りです。データレイク分野には現在多くのオープンソースプロジェクトが存在し、Paimonは新しいリアルタイムデータレイクフォーマットのデファクトスタンダードとなることを目指しています。同時に、半構造化データと非構造化データのサポート強化、特にAIアプリケーションにおけるPythonエコシステムのサポート強化など、今後PaimonがAIシナリオとより密接に連携していくことを期待しています。これらがPaimonの次の開発段階における重要な方向性だと考えています。 SegmentFault: Flink から Paimon まで、Alibaba Cloud のオープンソース ビッグデータ テクノロジーは、ビッグデータ テクノロジー業界全体にどのようなプラスの影響を与えてきましたか?王峰:FlinkにせよPaimonにせよ、Alibaba Cloudは中国におけるビッグデータ技術の発展を牽引し、世界規模でリアルタイムデータ処理のプロセスを加速させてきました。海外諸国と比較すると、中国はリアルタイムデータ処理に関する意識と技術において、北米を凌駕しています。 アリババクラウドがビッグデータ技術業界に与えた最大のインパクトは、リアルタイムデータ処理の推進におけるリーダーシップです。アリババグループ自体が多様なビジネスシナリオを抱えているため、リアルタイムデータ処理に対する要求は高くなっています。アリババクラウドは長年にわたりこれらの課題に取り組んでおり、例えば、Flinkオープンソース技術コミュニティのグローバル展開を主導・推進し、今年末(Flink創立10周年)には次世代メジャーバージョンであるFlink-2.0をリリースする予定です。これらはすべて、アリババクラウドがリアルタイムデータ処理分野に大きく貢献していることを示しています。 Alibaba Cloudの技術革新はFlinkにとどまらず、ストリーミングストレージ技術の革新とオープンソース化も含んでいます。また、今年12月に開催されるFlink Forwardコミュニティカンファレンスでは、新たなオープンソースプロジェクトを発表する予定です。Alibaba Cloudがオープンソース化したデータ技術は業界全体に恩恵をもたらし、中国の様々なビジネス分野におけるデータのタイムリーさとリアルタイムデジタル処理の進歩を推進しています。 SegmentFault: 長期的には、Alibaba Cloud のビッグデータ分野に対する計画とビジョンは何ですか?王鋒:私たちの長期計画は、アリババの膨大なビジネスシナリオとクラウドプロバイダーとしての優位性を活用し、ビッグデータ・オープンソース分野において、より革新的なデータインフラストラクチャをオープンソース化することです。同時に、既存のオープンソースデータインフラストラクチャをクラウドネイティブおよびAI指向のシナリオへと進化させることも目指しています。私たちの目標は、毎年少なくとも1つの新しいオープンソースデータインフラストラクチャ技術をリリースし、オープンソースコミュニティへの継続的な貢献と、商用市場での検証を実現することです。 今後も、より多くの企業がこれらの革新的な技術を活用できるよう、オープンソースのアプローチを継続していきます。また、皆様のコミュニティへの貢献と開発への貢献を歓迎いたします。 SegmentFault: 最後に、オープンソースと企業の関係をどのように捉えているかについてお話しいただけますか?王鋒:オープンソースプロジェクトの迅速な発展と卒業は、社内のサポートと密接に関係していると私は考えています。プロジェクトのインキュベーションから卒業、本番環境への展開、そして多くの顧客を獲得するまで、Paimonは約1年半かかりました。Alibaba Cloudのサポートなしに、私たちは多くのことを達成できました。 ビジネスや商業化を考慮せずにオープンソースを議論することは、必ずしも持続可能とは言えません。純粋に関心と情熱によって推進されるオープンソースへの貢献は短命です。あらゆるオープンソース技術は、長期的な開発を実現するために継続的なリソース投資を必要とし、そのためには商業的な成功と技術からのフィードバックが不可欠です。オープンソースチームや技術がビジネス上の販路を見つけられなければ、自立して存続することは困難です。 社内では、従業員が主導するオープンソースプロジェクトに対し、まず社内でそのビジネス価値を検証することを奨励しています。これにより、会社からのリソース投資が保証されます。そして、プロジェクトを公開することで、より多くのコミュニティの参加を促し、プロジェクトがより多くのシナリオに対応し、より良い開発を実現できるようになり、好循環が生まれます。オープンソースプロジェクトの開発は、理想主義的なプログラマー集団だけでなく、会社からの継続的なリソース投資にも依存していることは明らかです。逆に、オープンソース技術は、ビジネスへの貢献だけでなく、優秀な人材を獲得する上での大きな強みなど、会社に多面的な利益をもたらす可能性があります。したがって、成功するオープンソースプロジェクトは通常、1社以上の企業による長期的な投資と支援によって支えられており、オープンソースと商業化は相互に強化し合っていると言えるでしょう。 今日のデータドリブンなビジネス環境において、アリババクラウドはオープンソースのビッグデータ技術におけるイノベーションと実践、特にApache FlinkとApache Paimonプロジェクトへの投資と推進を通じて、業界のデータ処理におけるリアルタイム性を向上させるだけでなく、データレイクアーキテクチャにも画期的な進歩をもたらしました。同時に、継続的な技術革新とオープンソースへの貢献を通じて、「リアルタイムこそが未来」という未来志向のコンセプトを鮮やかに体現しています。アリババクラウドがオープンソースのビッグデータ技術で業界の発展を牽引し、世界中の開発者と協力しながら、データテクノロジーの革新的な未来を切り開いていくことを期待しています。 |
王峰氏インタビュー:アパッチ・パイモン、ビジネスの成長
関連するおすすめ記事
-
2024 OSCAR オープンソース業界カンファレンスの全議題が公開されました。
-
彼女にキャラクターが誕生!AIとのビデオ通話はほぼ遅延なし。SequoiaとY Combinatorが投資。
-
著名な AI 専門家 Capaceanli 氏の AI アプリケーションは大きな話題となり、「次の ChatGPT」と呼ばれることもあります。
-
アジェンダの紹介 | オープンソースオペレーティングシステムフォーラム
-
限られたウェット実験データを用いてタンパク質言語モデルを微調整するにはどうすればよいでしょうか?浙江大学のチームの研究成果がNeurIPS 2024に選出されました。筆頭著者が設計プロセスを説明します。
-
Natureのサブジャーナルに掲載されました!華中師範大学は、AIを活用して分子断片を正確に分割し、44種類の薬物/農薬分子を生成するDigFragを提案しました。