618ZXW

著名な AI 専門家 Capaceanli 氏の AI アプリケーションは大きな話題となり、「次の ChatGPT」と呼ばれることもあります。

専門家のカパチが強く推奨します!

このAI アプリケーションによって「ChatGPT と同じくらい大きなチャンス」が生まれる可能性があると予測する人もいました。

これは、Google のこれまでの最も強力なモデルである Gemini 1.5 Pro を搭載した、Google の実験的な AI 製品であるNotebook LMです。

このアプリは最近、新機能のおかげで驚くほど人気になりました。

ファイル(テキスト、音声、動画)をアップロードすると、AI はテキストから重要なポイントを抽出できるだけでなく、音声概要機能を通じてファイルを AI 生成の会話型ポッドキャストに変換し、ドキュメントの内容に基づいてディスカッションできるようになります。

2 つの AI が、本物そっくりの声と口調で文書の内容について熱心に議論し、最後に要約スピーチで締めくくりました。

それはすごいですね!

そして、それを賞賛しているのはKapacsiだけではありません。いくつかの主要なインターネットプラットフォームをざっと見てみると、ユーザーは概ねNotebook LMに対して好意的な評価をしていることがわかります。

AI KOL @elvis も Capasi のコメント欄にコメントを残しました:

Cardholder が「ChatGPT の瞬間を思い出させる」と表現したのは、決して誇張ではありませんでした。
複数のモデルを連携させると、Notebook LM のような独自のコンテンツ形式とユーザー エクスペリエンスが実現します。

Notebook LM をプレイするにはどうすればいいですか?

ゲームプレイは非常にシンプルです。トライアルページを開き、処理する必要があるファイルをドラッグ アンド ドロップします。

Google ドキュメント、Web サイトやビデオのリンク、あるいは単に大きなテキスト ブロックを貼り付けるだけでもかまいません。

各ノートブックは 50 個のファイルのアップロードをサポートし、各ファイルには最大 500,000 語を含めることができます。

ここで、OpenAI o1 システム カード ドキュメントをアップロードし、作成する必要があるコンテンツを選択できます。

これには、Q&A、クイズ、目次、タイムライン、要約などのテキストベースの機能が組み込まれているほか、2 人のホスト間の詳細な音声対話も含まれます。

よりパーソナライズされたニーズがある場合は、独自のプロンプトを入力することもできます。

中国語で質問してみたところ、AIは理解することができました。

残念ながら、Notebook LM では、特にリクエストされた場合でも中国語での回答はサポートされていません

オーディオを作成する場合は、ドキュメントの長さに応じて数分から 10 分以上待つ必要がある場合があります。

今回は、その背後にある Gemini モデルについて学んでみましょう。

NotebookLM は、Google の現在の主力大型モデルである Gemini 1.5 Pro を搭載しています。

Gemini 1.5 Pro は、長いドキュメントを解釈するための基盤となる、超長い 128k コンテキストをサポートします。

最新のアップグレードでは、Gemini 1.5 Pro は数学および推論機能において OpenAI o1 プレビュー バージョンを上回りました。

英語が堪能でない方は、Matryoshka AI が書き起こし、翻訳した AI ポッドキャストの書き起こしをチェックして、雰囲気をつかむこともできます。

ドキュメントをアップロードしてコンテンツを生成することは、Notebook の実用的な使用方法の 1 つにすぎません。

授業を録画し、自宅でAIを活用して要点をまとめるという方法も紹介され、好評を博しています。

(授業に注意を払っていないということではありません。)

具体的には、次の手順に従います。

携帯電話でレッスンを録音する;

授業中はコンピューターを使う必要はなく、要点を(ペンと紙で)簡単にメモするだけです。

(授業後) 録音とメモをスキャンして NotebookLM にアップロードし、録音の詳細に基づいてメモを拡張します。

さらに、学習した内容の要点に焦点を当てた毎週のレビュー音声録音を作成することもできます。

単純なチャットとは異なるインタラクションパラダイム

実際のところ、NotebookLM はリリースされてすぐにヒットしたわけではありません。

昨年 5 月の Google I/O カンファレンスで初めて登場しましたが、当時は AI ノートブック プロジェクトとしてProject Tailwindと呼ばれていました。

NotebookLM が現在の名前に変更されたのは昨年 7 月になってからでした。

当初は、米国の特定の地域のユーザーのみをサポートしており、その機能は依然として基本的なチャット モードに基づいていました。

△NotebookLMを使ったドキュメント自動生成ガイド(Google公式サイトより)

今月11日、NotebookLMは突如、世界中のゲーマーに公開することを発表し、大きな新機能である「オーディオオーバービュー」を追加しました。

Google の公式説明は次のとおりです。

「新しい音声概要機能を使用すると、ドキュメント、スライド、グラフなどを 1 回のクリックで魅力的なディスカッションに変換できます。」

インタラクティブな形式が斬新で、AIの音声がリアルで、ディスカッションがまるでライブポッドキャストのようだったため、誰もがすぐに夢中になりました。

過去 2 日間で、Notebook LM は YouTube ビデオを入力として使用できるようになっただけでなく、100 を超える言語もサポートしました。

さて、カパチ氏のその後の「愛の告白」により、ノートブック LM の人気はさらに高まった。

Kapacsi 氏が述べたように、Notebook LM が爆発的に普及した主な理由は、単純なチャットとは異なるインタラクション パラダイムを提供していることです。

Kapacsi 氏は、 Notebook LM によって、大型モデルを楽しむ上での 2 つの大きな障害が解消されると述べています。

まず、チャットというのは実はかなり難しいです。

チャットボットとのチャットは言うまでもなく、日常生活で他の人とコミュニケーションをとるのに苦労する人もいます。チャットボットとのチャットでは、質問をし続け、フォローアップし続けなければなりません。

NotebookLM の利点は、生成された AI ポッドキャストで、参加者の 1 人が質問してガイドする役割を担う点です。

文書、音声、動画ファイルを入れて、生成されるのを待つと、AIがファイルに基づいて話します。

第二に、読書は簡単な作業ではありません。

情報過多の断片化された時代では、運転中に快適な姿勢を見つけたり、他の人が自分の必要なことを話し合っているのを聞いたりする方が、自分で苦労して読むよりもはるかに簡単です。

—たとえそれが AI がすでに要約してくれた要約版だとしても (そう、私たちはそれだけ怠け者なのです! ドージ)。

卓越性を追求する精神で、一部のネットユーザーは、Notebook LM がさらに高いレベルに到達することを期待していると述べています。

実際に試してみた後、Hyperbolic Labs の共同設立者兼 CTO である Yuchen Jin 氏は、2 つの制限を次のようにまとめました。

1 つの問題は、ドキュメント内の画像を「見ることができない」ため、画像情報を処理できないことです。

しかし、その背後にある Gemini はマルチモーダルなので、Notebook LM が独自の機能を開発するのは遅くないでしょう。

もうひとつの問題は、ユーザーが AI ポッドキャストのコンテンツをガイドできないことです。

Yuchen Jin 氏が 2 つのツイートを投稿すると、約 13 分間の音声コンテンツが生成されましたが、視聴者は一般視聴者であると想定されていたため、非常に基本的な概念について多く語られました。

ポッドキャストの対象となる聴衆や、議論されるトピック、方向性、角度などを指定できれば、さらに良いでしょう。

もう一つ

開発者たちはあっという間に、 NotebookLM のオープンソース バージョンを作成しました。

現時点では、PDF のみを入力できます。

人間って本当に面白いですね!

以前は、音声からテキストへの変換に苦労し、放送や会議の録音などをテキストに書き起こそうと努力していました。

現在、彼らは再び大規模なモデルを使用してテキストをポッドキャストに変換し始めています...

それは面白いですね!(ドージ絵文字)

参考リンク:

[1]https://notebooklm.google/

[2]https://x.com/karpathy/status…

[3]https://x.com/omarsar0/status...

[4]https://x.com/Yuchenj\_UW/status/1840203324571943403

[5]https://github.com/gabrielchu...