フロントエンドは、ユーザーが入力した単語の意味を理解する必要があり、3つのステップがあります:神経スペルチェック、"recpie"を"recipe"に修正すること;同義語の拡張、"how to fix bike"を"repair bicycle"に拡張すること。意図解析、クエリが情報、ナビゲーション、または取引の意図であるかを判断し、Verticalリクエストを割り当てます。
関連する文書を初歩的に選別した後、BERT(Bidirectional Encoder Representations from Transformers)モデルを使用してこれらの文書をより細かくランク付けし、最も関連性の高い結果が前に来るようにします。BERTは、文脈の関係を理解できるTransformerベースの事前学習済み言語モデルです。検索において、BERTは初歩的に取得した文書の再ランク付けに使用されます。クエリと文書を共同でエンコードすることにより、両者の関連性スコアを計算し、文書を再ランク付けします。例えば、"路肩のない坂道に駐車する"というクエリに対して、BERTは"路肩がない"の意味を理解し、運転手にホイールを路側に向けることを提案するページを返します。誤って路肩がある状況と解釈することはありません。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI時代のブラウザ革命:検索エンジンからスマートエージェントプラットフォームへ
AI時代のブラウザ革命:検索からインテリジェントエージェントへ
第三回ブラウザ戦争が静かに展開しています。1990年代のNetscape、MicrosoftのIEからオープンソース精神のFirefox、GoogleのChromeに至るまで、ブラウザの争いは常にプラットフォームの制御権と技術パラダイムの変遷を集中して示しています。Chromeは更新速度とエコシステムの連携によって覇権の地位を獲得し、Googleは検索とブラウザの"ダブルオリゴポリ"構造を通じて情報の入り口のクローズドループを形成しました。
しかし、この状況は揺らいでいます。大規模言語モデル(LLM)の台頭により、ますます多くのユーザーが検索結果ページで「ゼロクリック」でタスクを完了し、従来のウェブページのクリック行動が減少しています。同時に、あるテクノロジー大手がそのブラウザでデフォルトの検索エンジンを置き換える可能性についての噂が、Googleの親会社の利益基盤にさらに脅威を与え、市場は「検索の正統性」に対する不安を示し始めています。
ブラウザ自体も役割の再構築に直面しています。それは単にウェブページを表示するツールではなく、データ入力、ユーザー行動、プライバシーアイデンティティなどのさまざまな機能を持つコンテナです。AIエージェントは強力ですが、複雑なページインタラクションを実行したり、ローカルアイデンティティデータを呼び出したり、ウェブページ要素を制御したりするには、依然としてブラウザの信頼の境界と機能サンドボックスを借りる必要があります。ブラウザは人間のインターフェースからエージェントのシステムコールプラットフォームに変わりつつあります。
現在のブラウザ市場の構造を本当に打破するのは、別の「より良いChrome」ではなく、新しいインタラクション構造です:情報の表示ではなく、タスクの呼び出しです。未来のブラウザはAIエージェントのために設計される必要があります --- 読むだけでなく、書き、実行することもできるものです。あるプロジェクトは、ページ構造を意味づけし、視覚的インターフェースをLLMが呼び出せる構造化テキストに変えることを試みており、ページから命令へのマッピングを実現し、インタラクションコストを大幅に削減しています。
市場の主流プロジェクトは試験運用を開始しました:あるAI検索エンジンはネイティブブラウザを構築し、AIが従来の検索結果を置き換えます;あるブラウザはプライバシー保護とローカル推論を組み合わせ、LLMを使用して検索とブロック機能を強化します;そしていくつかのWeb3ネイティブプロジェクトは、AIとチェーン上資産の相互作用の新しい入り口を目指しています。これらのプロジェクトの共通の特徴は、ブラウザの入力端を再構築しようとしていることであり、出力層を美化するのではありません。
起業家にとって、機会は入力、構造、エージェントの三角関係の中に隠れています。ブラウザは将来のエージェントが世界を呼び出すインターフェースとして機能し、誰が構造化され、呼び出し可能で信頼できる「能力ブロック」を提供できるかが、新しい世代のプラットフォームの構成要素となることを意味します。SEOからAEO(エージェントエンジン最適化)まで、ページトラフィックからタスクチェーンの呼び出しまで、製品の形態とデザイン思考は再構築されています。第三次ブラウザ戦争は「入力」ではなく「表示」で起こっています;勝敗を決めるのは、もはや誰がユーザーの目を引くかではなく、誰がエージェントの信頼を勝ち取り、呼び出しの入口を得るかです。
ブラウザの発展の簡単な歴史
1990年代初頭、Netscape Navigatorが登場し、数百万のユーザーにデジタル世界への扉を開きました。このブラウザは最初のものではありませんが、真に一般向けに普及し、インターネット体験を形成した製品の最初のものでした。
マイクロソフトはすぐにブラウザの重要性に気づき、Internet ExplorerをWindowsオペレーティングシステムに強制的にバンドルし、デフォルトのブラウザにすることを決定しました。この戦略は「プラットフォームの必殺技」と呼ばれ、Netscapeの市場支配地位を直接崩壊させました。
困難の中で、Netscapeのエンジニアは過激で理想主義的な道を選びました --- 彼らはブラウザのソースコードを公開し、オープンソースコミュニティに呼びかけました。このコードは後にMozillaブラウザプロジェクトの基礎となり、最終的にFirefoxという名前が付けられました。
その一方で、オペラブラウザが登場しました。これはノルウェーから来たもので、最初は実験的なプロジェクトに過ぎませんでした。しかし、2003年の7.0バージョンから、自社開発のPrestoエンジンを導入し、CSS、レスポンシブデザイン、音声制御、Unicodeエンコーディングなどの最先端技術をいち早くサポートしました。
同年、あるテクノロジーの巨人が自社のブラウザを発表しました。これは意味深い転換点でした。当時、マイクロソフトは破産寸前のこの会社に1.5億ドルを投資し、競争の表面を維持し、独占禁止法の審査を回避しました。
2007年、IE7はWindows Vistaと共に発売されましたが、市場の反応は平凡でした。それに対してFirefoxは、より速いアップデートのリズム、より親しみやすい拡張機構、そして開発者に対する天然の魅力を備えて、市場シェアを約20%にまで着実に引き上げました。IEの支配は徐々に緩んでおり、風向きが変わりつつあります。
Googleは別のアプローチを取っています。Chromeは2008年に登場し、ChromiumオープンソースプロジェクトとSafariが使用するWebKitエンジンを基に構築されました。"肥大化した"ブラウザと揶揄されていますが、Googleの広告配信とブランド構築の深い技術力により、急速に台頭しました。
Chromeの重要な武器は機能ではなく、頻繁なバージョンアップのリズム(6週間ごと)と全プラットフォームでの統一された体験です。2011年11月、Chromeは初めてFirefoxを超え、市場シェアが27%に達しました;6ヶ月後、再びIEを超え、挑戦者から支配者への転換を遂げました。
2020年代に入り、Chromeの主導地位が確立され、世界市場シェアは約65%で安定しています。注目すべきは、Google検索エンジンとChromeブラウザは同じ会社に属しているものの、市場の観点から見ると二つの独立した覇権体系であるということです --- 前者は世界の約90%の検索入口を制御し、後者は大多数のユーザーがネットにアクセスする「第一の窓口」を掌握しています。
この二重独占構造を守るために、同社は巨額の投資を惜しまなかった。2022年、彼らはあるテクノロジー大手に約200億ドルを支払い、Googleに自社のブラウザでのデフォルト検索地位を維持させた。この支出は、Googleがそのブラウザのトラフィックから得る検索広告収入の36%に相当する。言い換えれば、Googleは自らの堀を守るために「保護料」を支払っている。
しかし、風向きは再び変わった。大規模言語モデル(LLM)の台頭に伴い、従来の検索が影響を受け始めている。2024年には、Googleの検索市場シェアが93%から89%に下落し、依然として圧倒的な存在であるが、亀裂が見え始めている。さらに破壊的なのは、あるテクノロジー大手が独自のAI検索エンジンを発表するとの噂である --- もしその企業がデフォルトの検索を自社に変更すれば、これはエコシステムの構図を変えるだけでなく、Googleの親会社の利益の柱を揺るがす可能性がある。市場は迅速に反応し、同社の株価は170ドルから140ドルに下落し、これは投資家の恐怖だけでなく、検索時代の未来の行方に対する深い不安を反映している。
Navigator から Chrome へ、オープンソースの理想から広告の商業化へ、軽量ブラウザから AI 検索アシスタントへ、ブラウザの争いは常に技術、プラットフォーム、コンテンツ、そしてコントロールの権利に関する戦争です。戦場は絶えず移動していますが、本質は決して変わりません:誰が入口を握るか、誰が未来を定義するのです。
VCの目には、LLMとAIの時代における人々の検索エンジンへの新たなニーズに基づき、第3次ブラウザ戦争が徐々に展開している。
現代ブラウザの古いアーキテクチャ
ブラウザのアーキテクチャについて言及すると、古典的な従来のアーキテクチャは以下の通りです:
クライアント - フロントエンド入口
HTTPSを通じて最近のフロントエンドに到達し、TLSの復号化、QoSサンプリング、地理的ルーティングを完了します。異常なトラフィック(DDoS、自動クローリング)が検出された場合、このレイヤーでレート制限またはチャレンジを行うことができます。
クエリの理解
フロントエンドは、ユーザーが入力した単語の意味を理解する必要があり、3つのステップがあります:神経スペルチェック、"recpie"を"recipe"に修正すること;同義語の拡張、"how to fix bike"を"repair bicycle"に拡張すること。意図解析、クエリが情報、ナビゲーション、または取引の意図であるかを判断し、Verticalリクエストを割り当てます。
候補リコール
検索エンジンで使用されるクエリ技術は、逆引きインデックスと呼ばれています。順引きインデックスでは、IDが与えられるとファイルにインデックスを付けることができます。しかし、ユーザーは数千億のファイルの中から必要なコンテンツの番号を知ることはできませんので、非常に伝統的な逆引きインデックスを使用し、コンテンツを通じてどのファイルに対応するキーワードがあるかをクエリします。次に、ベクトルインデックスを使用して意味検索を処理します。つまり、クエリの意味に似たコンテンツを探します。テキスト、画像などのコンテンツを高次元ベクトル(embedding)に変換し、これらのベクトル間の類似性に基づいて検索を行います。例えば、ユーザーが「ピザ生地の作り方」を検索しても、検索エンジンは「ピザ生地制作ガイド」に関連する結果を返すことができます。これはそれらが意味的に似ているからです。逆引きインデックスとベクトルインデックスを経て、約十万量級のウェブページが初期選別されます。
マルチレベルソート
システムは通常、BM25、TF-IDF、ページ品質スコアなどの数千次元の軽量特徴を使用して、十万件規模の候補ページを約1000件に絞り込み、初期候補集を構成します。この種のシステムは一般にレコメンデーションエンジンと呼ばれます。これらは、ユーザーの行動、ページ属性、クエリの意図、文脈信号を含む多様なエンティティから生成される膨大な特徴に依存しています。たとえば、ユーザーの履歴、他のユーザーの行動フィードバック、ページの意味、クエリの意味などの情報を統合し、さらに時間(1日の時間帯、週の特定の日)やリアルタイムニュースなどの外部イベントなどの文脈要素も考慮します。
深層学習による主要なソート
初期の検索段階では、RankBrainやNeural Matchingなどの技術を使用して、クエリの意味を理解し、膨大な文書から初期的に関連する結果を選別します。RankBrainは、2015年にGoogleによって導入された機械学習システムで、特に初めてのクエリの意味をよりよく理解することを目的としています。クエリと文書をベクトル表現に変換し、それらの間の類似性を計算することで、最も関連性の高い結果を見つけ出します。例えば、「ピザ生地の作り方」というクエリに対して、文書に完全に一致するキーワードがなくても、RankBrainは「ピザの基本」や「生地作り」に関連する内容を認識することができます。
Neural Matchingは、Googleが2018年に発表した別の技術で、クエリとドキュメントの間の意味的関係をより深く理解することを目的としています。これは、神経ネットワークモデルを使用して、単語間のあいまいな関係を捉え、クエリとウェブコンテンツをよりよく一致させるのに役立ちます。例えば、「なぜ私のノートパソコンのファンの音が大きいのか」というクエリに対して、Neural Matchingは、ユーザーが過熱、ほこりの蓄積、または高いCPU使用率に関するトラブルシューティング情報を探している可能性を理解することができ、これらの単語がクエリに直接現れていなくても可能です。
ディープリフロー:BERTモデルの適用
関連する文書を初歩的に選別した後、BERT(Bidirectional Encoder Representations from Transformers)モデルを使用してこれらの文書をより細かくランク付けし、最も関連性の高い結果が前に来るようにします。BERTは、文脈の関係を理解できるTransformerベースの事前学習済み言語モデルです。検索において、BERTは初歩的に取得した文書の再ランク付けに使用されます。クエリと文書を共同でエンコードすることにより、両者の関連性スコアを計算し、文書を再ランク付けします。例えば、"路肩のない坂道に駐車する"というクエリに対して、BERTは"路肩がない"の意味を理解し、運転手にホイールを路側に向けることを提案するページを返します。誤って路肩がある状況と解釈することはありません。
以上は典型的な検索エンジンの作業フローです。しかし、現在のAIとビッグデータの爆発的な時代において、ユーザーはブラウザとのインタラクションに対して新たなニーズを生じています。
なぜ AI がブラウザを再構築するのか
まず、私たちはブラウザという形態がなぜ存在し続けるのかを明確にする必要があります。人工知能エージェントやブラウザ以外の選択肢として、第三の形態は存在するのでしょうか?
私たちは、存在は代替不可能であると考えています。なぜ人工知能はブラウザを使用できるのに、ブラウザを完全に置き換えることができないのでしょうか?それは、ブラウザが汎用プラットフォームであり、単にデータを読み取る入り口ではなく、データを入力するための一般的な入り口でもあるからです。この世界には情報の入力だけではなく、データを生成し、ウェブサイトとインタラクションを行う必要があります。したがって、パーソナライズされたユーザー情報を統合するブラウザは引き続き広く存在するでしょう。
私たちはこの点を捉えます:ブラウザは汎用入口として、データを読み取るだけでなく、ユーザーがデータと対話する必要があることがよくあります。ブラウザ自体はユーザーの指紋を保存するのに最適な場所です。より複雑なユーザー行動や自動化された行動は、ブラウザを介さなければなりません。