画像リストが提供されていないため、元の内容をそのまま保持し、画像を挿入することはありません。以下が元の内容の完全なテキストです:# AIブラウザ:第三次ブラウザ戦争の序章第三次ブラウザ戦争が静かに展開されています。歴史を振り返ると、90年代のNetscape、MicrosoftのIEから、オープンソース精神のFirefoxとGoogleのChromeまで、ブラウザの争いは常にプラットフォームの支配権と技術パラダイムの変遷を集中的に反映しています。Chromeは更新速度とエコシステムの連携により覇権を獲得し、Googleは検索とブラウザの"二重寡頭"構造を通じて、情報の入り口のクローズドループを形成しました。しかし、今日、この構図は揺らいでいます。大型言語モデル(LLM)の台頭により、ますます多くのユーザーが検索結果ページで「ゼロクリック」でタスクを完了し、従来のウェブページクリック行動が減少しています。同時に、AppleがSafariのデフォルト検索エンジンを変更する可能性に関する噂は、Alphabetの利益基盤にさらに脅威を与え、市場は「検索の正統性」に対する不安を示し始めています。ブラウザ自体も役割の再構築に直面しています。それは単なるウェブページの表示ツールではなく、データ入力、ユーザーの行動、プライバシーのアイデンティティなど、多様な機能の集合体です。AIエージェントは強力ですが、複雑なページインタラクション、ローカルアイデンティティデータの呼び出し、ウェブページ要素の制御を行うには、ブラウザの信頼の境界と機能のサンドボックスを利用する必要があります。ブラウザは人間のインターフェースからエージェントのシステムコールプラットフォームへと変わりつつあります。現在のブラウザ市場の構造を本当に打破するのは、別の「より良いChrome」ではなく、新しいインタラクション構造です:情報の表示ではなく、タスクの呼び出しです。未来のブラウザはAIエージェントのために設計されるべきであり、読むだけでなく、書き、実行することもできるようにしなければなりません。Browser Useのようなプロジェクトは、ページ構造をセマンティック化し、視覚インターフェースをLLMが呼び出せる構造化テキストに変えることを試みており、ページから命令へのマッピングを実現し、インタラクションコストを大幅に削減しています。市場の主要プロジェクトが試験的に進行中です:PerplexityはネイティブブラウザCometを構築し、AIを使って従来の検索結果を置き換えています;Braveはプライバシー保護とローカル推論を組み合わせ、LLMを使って検索とブロック機能を強化しています;そしてDonutなどのCryptoネイティブプロジェクトは、AIとオンチェーン資産の相互作用に新たな入り口を目指しています。これらのプロジェクトの共通の特徴は、ブラウザの入力部分を再構築しようとしていることであり、出力層を美化するのではありません。起業家にとって、機会は入力、構造、代理の三角関係に隠れています。ブラウザは未来のエージェントが世界を呼び出すインターフェースとして、構造化され、呼び出し可能で、信頼できる「能力ブロック」を提供できる者が新しい世代のプラットフォームの一部となることを意味します。SEOからAEO(エージェントエンジン最適化)へ、ページトラフィックからタスクチェーンの呼び出しまで、製品の形態とデザイン思考は再構築されています。第三次ブラウザ戦争は「入力」で起こり、「表示」ではありません。勝敗を決めるのは、もはや誰がユーザーの目を引くかではなく、誰がエージェントの信頼を得て、呼び出しの入り口を獲得するかです。## ブラウザの発展の簡単な歴史1990年代初頭、インターネットがまだ日常生活の一部ではなかった頃、Netscape Navigatorが登場し、新しい大陸を開く帆船のように、数百万のユーザーにデジタル世界への扉を開きました。このブラウザは最初のものではありませんでしたが、実際に大衆に向けてインターネット体験を形作った最初の製品でした。当時、人々は初めてグラフィカルインターフェースを介してウェブページをこれほど簡単に閲覧できるようになり、まるで世界全体が突然手の届くところにあるかのように感じました。しかし、栄光はしばしば短命です。マイクロソフトはすぐにブラウザの重要性に気づき、Internet ExplorerをWindowsオペレーティングシステムに強制的にバンドルし、デフォルトのブラウザにすることを決定しました。この戦略は「プラットフォームの殺し技」と呼ばれ、Netscapeの市場での支配的地位を直接崩壊させました。多くのユーザーはIEを自発的に選択したのではなく、システムのデフォルトとして受け入れたのです。IEはWindowsの配布能力を活用して急速に業界の覇者となり、Netscapeは衰退の軌道に陥りました。困難の中で、Netscapeのエンジニアたちは過激で理想主義的な道を選びました - 彼らはブラウザのソースコードを公開し、オープンソースコミュニティに呼びかけました。この決定は、技術界の「マケドニア式譲歩」のようであり、旧時代の終わりと新たな力の台頭を予示しています。このコードは後にMozillaブラウザプロジェクトの基礎となり、最初はPhoenix(不死鳥の復活を意味する)と名付けられましたが、商標の問題で何度も改名され、最終的にFirefoxと名付けられました。Firefoxは単なるNetscapeのコピーではなく、ユーザー体験、プラグインエコシステム、安全性などの面で多くのブレークスルーを実現しました。その誕生はオープンソース精神の勝利を象徴し、業界全体に新たな活力を注入しました。FirefoxはNetscapeの「精神的な後継者」と形容されることもあり、オスマン帝国がビザンチンの余韻を受け継いだようです。この比喩は誇張ではありますが、非常に意味深いものです。しかし、Firefoxが正式にリリースされる数年前に、マイクロソフトはすでに6つのバージョンのIEをリリースしており、時間の優位性とシステムバンドル戦略により、Firefoxは最初から追いかける立場にあり、この競争はスタートラインが平等な公正な競争ではないことが運命づけられていた。その一方で、別の初期プレーヤーも静かに登場しました。1994年にOperaブラウザが登場しました。これはノルウェーからのもので、最初は実験的なプロジェクトに過ぎませんでした。しかし、2003年の7.0バージョンからは、自社開発のPrestoエンジンを導入し、CSS、レスポンシブデザイン、音声制御、Unicodeエンコーディングなどの最先端技術をいち早くサポートしました。ユーザー数は限られていましたが、技術的には常に業界の最前線を走り続け、「ギークのお気に入り」となりました。同年、アップルはSafariブラウザを発表しました。これは非常に意味深い転機です。当時、マイクロソフトは破産寸前のアップルに1.5億ドルを投資し、競争の表面を維持し、独占禁止審査を回避しました。Safariの誕生以来のデフォルト検索エンジンはGoogleでしたが、このマイクロソフトとの歴史的絡みはインターネットの巨人たちの間の複雑で微妙な関係を象徴しています:協力と競争は常に影を落としています。2007年、IE7はWindows Vistaと共に発売されましたが、市場の反応は平凡でした。一方、Firefoxはより速い更新サイクル、より親しみやすい拡張機能、そして開発者に対する自然な魅力を活かして、市場シェアを約20%にまで着実に増加させました。IEの支配が徐々に緩み、風向きが変わり始めています。Googleは別のアプローチをとっています。2001年から自社ブラウザの開発を進めていましたが、CEOのエリック・シュミットをプロジェクトに承認させるのに6年かかりました。Chromeは2008年に登場し、ChromiumオープンソースプロジェクトとSafariが使用するWebKitエンジンを基にしています。「肥大化した」ブラウザと揶揄されることもありますが、Googleの広告投資とブランド構築の深いスキルによって、急速に台頭しました。Chromeの鍵となる武器は機能ではなく、頻繁なバージョン更新のリズム(6週間ごと)と全プラットフォームでの統一された体験です。2011年11月、Chromeは初めてFirefoxを超え、市場シェアが27%に達しました;6ヶ月後、再びIEを超え、挑戦者から支配者への変貌を遂げました。一方で、中国のモバイルインターネットは自らのエコシステムを形成しつつあります。ある企業が展開するUCブラウザは2010年代初頭に急速に人気を集め、特にインド、インドネシア、中国などの新興市場で、軽量デザインやデータ圧縮による通信量節約などの特性を活かして、低価格なデバイスのユーザーから支持を得ました。2015年には、世界のモバイルブラウザ市場シェアが17%を突破し、インドでは一時46%に達しました。しかし、この勝利は長続きしませんでした。インド政府が中国のアプリに対するセキュリティ審査を強化する中で、UCブラウザは主要市場から撤退を余儀なくされ、次第にかつての輝かしさを失っていきました。2020年代に入ると、Chromeの主導地位が確立され、世界市場シェアは約65%で安定しています。注目すべきは、Google検索エンジンとChromeブラウザは同じAlphabetに属しているものの、市場の観点から見ると2つの独立した覇権体系であることです - 前者は世界の約90%の検索エントリを制御し、後者はほとんどのユーザーがネットにアクセスする際の「ファーストウィンドウ」を握っています。この二重独占構造を守るために、グーグルは巨額の資金を投入している。2022年、アルファベットはアップルに約200億ドルを支払い、GoogleをSafariのデフォルト検索エンジンとして維持するためにその地位を確保した。この支出は、グーグルがSafariから得る検索広告収入の36%に相当すると分析されている。言い換えれば、グーグルはその城の堀を守るために"保護料"を支払っている。しかし、風向きが再び変わった。大規模言語モデル(LLM)の台頭により、従来の検索が影響を受け始めている。2024年には、Googleの検索市場シェアが93%から89%に減少し、依然として支配的であるが、亀裂が現れ始めている。さらに破壊的なのは、Appleが独自のAI検索エンジンを発表するという噂である - Safariのデフォルト検索が自社陣営に変更されれば、これはエコシステムの構図を変えるだけでなく、Alphabetの利益の柱を揺るがす可能性がある。市場は迅速に反応し、Alphabetの株価は170ドルから140ドルに急落し、投資家のパニックだけでなく、検索時代の未来の方向性に対する深い不安を反映している。NavigatorからChromeへ、オープンソースの理想から広告の商業化へ、軽量ブラウザからAI検索アシスタントへ、ブラウザの争いは常に技術、プラットフォーム、コンテンツ、そしてコントロールの戦争です。戦場は常に移り変わりますが、本質は決して変わりません:誰が入り口を掌握するかが、誰が未来を定義します。VCの視点から見ると、LLMとAIの時代において人々の検索エンジンに対する新たなニーズを基に、第三次ブラウザ戦争が徐々に展開しています。以下は、一部の有名AIブラウザプロジェクトの資金調達状況です。## 現代ブラウザの古いアーキテクチャブラウザのアーキテクチャについて言及すると、従来のクラシックなアーキテクチャは以下の図のようになります:**クライアント - フロントエンド入口**HTTPSを介して最近のGoogle Front Endに到達し、TLS復号化、QoSサンプリング、地理ルーティングを完了します。異常なトラフィック(DDoS、自動クロール)が検出された場合、このレイヤーで制限またはチャレンジを行うことができます。**クエリ理解**フロントエンドは、ユーザーが入力した単語の意味を理解する必要があり、3つのステップがあります:神経的なスペルチェック、"recpie" を "recipe" に修正すること;同義語の拡張、"how to fix bike" を "repair bicycle" に拡張すること。意図解析、クエリが情報、ナビゲーション、または取引の意図であるかを判断し、Verticalリクエストを割り当てます。**候補リコール**ある検索エンジンで使用されるクエリ技術は、逆引きインデックスと呼ばれています。正順インデックスでは、IDを指定することでファイルをインデックスできます。しかし、ユーザーは数千億のファイルの中から望む内容の番号を知ることはできないため、非常に伝統的な逆引きインデックスを使用して、内容に基づいてどのファイルに対応するキーワードがあるかを検索します。次に、その検索エンジンは意味検索を処理するためにベクトルインデックスを採用します。これは、クエリの意味に似た内容を検索するためです。テキストや画像などの内容を高次元ベクトル(埋め込み)に変換し、これらのベクトル間の類似性に基づいて検索を行います。たとえば、ユーザーが「ピザ生地の作り方」を検索しても、検索エンジンは「ピザ生地の作り方ガイド」に関連する結果を返すことができます。なぜなら、それらは意味的に似ているからです。逆引きインデックスとベクトルインデックスを経て、約十万件のウェブページが初めて選別されます。**マルチレベルソート**システムは通常、BM25、TF-IDF、ページ品質スコアなどの数千次元の軽特徴を通じて、10万規模の候補ページを約1000件に絞り込み、初期候補セットを構成します。このようなシステムは、総称して推薦エンジンと呼ばれます。これらは、ユーザーの行動、ページ属性、クエリ意図とコンテキスト信号を含む、多種多様なエンティティ生成による膨大な特徴に依存しています。例えば、ある検索エンジンは、ユーザーの履歴、他のユーザーの行動フィードバック、ページの意味、クエリの意味などの情報を総合的に考慮し、さらに時間(1日の時間帯、週の特定の日)やリアルタイムニュースなどの外部イベントといったコンテキスト要因も考慮します。**深層学習によるメインソート**初期検索段階では、ある検索エンジンがRankBrainやNeural Matchingなどの技術を使用して、クエリの意味を理解し、膨大なドキュメントから初期の関連結果を選別します。RankBrainはこの検索エンジンが2015年に導入した機械学習システムで、特に初めて出現するクエリの意味をより良く理解することを目的としています。これは、クエリとドキュメントをベクトル表現に変換し、それらの間の類似性を計算することで、最も関連性の高い結果を見つけ出します。たとえば、"ピザ生地の作り方"というクエリに対して、文書内に完全に一致するキーワードがなくても、RankBrainは"ピザの基礎"や"生地の作成"に関連する内容を認識することができます。Neural Matchingは、ある検索エンジンが2018年に導入した別の技術で、クエリとドキュメントの間の理解を深めることを目的としています。
AIブラウザが第三次ブラウザ戦争をリードし、検索とインタラクションのモデルを再構築する
画像リストが提供されていないため、元の内容をそのまま保持し、画像を挿入することはありません。以下が元の内容の完全なテキストです:
AIブラウザ:第三次ブラウザ戦争の序章
第三次ブラウザ戦争が静かに展開されています。歴史を振り返ると、90年代のNetscape、MicrosoftのIEから、オープンソース精神のFirefoxとGoogleのChromeまで、ブラウザの争いは常にプラットフォームの支配権と技術パラダイムの変遷を集中的に反映しています。Chromeは更新速度とエコシステムの連携により覇権を獲得し、Googleは検索とブラウザの"二重寡頭"構造を通じて、情報の入り口のクローズドループを形成しました。
しかし、今日、この構図は揺らいでいます。大型言語モデル(LLM)の台頭により、ますます多くのユーザーが検索結果ページで「ゼロクリック」でタスクを完了し、従来のウェブページクリック行動が減少しています。同時に、AppleがSafariのデフォルト検索エンジンを変更する可能性に関する噂は、Alphabetの利益基盤にさらに脅威を与え、市場は「検索の正統性」に対する不安を示し始めています。
ブラウザ自体も役割の再構築に直面しています。それは単なるウェブページの表示ツールではなく、データ入力、ユーザーの行動、プライバシーのアイデンティティなど、多様な機能の集合体です。AIエージェントは強力ですが、複雑なページインタラクション、ローカルアイデンティティデータの呼び出し、ウェブページ要素の制御を行うには、ブラウザの信頼の境界と機能のサンドボックスを利用する必要があります。ブラウザは人間のインターフェースからエージェントのシステムコールプラットフォームへと変わりつつあります。
現在のブラウザ市場の構造を本当に打破するのは、別の「より良いChrome」ではなく、新しいインタラクション構造です:情報の表示ではなく、タスクの呼び出しです。未来のブラウザはAIエージェントのために設計されるべきであり、読むだけでなく、書き、実行することもできるようにしなければなりません。Browser Useのようなプロジェクトは、ページ構造をセマンティック化し、視覚インターフェースをLLMが呼び出せる構造化テキストに変えることを試みており、ページから命令へのマッピングを実現し、インタラクションコストを大幅に削減しています。
市場の主要プロジェクトが試験的に進行中です:PerplexityはネイティブブラウザCometを構築し、AIを使って従来の検索結果を置き換えています;Braveはプライバシー保護とローカル推論を組み合わせ、LLMを使って検索とブロック機能を強化しています;そしてDonutなどのCryptoネイティブプロジェクトは、AIとオンチェーン資産の相互作用に新たな入り口を目指しています。これらのプロジェクトの共通の特徴は、ブラウザの入力部分を再構築しようとしていることであり、出力層を美化するのではありません。
起業家にとって、機会は入力、構造、代理の三角関係に隠れています。ブラウザは未来のエージェントが世界を呼び出すインターフェースとして、構造化され、呼び出し可能で、信頼できる「能力ブロック」を提供できる者が新しい世代のプラットフォームの一部となることを意味します。SEOからAEO(エージェントエンジン最適化)へ、ページトラフィックからタスクチェーンの呼び出しまで、製品の形態とデザイン思考は再構築されています。第三次ブラウザ戦争は「入力」で起こり、「表示」ではありません。勝敗を決めるのは、もはや誰がユーザーの目を引くかではなく、誰がエージェントの信頼を得て、呼び出しの入り口を獲得するかです。
ブラウザの発展の簡単な歴史
1990年代初頭、インターネットがまだ日常生活の一部ではなかった頃、Netscape Navigatorが登場し、新しい大陸を開く帆船のように、数百万のユーザーにデジタル世界への扉を開きました。このブラウザは最初のものではありませんでしたが、実際に大衆に向けてインターネット体験を形作った最初の製品でした。当時、人々は初めてグラフィカルインターフェースを介してウェブページをこれほど簡単に閲覧できるようになり、まるで世界全体が突然手の届くところにあるかのように感じました。
しかし、栄光はしばしば短命です。マイクロソフトはすぐにブラウザの重要性に気づき、Internet ExplorerをWindowsオペレーティングシステムに強制的にバンドルし、デフォルトのブラウザにすることを決定しました。この戦略は「プラットフォームの殺し技」と呼ばれ、Netscapeの市場での支配的地位を直接崩壊させました。多くのユーザーはIEを自発的に選択したのではなく、システムのデフォルトとして受け入れたのです。IEはWindowsの配布能力を活用して急速に業界の覇者となり、Netscapeは衰退の軌道に陥りました。
困難の中で、Netscapeのエンジニアたちは過激で理想主義的な道を選びました - 彼らはブラウザのソースコードを公開し、オープンソースコミュニティに呼びかけました。この決定は、技術界の「マケドニア式譲歩」のようであり、旧時代の終わりと新たな力の台頭を予示しています。このコードは後にMozillaブラウザプロジェクトの基礎となり、最初はPhoenix(不死鳥の復活を意味する)と名付けられましたが、商標の問題で何度も改名され、最終的にFirefoxと名付けられました。
Firefoxは単なるNetscapeのコピーではなく、ユーザー体験、プラグインエコシステム、安全性などの面で多くのブレークスルーを実現しました。その誕生はオープンソース精神の勝利を象徴し、業界全体に新たな活力を注入しました。FirefoxはNetscapeの「精神的な後継者」と形容されることもあり、オスマン帝国がビザンチンの余韻を受け継いだようです。この比喩は誇張ではありますが、非常に意味深いものです。
しかし、Firefoxが正式にリリースされる数年前に、マイクロソフトはすでに6つのバージョンのIEをリリースしており、時間の優位性とシステムバンドル戦略により、Firefoxは最初から追いかける立場にあり、この競争はスタートラインが平等な公正な競争ではないことが運命づけられていた。
その一方で、別の初期プレーヤーも静かに登場しました。1994年にOperaブラウザが登場しました。これはノルウェーからのもので、最初は実験的なプロジェクトに過ぎませんでした。しかし、2003年の7.0バージョンからは、自社開発のPrestoエンジンを導入し、CSS、レスポンシブデザイン、音声制御、Unicodeエンコーディングなどの最先端技術をいち早くサポートしました。ユーザー数は限られていましたが、技術的には常に業界の最前線を走り続け、「ギークのお気に入り」となりました。
同年、アップルはSafariブラウザを発表しました。これは非常に意味深い転機です。当時、マイクロソフトは破産寸前のアップルに1.5億ドルを投資し、競争の表面を維持し、独占禁止審査を回避しました。Safariの誕生以来のデフォルト検索エンジンはGoogleでしたが、このマイクロソフトとの歴史的絡みはインターネットの巨人たちの間の複雑で微妙な関係を象徴しています:協力と競争は常に影を落としています。
2007年、IE7はWindows Vistaと共に発売されましたが、市場の反応は平凡でした。一方、Firefoxはより速い更新サイクル、より親しみやすい拡張機能、そして開発者に対する自然な魅力を活かして、市場シェアを約20%にまで着実に増加させました。IEの支配が徐々に緩み、風向きが変わり始めています。
Googleは別のアプローチをとっています。2001年から自社ブラウザの開発を進めていましたが、CEOのエリック・シュミットをプロジェクトに承認させるのに6年かかりました。Chromeは2008年に登場し、ChromiumオープンソースプロジェクトとSafariが使用するWebKitエンジンを基にしています。「肥大化した」ブラウザと揶揄されることもありますが、Googleの広告投資とブランド構築の深いスキルによって、急速に台頭しました。
Chromeの鍵となる武器は機能ではなく、頻繁なバージョン更新のリズム(6週間ごと)と全プラットフォームでの統一された体験です。2011年11月、Chromeは初めてFirefoxを超え、市場シェアが27%に達しました;6ヶ月後、再びIEを超え、挑戦者から支配者への変貌を遂げました。
一方で、中国のモバイルインターネットは自らのエコシステムを形成しつつあります。ある企業が展開するUCブラウザは2010年代初頭に急速に人気を集め、特にインド、インドネシア、中国などの新興市場で、軽量デザインやデータ圧縮による通信量節約などの特性を活かして、低価格なデバイスのユーザーから支持を得ました。2015年には、世界のモバイルブラウザ市場シェアが17%を突破し、インドでは一時46%に達しました。しかし、この勝利は長続きしませんでした。インド政府が中国のアプリに対するセキュリティ審査を強化する中で、UCブラウザは主要市場から撤退を余儀なくされ、次第にかつての輝かしさを失っていきました。
2020年代に入ると、Chromeの主導地位が確立され、世界市場シェアは約65%で安定しています。注目すべきは、Google検索エンジンとChromeブラウザは同じAlphabetに属しているものの、市場の観点から見ると2つの独立した覇権体系であることです - 前者は世界の約90%の検索エントリを制御し、後者はほとんどのユーザーがネットにアクセスする際の「ファーストウィンドウ」を握っています。
この二重独占構造を守るために、グーグルは巨額の資金を投入している。2022年、アルファベットはアップルに約200億ドルを支払い、GoogleをSafariのデフォルト検索エンジンとして維持するためにその地位を確保した。この支出は、グーグルがSafariから得る検索広告収入の36%に相当すると分析されている。言い換えれば、グーグルはその城の堀を守るために"保護料"を支払っている。
しかし、風向きが再び変わった。大規模言語モデル(LLM)の台頭により、従来の検索が影響を受け始めている。2024年には、Googleの検索市場シェアが93%から89%に減少し、依然として支配的であるが、亀裂が現れ始めている。さらに破壊的なのは、Appleが独自のAI検索エンジンを発表するという噂である - Safariのデフォルト検索が自社陣営に変更されれば、これはエコシステムの構図を変えるだけでなく、Alphabetの利益の柱を揺るがす可能性がある。市場は迅速に反応し、Alphabetの株価は170ドルから140ドルに急落し、投資家のパニックだけでなく、検索時代の未来の方向性に対する深い不安を反映している。
NavigatorからChromeへ、オープンソースの理想から広告の商業化へ、軽量ブラウザからAI検索アシスタントへ、ブラウザの争いは常に技術、プラットフォーム、コンテンツ、そしてコントロールの戦争です。戦場は常に移り変わりますが、本質は決して変わりません:誰が入り口を掌握するかが、誰が未来を定義します。
VCの視点から見ると、LLMとAIの時代において人々の検索エンジンに対する新たなニーズを基に、第三次ブラウザ戦争が徐々に展開しています。以下は、一部の有名AIブラウザプロジェクトの資金調達状況です。
現代ブラウザの古いアーキテクチャ
ブラウザのアーキテクチャについて言及すると、従来のクラシックなアーキテクチャは以下の図のようになります:
クライアント - フロントエンド入口
HTTPSを介して最近のGoogle Front Endに到達し、TLS復号化、QoSサンプリング、地理ルーティングを完了します。異常なトラフィック(DDoS、自動クロール)が検出された場合、このレイヤーで制限またはチャレンジを行うことができます。
クエリ理解
フロントエンドは、ユーザーが入力した単語の意味を理解する必要があり、3つのステップがあります:神経的なスペルチェック、"recpie" を "recipe" に修正すること;同義語の拡張、"how to fix bike" を "repair bicycle" に拡張すること。意図解析、クエリが情報、ナビゲーション、または取引の意図であるかを判断し、Verticalリクエストを割り当てます。
候補リコール
ある検索エンジンで使用されるクエリ技術は、逆引きインデックスと呼ばれています。正順インデックスでは、IDを指定することでファイルをインデックスできます。しかし、ユーザーは数千億のファイルの中から望む内容の番号を知ることはできないため、非常に伝統的な逆引きインデックスを使用して、内容に基づいてどのファイルに対応するキーワードがあるかを検索します。次に、その検索エンジンは意味検索を処理するためにベクトルインデックスを採用します。これは、クエリの意味に似た内容を検索するためです。テキストや画像などの内容を高次元ベクトル(埋め込み)に変換し、これらのベクトル間の類似性に基づいて検索を行います。たとえば、ユーザーが「ピザ生地の作り方」を検索しても、検索エンジンは「ピザ生地の作り方ガイド」に関連する結果を返すことができます。なぜなら、それらは意味的に似ているからです。逆引きインデックスとベクトルインデックスを経て、約十万件のウェブページが初めて選別されます。
マルチレベルソート
システムは通常、BM25、TF-IDF、ページ品質スコアなどの数千次元の軽特徴を通じて、10万規模の候補ページを約1000件に絞り込み、初期候補セットを構成します。このようなシステムは、総称して推薦エンジンと呼ばれます。これらは、ユーザーの行動、ページ属性、クエリ意図とコンテキスト信号を含む、多種多様なエンティティ生成による膨大な特徴に依存しています。例えば、ある検索エンジンは、ユーザーの履歴、他のユーザーの行動フィードバック、ページの意味、クエリの意味などの情報を総合的に考慮し、さらに時間(1日の時間帯、週の特定の日)やリアルタイムニュースなどの外部イベントといったコンテキスト要因も考慮します。
深層学習によるメインソート
初期検索段階では、ある検索エンジンがRankBrainやNeural Matchingなどの技術を使用して、クエリの意味を理解し、膨大なドキュメントから初期の関連結果を選別します。RankBrainはこの検索エンジンが2015年に導入した機械学習システムで、特に初めて出現するクエリの意味をより良く理解することを目的としています。これは、クエリとドキュメントをベクトル表現に変換し、それらの間の類似性を計算することで、最も関連性の高い結果を見つけ出します。たとえば、"ピザ生地の作り方"というクエリに対して、文書内に完全に一致するキーワードがなくても、RankBrainは"ピザの基礎"や"生地の作成"に関連する内容を認識することができます。
Neural Matchingは、ある検索エンジンが2018年に導入した別の技術で、クエリとドキュメントの間の理解を深めることを目的としています。