Révolution des navigateurs à l'ère de l'IA : de la recherche aux agents intelligents
La troisième guerre des navigateurs est en train de se dérouler discrètement. Depuis Netscape et Internet Explorer de Microsoft dans les années 90, jusqu'à l'esprit open source de Firefox et Chrome de Google, la lutte entre les navigateurs a toujours été une manifestation concentrée du contrôle des plateformes et de l'évolution des paradigmes technologiques. Chrome a conquis la position dominante grâce à sa rapidité de mise à jour et son écosystème connecté, tandis que Google a formé un cercle fermé d'entrées d'information avec sa structure "duopole" entre la recherche et le navigateur.
Cependant, ce modèle est en train de s'effondrer. L'émergence des grands modèles de langage (LLM) permet à de plus en plus d'utilisateurs d'accomplir des tâches sur la page de résultats de recherche avec des "zéro clic", réduisant ainsi les comportements de clic sur les pages Web traditionnelles. Parallèlement, des rumeurs selon lesquelles un géant technologique pourrait remplacer le moteur de recherche par défaut dans son navigateur menacent davantage les bases de profits de la société mère de Google, et le marché commence à montrer des signes d'inquiétude vis-à-vis du "traditionalisme de la recherche".
Le navigateur lui-même est également en train de se redéfinir. Ce n'est plus seulement un outil pour afficher des pages web, mais un conteneur de diverses capacités telles que la saisie de données, le comportement des utilisateurs et l'identité privée. Bien que l'Agent IA soit puissant, pour réaliser des interactions complexes sur les pages, accéder aux données d'identité locales et contrôler les éléments de la page web, il a toujours besoin de la confiance et des fonctionnalités offertes par le navigateur. Le navigateur est en train de devenir une plateforme d'appel système pour les Agents, au lieu d'une simple interface humaine.
Ce qui pourrait vraiment bouleverser le marché actuel des navigateurs n'est pas un autre "meilleur Chrome", mais une nouvelle structure d'interaction : ce n'est pas l'affichage d'informations, mais l'appel de tâches. Les navigateurs de demain devront être conçus pour les agents IA --- capables non seulement de lire, mais aussi d'écrire et d'exécuter. Certains projets tentent de sémantiser la structure des pages, transformant l'interface visuelle en texte structuré pouvant être appelé par des LLM, réalisant une cartographie des pages aux instructions, réduisant ainsi considérablement le coût d'interaction.
Les projets dominants sur le marché ont commencé à expérimenter : un certain moteur de recherche AI construit un navigateur natif, remplaçant les résultats de recherche traditionnels par l'IA ; un certain navigateur combine la protection de la vie privée et le raisonnement local, utilisant LLM pour améliorer les fonctionnalités de recherche et de blocage ; tandis que certains projets natifs Web3 visent à établir un nouvel accès à l'interaction entre l'IA et les actifs on-chain. La caractéristique commune de ces projets est qu'ils tentent de reconstruire l'interface d'entrée du navigateur, plutôt que d'embellir son niveau de sortie.
Pour les entrepreneurs, les opportunités se cachent dans la relation triangulaire entre l'entrée, la structure et l'agent. Les navigateurs, en tant qu'interface d'appel du monde futur des agents, signifient que ceux qui peuvent fournir des "blocs de capacité" structurés, appelables et fiables pourront devenir une partie intégrante de la nouvelle génération de plateformes. De l'optimisation SEO à l'AEO (Agent Engine Optimization), du trafic de page à l'appel de chaînes de tâches, la forme et la pensée de conception des produits sont en pleine reconstruction. La troisième guerre des navigateurs se déroule sur "l'entrée" plutôt que sur "l'affichage" ; le facteur décisif n'est plus qui attire l'attention des utilisateurs, mais qui a gagné la confiance de l'agent et obtenu l'entrée d'appel.
Histoire du développement des navigateurs
Au début des années 90, Netscape Navigator a fait son apparition, ouvrant les portes du monde numérique à des millions d'utilisateurs. Ce navigateur n'était pas le premier, mais il a été le premier à s'adresser réellement au grand public et à façonner l'expérience Internet.
Microsoft a rapidement réalisé l'importance des navigateurs et a décidé d'intégrer Internet Explorer de force dans le système d'exploitation Windows, en faisant du navigateur le navigateur par défaut. Cette stratégie peut être qualifiée de "coup de maître de la plateforme", qui a directement anéanti la position dominante de Netscape sur le marché.
Dans une situation difficile, les ingénieurs de Netscape ont choisi une voie radicale et idéaliste : ils ont rendu le code source du navigateur public et ont lancé un appel à la communauté open source. Ce code est devenu la base du projet de navigateur Mozilla, qui a finalement été nommé Firefox.
Dans le même temps, le navigateur Opera a vu le jour. Il vient de Norvège et était à l'origine un projet expérimental. Mais à partir de la version 7.0 en 2003, il a introduit son propre moteur Presto, étant le premier à prendre en charge des technologies de pointe telles que CSS, les mises en page adaptatives, le contrôle vocal et le codage Unicode.
La même année, un géant de la technologie a lancé son propre navigateur. Cela a marqué un tournant significatif. À l'époque, Microsoft avait investi 150 millions de dollars dans cette entreprise au bord de la faillite pour maintenir une apparence de concurrence et éviter un examen antitrust.
En 2007, IE7 a été lancé avec Windows Vista, mais les retours du marché étaient moyens. En revanche, Firefox, grâce à un rythme de mises à jour plus rapide, un mécanisme d'extension plus convivial et son attractivité naturelle pour les développeurs, a vu sa part de marché augmenter régulièrement pour atteindre environ 20 %. La domination d'IE s'affaiblit progressivement, le vent est en train de tourner.
Google est une autre approche. Chrome a été lancé en 2008, basé sur le projet open source Chromium et le moteur WebKit utilisé par Safari. Il est surnommé "le navigateur encombrant", mais grâce à l'expertise de Google en matière de publicité et de construction de marque, il a rapidement émergé.
L'arme clé de Chrome n'est pas sa fonctionnalité, mais plutôt le rythme de mises à jour fréquentes (tous les six semaines) et une expérience unifiée sur toutes les plateformes. En novembre 2011, Chrome a pour la première fois dépassé Firefox, atteignant une part de marché de 27 % ; six mois plus tard, il a de nouveau dépassé IE, complétant ainsi sa transformation de challenger à dominateur.
Dans les années 2020, la domination de Chrome est établie, avec une part de marché mondiale stable d'environ 65%. Il est à noter que, bien que le moteur de recherche Google et le navigateur Chrome appartiennent à la même entreprise, ils représentent en termes de marché deux systèmes hégémoniques indépendants : le premier contrôle environ 90 % des points d'entrée de recherche dans le monde, tandis que le second détient la majorité des "premiers fenêtres" d'accès à Internet pour les utilisateurs.
Pour maintenir cette structure de double monopole, l'entreprise n'hésite pas à investir des sommes considérables. En 2022, elle a versé environ 20 milliards de dollars à un géant technologique, simplement pour que Google conserve sa position de moteur de recherche par défaut dans son navigateur. Cette dépense représente 36% des revenus publicitaires de recherche que Google tire du trafic de ce navigateur. En d'autres termes, Google paie une "taxe de protection" pour son fossé de protection.
Mais le vent a de nouveau tourné. Avec l'essor des modèles de langage de grande taille (LLM), la recherche traditionnelle commence à être perturbée. En 2024, la part de marché de Google dans la recherche est tombée de 93 % à 89 %, bien qu'il domine encore, des fissures commencent à apparaître. Plus perturbant encore, des rumeurs circulent sur le fait qu'un certain géant technologique pourrait lancer son propre moteur de recherche AI --- si son moteur de recherche par défaut devait basculer vers ses propres services, cela ne ferait pas seulement modifier le paysage écologique, mais pourrait également ébranler le pilier des bénéfices de la société mère de Google. Le marché a réagi rapidement, le prix de l'action de l'entreprise est tombé de 170 dollars à 140 dollars, reflétant non seulement la panique des investisseurs, mais aussi une profonde inquiétude quant à la direction future de l'ère de la recherche.
De Navigator à Chrome, de l'idéal open source à la commercialisation de la publicité, du navigateur léger à l'assistant de recherche AI, la bataille des navigateurs a toujours été une guerre concernant la technologie, les plateformes, le contenu et le contrôle. Le champ de bataille se déplace constamment, mais l'essence n'a jamais changé : celui qui contrôle l'entrée définit l'avenir.
Dans les yeux des VC, s'appuyant sur les nouvelles exigences des utilisateurs envers les moteurs de recherche à l'ère des LLM et de l'IA, la troisième guerre des navigateurs est en train de se déployer progressivement.
Ancienne architecture des navigateurs modernes
En ce qui concerne l'architecture des navigateurs, l'architecture traditionnelle classique est la suivante :
Client - Entrée frontale
Interroger le frontend le plus récent via HTTPS, effectuer le déchiffrement TLS, l'échantillonnage QoS et le routage géographique. Si un trafic anormal (DDoS, collecte automatique) est détecté, il est possible de limiter le flux ou de lancer un défi à ce niveau.
Compréhension de la requête
Le front-end doit comprendre la signification des mots saisis par l'utilisateur, en trois étapes : correction orthographique neuronale, corrigeant "recpie" en "recipe" ; expansion des synonymes, élargissant "how to fix bike" à "repair bicycle". Analyse de l'intention, déterminant si la requête est d'information, de navigation ou d'intention transactionnelle, et assignant une demande Vertical.
Rappel des candidats
Les techniques de requête utilisées par les moteurs de recherche sont appelées : index inversé. Dans un index direct, nous pouvons indexer un fichier simplement en fournissant un ID. Cependant, l'utilisateur ne peut pas connaître le numéro du contenu qu'il souhaite parmi des centaines de milliards de fichiers, c'est pourquoi un index inversé très traditionnel est utilisé, permettant de rechercher quels fichiers contiennent des mots-clés correspondants. Ensuite, un index vectoriel est utilisé pour traiter la recherche sémantique, c'est-à-dire pour trouver des contenus ayant un sens similaire à la requête. Il convertit des contenus tels que du texte et des images en vecteurs de haute dimension (embedding) et effectue des recherches en fonction de la similarité entre ces vecteurs. Par exemple, même si l'utilisateur recherche "comment faire de la pâte à pizza", le moteur de recherche peut renvoyer des résultats liés à "guide de fabrication de pâte à pizza" car ils sont sémantiquement similaires. Après avoir passé par l'index inversé et l'index vectoriel, environ cent mille pages web seront pré-sélectionnées.
Tri multi-niveaux
Le système filtre généralement des millions de pages candidates à environ 1000, en utilisant des milliers de caractéristiques légères telles que BM25, TF-IDF et le score de qualité de la page, formant ainsi un ensemble de candidats préliminaires. Ces systèmes sont appelés moteurs de recommandation. Ils s'appuient sur une multitude de caractéristiques générées par diverses entités, y compris le comportement des utilisateurs, les attributs des pages, l'intention de recherche et les signaux contextuels. Par exemple, il intègre des informations telles que l'historique des utilisateurs, les retours d'autres utilisateurs, la sémantique des pages, la signification des requêtes, tout en tenant compte des éléments contextuels tels que le temps (moment de la journée, jour de la semaine) et des événements externes tels que des nouvelles en temps réel.
Apprentissage profond pour le tri principal
Au stade de la recherche préliminaire, des technologies telles que RankBrain et Neural Matching sont utilisées pour comprendre le sens des requêtes et filtrer les résultats préliminaires à partir d'un grand nombre de documents. RankBrain est un système d'apprentissage automatique introduit par Google en 2015, conçu pour mieux comprendre le sens des requêtes des utilisateurs, en particulier celles qui apparaissent pour la première fois. Il fonctionne en transformant les requêtes et les documents en représentations vectorielles, puis en calculant la similarité entre eux pour trouver les résultats les plus pertinents. Par exemple, pour la requête "comment faire de la pâte à pizza", même si le document ne contient pas de mots-clés correspondants, RankBrain peut identifier des contenus liés à "base de pizza" ou "préparation de pâte".
Neural Matching est une autre technologie lancée par Google en 2018, visant à comprendre plus en profondeur les relations sémantiques entre les requêtes et les documents. Elle utilise des modèles de réseaux neuronaux pour capturer les relations floues entre les mots, aidant ainsi à mieux faire correspondre les requêtes et le contenu des pages web. Par exemple, pour la requête "Pourquoi le ventilateur de mon ordinateur portable fait-il beaucoup de bruit ?", Neural Matching est capable de comprendre que l'utilisateur pourrait rechercher des informations de dépannage concernant la surchauffe, l'accumulation de poussière ou une utilisation élevée du CPU, même si ces mots n'apparaissent pas directement dans la requête.
Réarrangement profond : Application du modèle BERT
Après avoir pré-sélectionné les documents pertinents, le modèle BERT (Bidirectional Encoder Representations from Transformers) est utilisé pour un classement plus précis de ces documents, afin de s'assurer que les résultats les plus pertinents sont affichés en premier. BERT est un modèle de langage pré-entraîné basé sur Transformer, capable de comprendre les relations contextuelles des mots dans une phrase. Dans la recherche, BERT est utilisé pour réorganiser les documents initialement récupérés. Il le fait en codant conjointement la requête et les documents, calculant un score de pertinence entre eux, ce qui permet de réorganiser les documents. Par exemple, pour la requête "se garer sur une rampe sans bordure", BERT peut comprendre la signification de "sans bordure" et retourner des pages suggérant aux conducteurs de diriger les roues vers le bord de la route, plutôt que de le mal interpréter comme une situation avec bordure.
C'est le processus de travail typique d'un moteur de recherche. Cependant, à l'ère actuelle de l'explosion de l'IA et des grandes données, les utilisateurs ont de nouveaux besoins en matière d'interaction avec les navigateurs.
Pourquoi l'IA va remodeler les navigateurs
Tout d'abord, nous devons clarifier pourquoi cette forme de navigateur existe encore. Existe-t-il une troisième forme, en plus des agents d'intelligence artificielle et des navigateurs ?
Nous pensons que l'existence est irremplaçable. Pourquoi l'intelligence artificielle peut-elle utiliser un navigateur, mais ne peut-elle pas complètement le remplacer ? Parce que le navigateur est une plateforme universelle, non seulement un point d'entrée pour lire des données, mais aussi un point d'entrée universel pour saisir des données. Ce monde ne peut pas se limiter à l'entrée d'informations, il doit également générer des données et interagir avec les sites Web, c'est pourquoi les navigateurs intégrant des informations utilisateur personnalisées continueront d'exister largement.
Nous saisissons ce point : le navigateur en tant qu'entrée universelle, non seulement utilisé pour lire des données, les utilisateurs ont souvent besoin d'interagir avec les données. Le navigateur lui-même est un excellent endroit pour stocker les empreintes digitales des utilisateurs. Des comportements utilisateurs plus complexes et des comportements automatisés doivent se faire via le navigateur.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
23 J'aime
Récompense
23
5
Partager
Commentaire
0/400
AirdropHunterXiao
· 07-11 21:02
Enfin, on va réussir à mettre Google à terre ? Incroyable !
Voir l'originalRépondre0
SocialAnxietyStaker
· 07-09 22:25
Google va être dans de beaux draps.
Voir l'originalRépondre0
SchrodingerWallet
· 07-09 22:24
Écoutez, c'est familier, les jeunes vont encore se battre.
Voir l'originalRépondre0
GateUser-2fce706c
· 07-09 22:07
L'opportunité est juste devant vous, ne perdez pas de temps à vous positionner sur le marché des navigateurs ! Dans trois ans, vous remercierez votre moi actuel.
Voir l'originalRépondre0
CryptoFortuneTeller
· 07-09 21:58
ie est condamné, qui oserait encore être arrogant?
Révolution du navigateur à l'ère de l'IA : des moteurs de recherche à la plateforme d'agents intelligents
Révolution des navigateurs à l'ère de l'IA : de la recherche aux agents intelligents
La troisième guerre des navigateurs est en train de se dérouler discrètement. Depuis Netscape et Internet Explorer de Microsoft dans les années 90, jusqu'à l'esprit open source de Firefox et Chrome de Google, la lutte entre les navigateurs a toujours été une manifestation concentrée du contrôle des plateformes et de l'évolution des paradigmes technologiques. Chrome a conquis la position dominante grâce à sa rapidité de mise à jour et son écosystème connecté, tandis que Google a formé un cercle fermé d'entrées d'information avec sa structure "duopole" entre la recherche et le navigateur.
Cependant, ce modèle est en train de s'effondrer. L'émergence des grands modèles de langage (LLM) permet à de plus en plus d'utilisateurs d'accomplir des tâches sur la page de résultats de recherche avec des "zéro clic", réduisant ainsi les comportements de clic sur les pages Web traditionnelles. Parallèlement, des rumeurs selon lesquelles un géant technologique pourrait remplacer le moteur de recherche par défaut dans son navigateur menacent davantage les bases de profits de la société mère de Google, et le marché commence à montrer des signes d'inquiétude vis-à-vis du "traditionalisme de la recherche".
Le navigateur lui-même est également en train de se redéfinir. Ce n'est plus seulement un outil pour afficher des pages web, mais un conteneur de diverses capacités telles que la saisie de données, le comportement des utilisateurs et l'identité privée. Bien que l'Agent IA soit puissant, pour réaliser des interactions complexes sur les pages, accéder aux données d'identité locales et contrôler les éléments de la page web, il a toujours besoin de la confiance et des fonctionnalités offertes par le navigateur. Le navigateur est en train de devenir une plateforme d'appel système pour les Agents, au lieu d'une simple interface humaine.
Ce qui pourrait vraiment bouleverser le marché actuel des navigateurs n'est pas un autre "meilleur Chrome", mais une nouvelle structure d'interaction : ce n'est pas l'affichage d'informations, mais l'appel de tâches. Les navigateurs de demain devront être conçus pour les agents IA --- capables non seulement de lire, mais aussi d'écrire et d'exécuter. Certains projets tentent de sémantiser la structure des pages, transformant l'interface visuelle en texte structuré pouvant être appelé par des LLM, réalisant une cartographie des pages aux instructions, réduisant ainsi considérablement le coût d'interaction.
Les projets dominants sur le marché ont commencé à expérimenter : un certain moteur de recherche AI construit un navigateur natif, remplaçant les résultats de recherche traditionnels par l'IA ; un certain navigateur combine la protection de la vie privée et le raisonnement local, utilisant LLM pour améliorer les fonctionnalités de recherche et de blocage ; tandis que certains projets natifs Web3 visent à établir un nouvel accès à l'interaction entre l'IA et les actifs on-chain. La caractéristique commune de ces projets est qu'ils tentent de reconstruire l'interface d'entrée du navigateur, plutôt que d'embellir son niveau de sortie.
Pour les entrepreneurs, les opportunités se cachent dans la relation triangulaire entre l'entrée, la structure et l'agent. Les navigateurs, en tant qu'interface d'appel du monde futur des agents, signifient que ceux qui peuvent fournir des "blocs de capacité" structurés, appelables et fiables pourront devenir une partie intégrante de la nouvelle génération de plateformes. De l'optimisation SEO à l'AEO (Agent Engine Optimization), du trafic de page à l'appel de chaînes de tâches, la forme et la pensée de conception des produits sont en pleine reconstruction. La troisième guerre des navigateurs se déroule sur "l'entrée" plutôt que sur "l'affichage" ; le facteur décisif n'est plus qui attire l'attention des utilisateurs, mais qui a gagné la confiance de l'agent et obtenu l'entrée d'appel.
Histoire du développement des navigateurs
Au début des années 90, Netscape Navigator a fait son apparition, ouvrant les portes du monde numérique à des millions d'utilisateurs. Ce navigateur n'était pas le premier, mais il a été le premier à s'adresser réellement au grand public et à façonner l'expérience Internet.
Microsoft a rapidement réalisé l'importance des navigateurs et a décidé d'intégrer Internet Explorer de force dans le système d'exploitation Windows, en faisant du navigateur le navigateur par défaut. Cette stratégie peut être qualifiée de "coup de maître de la plateforme", qui a directement anéanti la position dominante de Netscape sur le marché.
Dans une situation difficile, les ingénieurs de Netscape ont choisi une voie radicale et idéaliste : ils ont rendu le code source du navigateur public et ont lancé un appel à la communauté open source. Ce code est devenu la base du projet de navigateur Mozilla, qui a finalement été nommé Firefox.
Dans le même temps, le navigateur Opera a vu le jour. Il vient de Norvège et était à l'origine un projet expérimental. Mais à partir de la version 7.0 en 2003, il a introduit son propre moteur Presto, étant le premier à prendre en charge des technologies de pointe telles que CSS, les mises en page adaptatives, le contrôle vocal et le codage Unicode.
La même année, un géant de la technologie a lancé son propre navigateur. Cela a marqué un tournant significatif. À l'époque, Microsoft avait investi 150 millions de dollars dans cette entreprise au bord de la faillite pour maintenir une apparence de concurrence et éviter un examen antitrust.
En 2007, IE7 a été lancé avec Windows Vista, mais les retours du marché étaient moyens. En revanche, Firefox, grâce à un rythme de mises à jour plus rapide, un mécanisme d'extension plus convivial et son attractivité naturelle pour les développeurs, a vu sa part de marché augmenter régulièrement pour atteindre environ 20 %. La domination d'IE s'affaiblit progressivement, le vent est en train de tourner.
Google est une autre approche. Chrome a été lancé en 2008, basé sur le projet open source Chromium et le moteur WebKit utilisé par Safari. Il est surnommé "le navigateur encombrant", mais grâce à l'expertise de Google en matière de publicité et de construction de marque, il a rapidement émergé.
L'arme clé de Chrome n'est pas sa fonctionnalité, mais plutôt le rythme de mises à jour fréquentes (tous les six semaines) et une expérience unifiée sur toutes les plateformes. En novembre 2011, Chrome a pour la première fois dépassé Firefox, atteignant une part de marché de 27 % ; six mois plus tard, il a de nouveau dépassé IE, complétant ainsi sa transformation de challenger à dominateur.
Dans les années 2020, la domination de Chrome est établie, avec une part de marché mondiale stable d'environ 65%. Il est à noter que, bien que le moteur de recherche Google et le navigateur Chrome appartiennent à la même entreprise, ils représentent en termes de marché deux systèmes hégémoniques indépendants : le premier contrôle environ 90 % des points d'entrée de recherche dans le monde, tandis que le second détient la majorité des "premiers fenêtres" d'accès à Internet pour les utilisateurs.
Pour maintenir cette structure de double monopole, l'entreprise n'hésite pas à investir des sommes considérables. En 2022, elle a versé environ 20 milliards de dollars à un géant technologique, simplement pour que Google conserve sa position de moteur de recherche par défaut dans son navigateur. Cette dépense représente 36% des revenus publicitaires de recherche que Google tire du trafic de ce navigateur. En d'autres termes, Google paie une "taxe de protection" pour son fossé de protection.
Mais le vent a de nouveau tourné. Avec l'essor des modèles de langage de grande taille (LLM), la recherche traditionnelle commence à être perturbée. En 2024, la part de marché de Google dans la recherche est tombée de 93 % à 89 %, bien qu'il domine encore, des fissures commencent à apparaître. Plus perturbant encore, des rumeurs circulent sur le fait qu'un certain géant technologique pourrait lancer son propre moteur de recherche AI --- si son moteur de recherche par défaut devait basculer vers ses propres services, cela ne ferait pas seulement modifier le paysage écologique, mais pourrait également ébranler le pilier des bénéfices de la société mère de Google. Le marché a réagi rapidement, le prix de l'action de l'entreprise est tombé de 170 dollars à 140 dollars, reflétant non seulement la panique des investisseurs, mais aussi une profonde inquiétude quant à la direction future de l'ère de la recherche.
De Navigator à Chrome, de l'idéal open source à la commercialisation de la publicité, du navigateur léger à l'assistant de recherche AI, la bataille des navigateurs a toujours été une guerre concernant la technologie, les plateformes, le contenu et le contrôle. Le champ de bataille se déplace constamment, mais l'essence n'a jamais changé : celui qui contrôle l'entrée définit l'avenir.
Dans les yeux des VC, s'appuyant sur les nouvelles exigences des utilisateurs envers les moteurs de recherche à l'ère des LLM et de l'IA, la troisième guerre des navigateurs est en train de se déployer progressivement.
Ancienne architecture des navigateurs modernes
En ce qui concerne l'architecture des navigateurs, l'architecture traditionnelle classique est la suivante :
Client - Entrée frontale
Interroger le frontend le plus récent via HTTPS, effectuer le déchiffrement TLS, l'échantillonnage QoS et le routage géographique. Si un trafic anormal (DDoS, collecte automatique) est détecté, il est possible de limiter le flux ou de lancer un défi à ce niveau.
Compréhension de la requête
Le front-end doit comprendre la signification des mots saisis par l'utilisateur, en trois étapes : correction orthographique neuronale, corrigeant "recpie" en "recipe" ; expansion des synonymes, élargissant "how to fix bike" à "repair bicycle". Analyse de l'intention, déterminant si la requête est d'information, de navigation ou d'intention transactionnelle, et assignant une demande Vertical.
Rappel des candidats
Les techniques de requête utilisées par les moteurs de recherche sont appelées : index inversé. Dans un index direct, nous pouvons indexer un fichier simplement en fournissant un ID. Cependant, l'utilisateur ne peut pas connaître le numéro du contenu qu'il souhaite parmi des centaines de milliards de fichiers, c'est pourquoi un index inversé très traditionnel est utilisé, permettant de rechercher quels fichiers contiennent des mots-clés correspondants. Ensuite, un index vectoriel est utilisé pour traiter la recherche sémantique, c'est-à-dire pour trouver des contenus ayant un sens similaire à la requête. Il convertit des contenus tels que du texte et des images en vecteurs de haute dimension (embedding) et effectue des recherches en fonction de la similarité entre ces vecteurs. Par exemple, même si l'utilisateur recherche "comment faire de la pâte à pizza", le moteur de recherche peut renvoyer des résultats liés à "guide de fabrication de pâte à pizza" car ils sont sémantiquement similaires. Après avoir passé par l'index inversé et l'index vectoriel, environ cent mille pages web seront pré-sélectionnées.
Tri multi-niveaux
Le système filtre généralement des millions de pages candidates à environ 1000, en utilisant des milliers de caractéristiques légères telles que BM25, TF-IDF et le score de qualité de la page, formant ainsi un ensemble de candidats préliminaires. Ces systèmes sont appelés moteurs de recommandation. Ils s'appuient sur une multitude de caractéristiques générées par diverses entités, y compris le comportement des utilisateurs, les attributs des pages, l'intention de recherche et les signaux contextuels. Par exemple, il intègre des informations telles que l'historique des utilisateurs, les retours d'autres utilisateurs, la sémantique des pages, la signification des requêtes, tout en tenant compte des éléments contextuels tels que le temps (moment de la journée, jour de la semaine) et des événements externes tels que des nouvelles en temps réel.
Apprentissage profond pour le tri principal
Au stade de la recherche préliminaire, des technologies telles que RankBrain et Neural Matching sont utilisées pour comprendre le sens des requêtes et filtrer les résultats préliminaires à partir d'un grand nombre de documents. RankBrain est un système d'apprentissage automatique introduit par Google en 2015, conçu pour mieux comprendre le sens des requêtes des utilisateurs, en particulier celles qui apparaissent pour la première fois. Il fonctionne en transformant les requêtes et les documents en représentations vectorielles, puis en calculant la similarité entre eux pour trouver les résultats les plus pertinents. Par exemple, pour la requête "comment faire de la pâte à pizza", même si le document ne contient pas de mots-clés correspondants, RankBrain peut identifier des contenus liés à "base de pizza" ou "préparation de pâte".
Neural Matching est une autre technologie lancée par Google en 2018, visant à comprendre plus en profondeur les relations sémantiques entre les requêtes et les documents. Elle utilise des modèles de réseaux neuronaux pour capturer les relations floues entre les mots, aidant ainsi à mieux faire correspondre les requêtes et le contenu des pages web. Par exemple, pour la requête "Pourquoi le ventilateur de mon ordinateur portable fait-il beaucoup de bruit ?", Neural Matching est capable de comprendre que l'utilisateur pourrait rechercher des informations de dépannage concernant la surchauffe, l'accumulation de poussière ou une utilisation élevée du CPU, même si ces mots n'apparaissent pas directement dans la requête.
Réarrangement profond : Application du modèle BERT
Après avoir pré-sélectionné les documents pertinents, le modèle BERT (Bidirectional Encoder Representations from Transformers) est utilisé pour un classement plus précis de ces documents, afin de s'assurer que les résultats les plus pertinents sont affichés en premier. BERT est un modèle de langage pré-entraîné basé sur Transformer, capable de comprendre les relations contextuelles des mots dans une phrase. Dans la recherche, BERT est utilisé pour réorganiser les documents initialement récupérés. Il le fait en codant conjointement la requête et les documents, calculant un score de pertinence entre eux, ce qui permet de réorganiser les documents. Par exemple, pour la requête "se garer sur une rampe sans bordure", BERT peut comprendre la signification de "sans bordure" et retourner des pages suggérant aux conducteurs de diriger les roues vers le bord de la route, plutôt que de le mal interpréter comme une situation avec bordure.
C'est le processus de travail typique d'un moteur de recherche. Cependant, à l'ère actuelle de l'explosion de l'IA et des grandes données, les utilisateurs ont de nouveaux besoins en matière d'interaction avec les navigateurs.
Pourquoi l'IA va remodeler les navigateurs
Tout d'abord, nous devons clarifier pourquoi cette forme de navigateur existe encore. Existe-t-il une troisième forme, en plus des agents d'intelligence artificielle et des navigateurs ?
Nous pensons que l'existence est irremplaçable. Pourquoi l'intelligence artificielle peut-elle utiliser un navigateur, mais ne peut-elle pas complètement le remplacer ? Parce que le navigateur est une plateforme universelle, non seulement un point d'entrée pour lire des données, mais aussi un point d'entrée universel pour saisir des données. Ce monde ne peut pas se limiter à l'entrée d'informations, il doit également générer des données et interagir avec les sites Web, c'est pourquoi les navigateurs intégrant des informations utilisateur personnalisées continueront d'exister largement.
Nous saisissons ce point : le navigateur en tant qu'entrée universelle, non seulement utilisé pour lire des données, les utilisateurs ont souvent besoin d'interagir avec les données. Le navigateur lui-même est un excellent endroit pour stocker les empreintes digitales des utilisateurs. Des comportements utilisateurs plus complexes et des comportements automatisés doivent se faire via le navigateur.