La revolución del navegador en la era de la IA: de la búsqueda a los agentes inteligentes
La tercera guerra de los navegadores está ocurriendo silenciosamente. Desde Netscape y el IE de Microsoft en los años 90, hasta Firefox con su espíritu de código abierto y Chrome de Google, la lucha de los navegadores ha sido una manifestación concentrada del control de la plataforma y el cambio de los paradigmas tecnológicos. Chrome ha logrado la posición dominante gracias a su velocidad de actualización y la interacción de su ecosistema, mientras que Google ha creado un ciclo cerrado de entrada de información a través de la estructura de "duopolio" de búsqueda y navegador.
Sin embargo, este patrón está empezando a tambalearse. La aparición de los modelos de lenguaje de gran tamaño (LLM) ha llevado a que cada vez más usuarios completen tareas en la página de resultados de búsqueda sin hacer clic, lo que reduce el comportamiento tradicional de hacer clic en páginas web. Al mismo tiempo, los rumores sobre que un gigante tecnológico podría reemplazar el motor de búsqueda predeterminado en su navegador amenazan aún más la base de ganancias de la empresa matriz de Google, y el mercado ha comenzado a mostrar inquietud hacia la "ortodoxia de la búsqueda".
Los navegadores también están enfrentando una reconfiguración de su papel. No solo son herramientas para mostrar páginas web, sino que también son contenedores que reúnen diversas capacidades como la entrada de datos, el comportamiento del usuario y la identidad privada. Aunque los Agentes de IA son potentes, para llevar a cabo interacciones complejas en la página, invocar datos de identidad locales y controlar elementos de la página web, todavía necesitan aprovechar los límites de confianza y las cajas de arena funcionales del navegador. Los navegadores están evolucionando de interfaces humanas a plataformas de llamadas de sistema para Agentes.
Lo que realmente podría romper el actual panorama del mercado de navegadores no es otro "Chrome mejor", sino una nueva estructura de interacción: no se trata de la exhibición de información, sino de la invocación de tareas. Los navegadores del futuro deben ser diseñados para AI Agent --- no solo deben leer, sino también escribir y ejecutar. Algunos proyectos están intentando semantizar la estructura de las páginas, convirtiendo la interfaz visual en texto estructurado que puede ser invocado por LLM, logrando así una correspondencia entre la página y las instrucciones, reduciendo enormemente el costo de interacción.
Los proyectos principales en el mercado han comenzado a experimentar: un motor de búsqueda de IA ha construido un navegador nativo, utilizando IA para reemplazar los resultados de búsqueda tradicionales; un navegador ha combinado la protección de la privacidad con el razonamiento local, mejorando las funciones de búsqueda y bloqueo con LLM; mientras que algunos proyectos nativos de Web3 están apuntando a una nueva entrada para la interacción entre IA y activos en cadena. La característica común de estos proyectos es: intentar reestructurar el extremo de entrada del navegador, en lugar de embellecer su capa de salida.
Para los emprendedores, las oportunidades se encuentran en la relación triangular entre entrada, estructura y agencia. El navegador, como la interfaz que llama al mundo en el futuro de los agentes, significa que quien pueda proporcionar "bloques de capacidad" estructurados, invocables y confiables, podrá convertirse en parte de la nueva generación de plataformas. Desde SEO hasta AEO (Optimización del Motor de Agentes), desde el tráfico de páginas hasta la invocación de cadenas de tareas, la forma del producto y el pensamiento de diseño están siendo reconstruidos. La tercera guerra de navegadores ocurre en la "entrada" en lugar de en la "exhibición"; lo que decide el ganador ya no es quién atrae la atención del usuario, sino quién gana la confianza del agente y obtiene el acceso a la invocación.
Breve historia del desarrollo de los navegadores
A principios de la década de 1990, Netscape Navigator apareció y abrió las puertas al mundo digital para millones de usuarios. Este navegador no fue el primero, pero sí fue el primero en llegar verdaderamente al público y dar forma a la experiencia de Internet.
Microsoft se dio cuenta rápidamente de la importancia de los navegadores y decidió integrar Internet Explorer a la fuerza en el sistema operativo Windows, convirtiéndolo en el navegador predeterminado. Esta estrategia se considera un "arma secreta de la plataforma", que desmanteló directamente la posición dominante de mercado de Netscape.
En tiempos difíciles, los ingenieros de Netscape optaron por un camino radical e idealista: hicieron público el código fuente del navegador, llamando a la comunidad de código abierto. Este código se convirtió más tarde en la base del proyecto del navegador Mozilla, que finalmente fue nombrado Firefox.
Al mismo tiempo, se lanzó el navegador Opera, que proviene de Noruega y al principio era solo un proyecto experimental. Pero a partir de la versión 7.0 de 2003, introdujo el motor Presto desarrollado internamente, siendo el primero en soportar tecnologías de vanguardia como CSS, diseño adaptable, control por voz y codificación Unicode.
Ese año, un gigante tecnológico lanzó su propio navegador. Este fue un giro significativo. En ese momento, Microsoft había invertido 150 millones de dólares en esta empresa al borde de la quiebra para mantener una apariencia de competencia y evitar una revisión antimonopolio.
En 2007, IE7 se lanzó junto con Windows Vista, pero la respuesta del mercado fue mediocre. En cambio, Firefox, gracias a un ritmo de actualización más rápido, un mecanismo de extensiones más amigable y su atractivo natural para los desarrolladores, vio cómo su cuota de mercado aumentaba de manera constante hasta aproximadamente el 20%. El dominio de IE comenzó a debilitarse y la dirección del mercado estaba cambiando.
Google es otra forma de jugar. Chrome se lanzó en 2008, construido sobre el proyecto de código abierto Chromium y el motor WebKit utilizado por Safari. Se le llama despectivamente "el navegador "gordo", pero gracias a la profunda habilidad de Google en publicidad y construcción de marca, se elevó rápidamente.
La clave del éxito de Chrome no son sus funciones, sino la frecuencia de sus actualizaciones de versión (cada seis semanas) y una experiencia unificada en todas las plataformas. En noviembre de 2011, Chrome superó por primera vez a Firefox, alcanzando una cuota de mercado del 27%; seis meses después, superó a IE, completando su transición de retador a dominante.
Entrando en la década de 2020, la posición dominante de Chrome ya está establecida, con una cuota de mercado global estabilizada en alrededor del 65%. Cabe destacar que, aunque el motor de búsqueda de Google y el navegador Chrome pertenecen a la misma empresa, desde un punto de vista del mercado son dos sistemas hegemónicos independientes: el primero controla aproximadamente el noventa por ciento de las entradas de búsqueda globales, mientras que el segundo tiene el control de la mayoría de los usuarios que acceden a la red a través de la "primera ventana".
Para mantener esta estructura de doble monopolio, la empresa no escatima en gastos. En 2022, pagó alrededor de 20 mil millones de dólares a un gigante tecnológico solo para que Google mantuviera su posición como motor de búsqueda predeterminado en su navegador. Este gasto equivale al 36% de los ingresos por publicidad de búsqueda que Google obtiene del tráfico de ese navegador. En otras palabras, Google está pagando una "tasa de protección" por su foso.
Pero el viento ha cambiado una vez más. Con el auge de los modelos de lenguaje de gran tamaño (LLM), la búsqueda tradicional ha comenzado a verse afectada. En 2024, la cuota de mercado de búsqueda de Google cayó del 93% al 89%; aunque sigue dominando, las grietas comienzan a aparecer. Más disruptiva es la rumorología sobre que algún gigante tecnológico podría lanzar su propio motor de búsqueda de IA: si su búsqueda predeterminada cambia a su propio ecosistema, esto no solo reescribirá el panorama ecológico, sino que también podría sacudir el pilar de ganancias de la empresa matriz de Google. La reacción del mercado fue rápida, y el precio de las acciones de la empresa cayó de 170 dólares a 140 dólares, lo que refleja no solo el pánico de los inversores, sino también una profunda inquietud sobre la dirección futura de la era de búsqueda.
Desde Navigator hasta Chrome, desde el ideal del código abierto hasta la comercialización de la publicidad, desde navegadores ligeros hasta asistentes de búsqueda con IA, la lucha de los navegadores siempre ha sido una guerra sobre tecnología, plataformas, contenido y control. El campo de batalla se desplaza constantemente, pero la esencia nunca cambia: quien controle la entrada, definirá el futuro.
En la visión de los VC, apoyándose en la nueva demanda de las personas hacia los motores de búsqueda en la era de LLM y AI, la tercera guerra de los navegadores está comenzando a desarrollarse gradualmente.
Arquitectura obsoleta de los navegadores modernos
Hablando de la arquitectura del navegador, la arquitectura tradicional clásica es la siguiente:
Cliente - Entrada del Frontend
Consultar el front-end más reciente entregado a través de HTTPS, realizar la descifrado TLS, muestreo de QoS y enrutamiento geográfico. Si se detecta tráfico anómalo (DDoS, scraping automático), se puede limitar o desafiar el tráfico en esta capa.
Consulta de comprensión
El frontend necesita entender el significado de las palabras que el usuario escribe, y hay tres pasos: corrección ortográfica neuronal, corrigiendo "recpie" a "recipe"; expansión de sinónimos, expandiendo "how to fix bike" a "repair bicycle". Análisis de intención, determinando si la consulta es de información, navegación o intención de transacción, y asignando la solicitud Vertical.
Recuperación de candidatos
La técnica de consulta utilizada por los motores de búsqueda se llama: índice invertido. En el índice directo, se puede indexar un archivo simplemente proporcionando un ID. Sin embargo, el usuario no puede saber el número de contenido que busca entre miles de millones de archivos, por lo que se utiliza el índice invertido, que es muy tradicional, para buscar qué archivos contienen las palabras clave correspondientes. A continuación, se utiliza el índice de vectores para manejar la búsqueda semántica, es decir, encontrar contenido que sea semánticamente similar a la consulta. Convierte texto, imágenes y otros contenidos en vectores de alta dimensión (embedding) y busca según la similitud entre estos vectores. Por ejemplo, incluso si el usuario busca "cómo hacer masa para pizza", el motor de búsqueda puede devolver resultados relacionados con "guía para hacer masa de pizza", ya que son semánticamente similares. Después de pasar por el índice invertido y el índice de vectores, se filtrarán aproximadamente cientos de miles de páginas web.
Ordenación jerárquica
Los sistemas generalmente filtran cientos de miles de páginas candidatas a aproximadamente 1000, formando un conjunto de candidatos preliminares a través de características ligeras en miles de dimensiones, como BM25, TF-IDF y puntajes de calidad de página. Estos sistemas se conocen colectivamente como motores de recomendación. Dependen de una gran cantidad de características generadas por diversas entidades, incluyendo el comportamiento del usuario, las propiedades de la página, la intención de búsqueda y señales de contexto. Por ejemplo, integran información como el historial del usuario, la retroalimentación del comportamiento de otros usuarios, la semántica de la página, y el significado de la consulta, mientras que también consideran elementos contextuales como el tiempo (períodos del día, días específicos de la semana) y eventos externos como noticias de última hora.
Ordenación principal mediante aprendizaje profundo
En la fase de búsqueda preliminar, se utilizan técnicas como RankBrain y Neural Matching para comprender el significado de la consulta y filtrar los resultados relevantes de un vasto conjunto de documentos. RankBrain es un sistema de aprendizaje automático introducido por Google en 2015, diseñado para comprender mejor el significado de las consultas de los usuarios, especialmente aquellas que aparecen por primera vez. Convierte las consultas y los documentos en representaciones vectoriales y calcula la similitud entre ellos para encontrar los resultados más relevantes. Por ejemplo, para la consulta "cómo hacer masa de pizza", incluso si no hay palabras clave coincidentes en el documento, RankBrain puede identificar contenido relacionado con "base de pizza" o "preparación de masa".
Neural Matching es otra tecnología lanzada por Google en 2018, diseñada para comprender más a fondo la relación semántica entre consultas y documentos. Utiliza modelos de redes neuronales para capturar relaciones difusas entre palabras, ayudando a hacer coincidir mejor las consultas con el contenido de las páginas web. Por ejemplo, para la consulta "¿por qué el ventilador de mi computadora portátil hace mucho ruido?", Neural Matching puede entender que el usuario podría estar buscando información sobre problemas de sobrecalentamiento, acumulación de polvo o uso elevado de CPU, incluso si estas palabras no aparecen directamente en la consulta.
Reordenamiento profundo: Aplicación del modelo BERT
Después de filtrar preliminarmente los documentos relevantes, se utiliza el modelo BERT (Representaciones de Codificadores Bidireccionales de Transformadores) para clasificar estos documentos de manera más precisa, asegurando que los resultados más relevantes aparezcan primero. BERT es un modelo de lenguaje preentrenado basado en Transformer, capaz de comprender las relaciones contextuales de las palabras en una oración. En la búsqueda, BERT se utiliza para reordenar los documentos recuperados inicialmente. Lo hace mediante la codificación conjunta de la consulta y los documentos, calculando una puntuación de relevancia entre ellos para volver a clasificar los documentos. Por ejemplo, para la consulta "estacionar en una rampa sin bordillo", BERT puede entender el significado de "sin bordillo" y devolver páginas que sugieren a los conductores que dirijan las ruedas hacia el borde de la carretera, en lugar de malinterpretarlo como una situación con bordillo.
Este es el flujo de trabajo típico de un motor de búsqueda. Sin embargo, en la actual era de explosión de la IA y los grandes datos, los usuarios han desarrollado nuevas demandas en la interacción con los navegadores.
¿Por qué la IA está remodelando los navegadores?
Primero necesitamos aclarar, ¿por qué esta forma de navegador todavía existe? ¿Hay una tercera forma, una opción además de los agentes de inteligencia artificial y los navegadores?
Creemos que la existencia es irremplazable. ¿Por qué la inteligencia artificial puede usar navegadores, pero no puede reemplazarlos por completo? Porque el navegador es una plataforma universal, no solo es una entrada para leer datos, sino también una entrada universal para ingresar datos. En este mundo no puede haber solo entrada de información, también debe generarse datos e interactuar con los sitios web, por lo que los navegadores que integran información personalizada de los usuarios seguirán existiendo ampliamente.
Aprovechamos este punto: el navegador como entrada universal, no solo se utiliza para leer datos, los usuarios a menudo también necesitan interactuar con los datos. El navegador en sí es un lugar excelente para almacenar las huellas dactilares de los usuarios. Comportamientos de usuario más complejos y comportamientos automatizados deben realizarse a través del navegador.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
23 me gusta
Recompensa
23
5
Compartir
Comentar
0/400
AirdropHunterXiao
· 07-11 21:02
¿Finalmente van a derribar a Google? ¡Increíble!
Ver originalesResponder0
SocialAnxietyStaker
· 07-09 22:25
Google se va a la quiebra.
Ver originalesResponder0
SchrodingerWallet
· 07-09 22:24
Escuchando familiar, los jóvenes van a competir de nuevo.
Ver originalesResponder0
GateUser-2fce706c
· 07-09 22:07
¡La oportunidad está frente a ti, no esperes más para posicionarte en la carrera de navegadores! El tú de dentro de tres años te agradecerá por lo que hiciste ahora.
Ver originalesResponder0
CryptoFortuneTeller
· 07-09 21:58
ie están condenados, ¿quién se atreve a ser arrogante?
Revolución del navegador en la era de la IA: de los motores de búsqueda a la plataforma de agentes inteligentes
La revolución del navegador en la era de la IA: de la búsqueda a los agentes inteligentes
La tercera guerra de los navegadores está ocurriendo silenciosamente. Desde Netscape y el IE de Microsoft en los años 90, hasta Firefox con su espíritu de código abierto y Chrome de Google, la lucha de los navegadores ha sido una manifestación concentrada del control de la plataforma y el cambio de los paradigmas tecnológicos. Chrome ha logrado la posición dominante gracias a su velocidad de actualización y la interacción de su ecosistema, mientras que Google ha creado un ciclo cerrado de entrada de información a través de la estructura de "duopolio" de búsqueda y navegador.
Sin embargo, este patrón está empezando a tambalearse. La aparición de los modelos de lenguaje de gran tamaño (LLM) ha llevado a que cada vez más usuarios completen tareas en la página de resultados de búsqueda sin hacer clic, lo que reduce el comportamiento tradicional de hacer clic en páginas web. Al mismo tiempo, los rumores sobre que un gigante tecnológico podría reemplazar el motor de búsqueda predeterminado en su navegador amenazan aún más la base de ganancias de la empresa matriz de Google, y el mercado ha comenzado a mostrar inquietud hacia la "ortodoxia de la búsqueda".
Los navegadores también están enfrentando una reconfiguración de su papel. No solo son herramientas para mostrar páginas web, sino que también son contenedores que reúnen diversas capacidades como la entrada de datos, el comportamiento del usuario y la identidad privada. Aunque los Agentes de IA son potentes, para llevar a cabo interacciones complejas en la página, invocar datos de identidad locales y controlar elementos de la página web, todavía necesitan aprovechar los límites de confianza y las cajas de arena funcionales del navegador. Los navegadores están evolucionando de interfaces humanas a plataformas de llamadas de sistema para Agentes.
Lo que realmente podría romper el actual panorama del mercado de navegadores no es otro "Chrome mejor", sino una nueva estructura de interacción: no se trata de la exhibición de información, sino de la invocación de tareas. Los navegadores del futuro deben ser diseñados para AI Agent --- no solo deben leer, sino también escribir y ejecutar. Algunos proyectos están intentando semantizar la estructura de las páginas, convirtiendo la interfaz visual en texto estructurado que puede ser invocado por LLM, logrando así una correspondencia entre la página y las instrucciones, reduciendo enormemente el costo de interacción.
Los proyectos principales en el mercado han comenzado a experimentar: un motor de búsqueda de IA ha construido un navegador nativo, utilizando IA para reemplazar los resultados de búsqueda tradicionales; un navegador ha combinado la protección de la privacidad con el razonamiento local, mejorando las funciones de búsqueda y bloqueo con LLM; mientras que algunos proyectos nativos de Web3 están apuntando a una nueva entrada para la interacción entre IA y activos en cadena. La característica común de estos proyectos es: intentar reestructurar el extremo de entrada del navegador, en lugar de embellecer su capa de salida.
Para los emprendedores, las oportunidades se encuentran en la relación triangular entre entrada, estructura y agencia. El navegador, como la interfaz que llama al mundo en el futuro de los agentes, significa que quien pueda proporcionar "bloques de capacidad" estructurados, invocables y confiables, podrá convertirse en parte de la nueva generación de plataformas. Desde SEO hasta AEO (Optimización del Motor de Agentes), desde el tráfico de páginas hasta la invocación de cadenas de tareas, la forma del producto y el pensamiento de diseño están siendo reconstruidos. La tercera guerra de navegadores ocurre en la "entrada" en lugar de en la "exhibición"; lo que decide el ganador ya no es quién atrae la atención del usuario, sino quién gana la confianza del agente y obtiene el acceso a la invocación.
Breve historia del desarrollo de los navegadores
A principios de la década de 1990, Netscape Navigator apareció y abrió las puertas al mundo digital para millones de usuarios. Este navegador no fue el primero, pero sí fue el primero en llegar verdaderamente al público y dar forma a la experiencia de Internet.
Microsoft se dio cuenta rápidamente de la importancia de los navegadores y decidió integrar Internet Explorer a la fuerza en el sistema operativo Windows, convirtiéndolo en el navegador predeterminado. Esta estrategia se considera un "arma secreta de la plataforma", que desmanteló directamente la posición dominante de mercado de Netscape.
En tiempos difíciles, los ingenieros de Netscape optaron por un camino radical e idealista: hicieron público el código fuente del navegador, llamando a la comunidad de código abierto. Este código se convirtió más tarde en la base del proyecto del navegador Mozilla, que finalmente fue nombrado Firefox.
Al mismo tiempo, se lanzó el navegador Opera, que proviene de Noruega y al principio era solo un proyecto experimental. Pero a partir de la versión 7.0 de 2003, introdujo el motor Presto desarrollado internamente, siendo el primero en soportar tecnologías de vanguardia como CSS, diseño adaptable, control por voz y codificación Unicode.
Ese año, un gigante tecnológico lanzó su propio navegador. Este fue un giro significativo. En ese momento, Microsoft había invertido 150 millones de dólares en esta empresa al borde de la quiebra para mantener una apariencia de competencia y evitar una revisión antimonopolio.
En 2007, IE7 se lanzó junto con Windows Vista, pero la respuesta del mercado fue mediocre. En cambio, Firefox, gracias a un ritmo de actualización más rápido, un mecanismo de extensiones más amigable y su atractivo natural para los desarrolladores, vio cómo su cuota de mercado aumentaba de manera constante hasta aproximadamente el 20%. El dominio de IE comenzó a debilitarse y la dirección del mercado estaba cambiando.
Google es otra forma de jugar. Chrome se lanzó en 2008, construido sobre el proyecto de código abierto Chromium y el motor WebKit utilizado por Safari. Se le llama despectivamente "el navegador "gordo", pero gracias a la profunda habilidad de Google en publicidad y construcción de marca, se elevó rápidamente.
La clave del éxito de Chrome no son sus funciones, sino la frecuencia de sus actualizaciones de versión (cada seis semanas) y una experiencia unificada en todas las plataformas. En noviembre de 2011, Chrome superó por primera vez a Firefox, alcanzando una cuota de mercado del 27%; seis meses después, superó a IE, completando su transición de retador a dominante.
Entrando en la década de 2020, la posición dominante de Chrome ya está establecida, con una cuota de mercado global estabilizada en alrededor del 65%. Cabe destacar que, aunque el motor de búsqueda de Google y el navegador Chrome pertenecen a la misma empresa, desde un punto de vista del mercado son dos sistemas hegemónicos independientes: el primero controla aproximadamente el noventa por ciento de las entradas de búsqueda globales, mientras que el segundo tiene el control de la mayoría de los usuarios que acceden a la red a través de la "primera ventana".
Para mantener esta estructura de doble monopolio, la empresa no escatima en gastos. En 2022, pagó alrededor de 20 mil millones de dólares a un gigante tecnológico solo para que Google mantuviera su posición como motor de búsqueda predeterminado en su navegador. Este gasto equivale al 36% de los ingresos por publicidad de búsqueda que Google obtiene del tráfico de ese navegador. En otras palabras, Google está pagando una "tasa de protección" por su foso.
Pero el viento ha cambiado una vez más. Con el auge de los modelos de lenguaje de gran tamaño (LLM), la búsqueda tradicional ha comenzado a verse afectada. En 2024, la cuota de mercado de búsqueda de Google cayó del 93% al 89%; aunque sigue dominando, las grietas comienzan a aparecer. Más disruptiva es la rumorología sobre que algún gigante tecnológico podría lanzar su propio motor de búsqueda de IA: si su búsqueda predeterminada cambia a su propio ecosistema, esto no solo reescribirá el panorama ecológico, sino que también podría sacudir el pilar de ganancias de la empresa matriz de Google. La reacción del mercado fue rápida, y el precio de las acciones de la empresa cayó de 170 dólares a 140 dólares, lo que refleja no solo el pánico de los inversores, sino también una profunda inquietud sobre la dirección futura de la era de búsqueda.
Desde Navigator hasta Chrome, desde el ideal del código abierto hasta la comercialización de la publicidad, desde navegadores ligeros hasta asistentes de búsqueda con IA, la lucha de los navegadores siempre ha sido una guerra sobre tecnología, plataformas, contenido y control. El campo de batalla se desplaza constantemente, pero la esencia nunca cambia: quien controle la entrada, definirá el futuro.
En la visión de los VC, apoyándose en la nueva demanda de las personas hacia los motores de búsqueda en la era de LLM y AI, la tercera guerra de los navegadores está comenzando a desarrollarse gradualmente.
Arquitectura obsoleta de los navegadores modernos
Hablando de la arquitectura del navegador, la arquitectura tradicional clásica es la siguiente:
Cliente - Entrada del Frontend
Consultar el front-end más reciente entregado a través de HTTPS, realizar la descifrado TLS, muestreo de QoS y enrutamiento geográfico. Si se detecta tráfico anómalo (DDoS, scraping automático), se puede limitar o desafiar el tráfico en esta capa.
Consulta de comprensión
El frontend necesita entender el significado de las palabras que el usuario escribe, y hay tres pasos: corrección ortográfica neuronal, corrigiendo "recpie" a "recipe"; expansión de sinónimos, expandiendo "how to fix bike" a "repair bicycle". Análisis de intención, determinando si la consulta es de información, navegación o intención de transacción, y asignando la solicitud Vertical.
Recuperación de candidatos
La técnica de consulta utilizada por los motores de búsqueda se llama: índice invertido. En el índice directo, se puede indexar un archivo simplemente proporcionando un ID. Sin embargo, el usuario no puede saber el número de contenido que busca entre miles de millones de archivos, por lo que se utiliza el índice invertido, que es muy tradicional, para buscar qué archivos contienen las palabras clave correspondientes. A continuación, se utiliza el índice de vectores para manejar la búsqueda semántica, es decir, encontrar contenido que sea semánticamente similar a la consulta. Convierte texto, imágenes y otros contenidos en vectores de alta dimensión (embedding) y busca según la similitud entre estos vectores. Por ejemplo, incluso si el usuario busca "cómo hacer masa para pizza", el motor de búsqueda puede devolver resultados relacionados con "guía para hacer masa de pizza", ya que son semánticamente similares. Después de pasar por el índice invertido y el índice de vectores, se filtrarán aproximadamente cientos de miles de páginas web.
Ordenación jerárquica
Los sistemas generalmente filtran cientos de miles de páginas candidatas a aproximadamente 1000, formando un conjunto de candidatos preliminares a través de características ligeras en miles de dimensiones, como BM25, TF-IDF y puntajes de calidad de página. Estos sistemas se conocen colectivamente como motores de recomendación. Dependen de una gran cantidad de características generadas por diversas entidades, incluyendo el comportamiento del usuario, las propiedades de la página, la intención de búsqueda y señales de contexto. Por ejemplo, integran información como el historial del usuario, la retroalimentación del comportamiento de otros usuarios, la semántica de la página, y el significado de la consulta, mientras que también consideran elementos contextuales como el tiempo (períodos del día, días específicos de la semana) y eventos externos como noticias de última hora.
Ordenación principal mediante aprendizaje profundo
En la fase de búsqueda preliminar, se utilizan técnicas como RankBrain y Neural Matching para comprender el significado de la consulta y filtrar los resultados relevantes de un vasto conjunto de documentos. RankBrain es un sistema de aprendizaje automático introducido por Google en 2015, diseñado para comprender mejor el significado de las consultas de los usuarios, especialmente aquellas que aparecen por primera vez. Convierte las consultas y los documentos en representaciones vectoriales y calcula la similitud entre ellos para encontrar los resultados más relevantes. Por ejemplo, para la consulta "cómo hacer masa de pizza", incluso si no hay palabras clave coincidentes en el documento, RankBrain puede identificar contenido relacionado con "base de pizza" o "preparación de masa".
Neural Matching es otra tecnología lanzada por Google en 2018, diseñada para comprender más a fondo la relación semántica entre consultas y documentos. Utiliza modelos de redes neuronales para capturar relaciones difusas entre palabras, ayudando a hacer coincidir mejor las consultas con el contenido de las páginas web. Por ejemplo, para la consulta "¿por qué el ventilador de mi computadora portátil hace mucho ruido?", Neural Matching puede entender que el usuario podría estar buscando información sobre problemas de sobrecalentamiento, acumulación de polvo o uso elevado de CPU, incluso si estas palabras no aparecen directamente en la consulta.
Reordenamiento profundo: Aplicación del modelo BERT
Después de filtrar preliminarmente los documentos relevantes, se utiliza el modelo BERT (Representaciones de Codificadores Bidireccionales de Transformadores) para clasificar estos documentos de manera más precisa, asegurando que los resultados más relevantes aparezcan primero. BERT es un modelo de lenguaje preentrenado basado en Transformer, capaz de comprender las relaciones contextuales de las palabras en una oración. En la búsqueda, BERT se utiliza para reordenar los documentos recuperados inicialmente. Lo hace mediante la codificación conjunta de la consulta y los documentos, calculando una puntuación de relevancia entre ellos para volver a clasificar los documentos. Por ejemplo, para la consulta "estacionar en una rampa sin bordillo", BERT puede entender el significado de "sin bordillo" y devolver páginas que sugieren a los conductores que dirijan las ruedas hacia el borde de la carretera, en lugar de malinterpretarlo como una situación con bordillo.
Este es el flujo de trabajo típico de un motor de búsqueda. Sin embargo, en la actual era de explosión de la IA y los grandes datos, los usuarios han desarrollado nuevas demandas en la interacción con los navegadores.
¿Por qué la IA está remodelando los navegadores?
Primero necesitamos aclarar, ¿por qué esta forma de navegador todavía existe? ¿Hay una tercera forma, una opción además de los agentes de inteligencia artificial y los navegadores?
Creemos que la existencia es irremplazable. ¿Por qué la inteligencia artificial puede usar navegadores, pero no puede reemplazarlos por completo? Porque el navegador es una plataforma universal, no solo es una entrada para leer datos, sino también una entrada universal para ingresar datos. En este mundo no puede haber solo entrada de información, también debe generarse datos e interactuar con los sitios web, por lo que los navegadores que integran información personalizada de los usuarios seguirán existiendo ampliamente.
Aprovechamos este punto: el navegador como entrada universal, no solo se utiliza para leer datos, los usuarios a menudo también necesitan interactuar con los datos. El navegador en sí es un lugar excelente para almacenar las huellas dactilares de los usuarios. Comportamientos de usuario más complejos y comportamientos automatizados deben realizarse a través del navegador.