Revolução dos navegadores na era da IA: da plataforma de busca ao agente inteligente

A Revolução dos Browsers na Era da IA: Da Pesquisa ao Agente Inteligente

A terceira guerra dos navegadores está se desenrolando silenciosamente. Desde o Netscape e o IE da Microsoft na década de 90, até o espírito de código aberto do Firefox e o Chrome do Google, a disputa dos navegadores sempre foi uma manifestação concentrada do controle da plataforma e da mudança de paradigmas tecnológicos. O Chrome conquistou uma posição dominante graças à velocidade de atualização e à sinergia do ecossistema, enquanto o Google, através de uma estrutura "duopólio" de busca e navegador, formou um ciclo fechado de entrada de informações.

No entanto, este padrão está a abalar-se. A ascensão dos grandes modelos de linguagem (LLM) está a fazer com que cada vez mais utilizadores completem tarefas na página de resultados de pesquisa com "cliques zero", reduzindo o comportamento tradicional de clicar em páginas da web. Ao mesmo tempo, rumores sobre uma certa gigante da tecnologia poder substituir o motor de busca predefinido no seu navegador ameaçam ainda mais a base de lucros da empresa-mãe da Google, e o mercado já começou a mostrar sinais de inquietação em relação à "ortodoxia da pesquisa".

O navegador em si também está enfrentando uma reconfiguração de papel. Ele não é apenas uma ferramenta para exibir páginas da web, mas também um recipiente que reúne várias capacidades, como entrada de dados, comportamento do usuário e identidade de privacidade. Embora o Agente de IA seja poderoso, para realizar interações complexas em páginas, acessar dados de identidade locais e controlar elementos da web, ainda é necessário contar com as fronteiras de confiança e o sandbox funcional do navegador. O navegador está se transformando de uma interface humana em uma plataforma de chamadas de sistema para Agentes.

O que realmente pode quebrar o atual padrão do mercado de navegadores não é outro "Chrome melhor", mas sim uma nova estrutura de interação: não a exibição de informações, mas a invocação de tarefas. O navegador do futuro deve ser projetado para o Agente de IA - não apenas capaz de ler, mas também de escrever e executar. Alguns projetos estão tentando semantizar a estrutura das páginas, transformando a interface visual em texto estruturado que pode ser chamado por LLM, realizando o mapeamento de páginas para instruções e reduzindo drasticamente o custo de interação.

Os projetos principais no mercado já começaram a experimentar: um determinado motor de busca AI construiu um navegador nativo, substituindo os resultados de busca tradicionais por AI; um certo navegador combina proteção de privacidade com inferência local, usando LLM para melhorar a pesquisa e as funcionalidades de bloqueio; enquanto alguns projetos nativos de Web3 visam uma nova entrada para a interação entre AI e ativos em cadeia. A característica comum desses projetos é: tentar reestruturar a entrada do navegador, em vez de embelezar sua camada de saída.

Para os empreendedores, as oportunidades estão escondidas na relação triangular entre input, estrutura e agente. O navegador, como a interface que invoca o mundo no futuro, significa que quem pode fornecer "blocos de capacidade" que sejam estruturados, invocáveis e confiáveis, poderá se tornar parte da nova geração de plataformas. Desde SEO até AEO (Otimização de Motor de Agente), desde o tráfego de páginas até a invocação de cadeias de tarefas, a forma e o pensamento de design do produto estão sendo reestruturados. A terceira guerra dos navegadores acontece no "input" e não na "exibição"; o que decide o vencedor não é mais quem captura a atenção do usuário, mas quem ganha a confiança do agente e obtém a entrada para a invocação.

Breve história do desenvolvimento dos navegadores

No início da década de 90, o Netscape Navigator surgiu, abrindo as portas do mundo digital para milhões de usuários. Este navegador não foi o primeiro, mas foi o primeiro a realmente se tornar popular e moldar a experiência da Internet.

A Microsoft rapidamente percebeu a importância dos navegadores e decidiu forçar a inclusão do Internet Explorer no sistema operativo Windows, tornando-o o navegador padrão. Esta estratégia é considerada um "golpe mortal da plataforma", desmantelando diretamente a posição de mercado dominante da Netscape.

Em tempos difíceis, os engenheiros da Netscape escolheram um caminho radical e idealista – tornaram o código-fonte do navegador público e apelaram à comunidade de código aberto. Esse código mais tarde se tornou a base do projeto do navegador Mozilla, que acabou sendo nomeado Firefox.

Entretanto, o navegador Opera foi lançado, vindo da Noruega, e inicialmente era apenas um projeto experimental. Mas a partir da versão 7.0 em 2003, ele introduziu o motor Presto desenvolvido internamente, sendo o primeiro a suportar tecnologias de ponta como CSS, layout adaptativo, controle por voz e codificação Unicode.

No mesmo ano, um gigante da tecnologia lançou o seu próprio navegador. Esta foi uma reviravolta significativa. Naquele momento, a Microsoft havia investido 150 milhões de dólares nesta empresa à beira da falência, para manter as aparências de concorrência e evitar uma revisão antitruste.

Em 2007, o IE7 foi lançado com o Windows Vista, mas o retorno do mercado foi morno. Em contraste, o Firefox, com seu ritmo de atualização mais rápido, mecanismo de extensões mais amigável e atração natural para desenvolvedores, viu sua participação de mercado aumentar para cerca de 20%. O domínio do IE começou a enfraquecer e a direção do mercado estava mudando.

O Google é outra abordagem. O Chrome foi lançado em 2008, baseado no projeto de código aberto Chromium e no motor WebKit utilizado pelo Safari. É apelidado de "navegador pesado", mas, graças à profunda habilidade do Google em publicidade e construção de marca, rapidamente se destacou.

A principal arma do Chrome não são as funcionalidades, mas sim a frequência de atualizações de versões (a cada seis semanas) e a experiência unificada em todas as plataformas. Em novembro de 2011, o Chrome superou pela primeira vez o Firefox, alcançando uma quota de mercado de 27%; seis meses depois, superou novamente o IE, completando a transição de desafiante para dominador.

Entrando na década de 2020, a posição dominante do Chrome já está estabelecida, com uma quota de mercado global estável em cerca de 65%. É importante notar que, embora o motor de busca do Google e o navegador Chrome pertençam à mesma empresa, do ponto de vista do mercado, eles representam dois sistemas hegemônicos independentes - o primeiro controla cerca de 90% das entradas de busca globais, enquanto o segundo detém a maioria das janelas "primeiras" através das quais os usuários acessam a internet.

Para manter essa estrutura de duopólio, a empresa não hesitou em investir grandes quantias. Em 2022, ela pagou cerca de 20 mil milhões de dólares a um gigante da tecnologia apenas para garantir que o Google permanecesse como o motor de busca padrão no seu navegador. Esse gasto corresponde a 36% da receita de anúncios de busca que o Google obtém do tráfego desse navegador. Em outras palavras, o Google está pagando uma "taxa de proteção" para manter seu fosso.

Mas a direção do vento mudou mais uma vez. Com a ascensão dos grandes modelos de linguagem (LLM), as buscas tradicionais começaram a ser impactadas. Em 2024, a participação de mercado de busca do Google caiu de 93% para 89%, embora ainda domine, fissuras começaram a aparecer. O que é mais disruptivo são os rumores de que um certo gigante tecnológico pode lançar seu próprio motor de busca baseado em IA – se o seu motor de busca padrão mudar para o seu próprio ecossistema, isso não apenas reescreverá o panorama ecológico, mas poderá também abalar o pilar de lucros da empresa mãe do Google. O mercado reagiu rapidamente, com o preço das ações da empresa caindo de 170 dólares para 140 dólares, refletindo não apenas o pânico dos investidores, mas também uma profunda inquietação sobre a direção futura da era das buscas.

Desde o Navigator até ao Chrome, desde o ideal de código aberto até à comercialização da publicidade, desde navegadores leves até assistentes de pesquisa com IA, a batalha dos navegadores sempre foi uma guerra sobre tecnologia, plataformas, conteúdo e controle. O campo de batalha está constantemente a mudar, mas a essência nunca mudou: quem controla a entrada, define o futuro.

Na visão dos VC, apoiando-se na nova demanda das pessoas por motores de busca na era do LLM e da IA, a terceira guerra dos navegadores está se desenrolando gradualmente.

Arquitetura desatualizada dos navegadores modernos

Falando sobre a arquitetura do navegador, a arquitetura tradicional clássica é a seguinte:

Cliente - Entrada do Frontend

Consultar o front-end mais próximo através de HTTPS, completar a descriptografia TLS, amostragem QoS e roteamento geográfico. Se for detetado tráfego anómalo (DDoS, scraping automático), pode-se aplicar limitação ou desafio nesta camada.

Compreensão da consulta

A interface do utilizador precisa de compreender o significado das palavras digitadas pelo utilizador, através de três etapas: correção ortográfica neural, corrigindo "recpie" para "recipe"; expansão de sinónimos, expandindo "how to fix bike" para "repair bicycle". Análise de intenção, determinando se a consulta é de informação, navegação ou intenção de transação, e atribuindo um pedido Vertical.

Recall de Candidatos

A técnica de consulta utilizada pelos motores de busca é chamada de: índice invertido. No índice direto, basta fornecer um ID para indexar o arquivo. No entanto, o usuário não pode saber o número do conteúdo desejado entre bilhões de arquivos, portanto, utiliza-se o tradicional índice invertido, que permite consultar quais arquivos têm as palavras-chave correspondentes. Em seguida, utiliza-se o índice vetorial para lidar com a busca semântica, ou seja, encontrar conteúdos que tenham significados semelhantes ao da consulta. Ele converte textos, imagens e outros conteúdos em vetores de alta dimensão (embedding) e realiza buscas com base na similaridade entre esses vetores. Por exemplo, mesmo que o usuário pesquise "como fazer massa de pizza", o motor de busca pode retornar resultados relacionados a "guia de fabricação de massa de pizza", pois são semanticamente semelhantes. Após passar pelo índice invertido e pelo índice vetorial, cerca de cem mil páginas da web são inicialmente filtradas.

Classificação Multinível

Os sistemas normalmente filtram centenas de milhares de páginas candidatas para cerca de 1000, usando características leves de milhares de dimensões, como BM25, TF-IDF e pontuação de qualidade da página, formando um conjunto preliminar de candidatos. Esses sistemas são coletivamente chamados de motores de recomendação. Eles dependem de uma vasta gama de características geradas por várias entidades, incluindo comportamento do usuário, atributos da página, intenção da consulta e sinais de contexto. Por exemplo, eles integram informações como o histórico do usuário, o feedback de comportamento de outros usuários, a semântica da página, o significado da consulta, além de considerar elementos contextuais, como o tempo (períodos do dia, dias da semana) e eventos externos, como notícias em tempo real.

Aprendizagem Profunda para Classificação Principal

Na fase de pesquisa preliminar, são utilizadas tecnologias como RankBrain e Neural Matching para entender o significado das consultas e filtrar os resultados preliminarmente relevantes a partir de um grande volume de documentos. O RankBrain é um sistema de aprendizado de máquina introduzido pelo Google em 2015, projetado para entender melhor o significado das consultas dos usuários, especialmente consultas que aparecem pela primeira vez. Ele transforma as consultas e documentos em representações vetoriais, calculando a similaridade entre eles para encontrar os resultados mais relevantes. Por exemplo, para a consulta "como fazer massa de pizza", mesmo que os documentos não contenham palavras-chave correspondentes exatas, o RankBrain consegue identificar conteúdos relacionados a "base de pizza" ou "preparação de massa".

Neural Matching é uma tecnologia lançada pelo Google em 2018, destinada a entender mais profundamente a relação semântica entre consultas e documentos. Ela utiliza modelos de redes neurais para capturar relações vagas entre palavras, ajudando a combinar melhor consultas e conteúdo da web. Por exemplo, para a consulta "por que o ventilador do meu laptop faz muito barulho", o Neural Matching consegue entender que o usuário pode estar procurando informações de solução de problemas relacionadas ao superaquecimento, acumulação de poeira ou alta utilização da CPU, mesmo que essas palavras não estejam diretamente presentes na consulta.

Reorganização Profunda: Aplicação do Modelo BERT

Após a seleção preliminar dos documentos relevantes, o modelo BERT (Representações de Codificadores Bidireccionais a partir de Transformadores) é utilizado para classificar esses documentos de forma mais refinada, garantindo que os resultados mais relevantes apareçam primeiro. O BERT é um modelo de linguagem pré-treinado baseado em Transformer, capaz de entender a relação contextual das palavras nas frases. Na busca, o BERT é usado para reordenar os documentos inicialmente recuperados. Ele calcula a pontuação de relevância entre a consulta e os documentos realizando uma codificação conjunta, permitindo assim a reordenação dos documentos. Por exemplo, para a consulta "estacionar em uma rampa sem meio-fio", o BERT consegue entender o significado de "sem meio-fio" e retorna páginas que sugerem ao motorista direcionar as rodas em direção à calçada, em vez de interpretar erroneamente como uma situação com meio-fio.

Acima está o fluxo de trabalho típico de um motor de busca. No entanto, na atual era da explosão da IA e dos grandes dados, os usuários têm novas necessidades em relação à interação com os navegadores.

Por que a IA vai remodelar os navegadores

Primeiro, precisamos esclarecer por que a forma do navegador ainda existe? Existe uma terceira forma, além dos agentes de inteligência artificial e dos navegadores?

Acreditamos que a existência é insubstituível. Por que a inteligência artificial pode usar um navegador, mas não pode substituí-lo completamente? Porque o navegador é uma plataforma universal, não apenas uma entrada para ler dados, mas também uma entrada universal para inserir dados. Neste mundo, não pode haver apenas entrada de informações, também é necessário gerar dados e interagir com sites, por isso um navegador que integra informações personalizadas dos usuários continuará a existir amplamente.

Nós aproveitamos este ponto: o navegador como entrada universal, não apenas para ler dados, os usuários muitas vezes também precisam interagir com os dados. O próprio navegador é um excelente local para armazenar impressões digitais dos usuários. Comportamentos de usuários mais complexos e comportamentos automatizados devem ser feitos através do navegador.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 5
  • Compartilhar
Comentário
0/400
AirdropHunterXiaovip
· 07-11 21:02
Finalmente vamos derrubar o Google? Fantástico!
Ver originalResponder0
SocialAnxietyStakervip
· 07-09 22:25
O Google vai esfriar!
Ver originalResponder0
SchrodingerWalletvip
· 07-09 22:24
A ouvir algo familiar, os jovens vão voltar a competir.
Ver originalResponder0
GateUser-2fce706cvip
· 07-09 22:07
A oportunidade está à sua frente, ainda não se apressou a posicionar-se na pista dos navegadores! Daqui a três anos, você agradecerá a si mesmo pelo que fez agora.
Ver originalResponder0
CryptoFortuneTellervip
· 07-09 21:58
ie estão todos condenados, quem ainda se atreve a ser arrogante
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)