A Revolução dos Navegadores na Era da IA: Da Exibição de Informações à Chamada de Tarefas
A terceira guerra dos navegadores está se desenrolando silenciosamente. Desde o Netscape e o Internet Explorer da Microsoft nos anos 90, até o Firefox de código aberto e o Google Chrome, a disputa entre navegadores sempre foi uma manifestação concentrada do controle da plataforma e da mudança de paradigmas tecnológicos. O Chrome conquistou a posição de dominância graças à velocidade de atualização e à interconexão do ecossistema, enquanto o Google, através da estrutura de "duopólio" entre busca e navegador, formou um ciclo fechado de entrada de informações.
No entanto, esse padrão está se desfazendo. A ascensão de modelos de linguagem de grande porte (LLM) está fazendo com que cada vez mais usuários realizem tarefas na página de resultados de busca com "zero cliques", reduzindo o comportamento tradicional de cliques em páginas da web. Ao mesmo tempo, rumores sobre a possibilidade de a Apple substituir o motor de busca padrão no Safari ameaçam ainda mais a base de lucros da Alphabet, e o mercado já começou a mostrar sinais de inquietação em relação à "ortodoxia da busca".
O próprio navegador também enfrenta uma reconfiguração de seu papel. Ele não é apenas uma ferramenta para exibir páginas da web, mas sim um recipiente que agrega diversas capacidades, como entrada de dados, comportamento do usuário e identidade de privacidade. Embora o Agente de IA seja poderoso, para realizar interações complexas na página, chamar dados de identidade locais e controlar elementos da web, ainda precisa do limite de confiança e da sandbox funcional do navegador. O navegador está evoluindo de uma interface humana para uma plataforma de chamadas de sistema para Agentes.
O que realmente pode quebrar o atual padrão de mercado dos navegadores não é outro "Chrome melhor", mas sim uma nova estrutura de interação: não é a apresentação de informações, mas sim a chamada de tarefas. O navegador do futuro deve ser projetado para Agentes de IA - que não apenas conseguem ler, mas também escrever e executar. Projetos como o Browser Use estão tentando semantizar a estrutura das páginas, transformando a interface visual em texto estruturado que pode ser chamado por LLM, realizando um mapeamento de página para instruções, reduzindo significativamente o custo da interação.
Os principais projetos no mercado começaram a experimentar: a Perplexity construiu o navegador nativo Comet, usando IA para substituir os resultados tradicionais de busca; a Brave combina proteção de privacidade com raciocínio local, melhorando as funcionalidades de busca e bloqueio com LLM; enquanto projetos nativos de Crypto como Donut visam uma nova entrada para a interação entre IA e ativos em blockchain. A característica comum desses projetos é: tentar reconstruir a parte de entrada do navegador, em vez de embelezar sua camada de saída.
Para os empreendedores, as oportunidades estão escondidas na relação triangular entre entrada, estrutura e agentes. O navegador, como a interface do mundo chamada pelos Agentes do futuro, significa que quem puder fornecer "blocos de capacidade" estruturados, chamáveis e confiáveis, poderá se tornar parte integrante da nova geração de plataformas. Da SEO à AEO (Otimização do Motor de Agentes), do tráfego de páginas à chamada de cadeias de tarefas, a forma do produto e o pensamento de design estão sendo reestruturados. A terceira guerra dos navegadores ocorre na "entrada" e não na "exibição"; o que decide o vencedor não é mais quem chama a atenção do usuário, mas quem ganha a confiança do Agente e obtém a entrada para a chamada.
Breve História do Desenvolvimento dos Navegadores
No início da década de 90, quando a internet ainda não fazia parte do cotidiano, o Netscape Navigator surgiu, abrindo as portas do mundo digital para milhões de usuários. Este navegador não foi o primeiro, mas foi o primeiro a chegar verdadeiramente ao público e a moldar a experiência da internet.
No entanto, o brilho foi efémero. A Microsoft rapidamente forçou o Internet Explorer a ser empacotado com o sistema operativo Windows, tornando-o o navegador padrão. Esta estratégia é considerada uma "arma secreta da plataforma", que destruiu diretamente a posição de liderança da Netscape no mercado. O IE, aproveitando a capacidade de distribuição do Windows, rapidamente se tornou o dominador da indústria, enquanto a Netscape caiu em um caminho de declínio.
Em tempos de dificuldades, os engenheiros da Netscape escolheram um caminho radical e idealista - tornaram o código-fonte do navegador público e fizeram um apelo à comunidade de código aberto. Este código veio a ser a base do projeto do navegador Mozilla, inicialmente chamado de Phoenix (em referência à fênix renascente), que passou por várias mudanças de nome até finalmente ser chamado de Firefox.
O Firefox não é uma simples cópia do Netscape, ele alcançou várias inovações em experiência do usuário, ecossistema de plugins e segurança. O seu nascimento marca a vitória do espírito open source e também traz nova vitalidade para toda a indústria.
Em 1994, o navegador Opera foi lançado, originário da Noruega, inicialmente como um projeto experimental. Mas a partir da versão 7.0, em 2003, introduziu o motor Presto desenvolvido internamente, sendo o primeiro a suportar CSS, layouts responsivos, controle por voz e codificação Unicode, entre outras tecnologias de ponta. Embora o número de usuários fosse limitado, a tecnologia sempre esteve na vanguarda da indústria, tornando-se "a preferência dos geeks".
No mesmo ano, a Apple lançou o navegador Safari. Embora o motor de busca padrão do Safari desde a sua criação seja o Google, essa história de envolvimento com a Microsoft simboliza a relação complexa e sutil entre os gigantes da Internet: colaboração e competição, sempre andando de mãos dadas.
Em 2007, o IE7 foi lançado com o Windows Vista, mas o feedback do mercado foi morno. Por outro lado, o Firefox, com um ritmo de atualizações mais rápido, um mecanismo de extensões mais amigável e um apelo natural para os desenvolvedores, viu sua quota de mercado subir constantemente para cerca de 20%. A dominância do IE estava gradualmente se afrouxando, e o vento estava mudando.
O Chrome foi lançado em 2008, construído sobre o projeto de código aberto Chromium e o motor WebKit usado pelo Safari. É chamado de navegador "inchado", mas graças à profunda habilidade do Google em publicidade e construção de marca, rapidamente se destacou.
A chave do Chrome não são as funcionalidades, mas sim o ritmo frequente de atualizações de versões (a cada seis semanas) e a experiência unificada em todas as plataformas. Em novembro de 2011, o Chrome superou pela primeira vez o Firefox, alcançando uma quota de mercado de 27%; seis meses depois, ultrapassou novamente o IE, completando a transformação de desafiante a dominador.
Ao mesmo tempo, a internet móvel na China também está formando seu próprio ecossistema. O UC Browser, sob a Alibaba, ganhou rapidamente popularidade no início da década de 2010, especialmente em mercados emergentes como a Índia, Indonésia e China, conquistando a preferência dos usuários de dispositivos de baixo custo graças ao seu design leve e características como compressão de dados para economizar tráfego. Em 2015, sua participação no mercado global de navegadores móveis superou 17%, chegando a 46% na Índia em certos momentos. No entanto, essa vitória não durou. Com o governo indiano intensificando a revisão de segurança de aplicativos chineses, o UC Browser foi forçado a sair de um mercado chave, perdendo gradualmente seu antigo esplendor.
Entrando na década de 2020, a posição dominante do Chrome já está estabelecida, com uma quota de mercado global estável em cerca de 65%. Vale a pena notar que, embora o motor de busca Google e o navegador Chrome pertençam ambos à Alphabet, do ponto de vista do mercado, são dois sistemas hegemônicos independentes - o primeiro controla cerca de 90% dos pontos de entrada de busca globais, enquanto o último detém a maioria dos usuários que entram na rede pela "primeira janela".
Para manter esta estrutura de duopólio, a Google não hesitou em investir muito dinheiro. Em 2022, a Alphabet pagou cerca de 20 mil milhões de dólares à Apple, apenas para manter o Google como o mecanismo de busca padrão no Safari. Analistas apontaram que este gasto equivale a 36% da receita de anúncios de busca que a Google obtém do tráfego do Safari. Em outras palavras, a Google está a pagar uma "taxa de proteção" para sua fortaleza.
Mas a direção do vento mudou novamente. Com a ascensão dos grandes modelos de linguagem (LLM), as buscas tradicionais começaram a ser impactadas. Em 2024, a participação de mercado de busca do Google caiu de 93% para 89%, embora ainda domine, fissuras começaram a aparecer. O que é mais disruptivo são os rumores de que a Apple pode lançar seu próprio motor de busca AI - se o Safari mudar seu mecanismo de busca padrão para a própria empresa, isso não apenas reescreverá o ecossistema, mas poderá também abalar os pilares de lucro da Alphabet. O mercado reagiu rapidamente, e as ações da Alphabet caíram de 170 dólares para 140 dólares, refletindo não apenas o pânico dos investidores, mas também uma profunda inquietação sobre a direção futura da era da busca.
Do Navigator ao Chrome, da ideia de código aberto à comercialização da publicidade, do navegador leve ao assistente de busca AI, a disputa entre navegadores tem sido uma guerra sobre tecnologia, plataforma, conteúdo e controle. O campo de batalha está em constante mudança, mas a essência nunca mudou: quem controla a entrada, define o futuro.
Na ótica dos VC, apoiado nas novas necessidades das pessoas em relação aos motores de busca na era do LLM e da IA, a terceira guerra dos navegadores está a desenrolar-se gradualmente.
Arquitetura antiga dos navegadores modernos
Falando sobre a arquitetura do navegador, a arquitetura tradicional clássica é a seguinte:
Cliente - Entrada do Front-end
Consultar o Google Front End mais próximo através de HTTPS, completar a descriptografia TLS, amostragem QoS e roteamento geográfico. Se tráfego anômalo (DDoS, scraping automático) for detectado, pode-se limitar ou desafiar neste nível.
Consulta de Compreensão
A interface do utilizador precisa de compreender o significado das palavras digitadas pelo utilizador, e existem três etapas: correção ortográfica neural, corrigindo "recpie" para "recipe"; expansão de sinônimos, expandindo "how to fix bike" para "repair bicycle". Análise de intenção, determinando se a consulta é de informação, navegação ou intenção de transação, e atribuindo um pedido Vertical.
Recuperação de Candidatos
A tecnologia de consulta usada pelo Google é chamada de: índice invertido. No índice direto, podemos simplesmente usar um ID para indexar um arquivo. No entanto, os usuários não podem saber qual o número do conteúdo desejado entre trilhões de arquivos, portanto, é utilizado o tradicional índice invertido, que permite consultar quais arquivos contêm as palavras-chave correspondentes. Em seguida, o Google utilizou o índice vetorial para processar buscas semânticas, ou seja, para encontrar conteúdos que são semanticamente semelhantes à consulta. Ele converte textos, imagens e outros conteúdos em vetores de alta dimensão (embedding) e realiza buscas com base na similaridade entre esses vetores. Por exemplo, mesmo que um usuário busque "como fazer massa de pizza", o mecanismo de busca pode retornar resultados relacionados a "guia para fazer massa de pizza", pois eles são semanticamente semelhantes. Após passar pelos índices invertido e vetorial, cerca de cem mil páginas da web são pré-selecionadas.
Classificação multinível
Os sistemas geralmente filtram centenas de milhares de páginas candidatas para cerca de 1000, usando características leves de milhares de dimensões, como BM25, TF-IDF e pontuação de qualidade da página, formando um conjunto inicial de candidatos. Esses sistemas são coletivamente chamados de motores de recomendação. Eles dependem de uma vasta gama de características geradas por várias entidades, incluindo comportamento do usuário, atributos da página, intenção de busca e sinais de contexto. Por exemplo, o Google integra informações do histórico do usuário, feedback de comportamento de outros usuários, semântica da página, significado da consulta e outros fatores contextuais, como tempo (período do dia, dias específicos da semana) e eventos externos como notícias em tempo real.
Classificação principal com aprendizado profundo
Na fase de busca preliminar, o Google utiliza tecnologias como RankBrain e Neural Matching para entender o significado das consultas e filtrar resultados preliminarmente relevantes de um vasto conjunto de documentos. O RankBrain é um sistema de aprendizado de máquina introduzido pelo Google em 2015, com o objetivo de entender melhor o significado das consultas dos usuários, especialmente aquelas que aparecem pela primeira vez. Ele converte consultas e documentos em representações vetoriais e calcula a similaridade entre eles, encontrando assim os resultados mais relevantes. Por exemplo, para a consulta "como fazer massa de pizza", mesmo que não haja palavras-chave correspondentes exatamente nos documentos, o RankBrain consegue identificar conteúdos relacionados a "base de pizza" ou "preparação de massa".
Neural Matching é uma outra tecnologia lançada pelo Google em 2018, destinada a compreender mais profundamente as relações semânticas entre consultas e documentos. Ela utiliza modelos de redes neurais para capturar relações ambíguas entre palavras, ajudando o Google a combinar melhor as consultas e o conteúdo das páginas. Por exemplo, para a consulta "por que o ventilador do meu laptop faz muito barulho", o Neural Matching consegue entender que o usuário pode estar à procura de informações sobre problemas relacionados a superaquecimento, acúmulo de poeira ou alta utilização da CPU, mesmo que essas palavras não apareçam diretamente na consulta.
Reorganização Profunda: Aplicação do Modelo BERT
Após a triagem preliminar dos documentos relevantes, o Google utiliza o modelo BERT (Bidirectional Encoder Representations from Transformers) para classificar esses documentos de forma mais precisa, a fim de garantir que os resultados mais relevantes apareçam primeiro. O BERT é um modelo de linguagem pré-treinado baseado em Transformer, capaz de entender as relações contextuais das palavras dentro das frases. Na busca, o BERT é usado para reordenar os documentos inicialmente recuperados. Ele realiza a codificação conjunta da consulta e dos documentos, calculando a pontuação de relevância entre eles, o que permite a reordenação dos documentos. Por exemplo, para a consulta "estacionar em uma rampa sem guia", o BERT é capaz de entender o significado de "sem guia" e retornar sugestões para que o motorista dirija as rodas em direção ao meio-fio, em vez de interpretar erroneamente como uma situação com guia. Para os engenheiros de SEO, isso significa que é necessário aprender com precisão o algoritmo de classificação do Google e os algoritmos de recomendação de aprendizado de máquina, a fim de otimizar o conteúdo da página de forma direcionada e obter uma exibição de classificação mais alta.
Acima está o fluxo de trabalho típico do motor de busca Google. No entanto, na atual era da explosão da IA e dos grandes dados, os usuários têm novas necessidades em relação à interação com os navegadores.
Por que a IA está a remodelar os navegadores
Primeiro, precisamos esclarecer por que a forma do navegador ainda existe? Existe uma terceira forma?
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Ecossistema de navegador capacitado por IA: a revolução da exibição de informações à chamada de tarefas inteligentes
A Revolução dos Navegadores na Era da IA: Da Exibição de Informações à Chamada de Tarefas
A terceira guerra dos navegadores está se desenrolando silenciosamente. Desde o Netscape e o Internet Explorer da Microsoft nos anos 90, até o Firefox de código aberto e o Google Chrome, a disputa entre navegadores sempre foi uma manifestação concentrada do controle da plataforma e da mudança de paradigmas tecnológicos. O Chrome conquistou a posição de dominância graças à velocidade de atualização e à interconexão do ecossistema, enquanto o Google, através da estrutura de "duopólio" entre busca e navegador, formou um ciclo fechado de entrada de informações.
No entanto, esse padrão está se desfazendo. A ascensão de modelos de linguagem de grande porte (LLM) está fazendo com que cada vez mais usuários realizem tarefas na página de resultados de busca com "zero cliques", reduzindo o comportamento tradicional de cliques em páginas da web. Ao mesmo tempo, rumores sobre a possibilidade de a Apple substituir o motor de busca padrão no Safari ameaçam ainda mais a base de lucros da Alphabet, e o mercado já começou a mostrar sinais de inquietação em relação à "ortodoxia da busca".
O próprio navegador também enfrenta uma reconfiguração de seu papel. Ele não é apenas uma ferramenta para exibir páginas da web, mas sim um recipiente que agrega diversas capacidades, como entrada de dados, comportamento do usuário e identidade de privacidade. Embora o Agente de IA seja poderoso, para realizar interações complexas na página, chamar dados de identidade locais e controlar elementos da web, ainda precisa do limite de confiança e da sandbox funcional do navegador. O navegador está evoluindo de uma interface humana para uma plataforma de chamadas de sistema para Agentes.
O que realmente pode quebrar o atual padrão de mercado dos navegadores não é outro "Chrome melhor", mas sim uma nova estrutura de interação: não é a apresentação de informações, mas sim a chamada de tarefas. O navegador do futuro deve ser projetado para Agentes de IA - que não apenas conseguem ler, mas também escrever e executar. Projetos como o Browser Use estão tentando semantizar a estrutura das páginas, transformando a interface visual em texto estruturado que pode ser chamado por LLM, realizando um mapeamento de página para instruções, reduzindo significativamente o custo da interação.
Os principais projetos no mercado começaram a experimentar: a Perplexity construiu o navegador nativo Comet, usando IA para substituir os resultados tradicionais de busca; a Brave combina proteção de privacidade com raciocínio local, melhorando as funcionalidades de busca e bloqueio com LLM; enquanto projetos nativos de Crypto como Donut visam uma nova entrada para a interação entre IA e ativos em blockchain. A característica comum desses projetos é: tentar reconstruir a parte de entrada do navegador, em vez de embelezar sua camada de saída.
Para os empreendedores, as oportunidades estão escondidas na relação triangular entre entrada, estrutura e agentes. O navegador, como a interface do mundo chamada pelos Agentes do futuro, significa que quem puder fornecer "blocos de capacidade" estruturados, chamáveis e confiáveis, poderá se tornar parte integrante da nova geração de plataformas. Da SEO à AEO (Otimização do Motor de Agentes), do tráfego de páginas à chamada de cadeias de tarefas, a forma do produto e o pensamento de design estão sendo reestruturados. A terceira guerra dos navegadores ocorre na "entrada" e não na "exibição"; o que decide o vencedor não é mais quem chama a atenção do usuário, mas quem ganha a confiança do Agente e obtém a entrada para a chamada.
Breve História do Desenvolvimento dos Navegadores
No início da década de 90, quando a internet ainda não fazia parte do cotidiano, o Netscape Navigator surgiu, abrindo as portas do mundo digital para milhões de usuários. Este navegador não foi o primeiro, mas foi o primeiro a chegar verdadeiramente ao público e a moldar a experiência da internet.
No entanto, o brilho foi efémero. A Microsoft rapidamente forçou o Internet Explorer a ser empacotado com o sistema operativo Windows, tornando-o o navegador padrão. Esta estratégia é considerada uma "arma secreta da plataforma", que destruiu diretamente a posição de liderança da Netscape no mercado. O IE, aproveitando a capacidade de distribuição do Windows, rapidamente se tornou o dominador da indústria, enquanto a Netscape caiu em um caminho de declínio.
Em tempos de dificuldades, os engenheiros da Netscape escolheram um caminho radical e idealista - tornaram o código-fonte do navegador público e fizeram um apelo à comunidade de código aberto. Este código veio a ser a base do projeto do navegador Mozilla, inicialmente chamado de Phoenix (em referência à fênix renascente), que passou por várias mudanças de nome até finalmente ser chamado de Firefox.
O Firefox não é uma simples cópia do Netscape, ele alcançou várias inovações em experiência do usuário, ecossistema de plugins e segurança. O seu nascimento marca a vitória do espírito open source e também traz nova vitalidade para toda a indústria.
Em 1994, o navegador Opera foi lançado, originário da Noruega, inicialmente como um projeto experimental. Mas a partir da versão 7.0, em 2003, introduziu o motor Presto desenvolvido internamente, sendo o primeiro a suportar CSS, layouts responsivos, controle por voz e codificação Unicode, entre outras tecnologias de ponta. Embora o número de usuários fosse limitado, a tecnologia sempre esteve na vanguarda da indústria, tornando-se "a preferência dos geeks".
No mesmo ano, a Apple lançou o navegador Safari. Embora o motor de busca padrão do Safari desde a sua criação seja o Google, essa história de envolvimento com a Microsoft simboliza a relação complexa e sutil entre os gigantes da Internet: colaboração e competição, sempre andando de mãos dadas.
Em 2007, o IE7 foi lançado com o Windows Vista, mas o feedback do mercado foi morno. Por outro lado, o Firefox, com um ritmo de atualizações mais rápido, um mecanismo de extensões mais amigável e um apelo natural para os desenvolvedores, viu sua quota de mercado subir constantemente para cerca de 20%. A dominância do IE estava gradualmente se afrouxando, e o vento estava mudando.
O Chrome foi lançado em 2008, construído sobre o projeto de código aberto Chromium e o motor WebKit usado pelo Safari. É chamado de navegador "inchado", mas graças à profunda habilidade do Google em publicidade e construção de marca, rapidamente se destacou.
A chave do Chrome não são as funcionalidades, mas sim o ritmo frequente de atualizações de versões (a cada seis semanas) e a experiência unificada em todas as plataformas. Em novembro de 2011, o Chrome superou pela primeira vez o Firefox, alcançando uma quota de mercado de 27%; seis meses depois, ultrapassou novamente o IE, completando a transformação de desafiante a dominador.
Ao mesmo tempo, a internet móvel na China também está formando seu próprio ecossistema. O UC Browser, sob a Alibaba, ganhou rapidamente popularidade no início da década de 2010, especialmente em mercados emergentes como a Índia, Indonésia e China, conquistando a preferência dos usuários de dispositivos de baixo custo graças ao seu design leve e características como compressão de dados para economizar tráfego. Em 2015, sua participação no mercado global de navegadores móveis superou 17%, chegando a 46% na Índia em certos momentos. No entanto, essa vitória não durou. Com o governo indiano intensificando a revisão de segurança de aplicativos chineses, o UC Browser foi forçado a sair de um mercado chave, perdendo gradualmente seu antigo esplendor.
Entrando na década de 2020, a posição dominante do Chrome já está estabelecida, com uma quota de mercado global estável em cerca de 65%. Vale a pena notar que, embora o motor de busca Google e o navegador Chrome pertençam ambos à Alphabet, do ponto de vista do mercado, são dois sistemas hegemônicos independentes - o primeiro controla cerca de 90% dos pontos de entrada de busca globais, enquanto o último detém a maioria dos usuários que entram na rede pela "primeira janela".
Para manter esta estrutura de duopólio, a Google não hesitou em investir muito dinheiro. Em 2022, a Alphabet pagou cerca de 20 mil milhões de dólares à Apple, apenas para manter o Google como o mecanismo de busca padrão no Safari. Analistas apontaram que este gasto equivale a 36% da receita de anúncios de busca que a Google obtém do tráfego do Safari. Em outras palavras, a Google está a pagar uma "taxa de proteção" para sua fortaleza.
Mas a direção do vento mudou novamente. Com a ascensão dos grandes modelos de linguagem (LLM), as buscas tradicionais começaram a ser impactadas. Em 2024, a participação de mercado de busca do Google caiu de 93% para 89%, embora ainda domine, fissuras começaram a aparecer. O que é mais disruptivo são os rumores de que a Apple pode lançar seu próprio motor de busca AI - se o Safari mudar seu mecanismo de busca padrão para a própria empresa, isso não apenas reescreverá o ecossistema, mas poderá também abalar os pilares de lucro da Alphabet. O mercado reagiu rapidamente, e as ações da Alphabet caíram de 170 dólares para 140 dólares, refletindo não apenas o pânico dos investidores, mas também uma profunda inquietação sobre a direção futura da era da busca.
Do Navigator ao Chrome, da ideia de código aberto à comercialização da publicidade, do navegador leve ao assistente de busca AI, a disputa entre navegadores tem sido uma guerra sobre tecnologia, plataforma, conteúdo e controle. O campo de batalha está em constante mudança, mas a essência nunca mudou: quem controla a entrada, define o futuro.
Na ótica dos VC, apoiado nas novas necessidades das pessoas em relação aos motores de busca na era do LLM e da IA, a terceira guerra dos navegadores está a desenrolar-se gradualmente.
Arquitetura antiga dos navegadores modernos
Falando sobre a arquitetura do navegador, a arquitetura tradicional clássica é a seguinte:
Cliente - Entrada do Front-end
Consultar o Google Front End mais próximo através de HTTPS, completar a descriptografia TLS, amostragem QoS e roteamento geográfico. Se tráfego anômalo (DDoS, scraping automático) for detectado, pode-se limitar ou desafiar neste nível.
Consulta de Compreensão
A interface do utilizador precisa de compreender o significado das palavras digitadas pelo utilizador, e existem três etapas: correção ortográfica neural, corrigindo "recpie" para "recipe"; expansão de sinônimos, expandindo "how to fix bike" para "repair bicycle". Análise de intenção, determinando se a consulta é de informação, navegação ou intenção de transação, e atribuindo um pedido Vertical.
Recuperação de Candidatos
A tecnologia de consulta usada pelo Google é chamada de: índice invertido. No índice direto, podemos simplesmente usar um ID para indexar um arquivo. No entanto, os usuários não podem saber qual o número do conteúdo desejado entre trilhões de arquivos, portanto, é utilizado o tradicional índice invertido, que permite consultar quais arquivos contêm as palavras-chave correspondentes. Em seguida, o Google utilizou o índice vetorial para processar buscas semânticas, ou seja, para encontrar conteúdos que são semanticamente semelhantes à consulta. Ele converte textos, imagens e outros conteúdos em vetores de alta dimensão (embedding) e realiza buscas com base na similaridade entre esses vetores. Por exemplo, mesmo que um usuário busque "como fazer massa de pizza", o mecanismo de busca pode retornar resultados relacionados a "guia para fazer massa de pizza", pois eles são semanticamente semelhantes. Após passar pelos índices invertido e vetorial, cerca de cem mil páginas da web são pré-selecionadas.
Classificação multinível
Os sistemas geralmente filtram centenas de milhares de páginas candidatas para cerca de 1000, usando características leves de milhares de dimensões, como BM25, TF-IDF e pontuação de qualidade da página, formando um conjunto inicial de candidatos. Esses sistemas são coletivamente chamados de motores de recomendação. Eles dependem de uma vasta gama de características geradas por várias entidades, incluindo comportamento do usuário, atributos da página, intenção de busca e sinais de contexto. Por exemplo, o Google integra informações do histórico do usuário, feedback de comportamento de outros usuários, semântica da página, significado da consulta e outros fatores contextuais, como tempo (período do dia, dias específicos da semana) e eventos externos como notícias em tempo real.
Classificação principal com aprendizado profundo
Na fase de busca preliminar, o Google utiliza tecnologias como RankBrain e Neural Matching para entender o significado das consultas e filtrar resultados preliminarmente relevantes de um vasto conjunto de documentos. O RankBrain é um sistema de aprendizado de máquina introduzido pelo Google em 2015, com o objetivo de entender melhor o significado das consultas dos usuários, especialmente aquelas que aparecem pela primeira vez. Ele converte consultas e documentos em representações vetoriais e calcula a similaridade entre eles, encontrando assim os resultados mais relevantes. Por exemplo, para a consulta "como fazer massa de pizza", mesmo que não haja palavras-chave correspondentes exatamente nos documentos, o RankBrain consegue identificar conteúdos relacionados a "base de pizza" ou "preparação de massa".
Neural Matching é uma outra tecnologia lançada pelo Google em 2018, destinada a compreender mais profundamente as relações semânticas entre consultas e documentos. Ela utiliza modelos de redes neurais para capturar relações ambíguas entre palavras, ajudando o Google a combinar melhor as consultas e o conteúdo das páginas. Por exemplo, para a consulta "por que o ventilador do meu laptop faz muito barulho", o Neural Matching consegue entender que o usuário pode estar à procura de informações sobre problemas relacionados a superaquecimento, acúmulo de poeira ou alta utilização da CPU, mesmo que essas palavras não apareçam diretamente na consulta.
Reorganização Profunda: Aplicação do Modelo BERT
Após a triagem preliminar dos documentos relevantes, o Google utiliza o modelo BERT (Bidirectional Encoder Representations from Transformers) para classificar esses documentos de forma mais precisa, a fim de garantir que os resultados mais relevantes apareçam primeiro. O BERT é um modelo de linguagem pré-treinado baseado em Transformer, capaz de entender as relações contextuais das palavras dentro das frases. Na busca, o BERT é usado para reordenar os documentos inicialmente recuperados. Ele realiza a codificação conjunta da consulta e dos documentos, calculando a pontuação de relevância entre eles, o que permite a reordenação dos documentos. Por exemplo, para a consulta "estacionar em uma rampa sem guia", o BERT é capaz de entender o significado de "sem guia" e retornar sugestões para que o motorista dirija as rodas em direção ao meio-fio, em vez de interpretar erroneamente como uma situação com guia. Para os engenheiros de SEO, isso significa que é necessário aprender com precisão o algoritmo de classificação do Google e os algoritmos de recomendação de aprendizado de máquina, a fim de otimizar o conteúdo da página de forma direcionada e obter uma exibição de classificação mais alta.
Acima está o fluxo de trabalho típico do motor de busca Google. No entanto, na atual era da explosão da IA e dos grandes dados, os usuários têm novas necessidades em relação à interação com os navegadores.
Por que a IA está a remodelar os navegadores
Primeiro, precisamos esclarecer por que a forma do navegador ainda existe? Existe uma terceira forma?