iProxy.online logo
Proxies para
Recursos
Empresa
Search icon
/
PT
English
Português
Русский
Español
Türkçe
Українська
Tiếng Việt
ไทย
中文
हिंदी
Show menu icon

Como contornar o reCAPTCHA v3 no web scraping: como obter um Trust Score alto na automação

Recensões
Classificação média: 0.00 votos
Author photo
Evgeny Fomenko2026-04-03
Clock icon8 min

Como contornar o reCAPTCHA v3 no web scraping: como obter um Trust Score alto na automação

Se você trabalha com web scraping, arbitragem de tráfego ou monitoramento SEO, provavelmente já enfrentou esta situação: seus proxies móveis estão configurados perfeitamente, as impressões digitais do navegador no Playwright ou em um navegador antidetecção estão mascaradas e funcionando bem, mas o site alvo continua negando acesso. Muitas vezes, o motivo é o reCAPTCHA v3 invisível.

recaptcha-v3-access-landing en.jpg

Diferente de seus antecessores, esta versão não pede para procurar semáforos ou decifrar texto distorcido. Ela opera nos bastidores, analisando fatores comportamentais e retornando seu Trust Score ao proprietário do site.

Vamos entender como o sistema de pontuação do Google realmente funciona, por que a abordagem clássica com proxies nem sempre funciona aqui e como usar corretamente a API do 2Captcha para garantir uma pontuação alta.

Como o reCAPTCHA v3 avalia a "humanidade"

O reCAPTCHA v3 é executado em segundo plano desde o momento em que a página carrega. O script coleta uma série de dados: endereço IP, histórico de sessões do navegador, movimentos do mouse, cliques e outros padrões comportamentais. Com base nessas informações, o Google retorna ao servidor um Score que varia de 0.0 a 1.0.

recaptcha stat.jpg

Quais sinais exatos o Google coleta? O script integrado opera usando o sistema Advanced Risk Analysis, que avalia continuamente centenas de parâmetros. O algoritmo lê a trajetória do movimento do mouse, a velocidade e os padrões de rolagem da página, além do ritmo de digitação no teclado. Somam-se a isso métricas técnicas: reputação do endereço IP, consistência da impressão digital do navegador e o tempo gasto no site antes da ação alvo. Se seu script abre instantaneamente uma página e clica em "Enviar" um milissegundo depois, o algoritmo atribui imediatamente o status de bot.

A escala oficial de pontuação é a seguinte:

  • 0.9 - 1.0: Muito provavelmente humano (acesso completo)
  • 0.7 - 0.8: Provavelmente humano (o site pode deixar passar ou registrar a ação)
  • 0.4 - 0.6: Zona de incerteza (o site pode solicitar verificação adicional, ex.: 2FA)
  • 0.1 - 0.3: Provavelmente um bot (ação bloqueada ou negação completa de acesso)
  • 0.0: Tráfego inequivocamente suspeito e malicioso
Trust Score en.jpg

Como os sites reagem ao seu Score? É importante entender: o reCAPTCHA em si não bloqueia ninguém, apenas fornece ao site sua pontuação. A lógica do servidor do recurso alvo decide o que fazer com você. Normalmente funciona assim: com 0.9, você passa sem questionamento. Se a pontuação cai para 0.5, o site pode acionar uma verificação adicional, como enviar um código SMS ou pedir confirmação de email. E com 0.1, a conexão é simplesmente encerrada ou o formulário retorna um erro silencioso. Portanto, para uma coleta de dados bem-sucedida, nem sempre é necessário buscar a pontuação máxima: manter consistentemente uma pontuação média é suficiente se seu scraper consegue lidar com verificações intermediárias.

O problema da automação é que, mesmo com um IP móvel limpo, uma sessão de script recém-criada sem histórico de cookies frequentemente recebe um Score abaixo de 0.3.

A abordagem do 2Captcha: perfilamento em vez de emulação

Tentar manipular o Score programaticamente é uma tarefa ingrata e cara. O serviço de reconhecimento 2Captcha resolve esse problema de forma mais simples: em vez de enganar algoritmos em tempo real, ele se baseia no perfilamento prévio de seus trabalhadores reais.

2captcha en.jpg

Dentro do sistema, cada trabalhador recebe periodicamente um captcha de teste para medir seu Trust Score pessoal. Essas pontuações são registradas no banco de dados. Quando seu script envia uma requisição à API exigindo um token com score de 0.9, o sistema do 2Captcha direciona a tarefa exclusivamente aos trabalhadores cujo perfil atual no Google mantém um score de 0.9.

Arquitetura da solução: por que o v3 não precisa dos seus proxies?

Aqui está o equívoco mais comum entre desenvolvedores de scrapers. Parece lógico: se seu script funciona através de proxies móveis, você deveria passar exatamente esses proxies para a API do 2Captcha para que o trabalhador resolva o captcha do mesmo endereço IP.

Fato oficial: O 2Captcha não suporta a passagem de proxies personalizados para reCAPTCHA V3 e Enterprise V3. A API usa exclusivamente o tipo de tarefa RecaptchaV3TaskProxyless.

Por quê? A experiência do serviço mostra que o uso de servidores proxy de terceiros ao resolver o v3 reduz drasticamente a taxa de sucesso. O trabalhador abre o site alvo a partir de seu endereço IP real e com seu histórico natural e acumulado de navegação — é exatamente isso que produz um Score alto. O token gerado é retornado ao seu script via API. É crucial entender: o endereço IP do cliente ao enviar o formulário final no site não precisa coincidir com o IP do trabalhador que obteve o token.

Integração da API: parâmetros obrigatórios

Para solicitar uma solução, você deve enviar uma requisição POST ao método createTask da API v2. Parâmetros-chave no JSON:

  • type: Sempre RecaptchaV3TaskProxyless
  • websiteURL (obrigatório): A URL completa da página onde o script do captcha está carregado
  • websiteKey (obrigatório): A chave do site. É fácil encontrar no código-fonte no parâmetro data-sitekey ou interceptar nas requisições de rede
  • minScore (obrigatório): A pontuação desejada. Valores disponíveis: 0.3, 0.7 e 0.9
  • pageAction (opcional): O parâmetro action do código do site (ex.: action: 'login'). Se existir no site, deve ser passado
  • apiDomain (opcional): O domínio de carregamento do script. Por padrão é google.com, mas recaptcha.net é usado em algumas localizações

Quando a API retornar o token pronto (uma string longa como 03ADUVZwB7...), seu script precisa apenas inseri-lo no campo oculto g-recaptcha-response ou passá-lo para a função callback do site, por exemplo, window.verifyRecaptcha(token).

Integração do token: lógica de trabalho do scraper

Obter um token da API com sucesso é apenas metade da batalha. Você também precisa "alimentar" corretamente o site com ele. No entanto, simplesmente substituir o valor no campo oculto muitas vezes não é suficiente.

playwright-recaptcha-elements-mock.jpg

Na maioria dos casos, você precisa encontrar o campo oculto com o ID g-recaptcha-response e inserir o token executando JavaScript no contexto da página (por exemplo, usando page.evaluate()). Mas os sites frequentemente também exigem a invocação de uma função callback que valida os dados e envia o formulário adiante. Sempre verifique o código-fonte do botão de envio para entender exatamente qual script está esperando seu token.

Ocultando a automação: a importância dos módulos Stealth

Ao escrever scrapers em Python, muitos ignoram um detalhe crítico: um navegador headless "puro" é detectado instantaneamente. Se você usa o Playwright padrão, os algoritmos de segurança podem reconhecer a automação antes mesmo de enviar a tarefa para a API do 2Captcha. Use obrigatoriamente pacotes de mascaramento, como playwright-stealth. Eles escondem marcadores de comportamento automatizado (por exemplo, removendo a flag navigator.webdriver), tornando seu navegador indistinguível de um Chrome de usuário comum. Sem essa preparação, até um captcha perfeitamente resolvido por um trabalhador real pode ser rejeitado por um site paranoico porque sua própria impressão digital inicial do navegador já estava comprometida.

Interação do reCAPTCHA v3 com sistemas antifraude complexos

É importante entender: sites grandes raramente são protegidos apenas por um captcha. A pontuação do Google é frequentemente passada adiante para sistemas WAF (Web Application Firewall) robustos como Akamai ou Imperva. Eles agregam todos os dados juntos.

Isso significa que o servidor não simplesmente verifica o token do 2Captcha; ele o correlaciona com suas impressões digitais de rede (como TLS handshakes e parâmetros TCP/IP). Se seu scraper tem uma "pegada" de rede suja, o WAF rejeitará a requisição antes mesmo de verificar o captcha. Nesse cenário, gerar tokens é inútil: a raiz do problema é mais profunda, no nível da conexão de rede.

Especificidades do reCAPTCHA Enterprise

Além do reCAPTCHA V3 padrão, algumas plataformas usam a versão corporativa avançada — reCAPTCHA Enterprise. Ela analisa fraudes de forma muito mais rigorosa.

É fácil identificar: em vez do api.js padrão, o script enterprise.js é carregado no site, e chamadas grecaptcha.enterprise.execute aparecem no código.

Para resolver esse tipo de captcha, o mesmo tipo de tarefa RecaptchaV3TaskProxyless é usado, mas o parâmetro booleano "isEnterprise": true deve ser adicionado à requisição. Fique atento aos tempos: enquanto um v3 regular é resolvido por trabalhadores em média em ~5 segundos, a versão Enterprise leva cerca de ~13 segundos. Você precisa considerar isso nos timeouts dos seus scripts.

Economia da automação: otimização de custos

Não ceda à tentação de sempre solicitar o minScore: 0.9 máximo se você não tem certeza de que o site realmente precisa dessa pontuação. A configuração correta economizará seu orçamento.

Os preços do 2Captcha para v3 dependem da pontuação solicitada:

  • Requisições com minScore <= 0.3 custam $1.45 por 1.000 soluções
  • Requisições com minScore > 0.3 (ou seja, 0.7 ou 0.9) custam $2.99 por 1.000 soluções

Melhor prática da documentação oficial: Durante a fase de testes e depuração do seu scraper, sempre comece com a pontuação mínima aceitável de 0.3. Aumente os requisitos para 0.7 ou 0.9 apenas se o recurso alvo começar a rejeitar mais de 50% dos tokens enviados.

Por que scripts próprios e redes neurais são inúteis aqui

Muitos estão acostumados a resolver captchas de imagem simples usando scripts próprios ou modelos OCR de código aberto. Para o v3, essa abordagem simplesmente não funciona. Sua rede neural local é fisicamente incapaz de gerar um token g-recaptcha-response porque ele é assinado criptograficamente nos servidores fechados do Google após avaliação de um perfil real. Delegar essa tarefa a humanos reais via requisições Proxyless é o único caminho tecnicamente viável.

A combinação de IPs móveis de qualidade e o uso correto da API do 2Captcha via requisições Proxyless permite construir um sistema de coleta de dados praticamente invulnerável, imune a qualquer verificação invisível de Trust Score.

Avalie este artigo, se gostar: