Arquivos HAR - katomaro/katomart GitHub Wiki
O que é um arquivo HAR?
Visão Leiga
Imagine que você está fazendo uma viagem pela internet, visitando vários sites, e cada vez que você entra em um site, você recebe um recibo detalhado de tudo o que aconteceu: desde a hora que você entrou, o que você olhou, quanto tempo demorou para as coisas carregarem, até os pequenos bilhetes que você e o site trocaram em segredo. Um arquivo HAR é como uma coleção desses recibos, detalhando a viagem do seu navegador pela web. É como um diário de bordo digital que mostra tudo o que aconteceu nos bastidores durante suas visitas a sites.
Visão Tecnológica
Um arquivo HAR (HTTP Archive format) é um formato de arquivo que registra a interação do navegador com um site em um determinado período. Ele contém informações detalhadas sobre cada recurso web carregado pela página, incluindo o tempo de início e fim de cada solicitação, cabeçalhos HTTP de solicitação e resposta, corpos de mensagem, strings de consulta, cookies e outros detalhes técnicos essenciais para entender o comportamento da web.
Dados Contidos em um Arquivo HAR
Um arquivo HAR pode conter uma vasta gama de informações, tais como:
- URLs dos recursos solicitados.
- Tempo de espera (latência) e tempo de resposta para cada recurso.
- Detalhes da solicitação e resposta HTTP, incluindo cabeçalhos e, ocasionalmente, corpos de conteúdo.
- Cookies enviados e recebidos.
- Informações sobre o navegador e seu ambiente.
Sensibilidade dos Dados
É importante notar que arquivos HAR muitas vezes vão conter informações sensíveis, como:
- Informações pessoais (PII), como endereços de e-mail ou informações de perfil.
- Detalhes de autenticação, como senha, cookies de sessão, que podem permitir o acesso a contas.
- Informações de rede que podem revelar a estrutura e a segurança interna de uma rede empresarial.
Por conta dessa sensibilidade, é crucial manusear e compartilhar arquivos HAR com cuidado, assegurando que eles não sejam expostos a partes não autorizadas.
Gerando um Arquivo HAR
Gerar um arquivo HAR é geralmente um processo simples:
- Abra o navegador de sua escolha (Chrome, Firefox, etc.).
- Acesse as Ferramentas do Desenvolvedor (normalmente acessível com F12 ou clicando com o botão direito e selecionando "Inspecionar").
- Vá para a aba "Rede" e comece a navegar desde o ponto zero para aquela aplicação (ou seja, pré autenticação). É importante que você desabilite o cache e nas configurações marque para que os logs persistam.
- Após concluir sua navegação por toda a plataforma, clique com o botão direito no painel de rede e escolha "Salvar tudo como HAR".
Uso em Web Scraping
Arquivos HAR são extremamente úteis para desenvolvedores e analistas que fazem web scraping, pois fornecem uma visão detalhada das solicitações e respostas entre o cliente e o servidor. Isso pode ajudar a identificar APIs internas, entender como os dados são carregados e estruturados, e desenvolver métodos mais eficientes de coleta de dados.
No entanto, embora os arquivos HAR possam oferecer insights valiosos sobre a funcionalidade de um site, eles não substituem a necessidade de permissões adequadas. Fornecer credenciais de login (quando aplicável e autorizado) para acessar dados diretamente é sempre a abordagem mais segura e eficaz para o desenvolvedor. NUNCA POSTE UM ARQUIVO HAR EM UMA ISSUE eles devem ser encaminhados por email para [email protected].