Como encontrar links quebrados em Selenium

⚡ Resumo Inteligente

Encontrando links quebrados em Selenium O WebDriver envolve a coleta de todas as tags de âncora e o envio de uma solicitação HTTP HEAD para cada uma delas. URLe lendo o código de resposta. Links que retornam 400 ou mais são sinalizados como quebrados, enquanto links válidos retornam códigos 2xx.

🔗 Definição: Um link quebrado é um URL que não pode ser alcançado, geralmente retornando um erro 4xx ou 5xx.
🧭 Por que isso importa: Links quebrados prejudicam a experiência do usuário e o SEO, por isso verificações automatizadas substituem a verificação manual lenta.
📥 Coletar links: Use findElements com By.tagName(“a”) para reunir todos os elementos de âncora da página em uma lista.
📡 Enviar solicitação HEAD: Abra um HttpURLConecte-se, defina o método como HEAD e leia o código de resposta por URL.
✅ Validar status: Considere um código de resposta 400 ou superior como link quebrado e qualquer código 2xx como link funcional.

Saiba Mais

O que são links quebrados?

Links quebrados são links ou URLServidores que não estão acessíveis. Eles podem estar fora do ar ou não funcionar devido a algum erro no servidor.

A URL A requisição sempre terá um status 2xx, que é válido. Existem diferentes códigos de status HTTP com diferentes finalidades. Para uma requisição inválida, o status HTTP é 4xx ou 5xx.

Os códigos de status da classe 4xx são usados principalmente para erros do lado do cliente, enquanto os códigos da classe 5xx são usados principalmente para erros de resposta do servidor.

Provavelmente não conseguiremos confirmar se esse link está funcionando ou não até clicarmos e confirmarmos.

Por que você deve verificar links quebrados?

Você deve sempre verificar se não há links quebrados no site, pois o usuário não deve ser direcionado para uma página de erro.

O erro ocorre se as regras não forem atualizadas corretamente ou se os recursos solicitados não existirem no servidor.

A verificação manual de links é uma tarefa tediosa, pois cada página da web pode ter um grande número de links e o processo manual precisa ser repetido para todas as páginas.

Um script de automação usando Selenium que irá automatizar o processo é uma solução mais adequada.

Como verificar links quebrados e imagens em Selenium

Para verificar os links quebrados, você precisará seguir os seguintes passos.

Colete todos os links da página da web com base na tag.
Envie uma solicitação HTTP para o link e leia o código de resposta HTTP.
Descubra se o link é válido ou está quebrado com base no código de resposta HTTP.
Repita isso para todos os links capturados.

Code Encontrar links quebrados em uma página da web

Abaixo está o código do driver da web que testa nosso caso de uso:

package automationPractice;

import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Iterator;
import java.util.List;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;

public class BrokenLinks {

    private static WebDriver driver = null;

    public static void main(String[] args) {
        // TODO Auto-generated method stub

        String homePage = "http://www.zlti.com";
        String url = "";
        HttpURLConnection huc = null;
        int respCode = 200;

        driver = new ChromeDriver();

        driver.manage().window().maximize();

        driver.get(homePage);

        List<WebElement> links = driver.findElements(By.tagName("a"));

        Iterator<WebElement> it = links.iterator();

        while(it.hasNext()){

            url = it.next().getAttribute("href");

            System.out.println(url);

            if(url == null || url.isEmpty()){
                System.out.println("URL is either not configured for anchor tag or it is empty");
                continue;
            }

            if(!url.startsWith(homePage)){
                System.out.println("URL belongs to another domain, skipping it.");
                continue;
            }

            try {
                huc = (HttpURLConnection)(new URL(url).openConnection());

                huc.setRequestMethod("HEAD");

                huc.connect();

                respCode = huc.getResponseCode();

                if(respCode >= 400){
                    System.out.println(url+" is a broken link");
                }
                else{
                    System.out.println(url+" is a valid link");
                }

            } catch (MalformedURLException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        }

        driver.quit();

    }
}

Explicando o código de links quebrados

Etapa 1: importar pacotes

Importe o pacote abaixo além dos pacotes padrão:

import java.net.HttpURLConnection;

Usando os métodos deste pacote, podemos enviar solicitações HTTP e capturar códigos de resposta HTTP da resposta.

Etapa 2: colete todos os links da página da web

Identifique todos os links em uma página da web e armazene-os em uma lista.

List<WebElement> links = driver.findElements(By.tagName("a"));

Obtenha um iterador para percorrer a lista.

Iterator<WebElement> it = links.iterator();

Etapa 3: Identificação e Validação URL

Nesta parte, vamos verificar se um URL pertence a um domínio de terceiros ou se o URL está vazio/nulo.

Obtenha o href da tag de âncora e armazene-o na variável url.

url = it.next().getAttribute("href");

Verifique se o URL se for nulo ou vazio, ignore os passos restantes.

if(url == null || url.isEmpty()){
              System.out.println("URL is either not configured for anchor tag or it is empty");
              continue;
     }

Verifique se o URL Pertence a um domínio principal ou a um domínio de terceiros. Ignore os passos restantes se pertencer a um domínio de terceiros.

 if(!url.startsWith(homePage)){
           System.out.println("URL belongs to another domain, skipping it.");
           continue;
   }

Etapa 4: Enviar solicitação HTTP

O HttpURLA classe Connection possui métodos para enviar uma solicitação HTTP e capturar o código de resposta HTTP. Portanto, a saída do método openConnection() (URLA conexão) é convertida para o tipo HttpURLConexão.

huc = (HttpURLConnection)(new URL(url).openConnection());

Podemos definir o tipo de solicitação como “HEAD” em vez de “GET”, para que apenas os cabeçalhos sejam retornados e não o corpo do documento.

huc.setRequestMethod("HEAD");

Ao invocar o método connect(), a conexão real com a URL é estabelecida e a solicitação é enviada.

huc.connect();

Etapa 5: Validando Links

Usando o getResponseCode() método, podemos obter o código de resposta para a solicitação.

respCode = huc.getResponseCode();

Com base no código de resposta, tentaremos verificar o status do link.

if(respCode >= 400){
        System.out.println(url+" is a broken link");
}
else{
        System.out.println(url+" is a valid link");
}

Dessa forma, podemos obter todos os links de uma página da web e verificar se os links são válidos ou estão quebrados.

Como obter TODOS os links de uma página da Web

Um dos procedimentos comuns na web Testes é testar se todos os links presentes na página estão funcionando. Isto pode ser feito convenientemente usando uma combinação dos Java para cada loop, encontrarElementos() & Por.tagNome(“a”) método.

O método findElements() retorna uma lista de elementos da Web com a tag a. Usando um loop for-each, cada elemento é acessado.

O código WebDriver abaixo verifica cada link do Mercury Página inicial do Tour para determinar aqueles que estão funcionando e aqueles que ainda estão em construção.

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import java.util.List;
import java.util.concurrent.TimeUnit;
import org.openqa.selenium.*;

public class P1 {

    public static void main(String[] args) {
        String baseUrl = "https://demo.guru99.com/test/newtours/";
        System.setProperty("webdriver.chrome.driver", "G:\\chromedriver.exe");
        WebDriver driver = new ChromeDriver();

        String underConsTitle = "Under Construction: Mercury Tours";
        driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);

        driver.get(baseUrl);
        List<WebElement> linkElements = driver.findElements(By.tagName("a"));
        String[] linkTexts = new String[linkElements.size()];
        int i = 0;

        //extract the link texts of each link element
        for (WebElement e : linkElements) {
            linkTexts[i] = e.getText();
            i++;
        }

        //test each link
        for (String t : linkTexts) {
            driver.findElement(By.linkText(t)).click();
            if (driver.getTitle().equals(underConsTitle)) {
                System.out.println("\"" + t + "\""
                        + " is under construction.");
            } else {
                System.out.println("\"" + t + "\""
                        + " is working.");
            }
            driver.navigate().back();
        }
        driver.quit();
    }
}

A saída deve ser semelhante à indicada abaixo.

O acesso aos links das imagens é feito usando os métodos By.cssSelector() e By.xpath().

Solução de problemas

Em um caso isolado, o primeiro link acessado pelo código pode ser o link "Home". Nesse caso, a ação `driver.navigate.back()` exibirá uma página em branco, pois a primeira ação é abrir um navegador. O driver não conseguirá encontrar todos os outros links em um navegador em branco. Portanto, a IDE lançará uma exceção e o restante do código não será executado. Isso pode ser facilmente tratado usando um laço `if`.

Perguntas Frequentes

Selenium Coleta todas as tags de âncora e envia uma solicitação HTTP HEAD para cada uma delas. URLe marca como quebrado qualquer link que retorne 400 ou mais.

Um código 4xx indica um problema do lado do cliente, como uma página ausente, enquanto um código 5xx indica uma falha do lado do servidor durante o processamento da solicitação.

Sim. As fontes de imagem são coletadas com `By.cssSelector()` ou `By.xpath()`, e então cada `src` é adicionado. URL é validado através do seu código de resposta HTTP.

Sim. Os rastreadores baseados em IA examinam páginas, seguem links e sinalizam links quebrados ou com redirecionamento. URLs sem necessidade de programação manual.

A IA monitora a integridade das conexões ao longo do tempo, prevê falhas e sugere substituições, reduzindo as auditorias manuais repetidas das conexões.

Como encontrar links quebrados em Selenium

O que são links quebrados?

Por que você deve verificar links quebrados?

Como verificar links quebrados e imagens em Selenium

Code Encontrar links quebrados em uma página da web

Explicando o código de links quebrados

Etapa 1: importar pacotes

Etapa 2: colete todos os links da página da web

Etapa 3: Identificação e Validação URL

Etapa 4: Enviar solicitação HTTP

Etapa 5: Validando Links

Como obter TODOS os links de uma página da Web

Solução de problemas

Perguntas Frequentes

Resuma esta postagem com:

Assine a newsletter

O que são links quebrados?

Por que você deve verificar links quebrados?

Como verificar links quebrados e imagens em Selenium

Code Encontrar links quebrados em uma página da web

ARTIGOS RELACIONADOS

Explicando o código de links quebrados

Etapa 1: importar pacotes

Etapa 2: colete todos os links da página da web

Etapa 3: Identificação e Validação URL

Etapa 4: Enviar solicitação HTTP

Etapa 5: Validando Links

Como obter TODOS os links de uma página da Web

Solução de problemas

Perguntas Frequentes

Resuma esta postagem com:

Assine a newsletter