Posts Recentes:

Reino Unido abre escritório em São Francisco para enfrentar o risco de IA

Antes do início da cúpula de segurança de...

Blue Origin lança com sucesso sua primeira missão tripulada desde 2022

A Blue Origin concluiu com sucesso sua missão...

Python SEO Script para encontrar links internos ausentes no HTML renderizado pelo Google


O ChatGPT tem ajudado muito a indústria de SEO!

Da mesma forma, gerar scripts Python para tarefas específicas de SEO tornou-se uma folia de gaiato. Cá no Botpresso, construímos muitos scripts Python para SEO.

Na semana passada, compartilhamos um script Python gerado via ChatGPT que ajuda a gerar o planta do site internacional Hreflang Tag.

Hoje, estamos compartilhando um incrível script Python que ajudará você a encontrar links internos que estão faltando no HTML renderizado pelo Google.

Mas vamos primeiro nos aprofundar no motivo pelo qual precisamos desse script em primeiro lugar.

Enunciação do problema

Digamos que você tenha um projeto que implementou excelentes links internos em todo o site, mas ainda não gerou o prolongamento esperado.

O problema pode ser que os links internos não estão sendo renderizados pelo Google.

Solução

Usando nascente script, você pode deslindar imediatamente quais links para uma página da Web estão faltando no HTML renderizado.

Passo 1: Crie um registo txt bruto onde você colaria view-source: Code

Passo 2: Crie um registo txt HTML renderizado onde você colaria o código HTML renderizado, você pode encontrar o HTML renderizado na utensílio de resultados avançados do Google ou no Google Search Console

Lanço 3: Execute o script

E aí está, na saída você obterá todos os links que não foram encontrados no HTML renderizado. Agora você pode rastrear esses links usando seu rastreador predilecto, porquê o Screaming Frog, para ver quais URLs devem ser indexáveis.

E essa é a oportunidade que você está perdendo.

Cá está o Código

from bs4 import BeautifulSoup

def extract_internal_links(html_file):
    with open(html_file, 'r') as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        links = soup.find_all('a')
        internal_links = set()
        for link in links:
            href = link.get('href')
            if href and not href.startswith('http'):
                internal_links.add(href)
        return internal_links

raw_html_file = "./raw_html_file.txt"
google_html_file = "./google_rendered_html_file.txt"

raw_links = extract_internal_links(raw_html_file)
google_links = extract_internal_links(google_html_file)

missing_links = raw_links - google_links

print(f"Number of internal links detected between the two files: {len(raw_links & google_links)}")
if len(missing_links) > 0:
    print(f"Number of internal links missing from Google rendered HTML: {len(missing_links)}")
    print(f"Missing internal links: {missing_links}")
else:
    print("No missing internal links in Google rendered HTML.")

Cá está o registo Replit que você pode bifurcar e principiar a usar https://replit.com/@KunjalChawhan/FindMissingInlinksFromGoogleRenderedHTML

Cá está um exemplo onde podemos ver que muitos links do site da BarnesandNoble estavam faltando no HTML renderizado

FindMissingInlinksFromGoogleRenderedHTML Replit

Últimas

Reino Unido abre escritório em São Francisco para enfrentar o risco de IA

Antes do início da cúpula de segurança de...

Blue Origin lança com sucesso sua primeira missão tripulada desde 2022

A Blue Origin concluiu com sucesso sua missão...

A agência de Hollywood CAA pretende ajudar as estrelas a gerenciar suas próprias semelhanças de IA

A Creative Artists Agency (CAA), uma das principais...

Assine

spot_img

Veja Também

Reino Unido abre escritório em São Francisco para enfrentar o risco de IA

Antes do início da cúpula de segurança de...

Blue Origin lança com sucesso sua primeira missão tripulada desde 2022

A Blue Origin concluiu com sucesso sua missão...

A agência de Hollywood CAA pretende ajudar as estrelas a gerenciar suas próprias semelhanças de IA

A Creative Artists Agency (CAA), uma das principais...

Google adiciona Gemini ao seu pacote educacional

Google apresentou uma tonelada de novos produtos relacionados...
spot_img

Reino Unido abre escritório em São Francisco para enfrentar o risco de IA

Antes do início da cúpula de segurança de IA em Seul, Coreia do Sul ainda esta semana, o seu co-anfitrião, o Reino Unido,...

Expedia diz que dois executivos foram demitidos após ‘violação da política da empresa’

A Expedia diz que Rathi Murthy e Sreenivas Rachamadugu, respectivamente seu CTO e vice-presidente sênior de produtos e engenharia de serviços essenciais, não...

Blue Origin lança com sucesso sua primeira missão tripulada desde 2022

A Blue Origin concluiu com sucesso sua missão NS-25, retomando os voos tripulados para pela primeira vez em quase dois anos.A missão levou...