O ChatGPT tem ajudado muito a indústria de SEO!
Da mesma forma, gerar scripts Python para tarefas específicas de SEO tornou-se uma folia de gaiato. Cá no Botpresso, construímos muitos scripts Python para SEO.
Na semana passada, compartilhamos um script Python gerado via ChatGPT que ajuda a gerar o planta do site internacional Hreflang Tag.
Hoje, estamos compartilhando um incrível script Python que ajudará você a encontrar links internos que estão faltando no HTML renderizado pelo Google.
Mas vamos primeiro nos aprofundar no motivo pelo qual precisamos desse script em primeiro lugar.
Enunciação do problema
Digamos que você tenha um projeto que implementou excelentes links internos em todo o site, mas ainda não gerou o prolongamento esperado.
O problema pode ser que os links internos não estão sendo renderizados pelo Google.
Solução
Usando nascente script, você pode deslindar imediatamente quais links para uma página da Web estão faltando no HTML renderizado.
Passo 1: Crie um registo txt bruto onde você colaria view-source: Code
Passo 2: Crie um registo txt HTML renderizado onde você colaria o código HTML renderizado, você pode encontrar o HTML renderizado na utensílio de resultados avançados do Google ou no Google Search Console
Lanço 3: Execute o script
E aí está, na saída você obterá todos os links que não foram encontrados no HTML renderizado. Agora você pode rastrear esses links usando seu rastreador predilecto, porquê o Screaming Frog, para ver quais URLs devem ser indexáveis.
E essa é a oportunidade que você está perdendo.
Cá está o Código
from bs4 import BeautifulSoup
def extract_internal_links(html_file):
with open(html_file, 'r') as f:
soup = BeautifulSoup(f.read(), 'html.parser')
links = soup.find_all('a')
internal_links = set()
for link in links:
href = link.get('href')
if href and not href.startswith('http'):
internal_links.add(href)
return internal_links
raw_html_file = "./raw_html_file.txt"
google_html_file = "./google_rendered_html_file.txt"
raw_links = extract_internal_links(raw_html_file)
google_links = extract_internal_links(google_html_file)
missing_links = raw_links - google_links
print(f"Number of internal links detected between the two files: {len(raw_links & google_links)}")
if len(missing_links) > 0:
print(f"Number of internal links missing from Google rendered HTML: {len(missing_links)}")
print(f"Missing internal links: {missing_links}")
else:
print("No missing internal links in Google rendered HTML.")
Cá está o registo Replit que você pode bifurcar e principiar a usar https://replit.com/@KunjalChawhan/FindMissingInlinksFromGoogleRenderedHTML
Cá está um exemplo onde podemos ver que muitos links do site da BarnesandNoble estavam faltando no HTML renderizado