Posts Recentes:

Criação de artigos exclusivos a partir de feeds RSS importados usando IA

Você sabia que o shortcode é perfeito...

Por que o EQ é importante no trabalho (e no SEO)

A inteligência emocional (EQ) é importante em nosso...

As visões gerais de IA do Google se tornam virais e atraem o escrutínio da mídia convencional

A implementação pelo Google de visões gerais geradas...

Como acelerar as migrações de sites com mapeamento de redirecionamento baseado em IA

Migrar um site grande é sempre assustador. O grande tráfego está em jogo entre muitas partes móveis, desafios técnicos e gestão das partes interessadas.

Historicamente, uma das tarefas mais onerosas num plano de migração tem sido o mapeamento de redirecionamentos. O meticuloso processo de correspondência de URLs do seu site atual com a versão equivalente no novo site.

Felizmente, esta tarefa que anteriormente poderia envolver equipes de pessoas vasculhando milhares de URLs pode ser drasticamente acelerada com modelos modernos de IA.

Você deve usar IA para mapeamento de redirecionamento?

O termo “IA” foi confundido com “ChatGPT” no último ano, então, para ficar bem claro desde o início, não estamos falando sobre o uso de sistemas generativos baseados em IA/LLM para fazer seu mapeamento de redirecionamento.

Embora existam algumas tarefas nas quais ferramentas como o ChatGPT podem ajudá-lo, como escrever aquele regex complicado para a lógica de redirecionamento, o elemento generativo que pode causar alucinações pode potencialmente criar problemas de precisão para nós.

Vantagens de usar IA para mapeamento de redirecionamento

Velocidade

A principal vantagem de usar IA para mapeamento de redirecionamento é a velocidade com que isso pode ser feito. Um mapa inicial de 10.000 URLs poderia ser produzido em poucos minutos e revisado por humanos em poucas horas. Fazer esse processo manualmente para uma única pessoa normalmente levaria dias de trabalho.

Escalabilidade

Usar IA para ajudar a mapear redirecionamentos é um método que você pode usar em um site com 100 URLs ou mais de 1.000.000. Sites grandes também tendem a ser mais programáticos ou modelados, tornando a correspondência de similaridade mais precisa com essas ferramentas.

Eficiência

Para locais maiores, um trabalho envolvendo várias pessoas pode ser facilmente realizado por uma única pessoa com o conhecimento correto, liberando colegas para ajudar em outras partes da migração.

Precisão

Embora o método automatizado obtenha alguns redirecionamentos “errados”, na minha experiência, a precisão geral dos redirecionamentos tem sido maior, pois a saída pode especificar a similaridade da correspondência, dando aos revisores manuais um guia sobre onde sua atenção é mais necessária

Desvantagens de usar IA para mapeamento de redirecionamento

Excesso de confiança

O uso de ferramentas de automação pode tornar as pessoas complacentes e excessivamente dependentes dos resultados. Com uma tarefa tão importante, é sempre necessária uma revisão humana.

Treinamento

O roteiro é pré-escrito e o processo é direto. No entanto, será novo para muitas pessoas e ambientes como o Google Colab podem ser intimidantes.

Variação de saída

Embora o resultado seja determinístico, os modelos terão melhor desempenho em determinados sites do que em outros. Às vezes, a saída pode conter erros “bobos”, que são óbvios para um ser humano detectar, mas mais difíceis para uma máquina.

Um guia passo a passo para mapeamento de URL com IA

Ao final desse processo, pretendemos produzir uma planilha que liste URLs “de” e “para” mapeando os URLs de origem em nosso site ativo para os URLs de destino em nosso (novo) site de teste.

Neste exemplo, para simplificar, mapearemos apenas nossas páginas HTML, e não recursos adicionais, como CSS ou imagens, embora isso também seja possível.

Ferramentas que usaremos

  • Rastreador de sites Screaming Frog: um rastreador de sites poderoso e flexível, o Screaming Frog é como coletamos os URLs e os metadados associados necessários para a correspondência.
  • Colaboração do Google: Um serviço de nuvem gratuito que usa um ambiente de notebook Jupyter, permitindo executar vários idiomas diretamente do seu navegador, sem precisar instalar nada localmente. Google Colab é como executaremos nossos scripts Python para realizar a correspondência de URL.
  • Matchmaker de redirecionamento automatizado para migrações de sites: O script Python de Daniel Emery que estaremos executando no Colab.

Etapa 1: rastreie seu site ativo com Screaming Frog

Você precisará realizar um rastreamento padrão em seu site. Dependendo de como o seu site é construído, isso pode ou não exigir um seo-spider/tutorials/crawl-javascript-seo/#:~:text=If%20you'd%20prefer%20to,Rendering'%20and%20save%20your%20configuration." target="_blank" rel="noopener">Rastreamento JavaScript. O objetivo é produzir uma lista do maior número possível de páginas acessíveis em seu site.

Rastreie seu site ativo com Screaming Frog

Etapa 2: exportar páginas HTML com código de status 200

Assim que o rastreamento for concluído, queremos exportar todos os URLs HTML encontrados com um código de status 200.

Primeiramente, no canto superior esquerdo, precisamos selecionar “HTML” no menu suspenso.

Screaming Frog - Destaque - Filtro HTML

Em seguida, clique no ícone de filtro de controles deslizantes no canto superior direito e crie um filtro para Códigos de status contendo 200.

Destaque: opções de filtros personalizados

Por fim, clique em Exportar para salvar esses dados como um CSV.

Destacado: botão Exportar

Isso fornecerá a você uma lista de nossos URLs ativos atuais e todos os metadados padrão que o Screaming Frog coleta sobre eles, como títulos e tags de cabeçalho. Salve este arquivo como origem.csv.

Nota importante: Seu plano de migração completo precisa levar em conta coisas como redirecionamentos 301 existentes e URLs que podem gerar tráfego em seu site e que não são acessíveis em um rastreamento inicial. Este guia destina-se apenas a demonstrar parte deste processo de mapeamento de URL, não é um guia completo.

Etapa 3: repita as etapas 1 e 2 para seu site de teste

Agora precisamos coletar os mesmos dados do nosso site de teste, para termos algo com que comparar.

Dependendo de como seu site de teste está protegido, pode ser necessário usar recursos como seo-spider/tutorials/crawling-password-protected-websites/" target="_blank" rel="noopener">Autenticação de formulários do Screaming Frog se protegido por senha.

Assim que o rastreamento for concluído, você deverá exportar os dados e salvar este arquivo como destino.csv.

Opcional: encontre e substitua o domínio ou subdomínio do seu site de teste para corresponder ao seu site ativo

É provável que seu site de teste esteja em um subdomínio, TLD ou mesmo domínio diferente que não corresponda ao nosso URL de destino real. Por esse motivo, usarei uma função Localizar e Substituir em meu destination.csv para alterar o caminho para corresponder ao subdomínio, domínio ou TLD final do site ativo.

Por exemplo:

  • Meu site ativo é https://withcandour.co.uk/ (origem.csv)
  • Meu site de teste é https://testing.withcandour.dev/ (destino.csv)
  • O site permanece no mesmo domínio; é apenas um redesenho com URLs diferentes, então eu abriria destination.csv e encontraria qualquer instância de https://testing.withcandour.dev e substitua-o por https://withcandour.co.uk.
Localizar e substituir no Excel

Isto também significa que quando o mapa de redirecionamento é produzido, a saída está correta e apenas a lógica de redirecionamento final precisa ser escrita.

Etapa 4: execute o script Python do Google Colab

Quando você navegue até o script em seu navegador, você verá que ele está dividido em vários blocos de código e passar o mouse sobre cada um deles exibirá um ícone de “reprodução”. Isto se você deseja executar um bloco de código por vez.

Porém, o script funcionará perfeitamente apenas executando todos os blocos de código, o que você pode fazer acessando o Tempo de execução‘menu e selecionando Execute tudo.

Tempo de execução do Google Colab

Não há pré-requisitos para executar o script; criará um ambiente em nuvem e na primeira execução em sua instância demorará cerca de um minuto para instalar os módulos necessários.

Cada bloco de código terá uma pequena marca verde ao lado quando for concluído, mas o terceiro bloco de código exigirá sua entrada para continuar e é fácil perder, pois provavelmente você precisará rolar para baixo para ver o prompt.

Etapa 5: fazer upload de origin.csv e destination.csv

Destaque: prompt de upload de arquivo

Quando solicitado, clique em Escolher os arquivos e navegue até onde você salvou seu arquivo origin.csv. Depois de selecionar este arquivo, ele será carregado e você será solicitado a fazer o mesmo para o seu destination.csv.

Etapa 6: selecione os campos a serem usados ​​para correspondência de similaridade

O que torna esse script particularmente poderoso é a capacidade de usar vários conjuntos de metadados para comparação.

Isso significa que se você estiver em uma situação em que está migrando uma arquitetura em que seu endereço URL não é comparável, você poderá executar o algoritmo de similaridade em outros fatores sob seu controle, como títulos de páginas ou cabeçalhos.

Dê uma olhada em ambos os sites e tente julgar o que você acha que são elementos que permanecem bastante consistentes entre eles. Geralmente, aconselho começar de forma simples e adicionar mais campos se não estiver obtendo os resultados desejados.

No meu exemplo, mantivemos uma convenção de nomenclatura de URL semelhante, embora não idêntica, e os títulos de nossas páginas permanecem consistentes enquanto copiamos o conteúdo.

Selecione os elementos que você deseja usar e clique no botão Vamos!

Campos de correspondência de similaridade

Etapa 7: observe a mágica

Os principais componentes do script são todos MiniLM-L6-v2 e FAISS, mas o que são e o que estão fazendo?

all-MiniLM-L6-v2 é um modelo pequeno e eficiente dentro da série de modelos MiniLM da Microsoft que são projetados para tarefas de processamento de linguagem natural (PNL). O MiniLM irá converter nossos dados de texto que fornecemos em vetores numéricos que capturam seu significado.

Esses vetores permitem então a busca por similaridade, realizada pelo Facebook AI Similarity Search (FAISS), uma biblioteca desenvolvida pela Facebook AI Research para busca eficiente por similaridade e agrupamento de vetores densos. Isso encontrará rapidamente nossos pares de conteúdo mais semelhantes em todo o conjunto de dados.

Etapa 7: Baixe output.csv e classifique por similarity_score

O output.csv deve ser baixado automaticamente do seu navegador. Se você abri-lo, deverá ter três colunas: origin_url, matched_url e similarity_score.

Exemplo de saída csv

No seu software de planilha favorito, eu recomendaria classificar por pontuação_similaridade.

Excel Classificar por pontuação de similaridade

A pontuação de similaridade dá uma ideia de quão boa é a correspondência. Uma pontuação de similaridade de 1 sugere uma correspondência exata.

Ao verificar meu arquivo de saída, percebi imediatamente que aproximadamente 95% dos meus URLs têm uma pontuação de similaridade superior a 0,98, portanto, há uma boa chance de eu ter economizado muito tempo.

Etapa 8: Valide seus resultados por humanos

Preste atenção especial às pontuações de similaridade mais baixas em sua planilha; é provável que não sejam encontradas boas correspondências.

Output.csv: semelhanças com pontuação mais baixa

No meu exemplo, houve algumas correspondências ruins na página da equipe, o que me levou a descobrir que nem todos os perfis da equipe ainda haviam sido criados no site de teste – uma descoberta realmente útil.

O script também nos forneceu recomendações de redirecionamento para conteúdo antigo do blog que decidimos eliminar e não incluir no novo site, mas agora temos uma sugestão de redirecionamento caso queiramos passar o tráfego para algo relacionado – em última análise, a decisão é sua.

Etapa 9: ajuste e repita

Se você não obteve os resultados desejados, verifique novamente se os campos usados ​​para correspondência permanecem tão consistentes quanto possível entre os sites. Caso contrário, tente um campo ou grupo de campos diferente e execute novamente.

Mais IA por vir

Em geral, tenho demorado a adotar qualquer IA (especialmente IA generativa) no processo de mapeamento de redirecionamento, pois o custo dos erros pode ser alto e os erros de IA às vezes podem ser difíceis de detectar.

No entanto, em meus testes, descobri que esses modelos específicos de IA são robustos para essa tarefa específica e mudaram fundamentalmente a forma como abordo as migrações de sites.

A verificação e a supervisão humanas ainda são necessárias, mas a quantidade de tempo economizada com a maior parte do trabalho significa que você pode fazer uma intervenção humana mais completa e cuidadosa e terminar a tarefa muitas horas antes de onde normalmente estaria.

Num futuro não muito distante, espero ver modelos mais específicos que nos permitirão tomar medidas adicionais, incluindo melhorar a velocidade e a eficiência do próximo passo, a lógica de redirecionamento.

Últimas

Criação de artigos exclusivos a partir de feeds RSS importados usando IA

Você sabia que o shortcode é perfeito...

Por que o EQ é importante no trabalho (e no SEO)

A inteligência emocional (EQ) é importante em nosso...

As visões gerais de IA do Google se tornam virais e atraem o escrutínio da mídia convencional

A implementação pelo Google de visões gerais geradas...

Mulheres na IA: Arati Prabhakar acha que é crucial acertar a IA

Para dar às mulheres acadêmicas e outras pessoas...

Assine

spot_img

Veja Também

Criação de artigos exclusivos a partir de feeds RSS importados usando IA

Você sabia que o shortcode é perfeito...

Por que o EQ é importante no trabalho (e no SEO)

A inteligência emocional (EQ) é importante em nosso...

As visões gerais de IA do Google se tornam virais e atraem o escrutínio da mídia convencional

A implementação pelo Google de visões gerais geradas...

Mulheres na IA: Arati Prabhakar acha que é crucial acertar a IA

Para dar às mulheres acadêmicas e outras pessoas...
spot_img

Criação de artigos exclusivos a partir de feeds RSS importados usando IA

Você sabia que o shortcode é perfeito para criar artigos exclusivos com plug-ins CyberSEO Pro e RSS Retriever baseados em conteúdo importado?...

Por que o EQ é importante no trabalho (e no SEO)

A inteligência emocional (EQ) é importante em nosso trabalho e em nossa vida pessoal. Ajuda-nos a gerir e resolver conflitos e a...

As visões gerais de IA do Google se tornam virais e atraem o escrutínio da mídia convencional

A implementação pelo Google de visões gerais geradas por IA nos resultados de pesquisa nos EUA está tomando um rumo desastroso, com os...