Evitando conteúdo duplicado pelas URL`s com PHP

Como tinha prometido no post anterior onde citei algumas dicas de como otimizar a estrutura dos arquivos do seu site agora vamos falar mais afundo de como evitar conteúdo duplicado, que é um assunto muito importante para SEO, e para isso vamos usar uma versão mais completa do script citado no post anterior, mãos à obra.

Um erro muito frequente em websites é a não canonização das URL’s para cada uma das páginas do site, vamos entender melhor o que é a canonização das URL’s de um site.

Canonização das URL’s

Existem várias formas de se linkar para uma determinada página como por exemplo:

  • www.site.com.br/pagina.php?id=1234 – sem URL’s amigáveis
  • site.com.br/pagina.php?id=1234 – sem URL’s amigáveis
  • www.site.com.br/titulo-da-pagina-1234 – com URL’s amigáveis
  • site.com.br/titulo-da-pagina-1234 – com URL’s amigáveis

As quatro URL’s acima são diferentes, óbvio, e todas elas se acessadas irão mostrar uma página idêntica ou seja com o mesmo conteúdo. Para os buscadores isso acaba sendo um problema e pra você também, como o PageRank é de certa forma um tipo de pontuação da página pelo Google, se estiver disponível as quatro formas de acessar a página o PageRank pode ser divido entre essas URL’s.

Para evitar isso, deve ser escolhido uma forma padrão de link permanente para as páginas do site, claro, aplicando uma regra simples de usabilidade devemos sempre deixar as quatro opções disponíveis para serem acessadas, mas no final das contas uma única URL deve ser eleita como principal. Existe uma forma correta de fazer isso, e se não for seguida o conteúdo duplicado continuará a existir prejudicando seu site nos buscadores.

Script para canonização das URL’s

Antes de ir direto ao script você precisa ter em mente algumas premissas:

  • Escolha uma única forma de link permanente das páginas do seu site.
  • URL que não existe conteúdo nela deve estritamente retornar o Código de Status HTTP 404.
  • Existem pelo menos duas formas de se acessar a raiz de um diretório, acessando o arquivo índice (index.html como padrão no apache) e acessando direto o diretório com o “/”, portanto escolha uma da opções e use como padrão em todos os sub-diretórios do seu site.
  • Quando existir mais de uma URL para o mesmo conteúdo use o Código de Status HTTP 301 de redirecionamento permanente para apenas uma das URL’s.

Esses são os principais pontos sobre a canonização das URL’s do site. Se você achar importante destacar mais algum ponto por favor deixe um comentário e vamos aprender juntos.

Apenas para lembrar que para usar o script abaixo é necessário que seja seguido a dicas citadas no post anterior sobre estrutura de arquivos do site.

Como o script é um tanto longo e não ficou legal em nenhuma das tentativas de colocar no corpo do post como texto, criei uma imagem de uma parte dele para ilustrar e também disponibilizei para download o arquivo com o script em PHP no link da imagem abaixo.

Download do Script

Como na imagem acima o script é comentado linha por linha, cada ação executada pelo script foi devidamente comentada para facilitar o entendimento das ações do script.

O script foi feito em PHP por mim e pelos meus colegas da Agência Hive, e também incluí a dica comentada no post anterior por outro parceiro, Stephan, administrador do Portal HxBr.

Tenho certeza que existem outras formas de se fazer este mesmo script em PHP, se você sabe uma forma de reduzí-lo manda bala que nós vamos fornando um script cada vez melhor.
Valeu e até o proximo post :)

Gostou? Twite isso!

Leia também:

Envie seu comentário

@TwitteLembra

Lembretes no Twitter