El Contingut Duplicat o Plagi (Web scraping)

El contenido duplicado es un problema tanto para el creador de una web como para el que la copia.

Contingut duplicat i plagi és un problema per al SEOEs muy común encontrar sitios web con contenido copiado literalmente de otros sitios para aumentar sus contenidos y en la mayoría de ocasiones conseguían posicionar sus web mucho mejor que las webs de las que copiaban el contenido. Esto causaba que las primeras páginas de resultados de los buscadores se llenaran de spam y webs que no merecían estar ahí por su contenido (copiado)…

Google se encargó de solucionar el problema con un algoritmo llamado Panda que se encarga de rastrear y penalizar las webs o páginas con contenidos duplicados; ahora bien, el algoritmo también puede fallar y creer que un contenido copiado es el original, es por eso que el plagio sigue siendo un problema tanto para el creador del contenido como para el plagiador.

El Plagi en el SEO

Identifica les URL ‘s amb contingut duplicat (plagi)

Si tenim un lloc web en el qual hi ha més d’un autor i sospitem que podem tenir contingut duplicat d’altres llocs o que altres llocs hagin copiat el nostre contingut podem comprovar-ho ingressant la URL de la qual sospitem en Copyscape.com

   

Si trobem pàgines amb contingut copiat d’altres llocs web estem al “llindar de risc”, podem ser penalitzats per l’algoritme de Google amb el que això comporta.

No obstant això, no sempre que un web té contingut duplicat es fa a mala fe, fins i tot hi ha llocs que no són conscients de tenir contingut duplicat i es troben en males posicions tot i tenir molts enllaços i un contingut de qualitat perquè estan penalitzades.

Tipus de contingut duplicat

  1. El contingut duplicat pot ser “no maliciós” i per tant no cal preocupar-se perquè Google el reconeix com a tal i no requereix cap acció.
    • Quan hi ha contingut duplicat en dos o més llocs d’un lloc web però totes aquestes URL apunten a una sola i / o esmentem part d’un contingut en un fòrum (que és una cosa lògica i natural) no hi ha cap problema i entra dins de l’tipus de contingut duplicat “no maliciós”
  2. Quan apareixen diversos resultats en els cercadors que porten a pàgines diferents amb contingut gairebé idèntic o copiat i enganxat literalment o quan trobem dues o més resultats amb diferents URL ‘s que portin al mateix lloc, per exemple www.misitio.es i misitio.es és contingut duplicat.
    • En el segon cas la solució és senzilla creant una re-direcció 301 a l’arxiu .htaccess (Documentació aquí)
    • En el primer cas hem de crear redireccions pàgina per pàgina a la url que considerem que és la que millor les representa o eliminar el contingut duplicat en cas que realment estigui copiat d’una altra web que no sigui la nostra.
    • Cal tenir també compte amb les descripcions, etiquetes i categories perquè també es pot considerar contingut duplicat si hi ha diverses iguals encara que el seu text sigui diferent; per exemple si escrivim una Guia de SEO per a diverses pàgines i les anomenem “Guia de SEO” a totes … el millor seria crear títols, descripcions i etiquetes diferents per a cada pàgina, ni que sigui afegint “part 1, part 2, part 3, etc … “als títols i descripcions.

Conclusió

Això és un greu problema per al posicionament i cal controlar-lo per evitar situacions irreversibles en les quals no tinguem més remei que deixar el domini abandonat i començar la web de nou amb un altre domini (el pitjor dels casos).

Solucions i Recomanacions de Google aquí