Proste wykrywanie i obsługa zduplikowanych treści

0 napisany przez Sławomir Borowy, 12 lipca 2016

W pracy nad optymalizacją witryn, pozycjonerzy niemal zawsze znajdują i zalecają usunięcie powielających się treści. Ale im więcej podstron, tym trudniej duplikaty wyłapać. Dalszy rozwój serwisu, szczególnie tworzonego zespołowo, zwiększa prawdopodobieństwo wystąpienia kolejnych powieleń. Nawet sama aktualizacja CMS-a czy jego ustawień może spowodować, że Googlebot zacznie indeksować materiały identyczne z tymi, które Google ma już w swojej bazie.

Dlaczego duplikaty podstron są złe?

Brak czasu i wypracowanych metod szybkiego wykrywania duplikatów powoduje, że pozycjonerzy nierzadko ograniczają się do ustalenia podstawowej wersji z/bez subdomeny „www.”, co jest w optymalizacji rzeczą podstawową, ale jednak daleką od pełnej obsługi duplikatów.

Jedną z fundamentalnych rzeczy w optymalizacji SEO jest dążenie do prezentowania unikalnych materiałów. Google chce premiować w wynikach swojej wyszukiwarki zróżnicowane treści, dlatego też podstronie identycznej lub bardzo podobnej do innych dostępnych w sieci trudniej będzie zdobywać widoczność. W przypadku duplikatów wewnętrznych to jednak pomniejszy problem w obliczu poważniejszych problemów, jak np. „kanibalizacji” w wynikach wyszukiwania, czy narażenie się dedykowanemu algorytmowi „Panda” usuwającemu treści niskiej wartości (w tym w duplikatów) z wyszukiwarki.

O funkcjonującym od 5 lat algorytmie „Panda” napisano już dużo. Dla pracy z duplikatami istotny jest jedynie fakt, że relatywnie duża liczba powielonych treści naraża witrynę na negatywną ocenę algorytmu, a to zwykle oznacza poważny spadek zasięgu w organicznych wynikach wyszukiwania.

Drugi – często poważniejszy problem – to wzajemna kanibalizacja podstron w wynikach wyszukiwania, rozumiana jako rywalizacja kilku podobnych lub identycznych podstron jednego serwisu dla tego samego słowa kluczowego. Kanibalizację rozważa się najczęściej jako rywalizację reklam AdWords z wynikami organicznymi.

Wykrycie faktycznie rywalizujących ze sobą podstron wymaga dedykowanych narzędzi do monitorowania pozycji. Część z nich, np. Web-Tools w wersji serwerowej daje dostęp do analizy kanibalizacji wskazanych fraz:

web-tools raport kanibalizacji

Trzeci, rzadko zauważany problem, to tzw. „budżet robota indeksującego”. Zasoby mocy obliczeniowej serwerów Google są ograniczone, dlatego też w oparciu o czynniki jakościowe Googlebot może indeksować dużą objętościowo witrynę nawet kilka miesięcy. Podstrona produktu w sklepie internetowym do momentu wizyty robota i dodania do bazy Google pozostanie niewidoczna dla wyszukiwarki i jej użytkowników.  Indeksację można przyspieszyć poprawiając zaufanie (zdobywając linki), regularnie publikując nowe treści, poprawiając szybkość pracy serwera oraz… usuwając duplikaty, które „zjadają” czas, jaki Googlebot przeznaczył na wizytę w witrynie.

Jak wykrywać duplikaty wewnętrzne?

Pierwszą, często polecaną i zupełnie niezłą metodą jest praca z Google Search Console. Narzędzie wskazuje powielone tagi Title i opisy Description, co często implikuje, że takie podstrony będą zawierać bardzo podobną treść:

duplikaty w Search Console

Linki „Podwójne tagi tytułowe” i (raczej jako uzupełnienie) „Podwójne meta-opisy” to źródłowy materiał do wyśledzenia duplikatów. Niestety, w związku z opisaną wyżej kwestią ograniczonych zasobów Googlebota, żeby w ten sposób wykryć duplikaty, witryna musi zostać najpierw zaindeksowana, co samo w sobie przeczy efektywności takiego rozwiązania. Dodatkowo, opóźnienia w prezentacji danych w Search Console mogą prowadzić do mylnych wniosków nawet z negatywną oceną dobrze zoptymalizowanej witryny, której robot po zmianach jeszcze w całości nie przeindeksował.

Dlatego właśnie duplikaty podstron lepiej będzie wyśledzić własnym robotem. Dwa najpopularniejsze to Xenu’s Link Sleuth oraz Screaming Frog SEO Spider. Xenu jest narzędziem całkowicie darmowym i pozwoli wykonać podobną analizę jak Search Console (pomocny będzie tu eksport danych do arkusza kalkulacyjnego). Uznane w świecie SEO narzędzie Screaming Frog przeanalizuje bezpłatnie do 500 URL-i, jest za to daleko bardziej rozbudowane i z miejsca wskazuje dokładne duplikaty podstron!

Frog posiada pomocną funkcję wykrywającą dokładne duplikaty podstron, generując kod i porównując hash każdej podstrony. W ten sposób nie wykryjemy stron bardzo podobnych, natomiast mamy gotowy raport identycznych podstron o różnych adresach URL:

Duplikaty hash w Screaming Frog

Raport dostępny jest w zakładce „URL” po ustawieniu filtra „Duplicate”, oczywiście już po przeanalizowaniu witryny przez robota.

Typowe miejsca występowania powielonych treści

Dużą część duplikatów można też wykryć na etapie tworzonej dopiero witryny, analizując typowe miejsca występowania problemów.

Lista kontrolna powinna zawierać się w badaniu kolejnych sposobów indeksacji podstron:

  • – wyników wewnętrznej wyszukiwarki,
  • – występowania znaku „slash” (prawego ukośnika) na końcu podstron,
  • filtrowania i sortowania list produktów/publikacji (w tym także stronicowania),
  • – schematu budowania podstron tagów (w blogach),
  • – schematu budowania linków do podstron produktów/artykułów dostępnych równocześnie w kilku kategoriach,
  • – możliwości generowania subdomen typu „wildcard”,
  • znacznika hreflang dla podstron dedykowanych dla różnych krajów dla bardzo zbliżonego języka, (np. USA, Wielka Brytania, Australia, itp.),
  • podstawowego adresu domeny, rozumianego nie tylko jako określenie wersji z lub bez przedrostka „www”, ale też wersji protokołu (http/https) oraz adresu strony głównej,
  • – obsługi wszelkich dodatkowych parametrów w adresach URL (parametry sesji, linki afiliacyjne)

Do analizy takiej listy nie ma gotowych narzędzi, ale tak tworzące się duplikaty będą zwykle schematyczne i znajdując jeden, będzie można problem rozwiązać globalnie w skali serwisu.

Rozwiązywanie problemu duplikatów wewnętrznych

Sama analiza i wykrycie powielonych treści nie da oczywiście żadnych wymiernych korzyści dla serwisu. Duplikaty trzeba w jakiś sposób obsłużyć, a rozwiązanie zależeć będzie od możliwości CMS-a, posiadanego czasu, a przede wszystkim celów, dla których pierwotnie zduplikowane treści w ogóle powstały (jeśli nie były przypadkowe).

Doświadczenie wskazuje, że do obsłużenia duplikatów stanowiących błędy techniczne najlepiej wykorzystać (począwszy od rozwiązań najbardziej optymalnych):

  • przekierowanie stałe 301 – działa natychmiast, przenosi moc linków przekierowywanej podstrony, wiele CMS-ów ma wbudowane funkcje/wtyczki do jego obsługi,
  • metatag „canonical” – działa z opóźnieniem (wraz reindeksacją w wyszukiwarce), krótkoterminowo bywa zawodny, finalnie jednak działa podobnie jak przekierowanie 301, choć jest zwykle trudniejszy w implementacji,
  • metatag „noindex” – blokuje indeksację danej podstrony w Google, jednocześnie przy braku dodatkowego (a często błędnie dodawanego) znacznika „nofollow” będzie wystarczającym rozwiązaniem,
  • blokada podstrony w robots.txt –  często najszybsze i najłatwiejsze, ale mało optymalne rozwiązanie, bowiem witryna „gubi” moc linków prowadzących do tak zablokowanych podstron; polecane głównie do blokowania sekcji administracyjnych CMS-ów,
  • fizyczne usunięcie zduplikowanych podstron (zwracanie błędu 404) – znów tracimy jakość linków kierujących do podstrony (oraz tych z niej wychodzących), dodatkowo do momentu wyindeksowania podstrony z wyszukiwarki użytkownicy będą trafiać na nieistniejącą podstronę.

W przypadku występowania dodatkowych parametrów w URL-ach, można alternatywnie spróbować obsłużyć je w panelu Search Console, wskazując po prostu robotowi, co dany parametr robi i jak ma być traktowany przez wyszukiwarkę:

search-console-parametry-url
Praca z parametrami w Search Console posiada jednak dwa istotne obostrzenia. Po pierwsze, trzeba dokładnie wiedzieć, jak obsłużyć wskazany parametr (błąd może spowodować wyindeksowanie dużej części serwisu), a po drugie uzbroić się w cierpliwość. Google wdraża wprowadzone w panelu parametry niekiedy miesiącami, lepiej więc spróbować obsłużyć je samodzielnie w obrębie serwisu (będzie to też korzystne dla współpracy z innymi niż Google wyszukiwarkami).

Duplikaty zewnętrzne

Dużo więcej emocji budzą dyskusje o duplikaty zewnętrzne, czyli sytuacje, gdzie na kilku różnych domenach występuje ta sama (lub bardzo podobna) treść. Wykrywanie takich zjawisk jest trudniejsze i wymaga poświęcenia dużych zasobów czasu i/lub specjalistycznych narzędzi.

Wskazywany często w takim przypadku Copyscape nie sprawdza się do poważniejszych analiz, bo analizuje tylko wskazany URL, a nie treści w całej witrynie. Poszukiwanie duplikatów zewnętrznych nie jest głównym tematem tego materiału, natomiast skrótowo polecam przy ich poszukiwaniach sprawdzić:

  • Siteliner – analizuje duplikaty wewnętrzne i zewnętrzne globalnie dla całych witryn, za darmo przeanalizuje do 250 URL-i (co daje już sporo informacji przy globalnych, powtarzających się  problemach), prezentując wyniki w interesującej formie:
    siteliner-kopie-tresci
    Siteliner umożliwia procentową, ale też wizualną analizę powieleń treści, co znacząco przyspiesza badanie i wykrywanie faktycznych problemów.
  • Plagspotter – alternatywa dla Sitelinera. Także analizuje witrynę na okoliczność kopii (pozwala też na stały monitoring treści); dostępna 7-dniowa wersja testowa pozwala na przynajmniej podstawową pojedynczą analizę serwisu, prezentując wyniki w nieco odmienny sposób:
    Plagspotter - wykrywanie duplikatów treści

(w chwili tworzenia materiału narzędzie ma awarię przez co nie wszystko funkcjonuje jak trzeba, zwykle działa jednak bezproblemowo, cierpliwości!)

Ilustracja tytułowa: www.dailymail.co.uk

O autorze:

Sławomir Borowy

Nie ma dla niego straconych tematów. Nawet, kiedy wszystko wskazuje na to, że strona przestanie być widoczna w wyszukiwarce, on znajduje sposób na odwrócenie trendu. To dlatego obsługuje najważniejszych klientów w agencji 4People. Na imprezach branżowych udowadnia, że o marketingu w wyszukiwarkach można mówić zajmująco, ale też z sensem. Jego wystąpienia mogli oglądać goście wydarzeń, m.in.: Silesia SEM, Festiwal SEO, czy Internetowe Rewolucje z Google. Angażuje się w działalność społeczną. W 2013 roku przez trzy tygodnie uczył kenijskich nauczycieli podstaw obsługi komputerów i internetu.

Komentarze

Marketing dla ludzi
Zapisz się do newslettera!
Zdobywaj wiedzę! Co dwa tygodnie otrzymasz najciekawsze artykuły na swoją skrzynkę e-mail!
...i dołącz do ponad 400 subskrybentów!
Marketing dla ludzi
Zapisz się do newslettera!
Zdobywaj wiedzę! Co dwa tygodnie otrzymasz najciekawsze artykuły na swoją skrzynkę e-mail!