Дубли страниц на сайте


Проблема дублей страницДубль страницы – это еще одна копия страницы сайта, аналогичная по содержанию и наполнению. Выделяют два вида дублей:

  1. Полный дубликат страницы – когда содержимое полностью идентично;
  2. Частичный дубликат – когда наполнение страницы по большей степени одинаковое, но имеются отдельные различные элементы.

Почему дубли страниц плохо влияют на ранжирование сайта?

Поисковые системы воспринимают эти страницы, как отдельные страницы сайта, поэтому их наполнение из-за дублирования информации перестает быть уникальным. Кроме того, понижается ссылочный вес страницы, если она имеет дубль. Небольшое количество дублированных страниц может не стать большой проблемой, однако если их более 50% — вам срочно нужно исправлять ситуацию.

Откуда берутся дубли?

Самая распространенная причина – это генерация дублей страниц системой управления из-за неправильных настроек. Самый известный пример – CMS Joomla, с проблемой дублей на ней приходится сталкиваться чуть ли не на каждом сайте.

Частичные дубли часто встречаются на сайтах интернет-магазинов:


  • Они могут появляться на страницах пагинации, если те содержат одинаковый текст, изменяя лишь товары;
  • Неправильные настройки фильтра по каталогу могут порождать частичные и полные дубли;
  • Страницы карточек товаров могут стать дубликатами, если товар, к примеру, отличается лишь цветом или размером (для таких товаров нужно делать одну карточку с указанием всех характеристик).

Как найти дубли страниц?

Есть несколько способов поиска дубликатов страниц, каждый из которых может дать разные результаты.

1. Некоторые распространенные варианты дублей можно проверить вручную.

  • Настроено ли главное зеркало сайта (доступен ли он с www и без www);
  • Имеются ли нечеткие дубли со / и без / на конце url;
  • Наличие дублей с index.html, index.asp, index.php в конце url;
  • Доступность страницы с буквами как в нижнем, так и в верхнем регистре, также порождает дубли.

2. Проанализировать страницы, проиндексированные поисковыми системами.

Для этого в Google достаточно ввести запрос site:mysite.com — он покажет страницы общего индекса, то есть все, что поисковик успел проиндексировать на сайте.


Индекс сайта

3. Поиск по фрагменту текста

Вбивая в поиск длинные фрагменты текста, можно найти места, где он повторяется (а заодно и сайты, которые скопировали ваш текст). Но здесь есть два минуса: метод подходит, если на сайте мало страниц, и то, что поисковая система может анализировать запрос до определенной длины.

Проверка по фрагменту текста

4. Заглянуть в панель вебмастера Google

В разделе «Вид в поиске» находим вкладку «оптимизация HTML» и ищем значение поля «Повторяющиеся метаописания» и «Повторяющиеся заголовки». Нажав на них, можно увидеть список всех страниц с повторяющимися тегами title и description и сами заголовки и описания.

Повторяющиеся метаописания

5. Воспользоваться программой Xenu`s Link Sleuth

Программа распространяется бесплатно и способна определить url всех страниц сайта, включая скрипты и картинки, а также внешние ссылки. Кроме дубликатов в ней удобно искать битые ссылки – страницы, которые возвращают код 404.

Xenu

www.seo.kasper.by

Поиск дублей на сайте


1. Google webmaster — самый простой способ. В разделе «Оптимизация» – «Оптимизация HTML» вам показаны повторяющиеся мета-описания и заголовки Title.

2. Xenu — бесплатная программа, которая поможет проанализировать весь ваш сайт. После анализа необходимо лишь найти одинаковые заголовки страниц.

xenu-amalbakov-dubli


3. Анализ проиндексированных страниц сайта. Ручная кропотливая работа. Полезна для поиска странных и не нужных страниц в выдаче.

4. Netpeak spider — программа, которая поможет проанализировать сайт и найти дубли по Title, description..

Основные дубли

Дубли с www и без

Вы наверняка замечали, что на большинство web-сайтов можно зайти, введя в адресную строку любой из вариантов URL-адреса (сайт с www или без): site.ru или www.site.ru. Нет истинного расположения сайта , так уж исторически сложилось, что наиболее распространенная форма записи доменного имени содержит элемент www, но многие обходятся и без него.

К сожалению, поисковые системы (как Яндекс, так и Google) считают два варианта написания имени отдельными документами. Это приводит к многочисленным проблемам, вплоть до исключения сайта из результатов поиска по причине дублирования контента и к снижению эффективности внешних ссылок. Если одни ссылки ведут на сайт site.ru, а другие — на www.site.ru, то вес ссылок распределяется по разному: пауки поисковых систем, переходящие по ним, воспринимают ваш сайт как два совершенно разных сайта. Вы можете решить данную проблему, перенаправив весь трафик только на один из вариантов написания.


Как проверить

Есть ли данная проблема в вашем случае? Для этого откройте страницу поисковой системы Google (www.google.ru) и введите в строку поиска текст site:site.ru (вместо «site.ru» введите доменное имя вашего сайта). В результатах поиска вы увидите каждую страницу, которую данная поисковая система отнесла к вашему сайту. Если среди результатов вы заметите страницы с именами site.ru и www.site.ru, то проблема с разделением оценки рейтинга присутствует и у вашего сайта. Также обратите внимание на общее количество страниц, найденных поисковой системой, указанное в правом верхнем углу страницы с результатами поиска. Теперь введите в строку поиска текст site:www.site.ru (поменяв шаблон на доменное имя своего сайта, как и в первом случае). Если число найденных страниц ощутимо отличается от результатов первого поиска, то у вашего сайта однозначно присутствует проблема с разделением трафика. Учтите, что при использовании любых других поддоменов, помимо www, данный прием сравнения результатов может не сработать.

Как убрать дубли с www и без со всего сайта

К счастью, перенаправление трафика с адреса site.ru на www.site.ru и наоборот делается очень просто. Для этого необходимо настроить 301 редирект в файле .htaccess, который расположен в корневом каталоге. Он сообщает веб-браузерам и поисковым системам, что данная страница навсегда перемещена из одного месторасположения в другое.


о может быть на том же самом сервере или вообще другое доменное имя. Получая такую команду, браузеры и поисковые системы сразу же переходят по указанному адресу. Редирект 301 — отличный способ объединить дубли страниц и трафик, приходящий на разные варианты адреса вашего сайта. Популярные поисковые системы рекомендуют именно это решение. Перенаправив все ссылки и трафик только на один из вариантов написания доменного имени, вы можете ощутимо поднять общий рейтинг всего сайта. Как настроить 301 редирект, чтобы убрать дубли с www и без со всего сайта? Делается это в файле .htaccess и есть несколько вариантов:

  1. 301 редирект с www
  2. 301 редирект на www

1. Для первого варианта в файле .htaccess добавляем строки:
Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_HOST} ^www.site.ru$ [NC] RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]

2. Для второго варианта в файле .htaccess добавляем строки:

Options +FollowSymLinks
RewriteEngine On
RewriteCond %{HTTP_HOST} ^site.ru$ [NC] RewriteRule ^(.*)$ http://www.site.ru/$1 [R=301,L]

Дубли главной страницы

  1. Очень часто доступны страницы типа site.ru/index.php или site.ru/index.html, которые дублируют главную страницу сайта site.ru. Аналогично и для сайта с www
  2. Дублированный контент из-за неправильной отработки 404 ошибки. Сервер отдает для таких страниц ответ 200 ок, но на них контент главной страницы

Дубли внутренних страниц

  1. Создание одинаковых страниц по невнимательности (пример — страницы с одинаковыми Title)
  2. Страницы со слешем на конце («/») и без него
  3. Страницы с окончанием /index.php ; index.html; .html и т.д.

Правило #1 — один главный домен для проекта. Если ваш домен зарегистрирован в нескольких зонах — .ru, .com, .su и так далее — необходимо применить редирект 301, чтобы все посетители попадали на основной сайт. Точно так же можно организовать переадресацию, если вам принадлежат несколько разных вариантов написания доменного имени.

Правило #2 — один документ = один url.

albakoff.ru

13 июля Яндекс провел очередной вебинар для вебмастеров, посвященный одной из самых распространенных проблем при работе с сайтом с точки зрения поисковой оптимизации —выявлению и удалению дублей страниц и других ненужных документов. Александр Смирнов рассказал и показал, как работать со «Статистикой обхода» и архивами загруженных страниц, которые помогают находить дубли и служебные страницы. Также объяснил, как составлять robots.txt для документов такого типа.

Перед тем, как начать говорить о дублях, Александр дал определение дублирующей странице сайта:

Дубли – две или более страниц одного сайта, которые содержат идентичный или в достаточной мере похожий текстовый контент.

Довольно часто дубли – это одна и та же страница сайта, доступная по разным URL-адресам.


Причин появления дублей на сайте – множество и все они связаны с различными ошибками. Например:

Ошибки в содержимом страниц:

• некорректные относительные ссылки
• отсутствие текста

Некорректные настройки:

• HTTP-200 вместо HTTP-404
• доступность служебных страниц

Ошибки в CMS:

• особенности структуры

Большое количество возможных причин возникновения дублей обычно очень гнетет вебмастеров и они откладывают их поиск в долгий ящик, не желая тратить на это время. Делать этого не стоит, так как наличие дублей страниц на сайте зачастую приводит к различным проблемам.

01 | Опасность дублей на сайте

Проблемы, к которым приводят дубли:

• Смена релевантной страницы в результатах поиска
• Обход дублирующих страниц
• Затруднение сбора статистики

Смена релевантной страницы

Например, на сайте есть бухгалтерские услуги, описание которых доступно по двум адресам:

site.ru/uslugi/buhgalterskie-uslugi/
site.ru/buhgalterskie-uslugi/


Первый адрес находится в разделе «Услуги», а второй адрес – это страничка в корне сайта. Контент обеих страниц абсолютно одинаков.

Робот не хранит в своей базе несколько идентичных документов, поэтому в поиске остается только один из них – на усмотрение робота. Кажется, что в этом нет ничего плохого, ведь страницы идентичны. Однако опытные вебмастера знают, что позиции конкретной страницы по запросам рассчитываются на основании нескольких сотен показателей, поэтому при смене страницы в поисковой выдаче, позиции могут измениться.

Именно так и произошло в случае с бухгалтерскими услугами – по конкретному запросу [услуги бухгалтерского учета] в середине июня произошло конкретное проседание позиций, чтобы было связано со сменой релевантной страницы в поисковой выдаче.

Дубли страниц на сайте

Через некоторое время релевантная страница вернулась в выдачу, однако совершенно очевидно, что даже такое небольшое изменение может повлиять на количество трафика на ресурс.

Обход дублирующих страниц

При наличии большого количества дублей на ресурсе, поисковому роботу приходится постоянно посещать большое количество страниц. Поскольку количество запросов со стороны индексирующего робота ограничено (производителем сервера или CMS сайта, вебмастером с помощью директивы Crawl-delay), он, при наличии большого количества дублирующих страниц, начинает скачивать именно их, вместо того чтобы индексировать нужные страницы сайта. В результате в поисковой выдаче могут показываться какие-то неактуальные данные и пользователи не смогут найти нужную им информацию, хоть она и размещена на сайте.


Пример из практики по обходу дублирующих страниц, из которого видно, что до конца мая робот ежедневно скачивал чуть меньше миллиона страниц интернет-магазина. После обновления ресурса и внесения изменений на сайт, робот резко начинает увеличивать нагрузку на ресурс, скачивая по несколько миллионов страниц в день:

Дубли страниц на сайте

Большая часть этих страниц – дубли, с некорректными GET-параметрами, которые появились из-за некорректной работы CMS, используемой на сайте.

Проблемы со сбором статистики в Яндекс.Вебмастере и Яндекс.Метрике

Если говорить о Вебмастере, то в разделе «Страницы в поиске» можно наблюдать вот такую картину:

Дубли страниц на сайте

При каждом обновлении поисковой базы, количество страниц в поиске остается практически неизменным, но видно, что робот при каждом обновлении добавляет и удаляет примерно одинаковое количество страниц. То есть какой-то процесс происходит, постоянно что-то удаляется и добавляется, при этом количество страниц в поиске остается неизменным. Если посмотреть статистику обхода, то мы увидим, что ежедневно робот посещает несколько тысяч новых страниц сайта, при этом эти новые страницы в поисковую выдачу не попадают. Это как раз-таки и связано с обходом роботом дублирующих страниц, которые потом в поисковую выдачу не включаются.

Если смотреть статистику посещаемости конкретной страницы в Яндекс. Метрике, то может возникнуть следующая ситуация: данная страница показывалась ранее по конкретному запросу и на нее были переходы из результатов поиска, которые почему-то прекратились в начале мая:

Дубли страниц на сайте

А произошло следующее – включилась в поисковую выдачу дублирующая страница, и пользователи с поиска начали переходить на нее, а не на нужную страницу сайта.

Казалось бы, эти три большие проблемы, вызываемые наличием дублей страниц на сайте, должны мотивировать вебмастеров к их устранению. А чтобы удалить дубли с сайта, сначала их нужно найти.

02 | Поиск дублей

— Видишь дублирующие страницы?
— Нет.
— И я нет. А они есть.

Самый простой способ искать дублирующие страницы – это с помощью раздела «Страницы в поиске» в Яндекс.Вебмастере:

Страницы в поиске -> Исключенные страницы -> Сортировка: Дубль -> Применить

Дубли страниц на сайте

В результате можно увидеть все страницы, которые исключил робот, посчитав их дублирующими.
Если таких страниц много, например, несколько десятков тысяч, можно полученную страницу выгрузить из Вебмастера и дальше использовать ее по своему усмотрению.

Второй способ – с помощью раздела «Статистика обхода»:

Статистика обхода -> Сортировка: 200 (ОК)

Дубли страниц на сайте

В этом разделе можно увидеть не только страницы, которые посещает робот, не только дубли, но и различные служебные страницы сайта, которые в поиске видеть бы не хотелось.

Третий способ – с применением фантазии.

Берем любую страницу сайта и добавляем к ней произвольный GET-параметр (в нашем случае это /?test=123. При помощи инструмента «Проверка ответа сервера», проверяем код ответа от данной страницы:

Дубли страниц на сайте

Если данная страница доступна и отвечает, как на скриншоте, кодом ответа 200, то это может привести к появлению дублирующих страниц на сайте. Например, если робот найдет где-то такую ссылку в интернете, он ее проиндексирует и потенциально она может стать дублирующей.

Четвертый способ – это проверка статуса URL.

В ситуации, когда нужная страница уже пропала из результатов поиска, при помощи этого инструмента можно проверить, по каким именно причинам это произошло:

Дубли страниц на сайте

В данном случае видно, что страница была исключена из поиска поскольку является дублем.

Кроме этих четырех способов можно использовать еще какие-то свои способы, например: посмотреть логи своего сервера, статистику Яндекс.Метрики, в конце концов, посмотреть поисковую выдачу, там тоже можно выявить дублирующие страницы.

03 | Устранение дублей

Все возможные дубли страниц можно разделить на две категории:

• Явные дубли (полностью идентичный контент)
• Неявные дубли (страницы с похожим содержимым)

Внутри этих двух категорий представлено большое количество видов дублей, на которых сейчас мы остановимся подробней и разберемся, как их можно устранить.

1. Страницы со слэшом в конце адреса и без

Пример:

site.ru/page
site.ru/page/

Что делаем:

— HTTP-301 перенаправление с одного вида страниц на другие с помощью .hitacces/CMS

Какие именно страницы нужно оставлять для робота решает сам вебмастер в каждом конкретном случае. Можно посмотреть на страницы своего сайта в поиске, какие из них присутствуют в нем в данный момент, и принимать решение, исходя из этих данных.

2. Один и тот же товар в нескольких категориях

Пример:

site.ru/игрушки/мяч
site.ru/мяч

Что делаем:

— Используем атрибут rel=”canonical” тега <link>

Оставлять для робота лучше те страницы, формат адресов которых наиболее удобен для посетителей сайта.

3. Страницы версий для печати

Пример:

Дубли страниц на сайте

Что делаем:

Используем запрет в файле robots.txt, который укажет роботу, что все страницы с подобными адресами индексировать нельзя —

Disallow://node_print.php*

4. Страницы с незначащими параметрами

Пример:

site.ru/page
site.ru/page?utm_sourse=adv
site.ru/page?sid=e0t421e63

Что делаем:

Прибегаем к помощи специальной директивы Clean-param в robots.txt и указываем все незначащие параметры, которые используются на сайте –

Clean-param: sis&utm_sourse

5. Страницы действий на сайте

Пример:

site.ru/page?add_basket=yes
site.ru/page?add_compare=list
site.ru/page?comment_page_1

Что делаем:

Запрет в robots.txt –

 Disallow:* add_basket=*   Disallow:* add_compare=*   Disallow:* comment_*

Или

Disallow:*?*

6. Некорректные относительные адреса

Пример:

site.ru/игрушки/мяч
site.ru/игрушки/ игрушки/ игрушки/ игрушки/мяч

Что делаем:

1. Ищем источник появления
2. Настраиваем HTTP-404 на запросы робота

7. Похожие товары

Пример:

— товары отличаются характеристиками (размером, цветом)
— похожие товары одной категории

Что делаем:

— Оставляем товар на одном URL и используем селектор (возможность выбора нужного цвета и размера)
— Добавляем на такие страницы дополнительное описание, отзывы
— Закрываем ненужное в noindex

8. Страницы с фотографиями без описания

Пример:

Страницы фотогалерей, фотобанков

Что делаем:

— Добавляем дополнительное описание, теги
— Открытие комментариев на странице

9. Страницы фильтров и сортировки

Пример:

site.ru/shop/catalog/podarki/?sort=minimum_price&size=40
site.ru/shop/catalog/filter/price-from-369-to-804/pr_material-f22-or-c5/

Что делаем:

— Определяем востребованность и полезные оставляем
— Для бесполезных прописываем запрет в robots.txt –

 Disallow:*sort=*   Disallow:*size=*   Disallow:*/filter/*

10. Страницы пагинации

Пример:

site.ru/shop/catalog/podarki/
site.ru/shop/catalog/podarki/?page_1
site.ru/shop/catalog/podarki/?page_2

Что делаем:

Используем атрибут rel=”canonical” тега <link>

www.searchengines.ru

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

  • с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
  • со слешем в конце, например, site.ru/seo/ и site.ru/seo
  • с .php или .html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют: 

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам. 
  • Частичные дубли — когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

  • Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Поиск дублей страниц - XENU

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Дубли страниц screaming frog seo spider

Адрес программы https://www.screamingfrog.co.uk/seo-spider/. Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Netpeak Spider

Ссылка на программу Netpeak Spider. Еще один программный сканер для анализа ссылок сайта с подробным отчетом.

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Дубли страниц Яндекс Вебмастер

 

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).

Дубли страниц Google Search Console

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».

Дубли страниц Site

Сервисы онлайн

Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (http://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Дубли страниц сайта - онлайн-сервис

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Дубли страниц онлайн сервис

Удаление дублей страниц сайта

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:

  1. Их физическому удалению — хорошее решение для статических дублей.
  2. Запрещению индексации дублей в файле robots.txt — подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
  3. Настройке 301 редиректов в файле-конфигураторе «.htaccess» — хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
  4. Установке тега «rel=canonical» — лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.
  5. Установке тега «meta name=»robots» content=»noindex, nofollow»» — решение для печатных версий, табов с отзывами на товарах.

Чек-лист по дублям страниц

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:

  1. Полные дубли — это когда одна и та же страница размещена по 2-м и более адресам. Частичные дубли — это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
  2. Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
  3. Полные дубликаты не трудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
  4. Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
  5. Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
  6. Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name=»robots» content=»noindex, nofollow»».

 

webmaster-seo.ru

Почему это происходит?

Представим ситуацию- владелец честно подготовил уникальный качественный тематический контент для своей целевой аудитории: полезные достоверные актуальные описания, грамотные обучающие материалы, аудио и видеозаписи, отличная тематическая графика, уникальные авторитетные авторские доклады в медиаформате, видеоинструкции, вебинары, профессиональный видеоролик с рекламой бренда, записанный в престижной студии – снабдил ресурс всем необходимым для доверия, устойчивой репутации и положительных покупательских решений. Такой подход заслуживает надеяться на трафик и дивиденды.

В чем же упущение? Объяснение есть.

Поисковики – это роботы, которые ищут качественный, оригинальный, полезный контент и повышают рейтинг таких веб-ресурсов и страниц. Уникальность – один из основополагающих критериев, предъявляемых к качеству контента.

Как ведет себя поисковик, если кто-то непорядочный скопипастил ваш безупречный контент и опубликовал его на своем веб-сайте – он понижает рейтинг такой страницы, банит ресурс за плагиат, понимая, что авторство нарушено. К сожалению, если вы на собственном ресурсе скопируете и второй раз разместите тот же текст, поисковик поведет себя точно так же: вы банально сами конкурируете с собой.

Именно этот принцип внимания к пользователям интернета и стремления отобрать на первые места поисковой выдачи только самое уникальное, свежее, полезное и лежит в основе негативного отношения поисковых систем к дубликатам.

Принцип понятен, но как же удивляются хозяева сайтов, когда обнаруживается источник низкого рейтинга – дубли внутри сайта! Первой реакцией бывает: у нас нет дублей, каждая страница уникальна!

Что считается дублями

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Например:

  • с доменом, начинающимся на www и без www,
  • со слешем в конце,
  • с .php или .html в конце.

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Дубли бывают разные

Если страницы-дубли относятся к одному сайту – это внутренние дубли.

Различают полные и неполные внутренние дубли (четкие и нечеткие).

Например: по ссылкам

  • http://site.com/about
  • http://www.site.com/about
  • http://www.site.com/about.html
  • http://www.site.com/about/

будет полностью идентичный контент. Страница будет одна, отличаться будет только URL. Это полные дубли.

Неполные дубли – это страницы, частично повторяющие контент других страниц, например, основной блок информации на стартовой в точности повторяет контент страницы «О нас», причем ссылки у таких страниц будут разными, в меню будут активны разные разделы, в боковых колонках могут присутствовать разные блоки. URL у таких страниц разный.

Причина появления дублей

Если неполные дубли – это результат сознательного выбора структуры страниц сайта, то о полных владелец обычно даже не подозревает.

Причины полных дублей:

  • Особенности cms, позволяющие формировать синонимы в окончании названия страниц. Прописывая в конце с / или без, с .html, .htm, php – всегда будем открывать одну и ту же страницу.
  • Дополнительный домен с www для одного сайта. Страницы отзываются на оба доменные имена.
  • Постраничный вывод информации (пагинация), когда первая страница списка открывается и по ссылке stranitsa, и по ссылке stranitsa/page_1.
  • Несколько разных названий в структуре сайта для идентичных страниц, если к пункту меню можно привязать любую страницу сайта несколько раз.
  • Редизайн, который привел к изменению URL страниц.

Причины неполных дублей

Как правило, осознанное желание владельца вывести одну информацию на разных страницах, чтобы привлечь к ней больше внимания и повысить юзабилити. Одни и те же тексты выводятся в различных блоках и дублируются во многих местах. В разумных пределах это оправдано.

Чем грозят дубли продвижению сайта

  • Дубли нежелательны с точки зрения СЕО, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Найти и уничтожить

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Как найти дубли страниц на сайте

1. В поисковике можно найти все страницы сайта, если в поле поиска ввести site: доменное имя сайта, через пробел фрагмент текста. В выдаче найдете все страницы с этой фразой только по своему сайту.

2. Для анализа сайтов, в том числе и для поиска дублей страниц, существуют специальные программы. Например, простая и удобная для такой цели Xenu. Принцип такой: указывается доменное имя, запускается поиск всех страниц, составляется отчет, в котором выводятся неработающие ссылки, ошибки и дубли.
3. Поисковые системы с целью помочь веб-мастерам создать наиболее эффективные и востребованные сайты, которые и поисковыми роботами будут восприниматься такими же, предлагают использовать свои сервисы аналитики эффективности сайтов – «Инструменты для веб-мастеров», в которых есть отдельные разделы с отчетами по дублям страниц, там тоже можно получить список проблемных страниц.

Имея список дублей, можно начинать их искоренять.

Как избавиться от дублей страниц

Удалить дубли страниц на сайте можно двумя способа: исключить дубли и скрыть их от поисковых роботов.

Если исходить из принципа одна страница – одна ссылка, то все вариации одной и той же страницы должны быть исключены: один вариант открывает нужную страницу, все остальные – страницу не находят. Если страница не найдена, пользователю выдается ошибка 404. Для эстетики ее часто красиво оформляют или выкладывают на ней полезный материал сайта.

Но с точки зрения пользователя это неудобно – находить страницу только по одному из нескольких возможных вариантов. В таком случае настраивают редирект (автоматическое перенаправление) всех вариантов написания страницы на одну единственную существующую страницу. Это называется редирект 301, он задается на сервере в специальном файле htaccess, а поисковики относятся к нему вполне лояльно.

Запретить поисковикам индексировать страницы-дубли можно в специальном файле robots.txt, созданном для поисковиков в качестве инструкции, что индексировать, что игнорировать. С помощью данного файла мы сможем закрыть от индексации дубли страниц.

Плюс ситуации в том, что ваш ключевой актив – контент – не сворован злоумышленниками, не нужно отстаивать права на интеллектуальную собственность, судиться, строчить жалобы и письма в Google, Яндекс, Digital Millennium Copyright с доказательствами и скриншотами из админки и постов в блогах: достаточно произвести ряд внутренних мер по устранению досадного недоразумения, и вскоре после переиндексации сможете получить отдачу от вложенного бюджета, маркетинговых усилий и повышать прибыль от бизнеса.

semantica.in

Беглый осмотр

Чтобы понять каково текущее состояние сайта, достаточно зайти в Яндекс.Вебмастер в раздел «Страницы в индексе».

Дубли страниц на сайте

После этого мы попадем на страницу, где собрана вся информация касаемо процесса индексации нашего сайта. Первым делом смотрим на график, если видим примерно вот такую картину:

Дубли страниц на сайте

Зеленые столбики без синих означают что серьезных проблем у сайта нет. Но если же мы видим примерно вот такую картину:

Дубли страниц на сайте

То начинаем ерзать на стуле, поскольку это говорит о явных проблемах. Чуть ниже под графиком кликаем кнопку «Исключенные страницы» и смотрим с каким комментарием удаляются страницы.

Дубли страниц на сайте

Как видите в поле «Статус» финурируют понятия «Дубль», «Недостаточно качественная». Это очень плохо. Если же в колонке «Статус» фигурируют «Редирект», «Ошибка 404», «Запрешщено тем-то», то можете спать спокойно, у вашего сайта нет серьезных проблем. Спускаемся в конец страницы и смотрим количество страниц с исключенными страницами.

Дубли страниц на сайте

Значение в 2500 максимальное и говорит о том, что как минимум на вашем сайте 50 000 проблемных страниц. На самом деле это число может быть в десятки раз выше. На одном сайте с 800 товарами Яндекс загрузил свыше 4 миллионов страниц. Это было самым большим количеством загруженных страниц, которое попадалось мне за мою практику. Из этого количества только 1 000 страниц является уникальными, все остальное дубли. Зато, со слов владельца сайта, этот самописный сайт очень удобный. Честно говоря в одно место такое удобство. Разработчикам таких, с позволения сказать, CMS хочется оторвать руки. Две недели я буду просто удалять ссылки.

Но это ерунда, перед этим ко мне обратились одни товарищи с интернет-магазином на ViartShop, вот где полный атас. Там карточка товара может иметь до трех дублей без возможности установить хотя бы rel canonical. тут только на удаление мусорных ссылок мне потребовалось бы от 40 до 50 дней, при том, что договор заключался всего на 60 календартный дней и за это время я должен был показать результаты в виде увеличения продаж. Само собой пришлось с товарищами расстаться. Загадят сайт, а потом жесткие условия ставят.

Первый шаг: определяем характерные особенности «мусорных» ссылок

Для этого нам потребуется изучить ссылки исключенных страниц. Поскольку частая причина возникновения дублей — это фильтрация, то как правило общим признаком таких страниц является наличие знака вопроса «?» в  URL. По идее мы можем закрыть их все всего лишь одной директивой «DisallowL *?*», но эта директива закроет вообще все страницы где есть знак «?». Если на сайте нет важных страниц с параметрами, то можно использовать эту директиву. Но не всегда есть возможность разобраться с сайтом, а действовать надо прямо сейчас, то проще сначала закрыть от индексации страницы с конкретными параметрами.

Второй, по популярности, причиной появления дублей является пагинация. Эти страницы также необходимо закрывать от индексации. Хорошо если в URL этих страниц имеются явные признаки в виде «?page=6» или «/page/6», но бывают случаи когда такие признаки отсутствуют, например пагинация имеет в URL просто цифру «blog/5», такие страницы будет сложно закрыть от индексации без «хирургического» вмешательства в движок.

Но в случае с моим подопытным таких проблем не было. Все ссылки с параметрами являются бесполезными и их можно смело закрывать от индексации. Остается только определить их ключевые признаки:

  • /catalog/dveri-iz-massiva?158=***
  • /mezhkomnatnye-dveri?sort=price&162=***
  • /catalog/stalnye-dveri/torex?156=***
  • /catalog/mezhkomnatnye-dveri?162=***&161=***
  • /products?page=23
  • /catalog/mezhkomnatnye-dveri/sibir-profil?162=***&sort=name
  • /catalog/dveri-s-plenkoj-pvh/?162=***

Если бы разработчики движка, на котором работает подопытный сайт, хоть чуть-чуть разбирались в SEO, то сделали бы параметры в виде массива:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter[162]=***&filter[sort]=name

Или каждый параметр снабжали бы префиксом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter_162=***&filter_sort=name

В обоих случаях можно было бы прикрыть все страницы фильтрации всего лишь одной директивой «Disalow: *filter*». Но увы, криворукие программисты в данном случае забили на все что связано в SEO и иными «бесполезными» вещами, которые так или иначе связаны с SEO, и  не оставили мне другого выхода кроме как закрывать от индексации страницы фильтрации путем указания параметров. Конечно же я мог внести изменения и устранить этот недостаток, но самописный движок всегда ящик Пандоры, стоит начать его ковырять и ошибки начинают выскакивать пачками. По этой причине я решил избежать действий, которые могли привести к непредвиденным последствиям..

В итоге у меня получился примерно вот такой список директив:

  • Disallow: *sort=*
  • Disallow: *page=*
  • Disallow: *153=*
  • Disallow: *154=*
  • Disallow: *155=*
  • Disallow: *156=*

Правильность директив можно проверить на странице «Инструменты -> Анализ robots.txt». Там в самом низу есть поле, копируем туда ссылку и жмем кнопку «Проверить».

Результат проверки разрешения URL
Результат проверки разрешения URL

Если под надписью «Результат» мы видим параметр одной из диркектив, выделенный красным, значит ссылка запрещена, если же там зеленая галка, значит ссылка не запрещена к индексации. Необходимо корректировать параметр директивы, отвечающий за запрет к индексации подобных страниц.

Самое главное — это соблюдать осторожность в формировании параметров директив. Можно таких дров наломать, что мама дорогая. Я однажды в погоне за «хвостами» от переноса сайта с Wix закрыл от индексации весь сайт клиента. Приятным бонусом было таки исчезновение этих «хвостов» из индекса.

Второй шаг: удаление «мусора»

Тут у нас с вами два пути:

  1. Забить и ждать пока Яндекс сам все удалит из индекса.
  2. Ускорить этот процесс путем использования инструмента «Удаление страниц из поиска».

Первый вариант может затянуться на месяцы и если вы никуда не спешите, то можно в принципе не заморачиваться. Второй вариант тоже не самый быстрый, но побыстрее чем первый. Единственный его минус — это возможность удаления страниц из поиска до 500 в сутки.

Когда с этой проблемой я столкнулся на своем сайте, то там я не стал заморачиваться автоматизацией, поскольку надо было удалить всего 400 с лишним URL. Но даже на это у меня ушло два дня. Сидеть и вручную копипастом перебивать ссылки то ещё занятие. Но для удаления нескольких тысяч я решил все-таки написать скрипт на PHP, который выворачивает весь индекс сайта и выбирает из него страницы, которые необходимо удалить. Эти страницы он складывает в файлик. После этого нам остается «вырезать» из этого файла ссылки и вставлять в поле на странице «Удаление страниц из поиска».

К сожалению и в случае со скриптом есть одно «но», для работы со скриптом необходима регистрация и настройка Яндекс XML, поскольку скрипт работает на основе этого сервиса. Перед использованием необходимо со своего аккаунта в Яндекс получить ключ и вставить его в скрипт. После этого скрипт будет готов к работе. Ключ необходимо скопировать из ссылки , которая указана в верхней части страницы с настройками(см. фото).

Дубли страниц на сайте

Обратите внимание на лимиты, прежде чем приступать к работе со скриптом. Необходимо убедиться что лимит запросов к сервису достаточно велик. Ни в коем случае не запускайте скрипт на хостинге, ничего хорошего это не даст.

Получив файл со списком ссылок, нам остается только раз в день открывать Яндекс.Вебмастер и Google Console, и в разделах «Удаление URL» копипастить ссылки пачками.

Скрипт тут: https://yadi.sk/d/d3IRM_vv3ZQkww

P.S. Больше всего повезло обладателям сайтов (интернет-магазинам) на Битриксе, поскольку там разработчики отличаются большей сообразительностью и там уже искаропки идет robots.txt заполненный как надо. Как пример сайт buldoors.ru, из 17к страниц в индексе, мусорных у него всего 60+. Казалось бы можно расслабиться, но увы, большое количество страниц говорит явно о каких-то проблемах, выяснение которых требует более глубокого анализа.

dampi.ru

Немного теории

Наверняка многие слышали, что дубли страниц — это плохо. Подробно останавливаться на данном вопросе не буду, так как тема популярная, и качественной информации в интернете, даже появившейся в последнее время, много. Отмечу только неприятности, которые могут появиться у сайта при наличии дублей:

  • проблемы с индексацией (особенно актуально для крупных сайтов);
  • размытие релевантности и ранжирование нецелевых страниц;
  • потеря естественных ссылок, которые могут появляться на страницах дублей;
  • общая пессимизация проекта и санкции поисковых систем.

Поэтому в процессе продвижения проектов этому вопросу должно уделяться особое внимание.

Также стоит вкратце остановится на двух разновидностях дублей:

  • Полные дубли — это когда один и тот же контент доступен по разным URL. Например: http://www.foxtrot.com.ua/ и https://www.foxtrot.com.ua/.
  • Частичные дубли — когда страницы имеют общую семантику, решают одни и те же задачи пользователей и имеют похожий контент, но не являются полными дублями. Да, получилось достаточно запутанно, поэтому предлагаю рассмотреть пример: https://vc.ru/category/телеграм и https://vc.ru/category/telegram.

Обе страницы имеют общую семантику, похожий контент и решают одни и те же задачи пользователей, но при этом не являются полными дублями, так как содержимое страниц разное.

Выявить полные дубли намного проще, да и проблем они могут привести куда больше из-за своей массовости, а вот с неполными дублями нужно работать точечно и избавляться от них при формировании правильной структуры сайта. Далее в этой статье под дублями будут подразумеваться полные дубли.

Итак, мы определились, что проект не должен содержать дубли. Точка. Особенно критично, когда дубли начинают индексироваться поисковыми системами. И чтобы этого не случилось, а также для предотвращения других негативных последствий, их нужно выявлять и устранять. О том, как с ними бороться, можно найти много материалов, но если в комментариях будут просьбы рассказать подробнее, то я обязательно это сделаю в одной из следующих статей.

Чтобы никого не запутать, сейчас опустим момент с формированием нужных дублей (например, страниц с UTM-метками).

Выявление полных дублей

Обычно специалисты проверяют у продвигаемого проекта наличие следующих дублей:

1. Дубли страниц с разными протоколами: http и https.

Выше уже был указан пример такого дубля: http://www.foxtrot.com.ua/ и https://www.foxtrot.com.ua/.

2. С www и без www.

Например: http://oknadeshevo.ru/ и http://www.oknadeshevo.ru/.

3. Со слешем на конце URL и без него.

Например: https://www.1tv.ru/live и https://www.1tv.ru/live/.

Еще пример: https://www.lamoda.ru/p/wa007ewbhbj9/clothes-wallis-bryuki и https://www.lamoda.ru/p/wa007ewbhbj9/clothes-wallis-bryuki/.

При этом каждая страница содержит canonical на себя.

4. Строчные и прописные буквы во вложенностях URL.

Например: https://www.mosokna.ru/info/osteklenie-detskikh-sadov/ и https://www.mosokna.ru/info/OSTEKLENIE-DETSKIKH-SADOV/.

При том, что страница https://www.mosokna.ru/PLASTIKOVYE-OKNA/ отдаёт 404-й код ответа сервера:

Это пример того, как на разных типах страниц один и тот же принцип формирования дублей обрабатывается по-разному.

5. Добавления в конце URL:

index.php

home.php

index.html

home.html

index.htm

home.htm

Например: https://www.eldorado.ru/cat/378830466/ и https://www.eldorado.ru/cat/378830466/index.html/.

Как видно, оба URL проиндексированы в «Яндексе»:

А разве это все возможные дубли?

В своей практике я сталкивался с огромным количеством примеров формирования дублей, и самые популярные, которые встречались не единожды, я укажу ниже:

6. Множественное добавление ////////////////// в конце URL.

Например, http://www.banki.ru/ и http://www.banki.ru////////.

7. Множественное добавление ////////////////// между вложенностями.

Например, https://moskva.beeline.ru/customers/products/mobile/services/details/nomer-na-vybor/krasivie-nomera/ и https://moskva.beeline.ru/customers///////products///////mobile///////services///////details///////nomer-na-vybor///////krasivie-nomera/.

Ещё пример: https://f.ua/hewlett-packard/15-bs006ur-1zj72ea.html и https://f.ua/hewlett-packard///////15-bs006ur-1zj72ea.html.

Очень часто встречающаяся ошибка.

8. Добавление произвольных символов в конец URL, формируя новую вложенность.

Например, https://apteka.ru/moskva/apteki/doktor-stoletov_16/ и https://apteka.ru/moskva/apteki/doktor-stoletov_16/Lfz/.

9. Добавление произвольных символов в существующую вложенность.

Например, https://www.dochkisinochki.ru/brands/nutrilon/ и https://www.dochkisinochki.ru/brands/nutrilonbY5I/.

10. Добавление вложенности с произвольными символами.

Например, https://www.utkonos.ru/news/item/1343 и https://www.utkonos.ru/news/wg/item/1343.

Не совсем дубль, но страница отдаёт 200-й код ответа сервера, что позволит ей попасть в индекс.

11. Добавление * в конце URL.

Например, https://www.sportmaster.ru/product/10137329/ и https://www.sportmaster.ru/product/10137329/*/.

Ещё пример: https://docdoc.ru/clinic/set-evropeyskiy-medicinskiy-centr и https://docdoc.ru/clinic/set-evropeyskiy-medicinskiy-centr/*.

12. Замена нижнего подчеркивания на тире и наоборот.

Например, https://mamsy.ru/filter/zhenshinam_tovary_bolshie_razmery/ и https://mamsy.ru/filter/zhenshinam-tovary-bolshie-razmery/.

13. Добавление произвольных цифр в конце URL, формируя новую вложенность.

Например, https://apteka.ru/moskva/apteki/doktor-stoletov_16/ и https://apteka.ru/moskva/apteki/doktor-stoletov_16/2488/.

Такие дубли часто формируются со страниц публикаций на WordPress.

14. Замена вложенностей местами.

Например https://www.toy.ru/catalog/producers/BARBIE-Mattel/ и https://www.toy.ru/producers/catalog/BARBIE-Mattel/.

15. Отсутствие внутренней вложенности.

Например, https://www.toy.ru/catalog/producers/BARBIE-Mattel/ и https://www.toy.ru/producers/BARBIE-Mattel/.

Пункты 14 и 15 опять же не являются полными дублями, но аналогично пункту 10 отдают 200 код ответа сервера.

16. Копирование первой вложенности и добавление её в конец URL.

Например, https://www.dochkisinochki.ru/brands/nutrilon/ и https://www.dochkisinochki.ru/brands/nutrilon/brands/.

17. Дубли .html, .htm или .php для страниц, которые заканчиваются на один из этих расширений.

Например:

  • http://sad-i-ogorod.ru/shop/11041.php;
  • http://sad-i-ogorod.ru/shop/11041.htm;
  • http://sad-i-ogorod.ru/shop/11041.html.

Все приведённые выше типы дублей были выявлены в индексе поисковых систем более чем у нескольких проектов. Хотите ли вы рисковать появлением такого огромного количества дублей? Думаю, нет. Поэтому и важно выявить те дубли, которые формируются и обезопасить себя от попадания их в индекс поисковых систем. А практика показывает, что рано или поздно они находят и индексируют такие страницы, хотя ни внутренних, ни внешних ссылок на данные страницы нет.

Проверять вручную все эти дубли очень долго. К тому же важно проверять каждый тип страниц на наличие дублей. Почему? Да потому, что страницы категории товаров и страница определённого товара могут иметь разные дубли. Пример уже был ранее рассмотрен.

Также в большинстве сайтов могут использоваться разные CMS для разного типа контента. Нормальная практика, когда, например, интернет-магазин на OpenCart подключает блог на WordPress. Соответственно и дубли страниц этих CMS будут кардинально отличаться.

Поэтому мы и разработали сервис, который формирует все возможные страницы дублей и указывает их ответ сервера. В первую очередь сервис делали для своих нужд, ведь он экономит огромное количество времени специалистов, но с радостью готовы с ним поделиться.

Как с ним работать и как читать его результаты — сейчас будем разбираться.

Онлайн-сервис поиска дублей страниц

1. Для начала перейдите по ссылке.

Сервис поиска дублей URL

2. Подготовьте разные типы страниц сайта, у которого хотите выявить возможные дубли.

Давайте рассмотрим на примере интернет-магазина http://www.foxtrot.com.ua/.

Рекомендуемые к анализу типы страниц и их примеры:

  • главная страница: http://www.foxtrot.com.ua/;
  • страница категории: http://www.foxtrot.com.ua/ru/shop/noutbuki.html;
  • целевая страница: http://www.foxtrot.com.ua/ru/shop/noutbuki_asus.html;
  • страница товаров: http://www.foxtrot.com.ua/ru/shop/noutbuki_asus_f541nc-go054t.html;
  • служебная страница: http://www.foxtrot.com.ua/ru/stores.

Для новостных и информационных ресурсов это могут быть:

  • главная страница: https://www.maximonline.ru/;
  • страница раздела: https://www.maximonline.ru/skills/lifehacking/;
  • страница публикации или новости: https://www.maximonline.ru/guide/maximir/_article/myi-byili-v-55-sekundah-ot-strashnogo-pozora-ne-o/;
  • страница тегов: https://www.maximonline.ru/tags/luchshie-lajfxaki-nedeli/;
  • служебная страница: https://www.maximonline.ru/zhurnal/reklamnyj-otdel/_article/reklama-vmaxim/.

3. Вбиваем данные страницы в форму ввода и нажимаем кнопку «Отправить запрос»:

4. Запускается процесс обработки скрипта:

Процесс обработки данных

Немного ожидаем и получаем результат его работы по всем внедрённым страницам:

Таблица с результатами

5. Анализируем результаты и подготавливаем рекомендации веб-программисту по устранению дублей.

Например, из вышеуказанного примера можно сделать следующие выводы:

  • наличие дублей страниц с протоколами http и https;
  • редирект со страницы без www на www происходит с помощью 302 редиректа (временный редирект);
  • наличие дублей с добавление множественных слешей.

Соответственно, необходимо подготовить следующие рекомендации веб-разработчику:

1. Определиться, какой протокол всё же основной, и на страницы с этим протоколом настроить 301 редирект.

Например, если основной протокол https, то страница http://www.foxtrot.com.ua/ должна перенаправлять с помощью 301-го редиректа на https://www.foxtrot.com.ua/.

2. Изменить 302 редирект на 301 при перенаправлении страниц без www на аналогичные с www.

3. Настроить 301 редирект страниц со множественным добавлением слешей в конце URL на целевые страницы.

Например, страница http://www.foxtrot.com.ua//////// должна с помощью 301 редиректа перенаправлять на http://www.foxtrot.com.ua/.

Важно понимать, что помимо шаблонных формирований дублей, указанных в данной статье, у вашего проекта могут формироваться уникальные дубли. Поэтому не забывайте мониторить страницы, которые попадают в индекс поисковых систем. Помогут в этом «Яндекс.Вебмастер» и Google Search Console.

Проиндексированные страницы в Google Search Console

Update

Сервис будет дорабатываться и дополняться полезными функциями. Так, выкатили обновление, позволяющее перед публикацией статьи определить изменения URL от исходного значения:

Функциональность отличия URL от исходного значения

Если материал вам был полезен, прошу оценить его стрелкой вверх.

До скорых встреч и берегите ваши проекты.

#инструменты #seo

vc.ru


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.