Как найти дубли страниц


Как найти дубли страниц на сайте

Как найти дубли страниц на блоге

Хотите узнать как заработать в Интернете?
Скачайте бесплатную книгу Владислава Челпаченко
=>> «10 шагов к первому миллиону в инфобизнесе»

Здравствуйте друзья, читатели и подписчики! На связи Андрей Хвостов, автор блога «Инженер Хвостов», основатель проектов: «Доход системно» и «Денежные статьи».

У меня не раз спрашивали, как найти дубли на сайте. О том, как узнать, есть ли дубли на вашем сайте, я вам сегодня расскажу.

Я не буду вам рассказывать, о том, какой вред наносят продвижению сайта дубли страниц, об этом уже говорено много, давайте сразу перейдём к делу.

Хочу сказать, что найти дубли страниц на сайте, можно с помощью специальных сервисов, которые проводят аудит сайта, выявляя наличие ошибок, примеры таких сервисов — https://seoto.me/

Можно заказать аудит сайта, или поиск и удаление дублей, специалисту на фрилансе. Но давайте попробуем отыскать дубли страниц самостоятельно.

Как найти дубли страниц на сайте самостоятельно


Способ первый. Я уже писал о том, что сайт необходимо добавить в поисковые системы Яндекса, Google, Mail ru.

Делается это с целью получения инструментов вебмастера, для анализа состояния сайта, исправления ошибок, получения сведений о продвижении.

Если вы не читали эти статьи, советую ознакомиться с ними, и добавить сайт на эти сервисы.

Представим, что вы уже добавили сайт, и у вас в руках есть инструменты вебмастера, помогающие решить многие вопросы. Один из таких вопросов – поиск дублей на сайте.

Заходим на сервис Google, в панель инструментов вебмастера, кликаем по своему сайту, в левой колонке кликаем «Вид в поиске», и выбираем раздел «Оптимизация HTML».

Здесь нас интересует графа «Повторяющиеся заголовки (теги title)». Если на вашем сайте есть дубли страниц, то в этой графе вы увидите количество повторяющихся заголовков, отличное от нуля.

Как найти дубли страниц

Также может быть указано количество дублей в графе «Метаописание» —  «повторяющиеся метаописание».

При отсутствии дублей, у вас везде будут нули. Вот как на этом скриншоте:


Как найти дубли страниц

Ещё посмотреть наличие «соплей» в Гугле, можно следующим образом:

В личном кабинете инструменты для вебмастера Google, в левом столбце, открываем раздел «Сканирование», и нажимаем «Параметры URL». На открывшейся странице, жмём на ссылку: «Настройка параметров URL».

Если на блоге есть дубли, то они могут быть показаны в этих параметрах.

дубли на сайте

Там может быть показаны переменные: replytocom, attachment и количество дублей с данными переменными, может быть ещё: attachment_id, feed, trackback и другие переменные, с указанием количества дублей.

Таким образом, мы сможем узнать есть ли дубли страниц с на вашем блоге, дубли созданные при отправлении комментариев, или в результате ошибок, допускаемых при работе с сайтом.

Однако, помимо показанных в панели вебмастера страниц есть множество мусора, который не всегда можно найти данным способом. Для более глубокого поиска мусора на сайте, воспользуемся поисковой строкой.

Как найти дубли страниц на сайте с помощью поисковой строки

Введём в строку поиска Google спец. запрос: «site:mysite.ru/&» Не забыв поменять mysite.ru на домен вашего сайта, и без кавычек.

И сразу же под строкой поиска увидим, сколько страниц находится в поиске. Если на вашем сайте количество статей меньше, чем данная цифра, то значит, что у вас есть дубли.

Листаем выдачу внизу страницы до последнего. На последней странице выдачи, нажимаем «Показать скрытые результаты», и вам покажут все дубли, которых нет в выдаче, но есть у Гугла в «соплях».


поиск дублей страниц на сайте

Теперь нужно обратить внимание, не столько на количество дублей, хотя и это важно, сколько на ссылки, по которым открываются дубли.

Эти ссылки нам «расскажут», отчего появились дубли, и как с ними бороться, то есть избавляться от них.

Как найти дубли страниц с различными переменными

Можно разделить весь мусор, собранный Google, по категориям. Для этого, вводим в поисковую строку Google, по очереди такие запросы:

  • site:mysite.ru/ feed
  • site:mysite.ru/ category
  • site:mysite.ru/ tag
  • site:mysite.ru/ comment-page
  • site:mysite.ru/ page
  • site:mysite.ru/ trackback
  • site:mysite.ru/ attachment_id
  • site:mysite.ru/ attachment
  • site:mysite.ru/ replytocom

Замените значение «mysite.ru», на ваш домен, и проверяйте количество дублей, имеющихся на вашем сайте.


Если вы ничего не обнаружили, то можно вас поздравить, это значит, что на вашем сайте отсутствуют дубли страниц.

Если вы нашли «мусор», то от него следует избавляться. Это можно сделать самостоятельно, а можно нанять специалиста, который очистит ваш блог от дублей и прочего мусора.

Скажу вам честно, я нанимал специалиста, в своё время, для удаления дублей. После этого, я долгое время не проверял сайт на «мусор», и лишь принявшись за эту статью, я проверил дубли своего блога.

Оказывается, за этот период, их опять набралось довольно много, и теперь, после смены дизайна блога, (кто не в курсе, я скоро поменяю шаблон сайта, на новый, уникальный шаблон, свёрстанный индивидуально для меня) я буду самостоятельно вносить специальные коды, которые избавят сайт от дублей.

Описывать в данной статье, как убирать дубли, я не стану, так как это тема для отдельной статьи. Если будут вопросы от вас, моих читателей и подписчиков, то я опишу все действия, необходимые для очистки блога от дублей, в новой статье.

Как раз, буду проделывать всё на своём блоге, и описывать все действия, а ещё лучше, сниму всё на видео, и выложу вам в качестве урока по очистке сайта от дублей, в текстовом и видео формате.

ingenerhvostov.ru

Поиск дублей страниц на сайте и удаление

Дубли плохо влияют на индексацию блога. Польза от перелинковки и внешних ссылок значительно теряет вес. Чаще всего дубли страниц формируются у CMS WordPress, Joomla и др.


Возможно, небольшое количество дублей и не повредит сайту, но если их очень много, тогда с сайтом могут начаться реальные проблемы. Для поиска дублей существует несколько способов.

Один из способов поиска дублей страниц на сайте

Введите вначале в поисковике Яндекс команду: host:вашсайт.ru, а потом в Гугл, и посмотрите на результат выдачи, какое количество в Яндекс, и какое в Гугл.

В Google у меня показало 3470 ответа, а в Яндексе всего 130. Так вот, если число страниц в Яндекс и Гугл будет значительно отличаться, то это уже подозрительно.

Еще один способ

С каждой страницы скопируйте отрывок текста, примерно 15 слов и вставьте в поисковую строку браузера. Если будет появляться в выдаче более одной страницы, значит, существуют дубли.

Ну а если Ваш сайт имеет достаточно много страниц, тогда можно воспользоваться программой Xenu`s Link Sleuth. Скачать программу можно по этой ссылке http://home.snafu.de/tilman/XENU.ZIP

Программа Xenu’s Link Sleuth — инструкция

Скачайте и установите программу на ПК. Запустите ее, а затем перейдите «file» -> “Check URL…»,


Как найти дубли страниц на сайте? Как удалить дубли страниц?

введите адрес своего сайта и нажмите ОК.

Как найти дубли страниц на сайте? Как удалить дубли страниц?

Начнется долгий процесс проверки. Это программа будет находить страницы, битые ссылки, ссылки на картинки и прочее. Любые ошибки будут выделяться красным цветом, поэтому их будет сложно не заметить.

По результатам проверки моего ресурса, похвастаться нечем. Весь сайт набит каким-то HTML-мусором. Один плагин мне вообще весть сайт чуть не загубил. Пропало несколько статей, а также куча картинок.

После того, как проверка закончится, нужно все содержимое на экране скопировать и вставить в любой текстовый редактор. Там уже можно спокойно искать дубли страниц.

Но проверить дубли на сайте можно не только с помощью этой программы, но и воспользоваться инструментами Яндекc и Google

dvpress.ru

Почему это происходит?


Представим ситуацию- владелец честно подготовил уникальный качественный тематический контент для своей целевой аудитории: полезные достоверные актуальные описания, грамотные обучающие материалы, аудио и видеозаписи, отличная тематическая графика, уникальные авторитетные авторские доклады в медиаформате, видеоинструкции, вебинары, профессиональный видеоролик с рекламой бренда, записанный в престижной студии – снабдил ресурс всем необходимым для доверия, устойчивой репутации и положительных покупательских решений. Такой подход заслуживает надеяться на трафик и дивиденды.

В чем же упущение? Объяснение есть.

Поисковики – это роботы, которые ищут качественный, оригинальный, полезный контент и повышают рейтинг таких веб-ресурсов и страниц. Уникальность – один из основополагающих критериев, предъявляемых к качеству контента.

Как ведет себя поисковик, если кто-то непорядочный скопипастил ваш безупречный контент и опубликовал его на своем веб-сайте – он понижает рейтинг такой страницы, банит ресурс за плагиат, понимая, что авторство нарушено. К сожалению, если вы на собственном ресурсе скопируете и второй раз разместите тот же текст, поисковик поведет себя точно так же: вы банально сами конкурируете с собой.


Именно этот принцип внимания к пользователям интернета и стремления отобрать на первые места поисковой выдачи только самое уникальное, свежее, полезное и лежит в основе негативного отношения поисковых систем к дубликатам.

Принцип понятен, но как же удивляются хозяева сайтов, когда обнаруживается источник низкого рейтинга – дубли внутри сайта! Первой реакцией бывает: у нас нет дублей, каждая страница уникальна!

Что считается дублями

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Например:

  • с доменом, начинающимся на www и без www,
  • со слешем в конце,
  • с .php или .html в конце.

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Дубли бывают разные

Если страницы-дубли относятся к одному сайту – это внутренние дубли.

Различают полные и неполные внутренние дубли (четкие и нечеткие).

Например: по ссылкам

  • http://site.com/about
  • http://www.site.com/about
  • http://www.site.com/about.html
  • http://www.site.com/about/

будет полностью идентичный контент. Страница будет одна, отличаться будет только URL. Это полные дубли.

Неполные дубли – это страницы, частично повторяющие контент других страниц, например, основной блок информации на стартовой в точности повторяет контент страницы «О нас», причем ссылки у таких страниц будут разными, в меню будут активны разные разделы, в боковых колонках могут присутствовать разные блоки. URL у таких страниц разный.

Причина появления дублей

Если неполные дубли – это результат сознательного выбора структуры страниц сайта, то о полных владелец обычно даже не подозревает.

Причины полных дублей:

  • Особенности cms, позволяющие формировать синонимы в окончании названия страниц. Прописывая в конце с / или без, с .html, .htm, php – всегда будем открывать одну и ту же страницу.

  • Дополнительный домен с www для одного сайта. Страницы отзываются на оба доменные имена.
  • Постраничный вывод информации (пагинация), когда первая страница списка открывается и по ссылке stranitsa, и по ссылке stranitsa/page_1.
  • Несколько разных названий в структуре сайта для идентичных страниц, если к пункту меню можно привязать любую страницу сайта несколько раз.
  • Редизайн, который привел к изменению URL страниц.

Причины неполных дублей

Как правило, осознанное желание владельца вывести одну информацию на разных страницах, чтобы привлечь к ней больше внимания и повысить юзабилити. Одни и те же тексты выводятся в различных блоках и дублируются во многих местах. В разумных пределах это оправдано.

Чем грозят дубли продвижению сайта

  • Дубли нежелательны с точки зрения СЕО, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Найти и уничтожить

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Как найти дубли страниц на сайте

1. В поисковике можно найти все страницы сайта, если в поле поиска ввести site: доменное имя сайта, через пробел фрагмент текста. В выдаче найдете все страницы с этой фразой только по своему сайту.

2. Для анализа сайтов, в том числе и для поиска дублей страниц, существуют специальные программы. Например, простая и удобная для такой цели Xenu. Принцип такой: указывается доменное имя, запускается поиск всех страниц, составляется отчет, в котором выводятся неработающие ссылки, ошибки и дубли.
3. Поисковые системы с целью помочь веб-мастерам создать наиболее эффективные и востребованные сайты, которые и поисковыми роботами будут восприниматься такими же, предлагают использовать свои сервисы аналитики эффективности сайтов – «Инструменты для веб-мастеров», в которых есть отдельные разделы с отчетами по дублям страниц, там тоже можно получить список проблемных страниц.

Имея список дублей, можно начинать их искоренять.

Как избавиться от дублей страниц

Удалить дубли страниц на сайте можно двумя способа: исключить дубли и скрыть их от поисковых роботов.

Если исходить из принципа одна страница – одна ссылка, то все вариации одной и той же страницы должны быть исключены: один вариант открывает нужную страницу, все остальные – страницу не находят. Если страница не найдена, пользователю выдается ошибка 404. Для эстетики ее часто красиво оформляют или выкладывают на ней полезный материал сайта.

Но с точки зрения пользователя это неудобно – находить страницу только по одному из нескольких возможных вариантов. В таком случае настраивают редирект (автоматическое перенаправление) всех вариантов написания страницы на одну единственную существующую страницу. Это называется редирект 301, он задается на сервере в специальном файле htaccess, а поисковики относятся к нему вполне лояльно.

Запретить поисковикам индексировать страницы-дубли можно в специальном файле robots.txt, созданном для поисковиков в качестве инструкции, что индексировать, что игнорировать. С помощью данного файла мы сможем закрыть от индексации дубли страниц.

Плюс ситуации в том, что ваш ключевой актив – контент – не сворован злоумышленниками, не нужно отстаивать права на интеллектуальную собственность, судиться, строчить жалобы и письма в Google, Яндекс, Digital Millennium Copyright с доказательствами и скриншотами из админки и постов в блогах: достаточно произвести ряд внутренних мер по устранению досадного недоразумения, и вскоре после переиндексации сможете получить отдачу от вложенного бюджета, маркетинговых усилий и повышать прибыль от бизнеса.

semantica.in

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства. Вот что пишут о дублях представители Яндекса:

Как найти дубли страницЯ думаю, не стоит надеяться, что в вашем случае алгоритм оценит все страницы правильно и его выбор совпадет с вашим ? – лучше самому избавиться от дублей на сайте.

Почему нужно избавляться от дублей?

Предлагаю для начала рассмотреть, чем опасны дубли страниц.

Ухудшается индексация сайта
Если в вашем проекте несколько тысяч страниц, и на каждую из них создается по одному дублю, то объем сайта уже «раздувается» в два раза. А что, если создается не один дубль, а несколько? В прошлом году мы проводили экспертизу новостного портала, в котором каждая новость автоматически публиковалась в семи разделах, то есть каждая страница сразу создавалась еще с шестью дублями.

Неправильно распределяется внутренний ссылочный вес
Часто дубли на сайте появляются в результате неправильных внутренних ссылок. В итоге страницы-дубли могут считаться более значимыми, чем основная версия. Не стоит забывать и про пользовательские факторы. Если посетитель попал на дубль страницы, то, соответственно, измеряются ее показатели, а не оригинала.

Изменение релевантной страницы в поисковой выдаче
Поисковый алгоритм в любой момент может посчитать дубль более релевантным запросу. Смена страницы в поисковой выдаче часто сопровождается существенным понижением позиций.

Потеря внешнего ссылочного веса
Пользователя заинтересовал ваш товар или статья, и он решил поделиться информацией и поставить на страницу ссылку. Если он был на странице-дубле, то сошлется именно на нее. В итоге вы потеряете полезную естественную ссылку.

Как найти дубли?
Теперь давайте рассмотрим, как можно найти внутренние дубли на сайте.

1. Анализ данных Google Webmasters

Пожалуй, самый простой из способов. Для того чтобы найти страницы дублей, вам будет достаточно зайти в панель инструментов, выбрать вкладку «Вид в поиске» и перейти по ссылке «Оптимизация html»:

Как найти дубли страниц

Наша цель – это пункты:
—  «Повторяющееся метаописание». Здесь отображены страницы с одинаковыми описаниями (description);
«Повторяющиеся заголовки (теги title)». В этом пункте находится список страниц с одинаковыми заголовками (Title).

Дело в том, что на страницах обычно совпадает не только контент, но и мета-данные. Проанализировав список страниц, отображаемых в этих вкладках, легко можно выявить такие дубли. Мы рекомендуем периодически проверять вышеупомянутые вкладки панели инструментов на наличие новых ошибок.

Проверить страницы на совпадающие заголовки можно даже в том случае, если доступа к панели у вас нет. Для этого вам нужно будет воспользоваться расширенным поиском поисковой системы или сразу ввести в поисковую строку соответствующий запрос.

Для Яндекса:

site: siteclinic.ru title:(анализ сайтов)

Для Google:
site: siteclinic.ru intitle:анализ сайтов

Разумеется, необходимо подставить свой домен и часть заголовка, дубль которого вы ищете.

2. Анализ проиндексированных документов
Анализ в первую очередь лучше проводить в той поисковой системе, в индексе которой находится больше всего страниц. В большинстве случаев это Google. С помощью оператора языка запросов «site» легко получить весь список проиндексированных страниц. Вводим в строку поиска:

site:siteclinic.ru  (не забудьте указать имя своего домена) и получаем список проиндексированных страниц.

В конце списка вы увидите ссылку «Показать скрытые результаты». Нажмите на нее, чтобы увидеть более полный список страниц:

Как найти дубли страниц

Просматривая выдачу, обращайте внимание на нестандартные заголовки и url страниц.

Например, вы можете увидеть, что в выдаче попадаются страницы с идентификаторами на конце, в то время как на сайте настроены ЧПУ. Нередко уже беглый анализ проиндексированных страниц позволяет выявить дубли или другие ошибки.
Если на сайте большой объем страниц, то при анализе может помочь программа Xenu. Об использовании этого инструмента можно прочесть на блоге Сергея Кокшарова.

3. Поиск дублей по части текста
Два предыдущих способа помогают выявить дубли в тех случаях, когда на страницах совпадают мета-данные. Но могут быть и другие ситуации. Например, статья на сайте попадает сразу в несколько категорий, при этом в title и description автоматически добавляется название категории, что делает мета-данные формально уникальными. В этом случае ошибки в панели инструментов мы не увидим, а при ручном анализе сниппетов страниц такие дубли легко пропустить.

Для того чтобы выявить на сайте подобные страницы, лучше всего подойдет поиск по части текста.
Для этого нужно воспользоваться инструментом «расширенный поиск» и произвести поиск на сайте по части текста страницы. Текст вводим в кавычках, чтобы искать страницы с таким же порядком слов и формой, как в нашем запросе.
Так выглядит расширенный поиск в Яндексе:

Как найти дубли страниц

А вот так в Google:
Как найти дубли страниц

На сайтах может быть много сотен или даже тысяч страниц. Разумеется, не нужно анализировать все страницы. Их можно разбить по группам. Например, главная, категории, товарные карточки, новости, статьи. Достаточно будет проанализировать по 2-3 страницы каждого вида, чтобы выявить дубли или убедиться, что на сайте все в порядке.

Чистим сайт от дублей
После того как дубли обнаружены, можно приступать к их удалению.

Находим и устраняем причину появления дублей
Первое, что необходимо сделать – найти причину, из-за которой дубли на сайте появляются, и постараться ее устранить.
Причины могут быть различные, например:

  • ошибки в логике структуры сайта;
  • технические ошибки;
  • различные фильтры и поиск по сайту.

В каждом случае ситуацию необходимо рассматривать индивидуально, но если дубли функционально не полезны, то от них лучше просто отказаться.

Указываем канонический адрес страницы
Если страницы-дубли по каким-то причинам нельзя удалить, то следует указать поисковым роботам, какая страница является основной (канонической). Google ввел для этого специальный атрибут rel=»canonical» (рекомендации по использованию атрибута).

Через некоторое время его стал поддерживать и Яндекс . И на сегодняшний день это основное официальное средство для борьбы с дублями страниц.

Использование 301 редиректа
До внедрения rel=»canonical» 301 редирект был основным способом склейки страниц-дублей. И сейчас разработчики и оптимизаторы продолжают активно использовать 301 редирект для переадресации на основное зеркало сайта или со страниц с «/» или без него на конце.

Запрет к индексации в robots.txt
В файле robots.txt мы можем запретить доступ к определенным разделам или типам страниц, например, страницам, формируемым в результате поиска по сайту. Но это не избавит нас от дублей страниц в Google. Дело в том, что доступ к страницам будет запрещен, но если страницы уже попали в индекс, они после добавления запрета исключены не будут.

Приведу цитату из рекомендаций Google:

Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс. Например, на ваш контент могут ссылаться другие сайты.

Для того чтобы страница была удалена из индекса, на нее необходимо добавить <meta name=»robots» content=»noindex»>, но при этом важно, чтобы страница не была закрыта в robots.txt. Иначе поисковый робот на нее не зайдет.

Еще одна цитата:

Если ваша страница продолжает появляться в результатах, вероятно, мы еще не просканировали ваш сайт после добавления тега. (Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.)

В связи с этим, если дубли на сайте уже есть, robots.txt не поможет удалить их из индекса Google.

Остается пожелать оптимизаторам успехов в борьбе с дублями и развитии своих проектов.

siteclinic.ru

Что такое дубль и чем он опасен

Дубликат — полное или частичное повторение контента на двух или более страницах сайта. Повторы плохо воспринимаются поисковиками и ведут к ухудшению ранжирования, а иногда и к попаданию под фильтры.

Основные проблемы, возникающие при наличии дубликатов:

1. Ухудшение индексации сайта. Наличие «двойников» увеличивает количество страниц сайта, которые нужно обойти поисковому роботу. Это плохо как для огромного проекта с несколькими тысячами страниц, так и для небольшого ресурса. Ведь робот за обход не сможет охватить все страницы и проиндексировать их. Помимо того, в индекс могут попасть сначала страницы-дубликаты, продвижение которых не планировалось, в то время нужные останутся без внимания и индексация исходных версий страниц затянется.

2. Ухудшение ранжирования всего ресурса в поисковой системе из-за неуникальности контента.

3. Неправильное распределение внутреннего ссылочного веса. Страница-дубликат может получить больший ссылочный вес, чем страница-оригинал за счет ошибок в перелинковке. В итоге значимой становится вовсе не та страница.

4. Изменение релевантной страницы в поиске. Поисковый алгоритм на основе пользовательского поведения может посчитать дубль релевантнее запросу и сменить страницу в выдаче. А это может приводить к снижению позиций.

Например, у вас есть 2 страницы:

  • site.com/uslugi/buhgalterskie_uslugi s
  • ite.com/buhgalterskie_uslugi

URL разный, а контент полностью или частично дублируется. В поиске останется только одна страница, потому что поисковики не ранжируют схожие документы. А поскольку позиции рассчитываются на основе множества факторов, при смене релевантной страницы в выдаче позиции меняются. Часто в негативную сторону.

5. Неправильное распределение внешнего ссылочного веса. Когда пользователь захочет поделиться с кем-то ссылкой на определенную страницу, то высока вероятность, что он будет ссылаться именно на дубликат. Это грозит тем, что ссылочный вес достанется странице-дублю.

Как Google относится к дубликатам

Google серьезно относится к проблеме повторяющихся страниц, особенно при их большом количестве.

Предполагается, что дублирование может возникать при манипуляции рейтингом в поисковой системе: для увеличения трафика обманным путем или введения пользователя в заблуждение.

Одинаковые страницы появляются и без злого умысла у интернет-магазинов, форумов, при разных версиях сайта (для мобильных устройств, для печати).

Алгоритм поисковика настроен таким образом, чтобы индексировать и выводить в выдачу страницы с уникальным контентом. И если робот посчитает контент дубликатом — пересматривается рейтинг ресурса в сторону снижения, вплоть до полного отсутствия в выдаче.

Как Яндекс относится к дублям страниц

Для Яндекса дубли не так важны. В случае обнаружения «двойников» система просто удалит одну из повторяющихся страниц из выдачи. А какая-то это будет — оригинальная или дубль — неизвестно. Если Яндекс удалит основную версию страницы, которую вы продвигаете, то позиции сайта снизятся.

Например, в Яндекс Вебмастере вы сможете видеть постоянное движение во вкладке «Страницы в поиске» (исключенные, недостаточно качественные страницы), но при этом их количество в выдаче остается неизменным.

Скриншот Яндекс.Вебмастер

Исключенные страницы Яндекс.Вебмастер

Или Яндекс. Метрика показывала переходы на страницу, а потом они резко прекратились. Это значит, что в индекс попала дублирующая страница. Статистика будет искажена.

Яндекс.Метрика страница входа

Виды дублей и причины их возникновения

Чтобы начать поиск и устранение дублей, важно определиться с их типом, поскольку процесс очистки будет отличаться. Итак, все дубликаты на сайте делят на две большие группы:

  • полное дублирование — ситуация, когда информация повторяется по 2-м и более адресам.

Например: по ссылкам

http://site.com/about
http://www.site.com/about
http://www.site.com/about.html
http://www.site.com/about/

будет полностью идентичный контент. Страница одна, отличаются только URL.

  • частичное дублирование — когда на страницах повторяется какая-то часть контента, они имеют общую семантику и призваны решать похожие задачи пользователей. URL у таких страниц всегда разный.

Дополнительно выделяют:

  • дубликаты по Title — когда полностью повторяется тег Title;
  • типичные дубли страниц на сайте для разных движков — появление страниц из-за особенностей CMS;
  • смысловые дубликаты — одинаковая информация разными словами.

Полные дубли

Причины полных дублей:

  1. Технические недоработки CMS, а также неправильные настройки, из-за которых появляются синонимы в окончаниях названия страниц.
  2. Некорректный переезд на https. Если не указать поисковикам на изменения, они будут видеть один и тот же контент по двум протоколам.
  3. Создание пагинации, то есть постраничный вывод информации. При такой ситуации первая страница по списку будет доступна по ссылкам site.com/catalog и site.com/catalog/?page=1.
  4. Редизайн, изменения в структуре и смена движка. Все это приводит к смене адресов, однако старые страницы могут оставаться доступными.

Частичные дубликаты

Причины частичных дублей:

  1. Неправильная настройка или осознанные действия в оформлении страниц, например, в интернет-магазине текст остается одинаковым, а вот товары меняются.
  2. Ошибки при внедрении фильтра по каталогу: возможна ситуация, когда страницы товаров, отличающихся лишь одним параметром (цвет, размер), станут дубликатами.
  3. Повторы текста на всех страницах из-за неправильной структуры.
  4. Умышленное дублирование, когда частичные дубли создают намеренно, чтобы ранжироваться по похожим запросам, но на разных страницах.

Дубликаты по Title

Копии Title негативно сказываются на продвижении ресурса. Это связано с особенностями и функциями тега: текст из главного заголовка отображается в выдаче в виде ссылки на страницу. Если у вас окажутся повторы, то поисковый робот выберет только одну из дублирующихся страниц, даже если контент будет отличаться.

Важно!

Если 2 разных товара названы одинаково, стоит уникализировать название или включить в Title артикул.

Например:

Вы продаете холодильники. У вас в каталоге есть несколько одинаковых названия «Холодильники Samsung». Чтобы сделать тег уникальным, важно добавить то, чем они отличаются:

Холодильники Samsung (56894–254).

Типичные дубли для разных движков

Для некоторых движков есть типичные дубли. Например:

1. Битрикс при формировании URL для каталога выдает дубликаты детальных страниц при отсутствии привязки к нескольким разделам:

http://www.site.com/shlang_metr/ http://www.site.com/tovari_dlya_sada_i_ogoroda/shlang_metr/.

2. WordPress создает копии несуществующих документов:

Пост — http://site.com/post/
Дубль поста — http://site.com/post/post/.

3. Joomla формирует два URL — «человеческий» и системный, из-за чего появляются копии страниц:

http://site.com/blog/название_статьи.html index.php?option=com_content&view=article&id=99часть_названияd=5:design&Itemid=5

Обычно такие дубликаты устраняются через SEO-плагины и с помощью правильной структуры сайта.

Смысловые дубликаты

Суть этого вида дубликатов: тексты могут быть технически уникальными, но схожими по смыслу. То есть одна и та же информация подается разными словами. Самыми распространенными типами являются:

  • региональные дубли;
  • синонимические текстовые дубли;
  • текстовые дубли (полные или фрагментарные).

Этот тип относится не к техническим дубликатам, когда повторы возникают из-за неправильных настроек, а к дубликатам, созданным человеком по невнимательности.

Региональные дубли

Дубли по регионам возникают, когда вы предлагаете товары или услуги в разные города и страны, но при этом используете одинаковый контент.

Пример:

У вас есть сайт по продаже запчастей для автомобилей. Работаете вы в трех странах — Украине, России и Беларуси. Весь ресурс русскоязычный. Никаких отличий в работе, товарах и услугах нет, и вы решаете для каждой страны скопировать один и тот же контент. И вот тогда страницы удваиваются или утраиваются, дублируя друг друга. А это плохо влияет на ранжирование и индексацию в каждой стране.

Если вы ориентированы на один регион, переживать о наличие таких дублей не нужно. Однако при работе с разными странами поиск дублей страниц сайта обязателен.

Синонимические текстовые дубли

Ситуация возникает при описании одинаковых услуг и товаров с помощью синонимов, например:

«арендовать автомобиль» и «взять напрокат автомобиль»

«вклады на 30 дней» и «вклады на месяц».

Мы говорим про одно и то же только разными словами, а смысл не меняется — по сути это рерайтинг в рамках одного сайта. При этом URL, Title, Description, заголовок будут отличаться.

Примером синонимических дублей являются страницы с частично схожей информацией:

есть страница «Особенности колясок-трансформеров», где расписаны плюсы и минусы моделей, которые помогут определиться с выбором. А есть отдельная страница «Как подобрать коляску-трансформер». В текстах может встретиться пересечение информации, актуальной для подбора конкретной модели: она будет дублироваться, пусть и разными словами.

Такого повторения контента следует избегать, поскольку поисковики накладывают санкции на сайты с синонимическими дублями. Так, они называют такие страницы низкокачественными, а в итоге может ухудшиться ранжирование и позиции всего ресурса понизятся.

Текстовые дубли (полные или фрагментарные)

Бывает, что текст полностью или частично повторяется на разных страницах. Причина — умышленное или неосознанное копирование контента.

Например, у вас есть статья в блоге о том, как выбрать ноутбук. И часть информации вы копируете на страницу каталога.

Такие страницы поисковый робот приравняет. При этом их релевантность время от времени изменяется, а порой страницы и вовсе не попадают в индекс.

Как найти дубли страниц на сайте

Принцип поисковых систем: одна страница = один URL = уникальная информация на странице.

Поэтому чтобы уберечься от потери трафика и позиций в выдаче, продвигать и развивать ресурс, важно найти и удалить все дубли.

В поиске помогут:

  • ручной мониторинг;
  • панели вебмастеров;
  • онлайн-сервисы;
  • десктопные и онлайн программы.

Ручной мониторинг выдачи через «site:»

Страницы, повторяющиеся полностью или фрагментами, найти на сайте легко с помощью такой комбинации:

site: имя сайта пробел фрагмент текста.

В выдаче появятся все страницы с искомой фразой на сайте:

Мониторинг выдачи через «site:» на примере сайта poezd.ru. Перечень полных дублей по фразе «ЖД билеты Пролетарск — Волгоград»
Мониторинг выдачи через «site:» на примере сайта poezd.ru. Перечень полных дублей по фразе «ЖД билеты Пролетарск — Волгоград»

Понять, есть ли полные дубли поможет информация в сниппете: если вы увидели фразу, введенную в строку поиска, жирным шрифтом на 2 и более страницах, то это говорит о наличии дубликатов.

Важно!

Вводимый текст через «site:» не должен быть больше 1 предложения. А искать стоит без точки.

Анализ через Google Search Console

Чтобы проверить дубли страниц на сайте с одинаковыми мета-описаниями, в консоли Google Search Console перейдите на вкладку «Оптимизация Html». В результате вы получите список потенциальных копий.

Поиск дубликатов в Google Search Console
Поиск дубликатов в Google Search Console

Анализ через Яндекс Вебмастер

В Яндекс Вебмастер повторы страниц проверяют по такому пути: «Индексирование» → «Страницы в поиске» → «Исключенные страницы» → «Дубли».

Отслеживание страниц-дубликатов в Яндекс Вебмастере
Отслеживание страниц-дубликатов в Яндекс Вебмастере

Десктопные программы-парсеры

Команда Livepage рекомендует программы:

  • Screaming Frog Seo> Spider;
  • Netpeak Spider;
  • Xenu (бесплатный сервис).

Screaming Frog Seo Spider

Программа используется для мелких и средних проектов. Эффективно сканирует на наличие полных и фрагментированных дублей страниц, названий, мета-данных, заголовков.

Кроме того, с Seo Spider вы сможете проанализировать правильность составления мета-тегов, найти неработающие ссылки, провести аудит и другое.

Итог после проверки отображен справа, в каждом пункте раскрываются несколько проблем и их количество
Итог после проверки отображен справа, в каждом пункте раскрываются несколько проблем и их количество

Netpeak Spider

Программа поможет провести полный аудит сайта и выявить проблемы, неточности и ошибки. Всего Netpeak определяет 62 ошибки в 54 параметрах, среди них:

  • дублирование контента;
  • битые ссылки;
  • редиректы;
  • неканонические страницы и так далее.
Отчет проверки в Netpeak. Слева отображаются ошибки, узнать подробности можно, кликнув на параметр или ошибку
Отчет проверки в Netpeak. Слева отображаются ошибки, узнать подробности можно, кликнув на параметр или ошибку

Xenu

С Xenu Link Sleuth также просто проверить сайт на наличие дублей страниц. Программа выполняет технический аудит сайта и находит полные копии, в том числе и заголовков. Однако частичные дубликаты она не видит.

После установки в строку ввода прописываете адрес сайта, сканируете, сортируете результаты, сравниваете совпадения.

Результаты проверки в Xenu Link Sleuth
Результаты проверки в Xenu Link Sleuth

Онлайн-сервисы для проверки сайта на дубли страниц

Самыми популярными и эффективными являются такие сервисы:

  • SerpStat.com;
  • Seoto.me;
  • JetOctopus.com.

* Цены актуальны на август 2018 года

** Помните, что результаты проверки не являются истиной последней инстанции. Выявленные проблемы — это не 100% проблемы, это лишь показатель того, на что важно обратить внимание, перепроверить и при необходимости исправить!

Serpstat

Платформа проводит технический SEO-аудит сайта, анализируя больше 50 ошибок. Среди всех возможных проблем и потенциально опасных ситуаций сервис выявляет дублированный контент на сайте на двух и больше страницах. Сервис видит:

  • копии Title;
  • дубли Description;
  • повторяющиеся заголовки H1;
  • когда заголовок H1 = Title;
  • на одной странице прописаны 2 мета-тега Title и больше одного заголовка Н1;
  • наличие дубликатов текстов и страниц.
Общий результат проверки в сервисе Serpstat
Общий результат проверки в сервисе Serpstat
Подробный отчет результатов проверки в Serpstat
Подробный отчет результатов проверки в Serpstat

Сервис предоставляет бесплатный функционал и платные планы индивидуального использования от $19 и для компаний от $499 в месяц.

Seoto.me

Сервис, позволяющий мониторить ошибки на сайте:

  • полные и частичные дубли;
  • битые ссылки;
  • неправильную структуру ресурса;
  • правильность составление мета-тегов и другое.

Регистрируетесь, добавляете проект и запускаете сканирование. Результат предоставляется в виде таблицы:

Общий результат проверки в Seoto.me
Общий результат проверки в Seoto.me
Детализация результатов по всем параметрам
Детализация результатов по всем параметрам

Сервис работает бесплатно для 3-х проектов. Далее плата за проект — 500 рублей.

JetOctopus.com

Онлайн-сервис поможет не только проверить сайт на дубли страниц, но и такие ошибки:

  • страницы, на которые заходят пользователи и поисковые роботы,
  • но не имеющие ценности;
  • проблемы с индексацией в Google;
  • неэффективное содержание страниц;
  • неправильная структура;
  • технические сбои и другие.
Отчет проверки сайта JetOctopus. Детально увидеть возможные проблемы можно, перейдя на соответствующие вкладки слева
Отчет проверки сайта JetOctopus. Детально увидеть возможные проблемы можно, перейдя на соответствующие вкладки слева

JetOctopus предлагает пробную версию бесплатно, потом можно выбрать подходящий тарифный план — от 20 € в месяц.

Важно! Преимущество сервиса — он может определять смысловые дубликаты. То есть страницы похожие по контенту, но уникально написанные.

Ручной перебор потенциальных страниц дубликатов на сайте

Этот способ актуален для маленького ресурса. Заключается в ручном подборе возможных вариаций URL, в которых могут быть дубли (примеры описывали выше).

Однако метод требует больших затрат времени, к тому же легко что-то пропустить или забыть.

Кроме того, вручную ищут и смысловые дубликаты, а именно синонимические. Важно аналитически подходить к такому редакторскому аудиту сайта: проверяйте статьи на схожесть информации, повторы фраз и абзацев другими словами. Задавайте вопрос, про что статья, и если будут совпадения — удаляйте одну из них.

Как убрать дубли страниц на сайте

Перед удалением дублей важно разобраться в причине их возникновения и устранить ее.
При этом в каждой ситуации необходимо индивидуально подбирать решение об их удалении или оставлении. Однако помните, если дубликаты функционально не оправданы, от них лучше отказаться.

Итак, убрать дубли можно с помощью:

  • <meta name="robots" content="noindex">;
  • 301 редирект;
  • rel=canonical;
  • атрибуты rel="next" и rel="prev";
  • robots.txt.

Смысловые дубли можно нейтрализовать несколькими способами:

  • alternate и создание сайтов на разных поддоменах;
  • уникализация текстов и структуры подачи информации, фото-, видео- и аудиоконтента.

Закрыть дубли через <meta name="robots" content="noindex">

Тег  <meta name="robots" content="noindex" /> используется для страниц, которые должны продолжить существовать.

Цель применения — закрыть поисковому роботу доступ к странице. При этом можно:

  • запретить переходить по ссылкам в документе — <meta name="robots" content="noindex,nofollow" />;
  • или разрешить — <meta name="robots" content="noindex,follow" />.

Как разместить тег

Размещать тег нужно в HTML-коде дублирующихся страниц между тег <head>...</head>.

301 редирект

301 редирект — способ перенаправления пользователей с одной страницы на другую, при использовании которого они «склеиваются». При этом ссылочный вес передается со старой страницы на новую.

Настройка 301 редиректов используется, когда нужно убрать дубли страниц на сайте, которые не должны существовать.

Как настроить редирект

Внедрить этот способ борьбы с дублями можно либо через файл .htaccess в корневой папке сайта. Примеры синтаксиса кода вы можете посмотреть в статье.

Важно!

Если у вас нет опыта в программировании, а в штате нет программиста, воспользуйтесь технической поддержкой хостинг-провайдера. Или же установите плагины для настройки редиректов, например, Safe Redirect Manager, Redirection, Simple 301 Redirects. А, например, CMS Joomla или Wix имеют встроенные инструменты редиректа.

Закрыть дубли через rel=«canonical»

Установка тега rel=«canonical» — работающий вариант для страниц:

  • пагинации;
  • фильтров и сортировок;
  • печати; utm-страниц;
  • с одинаковым содержимым на разных языках и размещенных на отдельных доменах.

Этот способ актуален, если не получается удалить страницы-дубли. Тогда важно указать главную (каноническую) страницу, более предпочтительную для индексации, чтобы боты обращали внимание только на нее.

Атрибут rel=«canonical» применим и для Google, и для Яндекса. Однако эффективнее использовать этот тег для второй поисковой системы.

Как задать атрибут

В HTML-код текущей страницы между тегами…помещаем атрибут rel=«canonical».

Например, для страниц

http://site.com/index.php?catalog=25&tovar=10;
http://site.com/catalog?filtr1=%5b%25D0%,filtr2=%5b%25D0%259 °F%;
http://site.com/catalog/print

канонической будет страница http://site.com/catalog.

В HTML-коде это выглядит так:  <link rel="canonical" href="http://site.com/catalog"/>.

Атрибуты rel=«next» и rel=«prev»

С помощью rel=«next» и rel=«prev» связываются отдельные страницы в цепочки. Стоит учитывать, что метод действенен только для страниц пагинации и только для Google. Однако этот тег лишь вспомогательный атрибут, и как правило, не является обязательная директива.

Кроме того, важно отслеживать правильность генерации тегов и отслеживать четкую последовательность между страницами пагинации. Это поможет избежать бесконечных цепочек.

Как настроить атрибут

Размещают атрибут на первой странице в разделе <head>:

Первая страница — http://site.com/catalog-page1

Следующая — <link rel="next" href="http://site.com/catalog-page2.html">

Для всех последующих страниц добавляем атрибут rel=«next» и rel=«prev», которые будут указывать на предыдущий и следующий URL.

Учитывая, что это первая страница, добавлять нужно только rel=«next». Например, на второй странице http://site.com/catalog-page2 нужно добавить ссылки:

<link rel="prev" href="http://site.com/catalog-page1"> <link rel="next" href="http://site.com/catalog-page3">

На завершающей странице http://site.com/catalog-pageN, как и на первой, необходимо указать только один атрибут. Важно: в данном случае он указывает на предыдущий URL:

<link rel="prev" href="http://site.com/catalog-pageN">

Настройка robots.txt

Закрыть доступ к разделам и страницам можно с помощью файла robots.txt. Однако это не гарантирует избавление от дублей. Поскольку некоторые страницы могли попасть в индекс, и после добавления запрета они остаются доступными для поисковых систем. То есть вы сможете противостоять новым дублям, но через robots.txt не получится удалить старые.

Способ применяется, когда не подходит никакой другой вариант. Подходит для закрытия служебных страниц, частично повторяющих контент основных.

Как настроить

В файле robots.txt прописываете страницы, которые хотите скрыть, а перед ними ставите слеш.

Визуально настройка robots.txt выглядит так 1 — закрыта страница входа в личный кабинет, 2 — закрыта страница сравнения товаров
Визуально настройка robots.txt выглядит так: 1 – закрыта страница входа в личный кабинет, 2 – закрыта страница сравнения товаров

Создание сайтов на разных поддоменах

Этот способ поможет в решении проблемы региональных дублей.

Чтобы у поисковиков не было вопросов к вашему ресурсу, продвигайте регионы на разных поддоменах. Для каждой страны лучше иметь национальный домен. Это облегчит продвижение и не повлечет за собой санкций от поисковых систем.

Теги alternate и hreflang

Представленные теги используются, когда:

  • контент идентичен для разных стран и регионов;
  • необходимо показать пользователю альтернативный вариант сайта, ориентированный на определенные регионы.

Они предотвращают склеивание страниц при повторяющемся контенте.

Визуально пример нейтрализации дублей выглядит так:

<link rel="alternate" hreflang="язык-регион" href="адрес альтернативной страницы" />

Применяя описанные методы, найти дубликаты страниц на сайте и избавиться от них для оптимизации ресурса будет проще.

Остались вопросы по вашему сайту? Напишите нам и мы поможем найти все дубликаты и оптимизировать ваш проект.

livepage.pro


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.