Дубли страниц


Повышение поисковой привлекательности ресурса включает в себя борьбу с дублями страниц, которые негативно сказываются на его поисковом рейтинге, понижают ранг в выдаче, снижая эффективность интернет-проекта – основного инструмента продвижения онлайнового бизнеса.

Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA

Дубли страниц

Почему это происходит?

Представим ситуацию- владелец честно подготовил уникальный качественный тематический контент для своей целевой аудитории: полезные достоверные актуальные описания, грамотные обучающие материалы, аудио и видеозаписи, отличная тематическая графика, уникальные авторитетные авторские доклады в медиаформате, видеоинструкции, вебинары, профессиональный видеоролик с рекламой бренда, записанный в престижной студии – снабдил ресурс всем необходимым для доверия, устойчивой репутации и положительных покупательских решений. Такой подход заслуживает надеяться на трафик и дивиденды.


В чем же упущение? Объяснение есть.

Поисковики – это роботы, которые ищут качественный, оригинальный, полезный контент и повышают рейтинг таких веб-ресурсов и страниц. Уникальность – один из основополагающих критериев, предъявляемых к качеству контента.

Как ведет себя поисковик, если кто-то непорядочный скопипастил ваш безупречный контент и опубликовал его на своем веб-сайте – он понижает рейтинг такой страницы, банит ресурс за плагиат, понимая, что авторство нарушено. К сожалению, если вы на собственном ресурсе скопируете и второй раз разместите тот же текст, поисковик поведет себя точно так же: вы банально сами конкурируете с собой.

Именно этот принцип внимания к пользователям интернета и стремления отобрать на первые места поисковой выдачи только самое уникальное, свежее, полезное и лежит в основе негативного отношения поисковых систем к дубликатам.

Принцип понятен, но как же удивляются хозяева сайтов, когда обнаруживается источник низкого рейтинга – дубли внутри сайта! Первой реакцией бывает: у нас нет дублей, каждая страница уникальна!

Что считается дублями


Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Например:

  • с доменом, начинающимся на www и без www,
  • со слешем в конце,
  • с .php или .html в конце.

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Дубли бывают разные

Если страницы-дубли относятся к одному сайту – это внутренние дубли.

Различают полные и неполные внутренние дубли (четкие и нечеткие).

Например: по ссылкам

  • http://site.com/about
  • http://www.site.com/about
  • http://www.site.com/about.html
  • http://www.site.com/about/

будет полностью идентичный контент. Страница будет одна, отличаться будет только URL. Это полные дубли.

Неполные дубли – это страницы, частично повторяющие контент других страниц, например, основной блок информации на стартовой в точности повторяет контент страницы «О нас», причем ссылки у таких страниц будут разными, в меню будут активны разные разделы, в боковых колонках могут присутствовать разные блоки. URL у таких страниц разный.


Причина появления дублей

Если неполные дубли – это результат сознательного выбора структуры страниц сайта, то о полных владелец обычно даже не подозревает.

Причины полных дублей:

  • Особенности cms, позволяющие формировать синонимы в окончании названия страниц. Прописывая в конце с / или без, с .html, .htm, php – всегда будем открывать одну и ту же страницу.
  • Дополнительный домен с www для одного сайта. Страницы отзываются на оба доменные имена.
  • Постраничный вывод информации (пагинация), когда первая страница списка открывается и по ссылке stranitsa, и по ссылке stranitsa/page_1.
  • Несколько разных названий в структуре сайта для идентичных страниц, если к пункту меню можно привязать любую страницу сайта несколько раз.
  • Редизайн, который привел к изменению URL страниц.

Причины неполных дублей

Как правило, осознанное желание владельца вывести одну информацию на разных страницах, чтобы привлечь к ней больше внимания и повысить юзабилити. Одни и те же тексты выводятся в различных блоках и дублируются во многих местах. В разумных пределах это оправдано.

Чем грозят дубли продвижению сайта


  • Дубли нежелательны с точки зрения СЕО, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Найти и уничтожить


Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Как найти дубли страниц на сайте

1. В поисковике можно найти все страницы сайта, если в поле поиска ввести site: доменное имя сайта, через пробел фрагмент текста. В выдаче найдете все страницы с этой фразой только по своему сайту.

2. Для анализа сайтов, в том числе и для поиска дублей страниц, существуют специальные программы. Например, простая и удобная для такой цели Xenu. Принцип такой: указывается доменное имя, запускается поиск всех страниц, составляется отчет, в котором выводятся неработающие ссылки, ошибки и дубли.
3. Поисковые системы с целью помочь веб-мастерам создать наиболее эффективные и востребованные сайты, которые и поисковыми роботами будут восприниматься такими же, предлагают использовать свои сервисы аналитики эффективности сайтов – «Инструменты для веб-мастеров», в которых есть отдельные разделы с отчетами по дублям страниц, там тоже можно получить список проблемных страниц.

Имея список дублей, можно начинать их искоренять.

Как избавиться от дублей страниц


Удалить дубли страниц на сайте можно двумя способа: исключить дубли и скрыть их от поисковых роботов.

Если исходить из принципа одна страница – одна ссылка, то все вариации одной и той же страницы должны быть исключены: один вариант открывает нужную страницу, все остальные – страницу не находят. Если страница не найдена, пользователю выдается ошибка 404. Для эстетики ее часто красиво оформляют или выкладывают на ней полезный материал сайта.

Но с точки зрения пользователя это неудобно – находить страницу только по одному из нескольких возможных вариантов. В таком случае настраивают редирект (автоматическое перенаправление) всех вариантов написания страницы на одну единственную существующую страницу. Это называется редирект 301, он задается на сервере в специальном файле htaccess, а поисковики относятся к нему вполне лояльно.

Запретить поисковикам индексировать страницы-дубли можно в специальном файле robots.txt, созданном для поисковиков в качестве инструкции, что индексировать, что игнорировать. С помощью данного файла мы сможем закрыть от индексации дубли страниц.

Плюс ситуации в том, что ваш ключевой актив – контент – не сворован злоумышленниками, не нужно отстаивать права на интеллектуальную собственность, судиться, строчить жалобы и письма в Google, Яндекс, Digital Millennium Copyright с доказательствами и скриншотами из админки и постов в блогах: достаточно произвести ряд внутренних мер по устранению досадного недоразумения, и вскоре после переиндексации сможете получить отдачу от вложенного бюджета, маркетинговых усилий и повышать прибыль от бизнеса.


semantica.in

Почему дубли страниц плохо влияют на ранжирование сайта?

Поисковые системы воспринимают эти страницы, как отдельные страницы сайта, поэтому их наполнение из-за дублирования информации перестает быть уникальным. Кроме того, понижается ссылочный вес страницы, если она имеет дубль. Небольшое количество дублированных страниц может не стать большой проблемой, однако если их более 50% — вам срочно нужно исправлять ситуацию.

Откуда берутся дубли?

Самая распространенная причина – это генерация дублей страниц системой управления из-за неправильных настроек. Самый известный пример – CMS Joomla, с проблемой дублей на ней приходится сталкиваться чуть ли не на каждом сайте.

Частичные дубли часто встречаются на сайтах интернет-магазинов:

  • Они могут появляться на страницах пагинации, если те содержат одинаковый текст, изменяя лишь товары;
  • Неправильные настройки фильтра по каталогу могут порождать частичные и полные дубли;
  • Страницы карточек товаров могут стать дубликатами, если товар, к примеру, отличается лишь цветом или размером (для таких товаров нужно делать одну карточку с указанием всех характеристик).

Как найти дубли страниц?

Есть несколько способов поиска дубликатов страниц, каждый из которых может дать разные результаты.

1. Некоторые распространенные варианты дублей можно проверить вручную.

  • Настроено ли главное зеркало сайта (доступен ли он с www и без www);
  • Имеются ли нечеткие дубли со / и без / на конце url;
  • Наличие дублей с index.html, index.asp, index.php в конце url;
  • Доступность страницы с буквами как в нижнем, так и в верхнем регистре, также порождает дубли.

2. Проанализировать страницы, проиндексированные поисковыми системами.

Для этого в Google достаточно ввести запрос site:mysite.com — он покажет страницы общего индекса, то есть все, что поисковик успел проиндексировать на сайте.

Индекс сайта

3. Поиск по фрагменту текста

Вбивая в поиск длинные фрагменты текста, можно найти места, где он повторяется (а заодно и сайты, которые скопировали ваш текст). Но здесь есть два минуса: метод подходит, если на сайте мало страниц, и то, что поисковая система может анализировать запрос до определенной длины.


Проверка по фрагменту текста

4. Заглянуть в панель вебмастера Google

В разделе «Вид в поиске» находим вкладку «оптимизация HTML» и ищем значение поля «Повторяющиеся метаописания» и «Повторяющиеся заголовки». Нажав на них, можно увидеть список всех страниц с повторяющимися тегами title и description и сами заголовки и описания.

Повторяющиеся метаописания

5. Воспользоваться программой Xenu`s Link Sleuth

Программа распространяется бесплатно и способна определить url всех страниц сайта, включая скрипты и картинки, а также внешние ссылки. Кроме дубликатов в ней удобно искать битые ссылки – страницы, которые возвращают код 404.

Xenu

www.seo.kasper.by

Вступление

Дубли страниц это повторение содержимого статьи или ее части под разными URL в свободной выдаче поисковиков. Дубли страниц могут создаваться системой управления сайтом автоматически или администратором сайта вручную (чаще не преднамеренно). В этой статье мы говорим о дубле страниц в рамках одного домена.

Что такое дубли страниц

Прежде всего, давайте поймем, что такое дубли страниц.

Под дублями страниц понимается, что одну и ту же страницу ресурса или ее части можно найти по разным URL адресам.


Пойдем дальше, вспомним, как формируется контент сайта. Статья публикуется на сайте и записывается  под своим URL в базу данных. Это и есть оригинал статьи  с уникальным адресом URL. Нельзя сказать, что он единственный в математическом понимании. Любой SEF модуль перепишет его в SEF ссылку. Но опять-таки, эта SEF ссылка уникальна в единственном экземпляре.

В идеале, в индекс  должно попадать столько URL страниц, сколько опубликовано. Это и есть золотое правило SEO — каждая страница должна быть доступна только по одному адресу. А что же происходит  в реальности?

Прежде чем разобраться откуда берутся дубли страниц, поймем, почему поисковики «не любят» сайты с большим количеством дублированных страниц.

Ранжирование сайта и дубли страниц

Поисковики  постоянно сканирует не закрытое от них содержание сайта. На сканирование и индексацию тратятся реальные ресурсы поисковых систем. Было бы странно, если поисковым системам нравились сайты, заполненные дублированными страницами. Ведь, по сути, получается, что поисковик листает одну и ту же страницу десятки и сотни раз.

Отсюда и появляются фильтры, накладываемые на сайты с большим количеством дублей, или сайт понижается в ранжировании (читать про ранжирование). Снижение ранжирования, отодвигает позиции в выдаче, а отсюда борьба «сеошников» с этими самыми дублями страниц. Вот такой логический цикл.

Но это не самая важная причина борьбы поисковиков с дублями страниц. Более веской причиной включения в поисковые алгоритмы санкций за дублирование страниц, стала борьба со ссылочным продвижением, когда масса ссылок разбрасывалась по сайту  по одинаковым текстам (черные схемы оптимизации).

Причина появления дублей

Поняв, что такое дубли страниц сайта, давайте разберемся в причинах появления дублей страниц, в рамках одного домена. В рамках одного домена в создании дублей страниц  есть следующие виновники:

  • Человек (человеческий фактор);
  • Традиции Интернет;
  • Специфика CMS;
  • Также, дубли могут появляться на сайте независимо от Вас. Ваша  CMS сама «родит» дубли.

Примечание: Слышал мнение, что дубли страниц  плодят SEO расширения, которые вы используете на сайте. Это не так.  SEO расширения не создают дубли, они их выявляют и записывают в свою базу. От того, что в их базе появляются новые дубли, они не виноваты.

Как появляются дубли страниц

Проследим, как появляются дубли на сайте, без примеров, только общие тенденции.

  • Сайт создается со своим адресом в Интернет – доменом. По сути, в интернет сразу же появляются два сайта один с доменным именем без WWW, второй с WWW. Без настроенной переадресации домена с www и без, в сети будут «гулять» дубли страниц;
  • Многие CMS создают неявные дубли страниц, в разделах, в модулях, в архивах, в RSS;
  • Дубли страниц появляются при неправильно настройки ссылок сайта и перестройки ссылок в процессе работы сайта, когда часть статей уже есть в индексе.

Именно по этому, после настройки всех параметров сайта по формированию URL , после настройки всех SEO расширений, установленных на сайте перестраивать ничего не нужно.

Зачем бороться с дублями страниц

Кроме опасности попасть из-за дублей страниц под поисковой фильтр, есть еще пару  причин этой борьбы:

  • Дубли рассеивают тИЦ страниц сайта. Поэтому очень важно избавиться от дублей перед очередным апдейтем поисковых систем.
  • Чем больше дублей, тем меньше уникальность сайта, что также снижает ранжирование статей в выдаче.

Выводы

Мы разобрались, что такое дубли страниц сайта и поняли, чтобы снизить количество дублей необходимо:

  • Сразу определитесь с главным доменом сайта (с и без WWW) и пропишите 301 Redirect в файле htaccess;
  • Трудно вручную избавляться от дублей страниц. Поэтому лучше воспользоваться SEO расширениями доступными для вашей платформы;
  • Периодически чистите базу ссылок SEO расширений от найденных дублей. Обязательно делайте это перед апдейт поисковиков;
  • Более часто проверяйте дубль главной страницы;
  • Решите проблему дублей feed и comments. Самое простое закройте feed сайта и комментарии к статьям сайта от индексирования в файле Robots.txt.

©Seojus.ru

seojus.ru

13 июля Яндекс провел очередной вебинар для вебмастеров, посвященный одной из самых распространенных проблем при работе с сайтом с точки зрения поисковой оптимизации —выявлению и удалению дублей страниц и других ненужных документов. Александр Смирнов рассказал и показал, как работать со «Статистикой обхода» и архивами загруженных страниц, которые помогают находить дубли и служебные страницы. Также объяснил, как составлять robots.txt для документов такого типа.

Перед тем, как начать говорить о дублях, Александр дал определение дублирующей странице сайта:

Дубли – две или более страниц одного сайта, которые содержат идентичный или в достаточной мере похожий текстовый контент.

Довольно часто дубли – это одна и та же страница сайта, доступная по разным URL-адресам.

Причин появления дублей на сайте – множество и все они связаны с различными ошибками. Например:

Ошибки в содержимом страниц:

• некорректные относительные ссылки
• отсутствие текста

Некорректные настройки:

• HTTP-200 вместо HTTP-404
• доступность служебных страниц

Ошибки в CMS:

• особенности структуры

Большое количество возможных причин возникновения дублей обычно очень гнетет вебмастеров и они откладывают их поиск в долгий ящик, не желая тратить на это время. Делать этого не стоит, так как наличие дублей страниц на сайте зачастую приводит к различным проблемам.

01 | Опасность дублей на сайте

Проблемы, к которым приводят дубли:

• Смена релевантной страницы в результатах поиска
• Обход дублирующих страниц
• Затруднение сбора статистики

Смена релевантной страницы

Например, на сайте есть бухгалтерские услуги, описание которых доступно по двум адресам:

site.ru/uslugi/buhgalterskie-uslugi/
site.ru/buhgalterskie-uslugi/

Первый адрес находится в разделе «Услуги», а второй адрес – это страничка в корне сайта. Контент обеих страниц абсолютно одинаков.

Робот не хранит в своей базе несколько идентичных документов, поэтому в поиске остается только один из них – на усмотрение робота. Кажется, что в этом нет ничего плохого, ведь страницы идентичны. Однако опытные вебмастера знают, что позиции конкретной страницы по запросам рассчитываются на основании нескольких сотен показателей, поэтому при смене страницы в поисковой выдаче, позиции могут измениться.

Именно так и произошло в случае с бухгалтерскими услугами – по конкретному запросу [услуги бухгалтерского учета] в середине июня произошло конкретное проседание позиций, чтобы было связано со сменой релевантной страницы в поисковой выдаче.

Дубли страниц

Через некоторое время релевантная страница вернулась в выдачу, однако совершенно очевидно, что даже такое небольшое изменение может повлиять на количество трафика на ресурс.

Обход дублирующих страниц

При наличии большого количества дублей на ресурсе, поисковому роботу приходится постоянно посещать большое количество страниц. Поскольку количество запросов со стороны индексирующего робота ограничено (производителем сервера или CMS сайта, вебмастером с помощью директивы Crawl-delay), он, при наличии большого количества дублирующих страниц, начинает скачивать именно их, вместо того чтобы индексировать нужные страницы сайта. В результате в поисковой выдаче могут показываться какие-то неактуальные данные и пользователи не смогут найти нужную им информацию, хоть она и размещена на сайте.

Пример из практики по обходу дублирующих страниц, из которого видно, что до конца мая робот ежедневно скачивал чуть меньше миллиона страниц интернет-магазина. После обновления ресурса и внесения изменений на сайт, робот резко начинает увеличивать нагрузку на ресурс, скачивая по несколько миллионов страниц в день:

Дубли страниц

Большая часть этих страниц – дубли, с некорректными GET-параметрами, которые появились из-за некорректной работы CMS, используемой на сайте.

Проблемы со сбором статистики в Яндекс.Вебмастере и Яндекс.Метрике

Если говорить о Вебмастере, то в разделе «Страницы в поиске» можно наблюдать вот такую картину:

Дубли страниц

При каждом обновлении поисковой базы, количество страниц в поиске остается практически неизменным, но видно, что робот при каждом обновлении добавляет и удаляет примерно одинаковое количество страниц. То есть какой-то процесс происходит, постоянно что-то удаляется и добавляется, при этом количество страниц в поиске остается неизменным. Если посмотреть статистику обхода, то мы увидим, что ежедневно робот посещает несколько тысяч новых страниц сайта, при этом эти новые страницы в поисковую выдачу не попадают. Это как раз-таки и связано с обходом роботом дублирующих страниц, которые потом в поисковую выдачу не включаются.

Если смотреть статистику посещаемости конкретной страницы в Яндекс. Метрике, то может возникнуть следующая ситуация: данная страница показывалась ранее по конкретному запросу и на нее были переходы из результатов поиска, которые почему-то прекратились в начале мая:

Дубли страниц

А произошло следующее – включилась в поисковую выдачу дублирующая страница, и пользователи с поиска начали переходить на нее, а не на нужную страницу сайта.

Казалось бы, эти три большие проблемы, вызываемые наличием дублей страниц на сайте, должны мотивировать вебмастеров к их устранению. А чтобы удалить дубли с сайта, сначала их нужно найти.

02 | Поиск дублей

— Видишь дублирующие страницы?
— Нет.
— И я нет. А они есть.

Самый простой способ искать дублирующие страницы – это с помощью раздела «Страницы в поиске» в Яндекс.Вебмастере:

Страницы в поиске -> Исключенные страницы -> Сортировка: Дубль -> Применить

Дубли страниц

В результате можно увидеть все страницы, которые исключил робот, посчитав их дублирующими.
Если таких страниц много, например, несколько десятков тысяч, можно полученную страницу выгрузить из Вебмастера и дальше использовать ее по своему усмотрению.

Второй способ – с помощью раздела «Статистика обхода»:

Статистика обхода -> Сортировка: 200 (ОК)

Дубли страниц

В этом разделе можно увидеть не только страницы, которые посещает робот, не только дубли, но и различные служебные страницы сайта, которые в поиске видеть бы не хотелось.

Третий способ – с применением фантазии.

Берем любую страницу сайта и добавляем к ней произвольный GET-параметр (в нашем случае это /?test=123. При помощи инструмента «Проверка ответа сервера», проверяем код ответа от данной страницы:

Дубли страниц

Если данная страница доступна и отвечает, как на скриншоте, кодом ответа 200, то это может привести к появлению дублирующих страниц на сайте. Например, если робот найдет где-то такую ссылку в интернете, он ее проиндексирует и потенциально она может стать дублирующей.

Четвертый способ – это проверка статуса URL.

В ситуации, когда нужная страница уже пропала из результатов поиска, при помощи этого инструмента можно проверить, по каким именно причинам это произошло:

Дубли страниц

В данном случае видно, что страница была исключена из поиска поскольку является дублем.

Кроме этих четырех способов можно использовать еще какие-то свои способы, например: посмотреть логи своего сервера, статистику Яндекс.Метрики, в конце концов, посмотреть поисковую выдачу, там тоже можно выявить дублирующие страницы.

03 | Устранение дублей

Все возможные дубли страниц можно разделить на две категории:

• Явные дубли (полностью идентичный контент)
• Неявные дубли (страницы с похожим содержимым)

Внутри этих двух категорий представлено большое количество видов дублей, на которых сейчас мы остановимся подробней и разберемся, как их можно устранить.

1. Страницы со слэшом в конце адреса и без

Пример:

site.ru/page
site.ru/page/

Что делаем:

— HTTP-301 перенаправление с одного вида страниц на другие с помощью .hitacces/CMS

Какие именно страницы нужно оставлять для робота решает сам вебмастер в каждом конкретном случае. Можно посмотреть на страницы своего сайта в поиске, какие из них присутствуют в нем в данный момент, и принимать решение, исходя из этих данных.

2. Один и тот же товар в нескольких категориях

Пример:

site.ru/игрушки/мяч
site.ru/мяч

Что делаем:

— Используем атрибут rel=”canonical” тега <link>

Оставлять для робота лучше те страницы, формат адресов которых наиболее удобен для посетителей сайта.

3. Страницы версий для печати

Пример:

Дубли страниц

Что делаем:

Используем запрет в файле robots.txt, который укажет роботу, что все страницы с подобными адресами индексировать нельзя —

Disallow://node_print.php*

4. Страницы с незначащими параметрами

Пример:

site.ru/page
site.ru/page?utm_sourse=adv
site.ru/page?sid=e0t421e63

Что делаем:

Прибегаем к помощи специальной директивы Clean-param в robots.txt и указываем все незначащие параметры, которые используются на сайте –

Clean-param: sis&utm_sourse

5. Страницы действий на сайте

Пример:

site.ru/page?add_basket=yes
site.ru/page?add_compare=list
site.ru/page?comment_page_1

Что делаем:

Запрет в robots.txt –

 Disallow:* add_basket=*   Disallow:* add_compare=*   Disallow:* comment_*

Или

Disallow:*?*

6. Некорректные относительные адреса

Пример:

site.ru/игрушки/мяч
site.ru/игрушки/ игрушки/ игрушки/ игрушки/мяч

Что делаем:

1. Ищем источник появления
2. Настраиваем HTTP-404 на запросы робота

7. Похожие товары

Пример:

— товары отличаются характеристиками (размером, цветом)
— похожие товары одной категории

Что делаем:

— Оставляем товар на одном URL и используем селектор (возможность выбора нужного цвета и размера)
— Добавляем на такие страницы дополнительное описание, отзывы
— Закрываем ненужное в noindex

8. Страницы с фотографиями без описания

Пример:

Страницы фотогалерей, фотобанков

Что делаем:

— Добавляем дополнительное описание, теги
— Открытие комментариев на странице

9. Страницы фильтров и сортировки

Пример:

site.ru/shop/catalog/podarki/?sort=minimum_price&size=40
site.ru/shop/catalog/filter/price-from-369-to-804/pr_material-f22-or-c5/

Что делаем:

— Определяем востребованность и полезные оставляем
— Для бесполезных прописываем запрет в robots.txt –

 Disallow:*sort=*   Disallow:*size=*   Disallow:*/filter/*

10. Страницы пагинации

Пример:

site.ru/shop/catalog/podarki/
site.ru/shop/catalog/podarki/?page_1
site.ru/shop/catalog/podarki/?page_2

Что делаем:

Используем атрибут rel=”canonical” тега <link>

www.searchengines.ru

Дубли страниц — методы определения

Для ПС Google.

Метод №1. Зайдите в панель инструментов Вебмастера и перейдите по адресу Вид в поиске – Оптимизация HTML.

оптимизация HTML

Перед вами откроется окно, в котором необходимо обратить внимание на:

Повторяющееся метаописание – страницы с одинаковым описанием (description)

Повторяющиеся заголовки (теги title) – страницы сайта с одинаковым title

Дело в том, что обычно на дублированных страницах, кроме контента и содержимого, дублируются еще и заголовки с метаописаниями. Поэтому, таким способом легко определить дубли страниц.

Метод №2. Если сайт не добавлен в панель инструментов, то можно воспользоваться поиском по фрагменту текста. Для этого скопируйте часть текста (1 предложение, или несколько слов), заключите его в кавычки и добавьте к нему такую приставку — site:vash-site.ru

В результате должен получится такой запрос:

"Фраза, которая мне напоминает дубль" site:vash-site.ru

проверка дублей страниц через Google

В приведенном примере, все хорошо, но очень часто бывает совсем по-другому.

Метод №3. В поисковой строке Google введите оператор:

site:vash-site.ru

опуститесь в самый низ страницы и в конце списка перейдите по ссылке – Показать скрытые результаты.

скрытые результаты

Внимательно изучите предоставленные вам результаты поиска для выявления дублей страниц.

Для ПС Яндекс.

Идем в расширенный поиск Яндекса, указываем нужный запрос в кавычках, и адрес проверяемого сайта.

расширенный поиск Яндекса для выявления дублей страниц

После нажатия кнопки Найти, будет предоставлен результат поиска.

Еще можно сравнить количество проиндексированных страниц обеими ПС. Если результат, будет существенно отличатся, то с большой долей вероятности можно говорить о существовании дублей в одной из ПС.

индексация страниц в Яндексе и Google

С помощью специализированных программ.

Есть два отличных инструмента, которые полностью автоматизируют поиск дублированных страниц на сайте (и не только).

Описывать принцип их работы не имеет смысла, так как для анализа необходимо добавить url-адрес сайта и запустить сам процесс сканирования. После его окончания в соответствующих полях будет результат работы.

Вот эти программы:

— Xenu’s Link Sleuth

— Netpeak Spider

www.seofive.ru

Немного теории

Наверняка многие слышали, что дубли страниц — это плохо. Подробно останавливаться на данном вопросе не буду, так как тема популярная, и качественной информации в интернете, даже появившейся в последнее время, много. Отмечу только неприятности, которые могут появиться у сайта при наличии дублей:

  • проблемы с индексацией (особенно актуально для крупных сайтов);
  • размытие релевантности и ранжирование нецелевых страниц;
  • потеря естественных ссылок, которые могут появляться на страницах дублей;
  • общая пессимизация проекта и санкции поисковых систем.

Поэтому в процессе продвижения проектов этому вопросу должно уделяться особое внимание.

Также стоит вкратце остановится на двух разновидностях дублей:

  • Полные дубли — это когда один и тот же контент доступен по разным URL. Например: http://www.foxtrot.com.ua/ и https://www.foxtrot.com.ua/.
  • Частичные дубли — когда страницы имеют общую семантику, решают одни и те же задачи пользователей и имеют похожий контент, но не являются полными дублями. Да, получилось достаточно запутанно, поэтому предлагаю рассмотреть пример: https://vc.ru/category/телеграм и https://vc.ru/category/telegram.

Обе страницы имеют общую семантику, похожий контент и решают одни и те же задачи пользователей, но при этом не являются полными дублями, так как содержимое страниц разное.

Выявить полные дубли намного проще, да и проблем они могут привести куда больше из-за своей массовости, а вот с неполными дублями нужно работать точечно и избавляться от них при формировании правильной структуры сайта. Далее в этой статье под дублями будут подразумеваться полные дубли.

Итак, мы определились, что проект не должен содержать дубли. Точка. Особенно критично, когда дубли начинают индексироваться поисковыми системами. И чтобы этого не случилось, а также для предотвращения других негативных последствий, их нужно выявлять и устранять. О том, как с ними бороться, можно найти много материалов, но если в комментариях будут просьбы рассказать подробнее, то я обязательно это сделаю в одной из следующих статей.

Чтобы никого не запутать, сейчас опустим момент с формированием нужных дублей (например, страниц с UTM-метками).

Выявление полных дублей

Обычно специалисты проверяют у продвигаемого проекта наличие следующих дублей:

1. Дубли страниц с разными протоколами: http и https.

Выше уже был указан пример такого дубля: http://www.foxtrot.com.ua/ и https://www.foxtrot.com.ua/.

2. С www и без www.

Например: http://oknadeshevo.ru/ и http://www.oknadeshevo.ru/.

3. Со слешем на конце URL и без него.

Например: https://www.1tv.ru/live и https://www.1tv.ru/live/.

Еще пример: https://www.lamoda.ru/p/wa007ewbhbj9/clothes-wallis-bryuki и https://www.lamoda.ru/p/wa007ewbhbj9/clothes-wallis-bryuki/.

При этом каждая страница содержит canonical на себя.

4. Строчные и прописные буквы во вложенностях URL.

Например: https://www.mosokna.ru/info/osteklenie-detskikh-sadov/ и https://www.mosokna.ru/info/OSTEKLENIE-DETSKIKH-SADOV/.

При том, что страница https://www.mosokna.ru/PLASTIKOVYE-OKNA/ отдаёт 404-й код ответа сервера:

Это пример того, как на разных типах страниц один и тот же принцип формирования дублей обрабатывается по-разному.

5. Добавления в конце URL:

index.php

home.php

index.html

home.html

index.htm

home.htm

Например: https://www.eldorado.ru/cat/378830466/ и https://www.eldorado.ru/cat/378830466/index.html/.

Как видно, оба URL проиндексированы в «Яндексе»:

А разве это все возможные дубли?

В своей практике я сталкивался с огромным количеством примеров формирования дублей, и самые популярные, которые встречались не единожды, я укажу ниже:

6. Множественное добавление ////////////////// в конце URL.

Например, http://www.banki.ru/ и http://www.banki.ru////////.

7. Множественное добавление ////////////////// между вложенностями.

Например, https://moskva.beeline.ru/customers/products/mobile/services/details/nomer-na-vybor/krasivie-nomera/ и https://moskva.beeline.ru/customers///////products///////mobile///////services///////details///////nomer-na-vybor///////krasivie-nomera/.

Ещё пример: https://f.ua/hewlett-packard/15-bs006ur-1zj72ea.html и https://f.ua/hewlett-packard///////15-bs006ur-1zj72ea.html.

Очень часто встречающаяся ошибка.

8. Добавление произвольных символов в конец URL, формируя новую вложенность.

Например, https://apteka.ru/moskva/apteki/doktor-stoletov_16/ и https://apteka.ru/moskva/apteki/doktor-stoletov_16/Lfz/.

9. Добавление произвольных символов в существующую вложенность.

Например, https://www.dochkisinochki.ru/brands/nutrilon/ и https://www.dochkisinochki.ru/brands/nutrilonbY5I/.

10. Добавление вложенности с произвольными символами.

Например, https://www.utkonos.ru/news/item/1343 и https://www.utkonos.ru/news/wg/item/1343.

Не совсем дубль, но страница отдаёт 200-й код ответа сервера, что позволит ей попасть в индекс.

11. Добавление * в конце URL.

Например, https://www.sportmaster.ru/product/10137329/ и https://www.sportmaster.ru/product/10137329/*/.

Ещё пример: https://docdoc.ru/clinic/set-evropeyskiy-medicinskiy-centr и https://docdoc.ru/clinic/set-evropeyskiy-medicinskiy-centr/*.

12. Замена нижнего подчеркивания на тире и наоборот.

Например, https://mamsy.ru/filter/zhenshinam_tovary_bolshie_razmery/ и https://mamsy.ru/filter/zhenshinam-tovary-bolshie-razmery/.

13. Добавление произвольных цифр в конце URL, формируя новую вложенность.

Например, https://apteka.ru/moskva/apteki/doktor-stoletov_16/ и https://apteka.ru/moskva/apteki/doktor-stoletov_16/2488/.

Такие дубли часто формируются со страниц публикаций на WordPress.

14. Замена вложенностей местами.

Например https://www.toy.ru/catalog/producers/BARBIE-Mattel/ и https://www.toy.ru/producers/catalog/BARBIE-Mattel/.

15. Отсутствие внутренней вложенности.

Например, https://www.toy.ru/catalog/producers/BARBIE-Mattel/ и https://www.toy.ru/producers/BARBIE-Mattel/.

Пункты 14 и 15 опять же не являются полными дублями, но аналогично пункту 10 отдают 200 код ответа сервера.

16. Копирование первой вложенности и добавление её в конец URL.

Например, https://www.dochkisinochki.ru/brands/nutrilon/ и https://www.dochkisinochki.ru/brands/nutrilon/brands/.

17. Дубли .html, .htm или .php для страниц, которые заканчиваются на один из этих расширений.

Например:

  • http://sad-i-ogorod.ru/shop/11041.php;
  • http://sad-i-ogorod.ru/shop/11041.htm;
  • http://sad-i-ogorod.ru/shop/11041.html.

Все приведённые выше типы дублей были выявлены в индексе поисковых систем более чем у нескольких проектов. Хотите ли вы рисковать появлением такого огромного количества дублей? Думаю, нет. Поэтому и важно выявить те дубли, которые формируются и обезопасить себя от попадания их в индекс поисковых систем. А практика показывает, что рано или поздно они находят и индексируют такие страницы, хотя ни внутренних, ни внешних ссылок на данные страницы нет.

Проверять вручную все эти дубли очень долго. К тому же важно проверять каждый тип страниц на наличие дублей. Почему? Да потому, что страницы категории товаров и страница определённого товара могут иметь разные дубли. Пример уже был ранее рассмотрен.

Также в большинстве сайтов могут использоваться разные CMS для разного типа контента. Нормальная практика, когда, например, интернет-магазин на OpenCart подключает блог на WordPress. Соответственно и дубли страниц этих CMS будут кардинально отличаться.

Поэтому мы и разработали сервис, который формирует все возможные страницы дублей и указывает их ответ сервера. В первую очередь сервис делали для своих нужд, ведь он экономит огромное количество времени специалистов, но с радостью готовы с ним поделиться.

Как с ним работать и как читать его результаты — сейчас будем разбираться.

Онлайн-сервис поиска дублей страниц

1. Для начала перейдите по ссылке.

Сервис поиска дублей URL

2. Подготовьте разные типы страниц сайта, у которого хотите выявить возможные дубли.

Давайте рассмотрим на примере интернет-магазина http://www.foxtrot.com.ua/.

Рекомендуемые к анализу типы страниц и их примеры:

  • главная страница: http://www.foxtrot.com.ua/;
  • страница категории: http://www.foxtrot.com.ua/ru/shop/noutbuki.html;
  • целевая страница: http://www.foxtrot.com.ua/ru/shop/noutbuki_asus.html;
  • страница товаров: http://www.foxtrot.com.ua/ru/shop/noutbuki_asus_f541nc-go054t.html;
  • служебная страница: http://www.foxtrot.com.ua/ru/stores.

Для новостных и информационных ресурсов это могут быть:

  • главная страница: https://www.maximonline.ru/;
  • страница раздела: https://www.maximonline.ru/skills/lifehacking/;
  • страница публикации или новости: https://www.maximonline.ru/guide/maximir/_article/myi-byili-v-55-sekundah-ot-strashnogo-pozora-ne-o/;
  • страница тегов: https://www.maximonline.ru/tags/luchshie-lajfxaki-nedeli/;
  • служебная страница: https://www.maximonline.ru/zhurnal/reklamnyj-otdel/_article/reklama-vmaxim/.

3. Вбиваем данные страницы в форму ввода и нажимаем кнопку «Отправить запрос»:

4. Запускается процесс обработки скрипта:

Процесс обработки данных

Немного ожидаем и получаем результат его работы по всем внедрённым страницам:

Таблица с результатами

5. Анализируем результаты и подготавливаем рекомендации веб-программисту по устранению дублей.

Например, из вышеуказанного примера можно сделать следующие выводы:

  • наличие дублей страниц с протоколами http и https;
  • редирект со страницы без www на www происходит с помощью 302 редиректа (временный редирект);
  • наличие дублей с добавление множественных слешей.

Соответственно, необходимо подготовить следующие рекомендации веб-разработчику:

1. Определиться, какой протокол всё же основной, и на страницы с этим протоколом настроить 301 редирект.

Например, если основной протокол https, то страница http://www.foxtrot.com.ua/ должна перенаправлять с помощью 301-го редиректа на https://www.foxtrot.com.ua/.

2. Изменить 302 редирект на 301 при перенаправлении страниц без www на аналогичные с www.

3. Настроить 301 редирект страниц со множественным добавлением слешей в конце URL на целевые страницы.

Например, страница http://www.foxtrot.com.ua//////// должна с помощью 301 редиректа перенаправлять на http://www.foxtrot.com.ua/.

Важно понимать, что помимо шаблонных формирований дублей, указанных в данной статье, у вашего проекта могут формироваться уникальные дубли. Поэтому не забывайте мониторить страницы, которые попадают в индекс поисковых систем. Помогут в этом «Яндекс.Вебмастер» и Google Search Console.

Проиндексированные страницы в Google Search Console

Update

Сервис будет дорабатываться и дополняться полезными функциями. Так, выкатили обновление, позволяющее перед публикацией статьи определить изменения URL от исходного значения:

Функциональность отличия URL от исходного значения

Если материал вам был полезен, прошу оценить его стрелкой вверх.

До скорых встреч и берегите ваши проекты.

#инструменты #seo

vc.ru

Что такое дубли страниц?

Дубли страниц – это копии каких-либо страниц. Если у вас есть страница site.ru/bratok.html с текстом про братков, и точно такая же страница site.ru/norma-pacany.html с таким же текстом про братков, то вторая страница будет дублем.

Могут ли дубли плохо сказаться на продвижении сайта

Могут, если у вашего сайта проблемы с краулинговым бюджетом (если он маленький).

Краулинговый бюджет — это, если выражаться просто, то, сколько максимум страниц вашего сайта может попасть в поиск. У каждого сайта свой КБ. У кого-то это 100 страниц, у кого-то — 25000.

Если в индексе будет то одна страница, то другая, в этом случае они не будут нормально получать возраст, поведенческие и другие «подклеивающиеся» к страницам факторы ранжирования. Кроме того, пользователи могут в таком случае ставить ссылки на разные страницы, и вы упустите естественное ссылочное. Наконец, дубли страниц съедают часть вашего краулингового бюджета. А это грозит тем, что они будут занимать в индексе место других, нужных страниц, и в итоге нужные вам страницы не будут находиться в поиске.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress такой херни обычно нету, а вот всякие Джумлы генерируют огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Способы поиска дублирующего контента

Можно искать дубли программами или онлайн-сервисами. Делается это по такому алгоритму — сначала находите все страницы сайта, а потом смотрите, где совпадают Title.

XENU

XENU – это очень олдовая программа, которая издавна используется сеошниками для сканирования сайта. Лично мне её старый интерфейс не нравится, хотя задачи свои она в принципе решает. На этом видео парень ищет дубли именно при помощи XENU:

Screaming Frog

Я лично пользуюсь либо Screaming Frog SEO Spider, либо Comparser. «Лягушка» — мощный инструмент, в котором огромное количество функций для анализа сайта.

Comparser

Comparser – это все-таки мой выбор. Он позволяет проводить сканирование не только сайта, но и выдачи. То есть ни один сканер вам не покажет дубли, которые есть в выдаче, но которых уже нет на сайте. Сделать это может только Компарсер.

Поисковая выдача

Можно также и ввести запрос вида site:vashsite.ru в выдачу поисковика и смотреть дубли по нему. Но это довольно геморройно и не дает полной информации. Не советую искать дубли таким способом.

Онлайн-сервисы

Чтобы проверить сайт на дубли, можно использовать и онлайн-сервисы.

Google Webmaster

Обычно в панели вебмастера Google, если зайти в «Вид в поиске — Оптимизация HTML», есть информация о страницах с повторяющимся метаописанием. Так можно найти часть дублей. Вот видеоинструкция:

Sitereport

Аудит сайта от сервиса Sitereport также поможет найти дубли, помимо всего прочего. Хотя дублированные страницы можно найти и более простыми/менее затратными способами.

Решение проблемы

Для нового и старого сайта решения проблемы с дублями — разные. На новом нам нужно скорее предупредить проблему, провести профилактику (и это, я считаю, самое лучшее). А на старом уже нужно лечение.

На новом сайте делаем вот что:

  1. Сначала нужно правильно настроить ЧПУ для всего ресурса, понимая, что любые ссылки с GET-параметрами нежелательны;
  2. Настроить редирект сайта с www на без www или наоборот (тут уж на ваш вкус) и выбрать главное зеркало в инструментах вебмастера Яндекс и Google;
  3. Настраиваем другие редиректы — со страниц без слеша на страницы со слешем или наоборот;
  4. Завершающий этап – это обновление карты сайта.

Отдельное направление – работа с уже имеющимся, старым сайтом:

  1. Сканируем сайт и все его страницы в поисковых системах;
  2. Выявляем дубли;
  3. Устраняем причину возникновения дублей;
  4. Проставляем 301 редирект и rel=»canonical» с дублей на основные документы;
  5. В обязательном порядке 301 редиректы ставятся на страницы со слешем или без него. Обязательная задача – все url должны выглядеть одинаково;
  6. Правим роботс — закрываем дубли, указываем директиву Host для Yandex с заданием основного зеркала;
  7. Ждем учета изменений в поисковиках.

Как-то так.

znet.ru

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства. Вот что пишут о дублях представители Яндекса:

Дубли страницЯ думаю, не стоит надеяться, что в вашем случае алгоритм оценит все страницы правильно и его выбор совпадет с вашим ? – лучше самому избавиться от дублей на сайте.

Почему нужно избавляться от дублей?

Предлагаю для начала рассмотреть, чем опасны дубли страниц.

Ухудшается индексация сайта
Если в вашем проекте несколько тысяч страниц, и на каждую из них создается по одному дублю, то объем сайта уже «раздувается» в два раза. А что, если создается не один дубль, а несколько? В прошлом году мы проводили экспертизу новостного портала, в котором каждая новость автоматически публиковалась в семи разделах, то есть каждая страница сразу создавалась еще с шестью дублями.

Неправильно распределяется внутренний ссылочный вес
Часто дубли на сайте появляются в результате неправильных внутренних ссылок. В итоге страницы-дубли могут считаться более значимыми, чем основная версия. Не стоит забывать и про пользовательские факторы. Если посетитель попал на дубль страницы, то, соответственно, измеряются ее показатели, а не оригинала.

Изменение релевантной страницы в поисковой выдаче
Поисковый алгоритм в любой момент может посчитать дубль более релевантным запросу. Смена страницы в поисковой выдаче часто сопровождается существенным понижением позиций.

Потеря внешнего ссылочного веса
Пользователя заинтересовал ваш товар или статья, и он решил поделиться информацией и поставить на страницу ссылку. Если он был на странице-дубле, то сошлется именно на нее. В итоге вы потеряете полезную естественную ссылку.

Как найти дубли?
Теперь давайте рассмотрим, как можно найти внутренние дубли на сайте.

1. Анализ данных Google Webmasters

Пожалуй, самый простой из способов. Для того чтобы найти страницы дублей, вам будет достаточно зайти в панель инструментов, выбрать вкладку «Вид в поиске» и перейти по ссылке «Оптимизация html»:

Дубли страниц

Наша цель – это пункты:
—  «Повторяющееся метаописание». Здесь отображены страницы с одинаковыми описаниями (description);
«Повторяющиеся заголовки (теги title)». В этом пункте находится список страниц с одинаковыми заголовками (Title).

Дело в том, что на страницах обычно совпадает не только контент, но и мета-данные. Проанализировав список страниц, отображаемых в этих вкладках, легко можно выявить такие дубли. Мы рекомендуем периодически проверять вышеупомянутые вкладки панели инструментов на наличие новых ошибок.

Проверить страницы на совпадающие заголовки можно даже в том случае, если доступа к панели у вас нет. Для этого вам нужно будет воспользоваться расширенным поиском поисковой системы или сразу ввести в поисковую строку соответствующий запрос.

Для Яндекса:

site: siteclinic.ru title:(анализ сайтов)

Для Google:
site: siteclinic.ru intitle:анализ сайтов

Разумеется, необходимо подставить свой домен и часть заголовка, дубль которого вы ищете.

2. Анализ проиндексированных документов
Анализ в первую очередь лучше проводить в той поисковой системе, в индексе которой находится больше всего страниц. В большинстве случаев это Google. С помощью оператора языка запросов «site» легко получить весь список проиндексированных страниц. Вводим в строку поиска:

site:siteclinic.ru  (не забудьте указать имя своего домена) и получаем список проиндексированных страниц.

В конце списка вы увидите ссылку «Показать скрытые результаты». Нажмите на нее, чтобы увидеть более полный список страниц:

Дубли страниц

Просматривая выдачу, обращайте внимание на нестандартные заголовки и url страниц.

Например, вы можете увидеть, что в выдаче попадаются страницы с идентификаторами на конце, в то время как на сайте настроены ЧПУ. Нередко уже беглый анализ проиндексированных страниц позволяет выявить дубли или другие ошибки.
Если на сайте большой объем страниц, то при анализе может помочь программа Xenu. Об использовании этого инструмента можно прочесть на блоге Сергея Кокшарова.

3. Поиск дублей по части текста
Два предыдущих способа помогают выявить дубли в тех случаях, когда на страницах совпадают мета-данные. Но могут быть и другие ситуации. Например, статья на сайте попадает сразу в несколько категорий, при этом в title и description автоматически добавляется название категории, что делает мета-данные формально уникальными. В этом случае ошибки в панели инструментов мы не увидим, а при ручном анализе сниппетов страниц такие дубли легко пропустить.

Для того чтобы выявить на сайте подобные страницы, лучше всего подойдет поиск по части текста.
Для этого нужно воспользоваться инструментом «расширенный поиск» и произвести поиск на сайте по части текста страницы. Текст вводим в кавычках, чтобы искать страницы с таким же порядком слов и формой, как в нашем запросе.
Так выглядит расширенный поиск в Яндексе:

Дубли страниц

А вот так в Google:
Дубли страниц

На сайтах может быть много сотен или даже тысяч страниц. Разумеется, не нужно анализировать все страницы. Их можно разбить по группам. Например, главная, категории, товарные карточки, новости, статьи. Достаточно будет проанализировать по 2-3 страницы каждого вида, чтобы выявить дубли или убедиться, что на сайте все в порядке.

Чистим сайт от дублей
После того как дубли обнаружены, можно приступать к их удалению.

Находим и устраняем причину появления дублей
Первое, что необходимо сделать – найти причину, из-за которой дубли на сайте появляются, и постараться ее устранить.
Причины могут быть различные, например:

  • ошибки в логике структуры сайта;
  • технические ошибки;
  • различные фильтры и поиск по сайту.

В каждом случае ситуацию необходимо рассматривать индивидуально, но если дубли функционально не полезны, то от них лучше просто отказаться.

Указываем канонический адрес страницы
Если страницы-дубли по каким-то причинам нельзя удалить, то следует указать поисковым роботам, какая страница является основной (канонической). Google ввел для этого специальный атрибут rel=»canonical» (рекомендации по использованию атрибута).

Через некоторое время его стал поддерживать и Яндекс . И на сегодняшний день это основное официальное средство для борьбы с дублями страниц.

Использование 301 редиректа
До внедрения rel=»canonical» 301 редирект был основным способом склейки страниц-дублей. И сейчас разработчики и оптимизаторы продолжают активно использовать 301 редирект для переадресации на основное зеркало сайта или со страниц с «/» или без него на конце.

Запрет к индексации в robots.txt
В файле robots.txt мы можем запретить доступ к определенным разделам или типам страниц, например, страницам, формируемым в результате поиска по сайту. Но это не избавит нас от дублей страниц в Google. Дело в том, что доступ к страницам будет запрещен, но если страницы уже попали в индекс, они после добавления запрета исключены не будут.

Приведу цитату из рекомендаций Google:

Следует отметить, что даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс. Например, на ваш контент могут ссылаться другие сайты.

Для того чтобы страница была удалена из индекса, на нее необходимо добавить <meta name=»robots» content=»noindex»>, но при этом важно, чтобы страница не была закрыта в robots.txt. Иначе поисковый робот на нее не зайдет.

Еще одна цитата:

Если ваша страница продолжает появляться в результатах, вероятно, мы еще не просканировали ваш сайт после добавления тега. (Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.)

В связи с этим, если дубли на сайте уже есть, robots.txt не поможет удалить их из индекса Google.

Остается пожелать оптимизаторам успехов в борьбе с дублями и развитии своих проектов.

siteclinic.ru


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.