Проверить сайт на дубли страниц онлайн


Поиск дублей страниц на сайтеДобрый день, друзья! Уже очень давно меня просили читатели блога сделать пост о том, как избавиться от replytocom. Тема эта актуальна, так как из-за этого в индексе получается огромное число похожих страничек с параметрами коммента. Все дело в том, что многие блоги созданы на CMS WordPress, который грешит дубликацией комментариев. Поэтому я решил дать всю информацию не только о replytocom. В статье я раскрываю понятие дублированного контента, даю методику поиска дублей страниц сайта и поясняю, почему от них нужно избавляться. А в следующем посте я покажу, как нужно их удалять.

Содержание

  • Дублированный контент на сайте
  • Почему нужно удалять дубли страниц
  • Как определить и проверить дубли страниц
    • Проверка сайта на дубли с помощью расширенного поиска
    • Поиск дублей страниц с помощью специального запроса

Дублированный контент на сайте

Дубли бывают разными — тихими и заразными. ? Если серьезно, то дублированная страница — это документ сайта, который может иметь полностью или частично одинаковый контент. Разумеется, каждый дубль имеет свой адрес (url страницы). Четкий дубль страницы может возникнуть по следующим причинам:

  • искусственно создаются владельцем сайта для специальных нужд. Например, страницы для печати, которые позволяют пользователю коммерческого сайта скопировать информацию по выбранному товару / услуге.
  • генерируются движком ресурса, так как это у них заложено в теле. Некоторые современные CMS выдают похожие страницы с другими урлами, размещенные по своим разным дерикториям.
  • появляются за счет ошибок веб-мастера, который управляет сайтом. Например, ресурс обзаводиться двумя одинаковыми главными страницами с разными адресами (например, site.ru и site.ru/index.php).
  • возникают по случаю изменения структуры сайта. Например, при создании нового шаблона с другой системой урлов, новые страницы со старым контентом получают совершенно другие адреса.

Нечеткий дубль получают страницы, которые частично дублируют контент. Такие страницы имеют общую часть шаблона сайта, но отличаются небольшим контентным наполнением. Например, такими небольшими дублями могут быть страницы ресурса, имеющие результаты поиска или отдельные элементы статьи (например, картинки — такое очень часто бывает во многих шаблонах блогов).

На следующем рисунке я собрал самые частые варианты дублей страниц, которые присущие блогу с движком Вордпресс (без учета различных плагинов и фишек шаблона, которые также частенько создают дублированные документы):

Источники дублированного контента на сайте на движке Вордпресс

Наличие дублей страниц на сайте может говорить о том, что или веб-мастер не знает об их присутствии, или он просто не умеет с ними бороться.  А бороться с ними нужно, так как они приводят к различным ошибкам и проблемам в плане поискового продвижения. Об этом сейчас и поговорим.

к меню ↑

Почему нужно удалять дубли страниц

Дублированные страницы — это не какой-то вирусняк или паразитирующий организм. Он конечно тоже плодиться, но не за счет себя или своих функций. То есть он плодиться не по своей воле. Дубли на самом деле — это результат неправильного кода сайта, итог огрехов веб-мастера или блоггера.


Но какими бы не были пассивными дубли страниц, они могут подложить конкретную свинью владельцу любого сайта или блога. Итак, чем же так опасен дублированный контент? Вот основные проблемы, которые возникают при наличии дублей:

Ухудшение индексации сайта. Я называю это проблемой №1. Дело в том, что в зависимости от источника и ошибок веб-мастера, страница сайта может иметь от одного до нескольких или больше дублей. Например, главная может грешить двумя-тремя дупликатами, а посты блогов из-за вездесущего replytocom скопируются по количеству комментариев. И если блог популярный, то и число «левых» страниц будет огромным. А поисковые системы (особенно Google) не любят дубли и поэтому частенько занижают позиции самого сайта.

Замена релевантной страницы. Алгоритм поисковой системы может посчитать дубль более релевантным, чем продвигаемая страница-оригинал (моя статья о понятии релевантности). Тем самым в выдаче будет находиться не целевая страница, а ее клон. Но у этого клона совсем другие незначительные параметры (ссылочный вес, метрики посещаемости), которые со временем пессимизируют сайт в серпе поисковой системы.


Бесполезность естественных ссылок. Представьте себе картину — на Ваш сайт пришел посетитель. Ему понравился Ваш контент и он решился поделиться с друзьями полезным адресом понравившейся страницы. А эта страница — дубль оригинала. В итоге ссылку получит дублированный контент, а не наш реальный документ. Таким образом мы просто теряем настоящую естественную ссылку.

Итак, подытожим вышесказанное. Дубли страниц создают помеху в нормальной индексации сайта, становятся источником неправильного выбора поисковиком релевантной страницы, забирают влияние естественных внешних ссылок. Также дубли неправильно распределяют внутренний ссылочный вес, отбирая силу у продвигаемых страниц и меняя поведенческие показатели:

Основные проблемы, которые возникают из-за дублей на сайте

В общем, дубли — это большое зло в поисковом продвижении и страшный сон оптимизатора. ?

к меню ↑

Как определить и проверить дубли страниц

Есть разные способы поиска и проверки дублей страниц. Они требуют разного уровня знаний CMS и понимание работы поискового индекса. Я покажу самый простой из способов. Это не значит, что если он простой, то не точный. С его помощью легко находятся дубликаты документов сайта. И самое главное — этот способ не требует особых знаний и не займет много времени.


Для того, чтобы найти и проверить свой сайт на наличие дубликатов страниц, нужно или воспользоваться расширенным поиском Яндекса (Гугла) или сразу ввести в поисковую строку специальный запрос. Сначала рассмотрим первый вариант.

к меню ↑

Проверка сайта на дубли с помощью расширенного поиска

Расширенный поиск Яндекса позволяет получить более точную выдачу благодаря уточняющим параметрам запроса. В нашем случае нам нужно только два параметра — адрес сайта и кусочек текста той страницы, по которой мы ищем дубли. Сначала мы выделяем текст, который находится на той странице нашего сайта (для примера взят абсолютно чужой ресурс), которую будем проверять на дубли. Затем идет в расширенный поиск Яндекса и вносим в соответствующие позиции кусочек контента и адрес сайта:

Поиск дублей страниц с помощью расширенного поиска в Яндексе


Далее мы нажимаем заветное слово «Найти» и русский поисковик начинает формировать выдачу. Она получится не той, которую мы обычно наблюдаем — она будет состоять полностью из заголовков и сниппетов только нашего ресурса. Причем, если в выдаче будет только один результат поиска, то все хорошо — дублированного контента этой страницы нет. Если же есть в полученном серпе несколько результатов, то придется доставать лопату:

Как проверить сайт на дубли страниц

В моем примере поисковик нашел несколько нечетких дублей — ряд страниц из пагинации по некоторым рубрикам. Сразу видно, что на данном сайте страница с выделенным текстом про рецепт салата явно размещалась сразу в разных рубриках. А так как запрет на индексацию страниц пагинации для этого ресурса не ставился, в индексе повылазили всевозможные дубли.

Теперь рассмотрим те же действия для зарубежного поисковика. Заходим на страницу расширенного поиска Google и совершаем те же самые действия:

Как проверить дубли страниц с помощью расширенного поиска в Google

Заполнив все необходимое на расширенном поиске, получаем индексацию исследуемого сайта согласно  указанному куску текста:


Результаты поиска дублей на сайте по заданной части текста в Google

Как видим, Гугл также проиндексировал неточные дубли исследуемой страницы — в выдаче все те же страницы рубрик.

В принципе получить те же самые результаты можно и не используя расширенный поиск. Для этого нужно в простом варианте Гугла или Яндекса прописать следующий запрос. И в этом заключается второй способ определения дублей.

к меню ↑

www.workformation.ru

Основные методы поиска дублей на сайте

Ниже описаны основные методы, с помощью которых можно быстро найти дубли страниц своего сайта. Используйте их периодически.

1. Гугл-вебмастер

Зайдите в панель Google для вебмастеров. Найдите раздел меню «Оптимизация» – «Оптимизация HTML». На этой странице можно увидеть количество повторяющихся мета-описаний и заголовков TITLE.


Как найти дубли страниц в панели Google для вебмастеров

Таким способом можно найти полные копии страниц, но к сожалению, не определить частичные дубли, которые имеют уникальные, однако, шаблонные заголовки.

2. Программа Xenu

Xenu Link Sleuth — одна из популярных программ оптимизаторов, которая помогает проводить технический аудит сайта и, в том числе, находить дублирующиеся заголовки (если, например, у вас нет доступа к Google-Вебмастеру).

Подробней об этой программе написано в обзорной статье по этой ссылке. Просто просканируйте сайт, отсортируйте результаты по заголовку и ищите визуальные совпадения заголовков. При всем удобстве, данный способ имеет тот же недостаток — нет возможности найти частичные дубли страниц.

devaka.ru

Полные и неполные дубли страниц сайта

Различают полные и неполные дубли страниц. Полный дубль – это 100% повторение одной страницы содержания другой. На неполных дублях материал повторяется частично: к ним относится дублирование анонсов новостей в ленте сайта, сквозные пункты меню и так далее.

Самое главное правило – не допустить индексации дублей страниц. Однако зачастую SEO-специалисты обнаруживают дубли страниц непосредственно в процессе продвижения.

Основные причины появления дублей страниц:


  • присутствие параметров в URL-адресах страниц;
  • адреса сайта с приставкой «www» и без нее не склеены и доступны в двух вариантах;
  • не склеены адреса страниц без слеша на конце и с ним.

Для того чтобы проверить сайт на дубли страниц, нужно взять любой сайт, например, ваш_сайт_ру со слешем на конце, и перейти по нему, затем ввести его же, только без слеша в конце. Если браузер открывает страницу со слешем и во втором случае, то это свидетельствует о том, что страницы склеены, 301 редирект работает, как следствие, дублей нет. Точно так же проверяют сайты на дубли с приставкой «www» и без нее.

Поиск дублей страниц сайта в Яндексе

Поисковая система Яндекс также помогает определить наличие дублей с помощью поиска контента на сайте. Для этого нужно воспользоваться расширенным поиском. Сначала в строке расширенного поиска нужно ввести предложение с интересующего сайта и заключить его в кавычки. Затем в графе «На сайте» ввести адрес сайта. В случае нахождения Яндексом только одной страницы – можно успокоиться, так как дублей у ресурса нет. Сервис поддерживает все доменные зоны, включая зону рф.


Поиск дублей страниц сайта в Яндексе фото

Поиск дублей в Google

Google также предлагает схожий сервис. Для того чтобы им воспользоваться, также нужно в строке поиска ввести предложение в кавычках, а после него через пробел ввести команду site:ваш_сайт_ру. Если в результатах поиска выдается только один сайт, то дублей у него нет. Google также поддерживает все доменные зоны, в том числе и домены на кириллице.

Поиск дублей в Google скриншот

Удаление дублей

При обнаружении дублей оптимизатор, как правило, удаляет их в панели Яндекс Вебмастер, там есть специальный сервис по удалению URL, и можно быстро избавиться от дублей страниц в выдаче, тоже самое есть и в панели Google webmasters.

Удаление страниц из выдачи Яндекса

Удаление страниц из выдачи Яндекса

Удаление страниц из выдачи Google

Удаление страниц из выдачи Google

Для успешного продвижения сайта оптимизатору еще на начальной стадии нужно обязательно обнаружить и удалить имеющиеся дубли, поскольку они могут серьезно навредить продвижению и свести на «нет» все усилия веб-мастера.

Сервис по поиску дублей страниц сайта

Для автоматического поиска дублей заголовков «title» и описаний «description» очень удобно пользоваться специальной программой «ComparseR», разработанной в веб-студии «АлаичЪ и Ко». Программу можно скачать тут.

Автор программы предусмотрел демо-режим, который вполне годится для небольших сайтов. Проверить 150 страниц сайта на дубли и ошибки можно совершенно бесплатно.

Посмотрите видеообзор программы «ComparseR»

сеотехнологии.рф

Чем опасны дубли страниц на сайте?

Но для лучшего понимания, зачем находить и удалять дубли страниц, мы расскажем о том, как вред может нанести сайту дублированный контент из-за которого и так снижается доверие поисковых систем к сайту.

  1. Некорректная индексации. Допустим, у Вас большой новостной портал, на котором ежедневно публикуются по 10 новостей и статей. Если для каждой страницы будет существовать хотя бы один дубль, то объём сайта вырасти вдвое, а значит и поисковикам придётся больше времени тратить на обход ресурса. А если таких дублей 4-5? Поисковая система будет удалять дубли страниц из поиска и занижать позиции сайта.
  2. Неправильное определение веса страниц. С помощью внутренней оптимизации сайта, без применения внешней, можно добиться значительных результатов, в том числе за счёт правильно поставленных внутренних ссылок, которые передают вес нужной странице, с товаром или услугой, или продвигаемой по ВЧ-запросам. Соответственно при наличии дублей страниц, передаваемый рейтинг будет распыляться, а значимость страницы для ПС будет падать.
  3. Показ в результатах поиска нерелевантной страницы. Так же одной из проблем, которой грозят дубли страниц является показ в результатах поиска нерелевантной страницы (например, вместо страницы услуги, показывается прайс, где эта услуга упоминается).
    Таким образом, все усилия приложенные на продвижение определённой страницы (сюда относятся, как внешние, так и внутренние ссылки), пойдут к коту под хвост. Кроме того, в последствии поисковая система может ещё больше занизить рейтинг страницы, так как она нерелевантна запросу.
  4. Потеря естественных ссылок. Пользователь, который был на Вашем сайте и захотел поделиться ссылкой на его страницу, может как раз поделиться ссылкой на дубль, а не на ту, которую нужно. В итоге, такие ценные для SEO-продвижения естественные ссылки будут вести на дубликаты, которые не индексируются.

Дубли могут быть полными (одна и та же страница, доступ по разным адресам) и частичными (фрагмент контента одной страницы дублируется на других).

Проверка сайта на дубли страниц

Ну, что? Убедились во вредности дубликатов страниц? Значит пора проверить свой сайт на дубли страниц! Есть несколько стандартных процедур, которые помогут выявить дубли страниц.

1. Search Console.

Или Google Webmaster. Это один из самых лёгких способов, для поиска дублей страниц. Заходим в сервис, далее идём в раздел «Вид в поиске» и выбираем вкладку «Оптимизация HTML».

Поиск дублей страниц

Здесь нам необходимо обратить внимание на следующие строчки:

  • «Повторяющееся метаописание» — страницы с одинаковыми описаниями Description;
  • «Повторяющиеся заголовки (теги title)» — список страниц с одинаковыми Title.

Данный подход выявления дублей основывается на том, что страницах может совпадать не только содержание, но и мета-данные. Просмотрев страницы, которые показываются в данном отчёте, мы довольно-таки просто обнаружим страницы, которые являются дубликатами.

2. Яндекс Вебмастер.

Периодически Яндекс индексирует новые страницы сайта или какие-то удаляет. Эта информация отражается, как на главной странице сервиса, так и в разделе «Индексирование» — «Страницы в поиске». Зайдите туда прямо сейчас.

Рядом с удалёнными из поисковой выдачи страницами (они выделены синим), есть комментарий, говорящий о причине исключения. Одним из возможных вариантов является «Дубль».

QIP Shot - Screen 313

В данном случае это страница категории, которая содержит часть контента из постов в виде анонсов. Поэтому поисковая система считает её дублем.

3. Просмотр поисковой выдачи.

Промониторьте выдачу, используя специальный оператор «site:».

tild3637-6131-4233-b938-336165666165__image04

Довольно часто причиной возникновения дублей страниц становятся несовершенства систем управлений сайтом (CMS). Например, WordPress грешен тем, что может автоматически генерировать дубли страниц или в рубриках публиковать анонсы с частичным содержанием текста из самой статьи.

Также причины дубликатов могут быть в присутствующих на сайте версиях для печати или ускоренных страниц (AMP), пагинация, страницы с utm-метками, динамические урлы, страницы тегов, не добавленные описания товаров в интернет-магазине, не прописанные мета-теги.

Как удалить дубли страниц на сайте?

  1. Если на сайте, есть две страницы, у которых совпадают мета-теги, но при этом разное содержание — нужно просто изменить мета-описание.
  2. Закрыть от индексации рубрики, категории и страницы тегов, с помощью параметра Disallow в robots.txt. Либо, если не хотите терять возможный трафик, который могут принести эти разделы сайта, придумайте способ их уникализировать. Например, сделать так, чтобы вместо анонса отображался только заголовок, который является ссылкой на статью.
  3. Для ускоренных страниц, страниц с utm-метками и версий для печати задайте в настройках канонический URL.
  4. Действительно есть две одинаковые страницы — удалите одну из них (ту, что не ранжируется поисковыми системами например).
  5. Настройте 301-редирект для удалённых страниц, чтобы заходя по старому адресу на сайт, пользователь не попал на 404-ую страницу.

internet-marketings.ru

От автора

О теории дублирования контента на сайте я писал стать тут, где доказывал, что дубли статей это плохо и с дубли страниц нужно выявлять и с ними нужно бороться. В этой статье я покажу, общие приемы по выявлению повторяющегося контента и акцентирую внимание на решение этой проблемы на WordPress и Joomla.

Еще немного теории

Я не поддерживаю мнение о том, что Яндекс дубли страниц воспринимает нормально, а Google выбрасывает дубли из индекса и за это может штрафовать сайт.

На сегодня я вижу, что Яндекс определяет дубли страниц и показывает их в Яндекс.Вебмастере на вкладке «Индексация». Более того, ту страницу, которую Яндекс считает дублем, он удаляет из индекса. Однако я вижу, что Яндекс примет за основную страницу первую, проиндексированную и вполне возможно, что этой страницей может быть дубль.

Также понятно и видно по выдаче, что Google выбрасывает из поиска НЕ все страницы с частичным повторением материала.

Вместе с этим, отсутствие дублей на сайте воспринимается поисковыми системами, как положительный фактор качества сайта и может влиять на позиции сайта в выдаче.

Теперь от теории к практике: как найти дубли страниц.

Поиск дублей страниц сайта

Перечисленные ниже способы поиск дублей страниц не борются с дублями, а помогают их найти в поиске. После их выявления,  нужно принять меры по избавлению от них.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и мета описаниям. Читать статью: Проверка неработающих, битых и исходящих ссылок сайта программой XENU

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/. Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Статья: SEO анализ сайта программой Scrimimg Seo Spider

Программа Netpeak Spider (платная с триалом)

Сайт программы https://netpeaksoftware.com/spider. Еще один программный сканер для анализа ссылок сайта с подробным отчетом. Статья Программа для SEO анализа сайта Netpeak Spider

Яндекс.Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование >>>Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google) и поискать дубли «глазами». Как это сделать читать в статье Простые способы проверить индексацию страниц сайта.

Сервисы онлайн

Есть онлайн сервисы, который показывают дубли сайта. Например, сервис Siteliner.com (http://www.siteliner.com/) На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске>>>Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и мета описания. Вероятнее всего это дубли (частичные или полные).

Что делать с дублями

Найденные дубли, нужно удалить с сайта, а также перенастроить CMS, чтобы дубли не появлялись, либо закрыть дубли от поисковых ботов мета-тегами noindex, либо добавить тег rel=canonical в заголовок каждого дубля.

Как бороться с дублями

Здесь совет простой, бороться с дублями нужно всеми доступными способами, но прежде всего, настройкой платформы (CMS) на которой строится сайт. Уникальных рецептов нет, но для Joomla и WordPress есть практичные советы.

Поиск и удаление дублей на CMS Joomla

CMS Joomla «плодит» дубли, «как крольчиха». Причина дублирования в возможностях многоуровневой вложенности материалов, размещения материалов разных пунктах меню, в различных макетах для пунктов меню, во встроенном инструменте пагинации (листания) и различной возможности сортировки материалов.

Например, одна и та же статья, может быть в блоге категории, в списке другого пункта меню, может быть, в сортировке по дате выпуска и вместе с тем, быть в сортировке по количеству просмотров, дате обновления, автору и т.д.

Встроенного инструмента борьбы с дублями нет и даже появление новой возможности «Маршрутизация URL» не избавляет от дублирования.

Решения проблемы

Решить проблему дублирования на сайтах Joomla помогут следующие расширения и приёмы.

Бесплатный плагин «StyleWare Content Canonical Plugin». Сайт плагина: https://styleware.eu/store/item/26-styleware-content-canonical-plugin. Плагин фиксирует канонические адреса избранных материалов, статей, категорий и переадресовывает все не канонические ссылки.

SEO Компоненты Joomla, Artio JoomSEF (бесплатный) и SH404 (платный). У этих SEO «монстров»  есть кнопка поиска и удаления дублей, а также есть легкая возможность добавить каноническую ссылку и/или закрыть страницы дублей от индексации.

Перечисленные расширения эффективно работают, если их ставят на новый сайт. Также нужно понимать, что при установке на рабочий сайт:

  • На сайте со статьями в индексе эти расширения «убьют» почти весь индекс.
  • Удаление дублей компонентами не автоматизировано и дубли всё равно попадают в индекс.
  • Хотя управлять URL сайта этими компонентами очень просто.

Если дубль страницы попадет в индекс, то поисковики, не умея без указателей определять, какая страница является основной, могут дубль принять за основную страницу, а основную определить, как дубль. Из-за этого важно, не только бороться с дублями внутри сайта, но и подсказать поисковикам, что можно, а что нельзя индексировать. Сделать это можно в файле robots.txt, но тоже с оговорками.

Закрыть дубли в robots.txt

Поисковик Яндекс, воспринимает директиву Disallow как точное указание: материал не индексировать и вывести материал из индекса. То есть, закрыв на Joomla , страницы с таким url: /index.php?option=com_content&view=featured&Itemid=xxx, а закрыть это можно такой директивой:

Disallow: /*?

вы уберете, из индекса Яндекс все страницы со знаком вопроса в URL.

В отличие от Яндекс, поисковик Google не читает директиву Disallow так буквально. Он воспринимает директиву Disallow как запрет на сканирование, но НЕ запрет на индексирование. Поэтому применение директивы [Disallow: /*?] в блоке директив для Google файла robots.txt, на уже проиндексированном сайте, скорее приведет к негативным последствиям. Google перестанет сканировать закрытые страницы, и не будет обновлять по ним информацию.

Для команд боту Google нужно использовать мета теги <meta name=»robots» content=»noindex»/>, которые можно добавить во всех редакторах Joomla, на вкладке «Публикация».

Например, вы создаете на сайте два пункта меню для одной категории, один пункт меню в виде макета блог, другой в виде макета список. Чтобы не было дублей, закройте макет список мета-тегом noindex, nofollow, и это избавит от дублей в Google выдаче.

Также рекомендую на сайте Joomla закрыть в файле robots.txt страницы навигации и поиска от Яндекс на любой стадии индексации и от Google на новом сайте:

  • Disallow: /*page*
  • Disallow: /*search*

Стоит сильно подумать, об индексации меток, ссылок и пользователей, если они используются на сайте.

Поиск и удаление дублей на CMS WordPress

На WordPress создаваемый пост попадает на сайт как статья, и дублируется в архивах категории, архивах тегов, по дате, по автору. Чтобы избавиться от дублей на WordPress, разумно закрыть от индексации все архивы или, по крайней мере, архивы по дате и по автору.

Использовать для этих целей можно файл robots.txt с оговорками сделанными выше. Или лучше, установить SEO плагин, который, поможет в борьбе с дублями. Рекомендую плагины:

  • Yast SEO (https://ru.wordpress.org/plugins/wordpress-seo/)
  • All in One SEO Pack (https://ru.wordpress.org/plugins/all-in-one-seo-pack/)

В плагинах есть настройки закрывающие архивы от индексации и масса других SEO настроек, который избавят от рутинной работы по оптимизации WordPress.

Вывод

По практике скажу, что побороть дубли на WordPress можно, а вот с дублями на Joomla поиск дублей страниц требует постоянного контроля и взаимодействия с инструментами веб-мастеров, хотя бы Яндекс и Google.

©SeoJus.ru

seojus.ru

Проверка сайта на дубликаты страниц

Ваш сайт продвигается слишком медленно? Постоянно случаются откаты на более низкие позиции? И это при том что внутренняя и внешняя оптимизация веб-ресурса выполнена на высшем уровне?

Подобное случается по нескольким причинам. Самая частая из них –дубликаты страниц на сайте, имеющих разные адреса и полное или частичное повторение содержания.

Чем опасны дубли страниц на сайте

Дубликаты страниц на сайте делают текст, размещенный на них неуникальным. К тому же снижается доверие к подобному веб-ресурсу со стороны поисковых систем. 

Чем же еще опасны дубли страниц на сайте?
 

  1. Ухудшение индексации. Если веб-ресурс достаточно объемный и по каким-либо причинам регулярно происходит дублирование контента на сайте (бывают случаи, когда у каждой страницы существует по 4–6 дублей), это достаточно негативно влияет на индексацию поисковиками. 

    Во-первых, из-за того, что роботы поисковиков расходуют время при индексации лишних страничек.

    Во-вторых, поисковики постоянно выполняют поиск дублей страниц. При обнаружения таковых они занижают позиции веб-ресурса и увеличивают интервалы между заходами своих роботов на его страницы. 
     

  2. Ошибочное определение релевантной страницы. На сегодняшний день алгоритмы поисковых систем обучены распознавать дублирование контента на сайте, который индексируется. Но выбор поисковых роботов не всегда совпадает с мнением владельца веб-ресурса.

    В итоге в результатах поиска может оказаться совсем не та страничка, продвижение которой планировалось. При этом внешняя ссылочная масса может быть настроена на одни странички, а в выдачу будут попадать дубликаты страниц на сайте.

    В результате ссылочный профиль будет неэффективным и поведенческие факторы будут колебаться из-за распределения посетителей по ненужным страницам. Другими словами, будет путаница, которая крайне негативно скажется на рейтинге Вашего сайта.
     

  3. Потеря естественных ссылок. Посетитель, которому понравилась информация с Вашего веб-ресурса, может захотеть кому-нибудь ее рекомендовать. И если эту информацию он почерпнул на странице- дубликате, то и ссылку он будет распространять не ту, которая требуется.

    Такие ценные и порой дорогие естественные ссылки будут ссылаться на дубли страниц на сайте, что в разы снижает эффективность продвижения.

 

Проблемы дублей страниц

 

Дублирование контента на сайте. Причины

Чаще всего дубли страниц на сайте создаются по одной из причин:

  1. Не указано главное зеркало сайта. То есть одна и та же страница доступна по разным URL — с www. и без.
  2. Автоматическая генерация движком веб-ресурса. Такое довольно часто происходит при использовании новых современных движков. Поскольку у них в теле заложены некоторые правила, которые делают дубликаты страниц на сайте и размещают их под другими адресами в своих директориях.
  3. Случайные ошибки веб-мастера, вследствие которых происходит дублирование контента на сайте. Результатом таких ошибок часто становится появление нескольких главных страничек, имеющих разные адреса.

    Проверить сайт на дубли страниц онлайн
     

  4. Изменение структуры сайта, которое влечет за собой присваивание новых адресов старым страницам. При этом сохраняются их копии со старыми адресами.

Как найти дубликаты страниц

 

Проверить сайт на дубли страниц поможет один из несложных методов:

  1. Анализ данных в сервисах поисковых систем для вебмастеров. Добавляя свой веб-ресурс в сервис Google Webmaster, Вы получаете доступ к данным раздела «Оптимизация HTML». В нем по дублируемым мета-данным можно найти страницы, на которых есть дублирование контента.

    Поиск дублей страниц

В Яндекс.Вебмастере дубли страниц можно проверить в разделе «Индексирование» > «Вид в поиске». На этой странице сделайте сортировку «Исключенные страницы» > «Дубли».

  1. Анализ проиндексированных страниц. Для получения их списка используется специальные операторы поисковых систем:  

Поиск дублей страниц в индексе

​     Полученная в результате выдача поможет проверить сайт на дубли страниц, у которых будут повторяться заголовки и сниппеты. 

      3. Поиск дублей фрагментов текста. Для получения их списка используются уже знакомые операторы (site: — для Google и hosh: — для Яндекса) , после которых указываем адрес сайта и в кавычках фрагмент текста. В результате мы можем получить либо полные дубли страниц, либо же частичное дублирование контента. 

 Проверка сайта на дубликаты страниц

      4. С помощью специальных программ и сервисов.​ Например, воспользовавшись программой Netpeak Spider, можно определить дубликаты страниц, текста, мета-тегов и заголовков. Все обнаруженные дубли необходимо будет удалить. 

Проверить сайт на дубли страниц

Если вы не хотите покупать десктопную программу Netpeak Spider, найти дубли страниц поможет многофункциональная seo-платформа Serpstat, которая работает онлайн + есть мобильная версия. 

Сервис находит дублирующиеся тайтлы, дескрипшны, H1 дубль тайтла, больше чем 1 тайтл на странице, больше чем 1 заголовок H1 на странице. 

Проверить сайт на дубли страниц онлайн

Проверить сайт на дубли страниц онлайн

Выводы

Желательно время от времени выполнять вышеперечисленные проверки, чтобы дублирование контента на сайте не стало неожиданной причиной падения его рейтингов. При этом нужно не забывать, что полные дубликаты страниц не являются единственной проблемой.

Дублирующиеся H1, title, description, а также некоторые части контента вроде отзывов и комментариев также очень нежелательны.

Надеемся, что эта статья была для Вас полезной. Не забудьте поделиться ссылкой на нее с теми, кому она также может быть интересной!

 

seo-akademiya.com

Что такое дубли страниц?

Дубли страниц – это копии каких-либо страниц. Если у вас есть страница site.ru/bratok.html с текстом про братков, и точно такая же страница site.ru/norma-pacany.html с таким же текстом про братков, то вторая страница будет дублем.

Могут ли дубли плохо сказаться на продвижении сайта

Могут, если у вашего сайта проблемы с краулинговым бюджетом (если он маленький).

Краулинговый бюджет — это, если выражаться просто, то, сколько максимум страниц вашего сайта может попасть в поиск. У каждого сайта свой КБ. У кого-то это 100 страниц, у кого-то — 25000.

Если в индексе будет то одна страница, то другая, в этом случае они не будут нормально получать возраст, поведенческие и другие «подклеивающиеся» к страницам факторы ранжирования. Кроме того, пользователи могут в таком случае ставить ссылки на разные страницы, и вы упустите естественное ссылочное. Наконец, дубли страниц съедают часть вашего краулингового бюджета. А это грозит тем, что они будут занимать в индексе место других, нужных страниц, и в итоге нужные вам страницы не будут находиться в поиске.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress такой херни обычно нету, а вот всякие Джумлы генерируют огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Способы поиска дублирующего контента

Можно искать дубли программами или онлайн-сервисами. Делается это по такому алгоритму — сначала находите все страницы сайта, а потом смотрите, где совпадают Title.

XENU

XENU – это очень олдовая программа, которая издавна используется сеошниками для сканирования сайта. Лично мне её старый интерфейс не нравится, хотя задачи свои она в принципе решает. На этом видео парень ищет дубли именно при помощи XENU:

Screaming Frog

Я лично пользуюсь либо Screaming Frog SEO Spider, либо Comparser. «Лягушка» — мощный инструмент, в котором огромное количество функций для анализа сайта.

Comparser

Comparser – это все-таки мой выбор. Он позволяет проводить сканирование не только сайта, но и выдачи. То есть ни один сканер вам не покажет дубли, которые есть в выдаче, но которых уже нет на сайте. Сделать это может только Компарсер.

Поисковая выдача

Можно также и ввести запрос вида site:vashsite.ru в выдачу поисковика и смотреть дубли по нему. Но это довольно геморройно и не дает полной информации. Не советую искать дубли таким способом.

Онлайн-сервисы

Чтобы проверить сайт на дубли, можно использовать и онлайн-сервисы.

Google Webmaster

Обычно в панели вебмастера Google, если зайти в «Вид в поиске — Оптимизация HTML», есть информация о страницах с повторяющимся метаописанием. Так можно найти часть дублей. Вот видеоинструкция:

Sitereport

Аудит сайта от сервиса Sitereport также поможет найти дубли, помимо всего прочего. Хотя дублированные страницы можно найти и более простыми/менее затратными способами.

Решение проблемы

Для нового и старого сайта решения проблемы с дублями — разные. На новом нам нужно скорее предупредить проблему, провести профилактику (и это, я считаю, самое лучшее). А на старом уже нужно лечение.

На новом сайте делаем вот что:

  1. Сначала нужно правильно настроить ЧПУ для всего ресурса, понимая, что любые ссылки с GET-параметрами нежелательны;
  2. Настроить редирект сайта с www на без www или наоборот (тут уж на ваш вкус) и выбрать главное зеркало в инструментах вебмастера Яндекс и Google;
  3. Настраиваем другие редиректы — со страниц без слеша на страницы со слешем или наоборот;
  4. Завершающий этап – это обновление карты сайта.

Отдельное направление – работа с уже имеющимся, старым сайтом:

  1. Сканируем сайт и все его страницы в поисковых системах;
  2. Выявляем дубли;
  3. Устраняем причину возникновения дублей;
  4. Проставляем 301 редирект и rel=»canonical» с дублей на основные документы;
  5. В обязательном порядке 301 редиректы ставятся на страницы со слешем или без него. Обязательная задача – все url должны выглядеть одинаково;
  6. Правим роботс — закрываем дубли, указываем директиву Host для Yandex с заданием основного зеркала;
  7. Ждем учета изменений в поисковиках.

Как-то так.

znet.ru

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

  • с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
  • со слешем в конце, например, site.ru/seo/ и site.ru/seo
  • с .php или .html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют: 

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам. 
  • Частичные дубли — когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

  • Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Поиск дублей страниц - XENU

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Дубли страниц screaming frog seo spider

Адрес программы https://www.screamingfrog.co.uk/seo-spider/. Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Netpeak Spider

Ссылка на программу Netpeak Spider. Еще один программный сканер для анализа ссылок сайта с подробным отчетом.

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Дубли страниц Яндекс Вебмастер

 

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).

Дубли страниц Google Search Console

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».

Дубли страниц Site

Сервисы онлайн

Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (http://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Дубли страниц сайта - онлайн-сервис

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Дубли страниц онлайн сервис

Удаление дублей страниц сайта

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:

  1. Их физическому удалению — хорошее решение для статических дублей.
  2. Запрещению индексации дублей в файле robots.txt — подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
  3. Настройке 301 редиректов в файле-конфигураторе «.htaccess» — хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
  4. Установке тега «rel=canonical» — лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.
  5. Установке тега «meta name=»robots» content=»noindex, nofollow»» — решение для печатных версий, табов с отзывами на товарах.

Чек-лист по дублям страниц

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:

  1. Полные дубли — это когда одна и та же страница размещена по 2-м и более адресам. Частичные дубли — это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
  2. Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
  3. Полные дубликаты не трудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
  4. Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
  5. Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
  6. Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name=»robots» content=»noindex, nofollow»».

 

webmaster-seo.ru


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.