Использование google sitemap позволяет


В этом путеводителе мы рассмотрим следующие вопросы:

  • Что такое Sitemap
  • Для чего нужна карта сайта
  • HTML- VS XML-карта сайта
  • Другие форматы Sitemap
  • Требования Google и Яндекса к файлам Sitemap
  • Как создать XML Sitemap
  • XML-карта для изображений
  • XML-карта для видео
  • Где разместить карту сайта
  • Добавить и проверить Sitemap в Yandex.Webmaster
  • Добавить и проверить файл в Google Search Console
  • Распространённые заблуждения о Sitemap

Что такое Sitemap ?

Это файл, который содержит в себе перечень ссылок на все важные страницы сайта. То есть, этот документ направляет поисковые системы на основной контент на сайте.

Для чего нужна карта сайта

Сайтмап нужен, если у сайта есть проблемы с индексацией, которые вызваны:
1) большим количеством страниц;
2) отсутствием ссылок (внутренних или внешних) на страницы;
3) глубокой вложенностью на сайте (запутанной структурой).

HTML vs XML-карта сайта

Карты сайта бывают следующих типов:

  • HTML;
  • XML.

Самое простое объяснение разницы между этими форматами в том, что XML-карта в первую очередь предназначена для поисковых систем, а HTML – для пользователей.

XML и HTML Sitemap

HTML-карта – это всего лишь общий обзор сайта, содержит только информацию и страницы, которые нужно видеть пользователям. Если вы находитесь на сайте и ищете определённый раздел, при переходе на Sitemap HTML легко его найдёте. Несмотря на то, что такой тип карт сайта ориентирован на пользователя, он также может помочь вашему ранжированию в поисковых системах. Это одно из свидетельств того, что вы заботитесь об удобстве сайта для пользователя.

При составлении HTML-карты сайта важно учитывать:

1. Структурированное содержание.

Карта сайта должна быть понятна и удобна для восприятия пользователя. Желательно, чтобы она включала в себя разделы, категории, подкатегории и т. д.

Структурированная HTML-карта сайта

2. Анкоры ссылок.

В отличие от XML-карты, каждая ссылка должна иметь название, чтобы пользователям было понятно, на какую страницу они перейдут.


Использование анкоров в HTML Sitemap

3. Ссылка на карту сайта должна быть доступна на всех страницах сайта. Обычно её размещают в футере страницы.

Ссылка в футере на HTML Sitemap

Протокол XML-карты сайта предназначен для поисковых роботов. XML-файл содержит в себе информацию о том, когда последний раз обновлялся URL-адрес, насколько это важно и как часто происходят изменения.

Обычно Sitemap состоит из следующих XML-тегов:

XML-теги в карте сайта

Обязательные:
<urlset> – определяет стандарт протокола и инкапсулирует этот файл.
<url> – содержит в себе информацию о URL-адресе (является родительским тегом).
<loc> – содержит абсолютный URL-адрес.

Необязательные:
<lastmod> – указывает дату последнего изменения файла.
<changefreq> – указывает частоту смены файла.
<priority> – указывает на значимость документа на сайте. Диапазон значений: от 0,1 до 1,0 (по умолчанию 0,5).


Не устанавливайте для каждого URL-адреса слишком частую смену файла и максимальный приоритет. Если метки частоты и приоритета не отражают реальность, вероятнее всего, поисковые системы будут более склонны игнорировать всю карту XML.

Другие форматы Sitemap

Помимо вышеперечисленных карт сайта, поисковые системы также поддерживают следующие форматы:

Для Google:
— RSS, mRSS и Atom 1.0;
RSS / Atom фиды должны содержать последние обновления вашего сайта. Обычно они небольшие и часто обновляются (что является плюсом).
— Сайты Google.
Для сайтов, созданных на платформе Google Сайты, Sitemap создаётся автоматически, и внести какие-то изменения невозможно.

Для Google и Яндекс:
— текстовый формат (TXT).
Файл должен быть в кодировке UTF-8 и состоять только из URL-адресов.

Сайтмап в формате TXT

Требования Google и Яндекса к файлам Sitemap

Общие рекомендации поисковых систем:

1. Используйте кодировку UTF-8.
2. Максимальное количество URL – 50 000.
3. Ссылки в сайтмапе должны быть на том же домене, что и файл.


Хотя это очевидная рекомендация, на практике встречаются случаи, когда у владельца несколько сайтов, и при переносе шаблона с файлом Sitemap, последний забывали заменить на актуальный.

4. Если файл слишком большой, разделите его на несколько и укажите их в файле индекса Sitemap.
5. Ответ сервера при обращении к файлу должен быть 200 ОК.
6. Указывайте только канонические адреса страниц (без GET-параметров и идентификаторов сессий).

Отличия:

Рекомендации Яндекса к файлу:

1. Максимальный размер – 10 МБ.
2. Поддерживает кириллические URL.

Рекомендации Google:

1. Максимальный размер – 50 МБ.
2. Поддерживает только цифры и латинские буквы.

Распространённая ошибка: чтобы уменьшить требования к пропускной способности канала, используют архиватор gzip. Размер сайтмапа должен быть 50 МБ (10 МБ) до сжатия, а не после.

Совет: русские доменные имена можно преобразовать с помощью кодировки Punycode.

Преобразованные русские домены в файле

Как создать XML Sitemap

1. Чтобы создать карту сайта, в первую очередь нужно определить канонические адреса, которые будут добавлены в файл.


Выбор URL для карты сайта

2. Определить, какой формат файла будете использовать.

3. Создать файл можно вручную или, воспользовавшись генератором Sitemap.

Google в своей справке подготовил список онлайн и десктопных, платных и бесплатных генераторов карт сайта. Ознакомиться со всем списком можно, перейдя по ссылке.

Сгенерировать Sitemap проще, чем кажется. Разберём, как сгенерировать сайтмап, на примере деcктопного приложения Majento:

1. Парсим сайт.

2. Переходим в раздел «Сайты» => «Генерировать Sitemap».

Генерация XML Sitemap в Majento – шаг 1

3. Сохраняем в нужном нам формате.

Генерация XML Sitemap в Majento – шаг 2

4. Карта сайта готова.

Сгенерированная XML-карта в Majento

Из online-генераторов XML-карты сайта заслуживает внимания XML Sitemap Generator.

Расширенные возможности этого сервера позволяют установить определённые XML-теги, включить/исключить нужные документы.


Генерация карты в XML Sitemap Generator

Исключить ненужные страницы можно и с помощью регулярных выражений.

Исключение URL с помощью регулярных выражений в XML Sitemap Generator

XML-карта для изображений

Google поддерживает расширенный синтаксис для изображений. Для этого вы можете создать отдельную карту сайта для изображений или добавить синтаксис в существующую. Использование расширенного синтаксиса в Sitemap предоставляет поисковой системе дополнительную информацию об изображениях на сайте. Также это может помочь Google обнаружить и проиндексировать изображения, которые он не может найти при сканировании сайта.

XML-карта для изображений

Как и в обычной карте сайта, есть обязательные и необязательные XML-теги.

Обязательные:
<image:image> – аналогично тегу <url> содержит в себе URL изображения и дополнительную информацию.
<image:loc> – URL изображения.

Необязательные:
<image:caption> – подпись к изображению.
<image:geo_location> – место съёмки фотографии.
<image:title> – название изображения.
<image:license> – URL-лицензии изображения.

XML-карта для видео


Ещё один расширенный синтаксис, который поддерживает Google, – XML-карта для видео.

XML-карта для видео

Плюсы добавления XML-тегов для видео:

1) даёт понять Google, какой контент на сайте;
2) даёт возможность предоставить детальное описание к файлу;
3) станет доступным для поиска в Google Видео;
4) в поисковой выдаче будет отображаться заставка видео (может повысить количество переходов из поисковой выдачи).

Карта сайта для видеофайлов состоит из следующих обязательных элементов:

<loc> – содержит URL-адрес страницы, на которой размещено видео; если на одной странице размещено более одного видео, не нужно каждый раз создавать тег <loc>, достаточно в одном теге <loc> несколько раз прописать <video:video> для каждого видео на странице.
<video:video> – включает в себя всю информацию о видео.
<video:thumbnail_loc> – URL к миниатюрному изображению (заставке) к видео. Рекомендованные размеры: от 160×90 пикселей до 1920×1080. Форматы изображения: .jpg, .png, or. gif
<video:title> – заголовок, который должен совпадать с названием страницы, на которой отображается видео.
<video:description> – описание видео. Должно соответствовать с метаописаниями страницы. Максимальное количество символов – 2048.


Заголовок и описание видео должны быть экранированы или упакованы в блок CDATA.

Со всеми XML-тегами карты сайта для видео можно ознакомиться в справке Google.

Где разместить карту сайта

Мы рекомендуем размещать XML-карту в корневом каталоге сайта. Ссылку на сайтмап нужно указать в файле robots.txt.

Директива Sitemap в robots.txt

Более подробно описано, как разместить ссылку на карту сайта в robots.txt, у нас в статье.

Добавить и проверить Sitemap в Yandex.Webmaster

Чтобы сообщить роботу Яндекса о наличии карты сайта, добавьте её в панель Яндекс.Вебмастера:

1. Перейдите в раздел «Индексирование» – «Файлы Sitemap».

2. Укажите ссылку на сайтмап.

3. Нажмите кнопку «Добавить».

4. Ниже будет отображаться список со всеми добавленными файлами.

Добавить карту сайта в Яндекс.Вебмастер

Прежде чем добавить файл, рекомендуем проверить его на наличие ошибок:

1. В панели Яндекс.Вебмастера перейдите в раздел «Инструменты» – «Анализ файлов Sitemap».

2. Укажите URL, загрузите файл или просто добавьте текст.

3. Нажмите кнопку «Проверить».


Проверить Sitemap в Яндекс.Вебмастере

Добавить и проверить файл в Google Search Console

Чтобы сообщить Googlebot о наличии этого файла, нужно добавить его в панель GSC:
1. Перейдите в раздел «Сканирование» – «Файлы Sitemap».
2. Нажмите кнопку «Добавление / проверка файла Sitemap».
3. Укажите URL файла.
4. Нажмите кнопку «Отправить».

Добавить карту сайта в Google Search Console

Чтобы проверить карту сайта на наличие ошибок, вместо кнопки «Отправить» нажмите «Тест». Если ошибок нет, будет отображаться следующее окно.

Проверить сайтмап в Google Search Console

При возникновении ошибок или предупреждений, Google сообщит об этом в соответствующей панели.

Ошибки в сайтмап в Google Search Console

Полный перечень ошибок и как их исправить описано в справке Google.


Распространённые заблуждения о Sitemap

Так как у многих этот файл вызывает трудности и является «тёмным лесом», возникают определённые мифы в отношении карт сайта. Рассмотрим некоторые из них:

– «Включение URL-адреса в файл Sitemap для XML гарантирует, что он будет проиндексирован».
Нет. Важно отметить, что XML-файлы Sitemap – это только рекомендации. Карта сайта XML не гарантирует индексацию поисковыми системами страниц, указанных в файле.

– «Если я удалю URL из XML-карты, он будет удалён из индекса».
Нет. Карта сайта XML не исключает индексацию страниц, не включённых в карту сайта XML.

– «XML-файлы Sitemap трудно создавать и поддерживать»
Нет. Небольшие сайты могут легко создавать и размещать собственные XML-файлы вручную, используя приведённые выше примеры в качестве руководства по форматированию. Для более крупных сайтов и сайтов, которые изменяются чаще, плагины или модули, доступные для большинства CMS, могут автоматизировать обновление XML-файлов.

Заключение

Файл Sitemap – полезный инструмент для передачи поисковым роботам информации о структуре сайта. Используйте это руководство, чтобы понять, как работает карта сайта, как она устроена, как сгенерировать, разместить и проверить файл.

siteclinic.ru

Что такое sitemap и зачем он нужен

Что такое sitemap? Это файл с информацией о страницах сайта, которые нужно индексировать. Обычно sitemap создают для Яндекса и Гугла, чтобы оповестить поисковых роботов о страницах, которые нужно внести в индекс. Ещё при помощи сайтмапа осуществляется проверка того, как часто происходят обновления, и индексация каких веб-документов является наиболее важной. В целом очень хорошо о нем рассказали на Вебмастерской Яндекса:

Влияет ли наличие sitemap на продвижение

Если у вас отсутствует сайтмап, это не означает, что поисковики не станут индексировать ресурс. Поисковые роботы зачастую и без этого неплохо сканируют сайты и включают их в поиск. Но иногда могут возникать сбои, из-за которых порой удается отыскать не все веб-документы. Основными причинами являются:

  1. Разделы сайта, в которые можно попасть, только совершив длинную цепочку переходов;
  2. Динамические URL-адреса.

Так вот, создание sitemap.xml во многом помогает решить эту проблему. Этот файл влияет на SEO лишь постольку, поскольку облегчает/ускоряет индексацию страниц. Также возрастает шанс того, что веб-страницы проиндексируются до того, как ваши конкуренты смогут скопировать контент, опубликовав его у себя на сайте.

В каком еще формате бывает карта сайта и почему её делают в формате XML

Зачем нужна карта сайта, мы разобрались. Теперь давайте рассмотрим, в каких форматах её можно сделать:

  1. В формате html. Создается в виде обыкновенной страницы с адресами, ведущими на главные разделы ресурса. Такой тип карты помогает быстро сориентироваться, и рассчитан в большей степени на людей, чем на поисковых роботов. В HTML sitemap можно поместить ограниченное число ссылок (не более 100), ведь если их окажется больше, то не все они попадут в индекс. Или же поисковые роботы могут и вовсе исключить такую страницу из поиска за чрезмерное число URLов, пусть даже и внутренних.
  2. Создание xml-файла sitemap. Здесь нет слишком критичных ограничений по количеству ссылок, а поисковики лучше его индексируют, ведь файл sitemap xml-формата содержит полную информацию в понятном для робота виде. Особенно он важен для проектов, где имеются сотни и тысячи документов одинаковой важности, и размещение всех ссылок на них необходимо. В сайтмап такого типа есть возможность разместить до 50 тысяч URLов и помимо этого можно выставить частоту обновлений и приблизительный приоритет (priority), чего не скажешь о карте в формате HTML. Именно по этим причинам сайтмап почти всегда создают в xml.

Вот еще инфа об этом файле:

Как сделать правильный sitemap

Рассмотрим, как сделать правильную xml-карту. Здесь должны быть соблюдены следующие требования:

  1. Размер файла должен быть не больше 10 мб;
  2. Карта должна содержать не больше 50000 ссылок. В тех случаях, когда ссылок больше, можно создать несколько карт и включить их в главную xml-карту;
  3. Адрес сайтмапа следует прописать в robots.txt;
  4. Также загрузите sitemap в яндекс и гугл (как добавить файл – описано ниже);
  5. Поисковые системы должны иметь доступ к карте. Необходимо использовать специальные теги, которые дают поисковикам понять, что это именно карта, а не что-то другое;
  6. У sitemap должна быть кодировка UTF-8.

Приведу простой пример карты:

Теги url и loc являются обязательными. В первом прописывают все сведения о конкретном URL. Во втором прописывается сам адрес.

Теги lastmod, changefreq, priority не являются обязательными, но использовать их всё же рекомендуется.

Lastmod в sitemap отвечает за дату последнего обновления.

Changefreq указывает на частоту изменений страницы. Значения могут быть следующими:

  1. Hourly – обновление ежечасно;
  2. Always – всегда обновляется;
  3. Weekly – обновляется раз в неделю;
  4. Daily – обновления происходят ежедневно;
  5. Monthly – обновления происходят раз в месяц;
  6. Yearly – один раз в год;
  7. Never – не обновляется (такое значение лучше не использовать).

Priority сообщает поисковикам о степени важности страницы, по сравнению с другими. Приоритет можно выставлять от 0,1(низкий) до 1(высокий).

Это был только пример карты, не нужно указывать именно эти значения. Вообще, priority рекомендуется расставлять следующим образом: максимальный для главной страницы (1), для рубрик средний (0,6), а для записей – минимальный (0,4).

Теперь рассмотрим пример, когда ссылок более 50 тысяч. В этом случае файл включает в себя другие карты:

Как создать карту сайта

Способов создания xml-карты несколько, рассмотрим их:

  1. Скачать карту при помощи онлайн генератора с другого ресурса;
  2. Сгенерировать при помощи специальной программы. Но стоит учесть, что программы подобного рода в основном платные. Пример такого генератора: Wonder WebWare SiteMap Generatior. В Screaming Frog также есть такая возможность;
  3. Создать сайтмап вручную;
  4. Автоматически создать карту при помощи CMS (например на WordPress доступна такая функция).

Вот вариант, как сделать сайтмап без помощи плагинов:

Плагины для создания sitemap на WordPress

Сделать карту сайта в WordPress можно с помощью специального плагина, который называется Google XML Sitemaps. Здесь все просто: скачиваем плагин, устанавливаем, затем приступаем к созданию файла. Для этого открываете Консоль-Настройки, и выбираете XML-sitemap. Далее выставляем настройки. Приоритет оставляем по умолчанию.

После создания файл карты будет иметь следующий путь: http://site.ru/sitemap.xml

Кстати, имя карты можно заменить любым, главное здесь – это не менять расширение *.xml. Только нужно будет написать правильный путь к данному файлу в robots.txt.

Инструкция по настройке плагина:

Как проверить сайтмап и сообщить о нем поисковикам

Проверять sitemap на валидность можно, добавив его в вебмастер Гугла или Яндекса. Это самый простой способ, поисковики лучше всего скажут об ошибках.

Вот где проверка расположена в Яндекс Вебмастере:

proverit-sitemap

А вот где в инструментах Вебмастера Google:

proverit-sitemap-google

Дать Яндексу знать о сайтмапе можно путем добавления в robots.txt такого кода:

Далее в webmaster.yandex.ru нужно открыть «Файлы sitemap» (пункт меню «настройка индексации») и там написать адрес xml-карты.

По аналогии можно добавить sitemap и в Google. Только там «Файлы sitemap» находятся в другой вкладке — «Сканирование».

Нужно ли скрывать карту сайта

Некоторые параноидальные вебмастера прячут сайтмап, опасаясь за свой контент. Ведь при наличии карты сайта он может быть легко сворован. Файл содержит почти всю структуру сайта, все пути на его страницы, то есть с помощью карты мошенники легко смогут сделать дубли или локальные копии ресурса. Отсутствие же этого файла во многом затруднит «ворам» задачу.

Но побеждают те, кто считает, что не нужно скрывать карту сайта, и даже наоборот – необходимо создавать и отображать ее на своем ресурсе.

Даже ссылку в футере размещают на html-карту сайта. И это неплохо сказывается на индексации, так-то!

Как удалить сайтмап

Нужно либо убрать файл sitemap.xml из корневой папки сайта (либо, если её там нет, по тому пути, который у вас указан в инструментах вебмастера Яндекс или Google), либо удалить плагин, который формирует карту сайта. После этого убрать ссылку на сайтмап из robots.txt.

znet.ru

Кому следует это использовать?

Использовать Google Sitemap может каждый сайтовладелец независимо от того, сколько на сайте страниц одна или миллион. Но всё-таки необходимее всего использовать Google Sitemap владельцам тех сайтов, страницы которых претерпевают очень частые изменения.

 

Обычно бывает так, что определённое количество страниц сайта не индексируется, хотя ссылки, ведущие на них, корректно распознаются поисковыми роботами. Причина этому банальна – расположение ссылок на эти страницы в глубине сайта, т.е. поисковый робот не доходит до этих ссылок, соответственно не находит эти страницы. Избежать данной проблемы можно, воспользовавшись Google Sitemap.

Как это работает?

Google Sitemaps созданы с использованием XML (Extensible Markup Language). Этот язык часто используется в фидах и на блогах.

 

Ниже приведён пример XML-кода, который Вы должны включить в каждую страницу своего сайта:

 

[url]
[loc]http://www.yoursite.com/[/loc]
[lastmod]2005-07-15[/lastmod]
[changefreq]monthly[/changefreq]
[priority]0.5[/priority]
[/url]

 

Ниже приводится описание каждой строки кода:

  • location – адрес веб-страницы, например http://www.yoursite.com
  • last modified – дата последней модификации страницы
  • change frequency – говорит Google о том, как часто Вы обновляете веб-страницу. Возможные значения: never, weekly, daily, hourly, monthly, yearly
  • priority – устанавливает приоритет, который Google назначит для конкретной веб-страницы. Возможные значения: 0.0 (низший приоритет), 1.0 (высший приоритет), 0.5 (средний приоритет).

Некоторые страницы Вашего интернет-ресурса могут быть особенно приоритетными, т.к. после изготовления сайта его страницы часто обновляются, например главная (домашняя) страницы сайта, страница статей, поэтому им необходимо присвоить высший приоритет…

Как создать карту сайта или динамический XML-файл Google Sitemap?

Если Ваш сайт состоит из 1000 страниц и более, то создавать Google Sitemap вручную будет слишком долго, муторно и неудобно.

К счастью, Google предоставляет собственный скрипт, называемый , позволяющий очень быстро сгенерировать необходимый файл. Этот скрипт написан на языке Python, он создаёт Sitemap для Вашего сайта, используя Sitemap Protocol. Этот скрипт может создавать Sitemaps из списка URL, директорий веб-сервера или из логов доступа.

Инструменты для генерации файла Google Sitemap от сторонних производителей

Ниже приводится пошаговый план создания Google Sitemap при помощи одного из множества бесплатных Sitemap-генераторов:

  1. Зайдите на сайт и введите адрес Вашего сайта в форму, находящуюся в самом верху страницы сайта
  2. Нажмите Submit
  3. Скопируйте сгенерированный для Вашего сайта код и вставьте его в чистый текстовый файл блокнота (notepad)
  4. Сохраните этот текстовый файл под именем sitemap.xml
  5. Загрузите этот файл в корневую директорию Вашего сайта (туда, где находится домашняя страница сайта)
  6. В адресной строке браузера наберите полный путь к сгенерированному файлу, например http://www.yoursite.com/sitemap.xml. Если Вы всё сделали правильно, то Вы увидите список URL’ов и никаких ошибок
  7. Теперь откройте свой и добавьте этот путь (из пункта 6) в соответствующую графу в аккаунте
  8. Проделывайте эти шаги применительно к каждому своему сайту.

Google также предоставляет информацию о других sitemap-генераторах.

Резюме

Google является крупнейшей и популярнейшей поисковой машиной во всём Интернете. Каждый год миллионы веб-сайтов попадают в индекс Google, что естественным образом усложняет задачу нахождения Вашего сайта в результатах поисковой выдачи (SERP). Поэтому создайте и начинайте использовать Google Sitemap прямо сейчас.

www.castcom.ru

Нужен ли мне файл Sitemap?

Если страницы файла корректно связаны друг с другом, поисковые роботы могут обнаружить большую часть материалов. Тем не менее с помощью файла Sitemap можно оптимизировать сканирование сайта, особенно в следующих случаях:

  • Размер сайта очень велик. Поисковые роботы Google могут пропустить недавно созданные или измененные страницы.
  • Сайт содержит большой архив страниц, которые не связаны друг с другом. Чтобы они были успешно просканированы, их можно перечислить в файле Sitemap.
  • Ваш сайт создан недавно, и на него указывает мало ссылок. Робот Googlebot и другие поисковые роботы сканируют Интернет, переходя по ссылкам с одной страницы на другую. Если на ваш сайт указывает мало ссылок, его будет сложно найти.
  • На сайте используется мультимедийный контент, он отображается в Новостях Google или использует другие аннотации, совместимые с файлами Sitemap. Из файлов Sitemap поисковая система может получать дополнительную информацию для показа в результатах поиска.

 

support.google.com

Автор: Майкл Коттам (Michael Cottam) – SEO-консультант, OzTech (США). Эксперт Moz.

Работая SEO-консультантом, я видел множество клиентов с самыми нелепыми заблуждениями в отношении XML Sitemap. Карта сайта – это мощный инструмент, но чтобы умело им пользоваться, нужна небольшая подготовка и опыт.

Индексация

Наверное, самым частым заблуждением является то, что XML-карта сайта помогает индексации страниц. Первое, что нужно чётко понять: Google не индексирует страницы только потому, что вы любезно об этом попросили. Google индексирует их потому, что: а) он их находит и сканирует; б) он считает их достаточно качественными, чтобы индексировать. Если вы указываете Google на страницу и просите проиндексировать её, совсем не обязательно, что так и будет.

Важно отметить, что отправляя файл sitemap.xml, вы даёте Google подсказку. В результате поисковик понимает, что вы считаете эти URL достаточно качественными целевыми страницами, стоящими индексации. Но это лишь подсказка, что они важны. Такая же, как ссылка на страницу из главного меню.

Последовательность

Одной из самых частых ошибок, которые я наблюдал у клиентов – отсутствие последовательности в передаче Google информации о конкретной странице. Если вы блокируете страницу в файле robots.txt, а затем включаете её в файл XML Sitemap, вы запутываете Google. Ваша карта сайта говорит: «Google, вот хорошая, качественная страница, которую тебе точно нужно проиндексировать». При этом файл robots.txt запрещает её индексировать.

То же самое касается и метатега robots: не включайте страницу в файл Sitemap, если вы планируете добавить на неё метатег robots со значением «noindex, follow». Используйте этот метатег только в том случае, если вы не хотите, чтоб Google индексировал страницу.

В целом, мы хотим, чтобы каждая страница нашего сайта попала в одну из двух категорий:

  • Служебные страницы (полезные для пользователей, но не целевые страницы для поисковых запросов);
  • «Вкусные», высококачественные посадочные страницы для поисковых запросов.

Всё, что попадает в категорию №1, должно блокироваться в файле robots.txt или через метатег robots со значением «noindex, follow» и не должно указываться в файле Sitemap.

Всё, что попадает в категорию №2, не должно блокироваться в файле robots.txt или с помощью метатега robots со значением «noindex» и должно присутствовать в файле XML Sitemap.

Качество сайта в целом

Судя по всему, Google оценивает качество сайта в целом и использует этот показатель в ранжировании. И здесь имеется в виду не ссылочный вес.

Подумайте об этом с точки зрения Google. Допустим, у вас есть отличная страница с прекрасным контентом, который охватывает все сигналы, начиная от релевантности и «Панды» и заканчивая вовлечённостью в социальных сетях.

Если Google видит ваш сайт как 1000 страниц контента, из которых лишь 5-6 страниц являются такими, как эта отличная страница, то он направляет пользователей на один из этих URL. Но что будет, если пользователь нажмёт на ссылку на этой странице? Он может попасть на некачественную страницу сайта. В данном случае речь идёт о плохом UX. Зачем направлять пользователей на такой сайт?

Инженеры Google явно понимают, что у каждого сайта есть определённое количество «служебных» страниц, которые полезны для пользователей, но не обязательно должны быть целевыми страницами для поисковых запросов. Это страницы авторизации, ответа на комментарий и прочие.

Если файл Sitemap содержит все эти страницы, то что вы сообщаете Google? Что у вас нет подсказок, что считать хорошим контентом на вашем сайте, а что к нему не относится.

Теперь давайте рассмотрим картину, которые вы можете нарисовать Google вместо этой: «Да, у нас есть сайт с 1000 страниц. 475 из них – страницы с отличным контентом. Остальные вы можете игнорировать. Это служебные страницы».

Допустим, Google сканирует эти 475 страниц, и с помощью своих метрик определяет, что 175 из них – это страницы класса «А»; 200 – класса «В+»; а 100 – «В» или «В-». В целом это довольно неплохой результат, и он может говорить о том, что сайт достаточно хорош для того, чтобы направлять к нему пользователей.

Для сравнения, представьте ситуацию, когда все 1000 страниц сайта внесены в файл XML Sitemap. Google смотрит на все страницы, которые вы указали как хороший контент и видит, что более 50% из них – это страницы класса «D» или «F». В среднем, сайт выглядит как некачественный, и Google, возможно, не захочет направлять к нему пользователей.

Скрываем ненужные страницы

Помните, что Google собирается использовать то, что вы подаёте через файл Sitemap, как подсказку, что считать важным на сайте. Но если какие-то URL отсутствуют в файле Sitemap, совсем необязательно, что Google их проигнорирует. У вас по-прежнему могут быть тысячи страниц с достаточным количество контента и ссылочных сигналов для индексации, хотя на самом деле они не должны индексироваться.

Используйте команду «site:», чтобы увидеть все страницы, которые Google индексирует на сайте. Так вы сможете найти страницы, о которых вы забыли, и исключить их из «средней оценки», которую Google присваивает сайту, с помощью метатега robots «noindex,follow» или блокировки в robots.txt. Как правило, самые слабые страницы в индексе будут перечислены последними в результатах поиска, выполненного с помощью оператора «site:».

Noindex против robots.txt

Существует важное, но тонкое различие между применением метатега robots и файла robots.txt для предотвращения индексации страницы. Использование метатега robots со значением «noindex,follow» позволяет передавать ссылочный вес от этой страницы к тем URL, на которые она ссылается. Если вы блокируете страницу в robots.txt, то он просто уходит в никуда.

Использование google sitemap позволяетНа примере выше мы блокируем страницы, которые на самом деле не являются страницами. Это отслеживающие скрипты. Поэтому мы не теряем ссылочный вес, поскольку у этих страниц нет хедера с главным меню и т.п.

Использование google sitemap позволяет

Возьмём для примера страницу «Контакты» или «Политика конфиденциальности». Ссылки на них могут содержаться на каждой странице сайта – через главное меню или меню в футере. Соответственно, на эти страницы поступает большое количество ссылочного веса. Зачем от него отказываться? Не лучше ли позволить ему поступать ко всем ссылкам в главном меню? Ответ очевиден, не так ли?

Управление бюджетом сканирования

В каких случаях вместо метатега robots нужно использовать robots.txt? Возможно тогда, когда у вас есть проблемы с краулинговым бюджетом, и Googlebot тратит много времени на сканирование служебных страниц только для того, чтобы обнаружить метатег robots «noindex,follow» и покинуть их. Если у вас так много служебных URL, что Googlebot не добирается до важных страниц, тогда их нужно заблокировать в robots.txt.

У некоторых наших клиентов после очистки файла Sitemap и блокировки индексации служебных страниц улучшалось ранжирование:

Использование google sitemap позволяет

Вы действительно считаете, что 6-20 тысяч страниц вашего сайта должны сканироваться ежедневно? Или же краулинговый бюджет расходуется на служебные страницы?

Если у вас есть основной набор страниц, контент которых регулярно меняется (блог, новые продукты или страницы категорий товара) и есть множество страниц (таких, как страницы отдельных товаров), которые нужно бы индексировать, но не за счёт повторного сканирования и индексирования основных страниц, то вы можете внести основные страницы в файл XML Sitemap. Таким образом, вы дадите Google подсказку, какие страницы вы считаете более важными, чем те, что не заблокированы, но и не внесены в XML-карту сайта.

Устранение проблем индексации

Использование google sitemap позволяет

Инструмент XML Sitemap реально полезен для SEO в том случае, если вы отправляете в Google выборку страниц для индексации, но только некоторые из них индексируются. Google Search Console не предоставляет информацию о том, какие именно страницы индексируются. В сервисе можно узнать лишь общее количество проиндексированных URL в каждом файле Sitemap.

Допустим, вы являетесь владельцем e-commerce сайта, у которого 100 тыс. страниц товара, 5 тыс. страниц категорий и 20 тыс. страниц подкатегорий. Вы отправляете в Google файл XML Sitemap, который содержит 125 тыс. URL, и выясняете, что он индексирует только 87 тыс. из них. Но какие именно?

Во-первых, возможно, ВСЕ страницы категорий и подкатегорий являются для вас важными поисковыми целями. В таком случае можно создать файлы category-sitemap.xml и subcategory-sitemap.xml и отправить их в Google по отдельности. Предоставив поисковику эти файлы, вы ожидаете, что индексация будет на уровне 100%. Если же показатель ниже, тогда вы понимаете, что нужно добавить больше контента на эти страницы, увеличить ссылочный вес или же работать над обоими аспектами. Вы можете обнаружить, что страницы категорий и подкатегорий не индексируются, потому что на них указан только 1 товар (или ни одного). В таком случае на этих страницах можно настроить метатег robots «noindex,follow» и убрать их из XML-карты.

Есть вероятность, что проблема кроется в некоторых из 100 тысяч страниц товаров. Но в каких именно?

Начните с гипотез и разбейте страницы товаров по отдельным XML-файлам, чтобы проверить эти гипотезы. Вы можете тестировать несколько гипотез одновременно. Добавлять один и тот же URL в несколько файлов Sitemap допустимо.

Вы можете начать со следующих трёх теорий – не индексируются те страницы товара, на которых:

  • Нет изображения товара;
  • Уникальное описание включает менее 200 слов;
  • Нет комментариев или отзывов.

Создайте файл XML Sitemap для каждой из этих категорий. Не обязательно, чтобы он включал все страницы в категории. Достаточно того количества, на основании которого можно будет делать обоснованные выводы об индексации. К примеру, в каждом файле может быть 100 страниц.

Ваша цель – использовать общий процент индексации в каждом из этих файлов Sitemap для определения свойств страниц, которые приводят к тому, что они индексируются или не индексируются.

Как только вы выясните, в чём заключается проблема, вы можете изменить содержимое страниц (или ссылки на них) или закрыть их от индексации. Например, у 20 тыс. из 100 тыс. страниц товара на сайте описания включали менее 50 слов. Если это не трафиковые ключевые слова, и вы получаете описания от производителей, возможно, не стоит вручную добавлять ещё 200 слов на каждую из этих 20 тыс. страниц. Можно добавить метатег robots «noindex, follow» на все страницы с описанием из менее чем 50 слов, поскольку Google всё равно не собирается их индексировать, и они снижают общую оценку качества сайта. Также не забывайте удалять такие страницы из файла Sitemap.

Динамическая XML-карта сайта

Вы, возможно, думаете: «Отлично, Майкл. Но теперь мне нужно вручную поддерживать синхронизацию XML-файла с метатегом robots на всех 100 тыс. страниц».

Но нет никакой необходимости делать это вручную. XML-карта сайта не должна быть статичным файлом. В действительности, у файла даже не обязательно наличие расширения .XML для отправки его в Google Search Console.

Вместо этого настройте правила, указывающие, должна ли страница добавляться в файл Sitemap или нет, и используйте ту же логику на самой странице, чтобы настроить метатег robots index или noindex. Если описание товара из фида производителя обновится и увеличится с 42 слов до 215, страница будет автоматически добавлена в файл Sitemap и получит метатег robots со значением «index,follow».

На своём туристическом сайте я применяю эту тактику для разных типов страниц. Я использую классический ASP для этих страниц, поэтому файлы Sitemap выглядят примерно так:

https://www.visualitineraries.com/ItinSiteMap.asp

Когда эти файлы обрабатываются, вместо рендеринга HTML-страницы, код со стороны сервера просто возвращает XML. Этот цикл повторяется для набора записей из одной из моих таблиц базы данных и выдаёт запись для каждой, которая соответствует определённому критерию.

Файл Sitemap для видео

Вместо создания файла Sitemap для видео, используйте JSON-LD и разметку schema.org/VideoObject на самой странице.

Выводы

  • Будьте последовательными: если вы блокируете страницу от индексации в robots.txt или с помощью метатега robots «noindex», она не должна присутствовать в файле Sitemap.
  • Используйте XML-карту сайта как инструмент для выявления и устранения проблем индексации. Позволяйте/просите Google индексировать только те страницы, которые он захочет индексировать.
  • При наличии крупного сайта используйте динамические файлы sitemap.xml. Не пытайтесь вручную поддерживать синхронизацию между robots.txt, метатегами robots и файлами Sitemap.

www.searchengines.ru

В 2017 году Google заплатил около 3 млн. долларов экспериментаторам в рамках Vulnerability Reward Program, нашедшим уязвимости в продуктах Google. На этой неделе также получил вознаграждение Tom Anthony, сеошник из Великобритании, за выявление уязвимости, из-за которой можно было быстро индексироваться и получать чужой трафик. Ниже представлен перевод поста Тома с подробностями взлома.

Краткая версия:

Google имеет URL, по которому можно пингануть XML Sitemap. После пинга Google сканирует карту и парсит адреса в нём. Для любых сайтов с открытым редиректом (таких как LinkedIn, Facebook и тысячи eCommerce-сайтов) возможно пингануть сайтмап, который хостится у вас, и Google будет доверять этой карте также, как и зараженному сайту.

Используя в карте сайта большого интернет-магазина в Великобритании директиву hreflang я моментально был в ТОПе по разным конкурентным запросам в США.

Google уже пофиксил баг и заплатил вознаграждение в размере $1337.

Недавно мне удалось найти особенность в Google, которая позволяет атакующему отправить XML sitemap для сайта, к которому нет доступа. Так как этот файл может содержать директивы индексации, такие как hreflang, это позволяет атакующему использовать эти директивы и помогать своим сайтам ранжироваться в Google. В рамках эксперимента мне удалось попасть новым доменом без обратных ссылок на первую страницу поиска по очень сладким ключевым словам.

XML Sitemap и механизм пинга

Google позволяет владельцам сайтов отправлять xml-сайтмапы, это помогает ему узнать о новых адресах для краулинга, но также учитывает директивы hreflang, которые помогают узнать о существовании международных версий страницы. Google не рассказывает, как именно учитываются эти директивы в алгоритмах, однако, hreflang позволяет получать ссылочный вес и траст с другого урла, используя эти сигналы для ранжирования новых URL (например, многие люди ссылаются на английскую .com версию сайта, немецкая версия использует эти сигналы и лучше ранжируется в Google.de).

Вы можете отправлять сайтмапы для домена через Search Console, внутри файла robots.txt или с помощью специального URL для пинга. После отправки sitemap.xml с помощью ping Google сканирует файл в течение 10-15 секунд. Но это сканирование не будет отображаться в Search Console.

Использование google sitemap позволяет

Помимо hreflang в sitemap.xml я пробовал другие директивы, такие как noindex или rel-canonical, но Google похоже их не использует.

Отправка файла в Google Search Console

Если вы попробуете отправить в GSC sitemap.xml, который включает урлы на другой домен, не принадлежащий вам, то консоль отклонит их.

Использование google sitemap позволяет

Мы вернемся к этому моменту позже (извини, Jono!).

Открытые редиректы

Многие сайты используют URL-параметры для управления редиректами.

Использование google sitemap позволяет

В этом примере после логина вас должно средиректить на page.html. Некоторые сайты с плохой гигиеной позволяют совершать открытые редиректы на другие домены. Часто даже не нужно дополнительное взаимодействие типа логина, они сразу перенаправляют пользователя.

Использование google sitemap позволяет

Открытые редиректы встречаются часто и не рассматриваются, как опасные. Однако, некоторые компании пытаются защититься от подобных багов, но часто вы можете обойти их защиту.

Использование google sitemap позволяет

Tesco является крупным ретейлером в Великобритании с оборотом £50 млрд. Я отправил этот пример Tesco (а также другим компаниям, об уязвимостях которых я знал в рамках эксперимента) и они уже это пофиксили.

Пинг sitemap.xml через открытые редиректы

Вышло так, что когда вы пингуете sitemap.xml, Google следует по редиректу, даже если он кросс-доменный. И что важно, он ассоциирует этот XML с доменом, который сделал редирект, и обрабатывает эту карту как для подтвержденного сайта.

Использование google sitemap позволяет

В этом примере, evil.xml хостится на blue.com, но Google ассоциирует его с green.com. Используя это, вы можете отправлять сайтмапы для сайтов, которые вам не принадлежат, и отправить в них нужные директивы.

Эксперимент: Использование hreflang для воровства авторитета и бесплатного ранжирования

Мне было интересно, действительно ли Google доверяет кросс-доменным редиректам и пришлось провести эксперимент.

Я создал фейковый домен для компании в Великобритании, которая не работает в США и установил AWS сервер. Имитация сайта включала сбор нужного контента и небольшую перенастройку, смену валют/адресов и пр). Я не называю здесь имени компании, чтобы не навредить, поэтому назовем их условно victim.com.

Далее я создал фейковый sitemap, который хостился на evil.com, но содержащий только урлы с victim.com. Эти адреса содержали hreflang и ссылались на эквивалентный адрес на evil.com, указывая, что это US-версия victim.com. Далее я отправил этот sitemap через открытый редирект на victim.com через механизм пинга от Google.

В течение 48 часов сайт начал получать небольшое количество трафика по низкочастотным запросам (см. скриншот из Семраша).

Использование google sitemap позволяет

Через несколько дней сайт начал показываться в ТОПе по конкурентным запросам на первой странице, насмотря на наличие в выдаче Amazon и Walmart.

Использование google sitemap позволяет

Далее, для домена evil.com в панели для вебмастеров появилась ссылка с victim.com, хотя самой ссылки не было.

Использование google sitemap позволяет

И тут я обнаружил, что могу отправлять sitemap.xml для victim.com прямо внутри Search Console домена evil.com.

Использование google sitemap позволяет

Похоже, что Google связал сайты и Search Console для домена evil.com имеет возможность влиять на victim.com.

Searchmetrics показала увеличение трафика.

Использование google sitemap позволяет

По отчетам Google Search Console сайт заработал миллионы показов и более 10 000 кликов из поиска, при этом я не сделал ничего для продвижения, а всего лишь отправил sitemap.xml!

Должен сказать, что я не давал людям возможность оплаты на evil.com, но если бы хотел, то можно было украсть много денег, настроить рекламу или как-то иначе монетизировать трафик. На мой взгляд это серьезные риски для пользователей Google, а также для компаний, которые полагаются на трафик из Google. Трафик моего сайта рос, но я остановил эксперимент.

Заключение

Этот метод полностью незаметный для victim.com — карты сайта не показываются на их стороне. Это первый известный мне пример прямого эксплойта алгоритма, а не простое манипулирование поисковыми факторами. Таким черным методом можно иметь неочевидное финансовое влияние на ряд компаний.

Первый баг-репорт был отправлен в Google 23 сентября 2017. 25 марта Google пофиксил все дырки и разрешил опубликовать эту статью.

devaka.ru

google sitemap

Разработчики поисковиков в погоне за клиентом начали спускаться с небес и предлагают своим пользователям все новые и новые сервисы. Один из последних анонсированных Google сервисов Sitemap позволяет веб-мастеру более качественно управлять процессом индексации содержимого своего сайта. Механизм Sitemap позволяет указать поисковому механизму Google, какие URL вашего веб-сайта и с какой периодичностью ему следует индексировать. Формат самого файла позволяет подсунуть поисковику не только список URL, но и указать периодичность индексации, время последнего изменения и другие параметры.

 

Главное преимущество в использовании механизма Sitemap заключается в возможности указать недоступные для пользователей (например, в силу большой разветвленности пользовательского интерфейса) участки сайта. Например, почти каждый большой сайт (ну или если хотите — каждый контент-проект) имеет встроенный поисковый механизм. И может так получиться, что часть контента остается недоступной для пользователей в силу ее расположенности в базе данных и доступности только по запросу. Особенно болезненно это для веб-интерфейсов к базам данных, предоставляющих информацию только по запросу и не имеющих интерфейсов последовательного доступа (электронные каталоги запчастей, например). Таким образом, можно позволить веб-поисковику проиндексировать содержимое страниц, ранее находившихся в скрытом, по отношении к вашим посетителям посетителю или его сборщику данных, состоянии.

 

Один из многих нюансов использования Sitemap состоит в том, что этот протокол не подменяет, а используется параллельно с основным индексирующим механизмом поисковика для каждого конкретного веб-сайта. Таким образом, например, недобросовестные администраторы веб-сайтов не получат возможности искусственно завысить рейтинги своих изданий в результатах поисковых запросов Google.

 

 

www.softportal.com

Преимущества, получаемые вследствие внедрения Google Sitemap в свою деятельность:

  1. Ускорение процесса обнаружения и добавления страниц сайта в индекс Google.
  2. Быстрое нахождение Google’ом претерпевших изменения страниц сайта.
  3. Обеспечение более быстрого попадания сайта в результаты поисковой выдачи Google.
  4. Помощь Google в пополнении его индекса свежим контентом, вследствие чего пользователи Google получают в ответ на свои поисковые запросы актуальный и свежий контент.

Кому следует это использовать?

Использовать Google Sitemap может каждый сайтовладелец независимо от того, сколько на сайте страниц одна или миллион. Но всё-таки необходимее всего использовать Google Sitemap владельцам тех сайтов, страницы которых претерпевают очень частые изменения.

Обычно бывает так, что определённое количество страниц сайта не индексируется, хотя ссылки, ведущие на них, корректно распознаются поисковыми роботами. Причина этому банальна – расположение ссылок на эти страницы в глубине сайта, т.е. поисковый робот не доходит до этих ссылок, соответственно не находит эти страницы. Избежать данной проблемы можно, воспользовавшись Google Sitemap.

Запомните: использование Google Sitemap не даёт преимущества при ранжировании!

Как это работает?

Google Sitemaps созданы с использованием XML (Extensible Markup Language). Этот язык часто используется в фидах и на блогах.

Ниже приведён пример XML-кода, который Вы должны включить в каждую страницу своего сайта:

[url]
[loc]http://www.yoursite.com/[/loc]
[lastmod]2005-07-15[/lastmod]
[changefreq]monthly[/changefreq]
[priority]0.5[/priority]
[/url]

Ниже приводится описание каждой строки кода:

  • location – адрес веб-страницы, например http://www.yoursite.com
  • last modified – дата последней модификации страницы
  • change frequency – говорит Google о том, как часто Вы обновляете веб-страницу. Возможные значения: never, weekly, daily, hourly, monthly, yearly
  • priority – устанавливает приоритет, который Google назначит для конкретной веб-страницы. Возможные значения: 0.0 (низший приоритет), 1.0 (высший приоритет), 0.5 (средний приоритет).

Некоторые веб-страницы Вашего сайта могут быть особенно приоритетными, т.к. часто обновляются, например главная (домашняя) страницы сайта, страница статей, поэтому им необходимо присвоить высший приоритет…

Ещё раз повторюсь — Google Sitemap никак не влияет на ранжирование сайта.

Как создать динамический XML-файл Google Sitemap?

Если Ваш сайт состоит из 1000 страниц и более, то создавать Google Sitemap вручную будет слишком долго, муторно и неудобно.

К счастью, Google предоставляет собственный скрипт, называемый Sitemap Generator, позволяющий очень быстро сгенерировать необходимый файл. Этот скрипт написан на языке Python, он создаёт Sitemap для Вашего сайта, используя Sitemap Protocol. Этот скрипт может создавать Sitemaps из списка URL, директорий веб-сервера или из логов доступа.

Узнать больше информации относительно инструментов, предоставляемых Google’ом для веб-мастеров Вы можете тут: https://www.google.com/webmasters/sitemaps/login

Инструменты для генерации файла Google Sitemap от сторонних производителей

Google также предоставляет информацию о других sitemap-генераторах.

Например я использую бесплатный sitemap-генератор. Он лёгок в применении, и он быстро генерирует необходимый XML-код для сайта.

Ниже я привожу пошаговый план создания Google Sitemap при помощи одного из множества бесплатных Sitemap-генераторов:

  1. Зайдите на сайт http://www.sitemapspal.com и введите адрес Вашего сайта в форму, находящуюся в самом верху страницы сайта
  2. Нажмите Submit
  3. Скопируйте сгенерированный для Вашего сайта код и вставьте его в чистый текстовый файл блокнота (notepad)
  4. Сохраните этот текстовый файл под именем sitemap.xml
  5. Загрузите этот файл в корневую директорию Вашего сайта (туда, где находится домашняя страница сайта)
  6. В адресной строке браузера наберите полный путь к сгенерированному файлу, например http://www.yoursite.com/sitemap.xml. Если Вы всё сделали правильно, то Вы увидите список URL’ов и никаких ошибок
  7. Теперь откройте свой Google Sitemap аккаунт и добавьте этот путь (из пункта 6) в соответствующую графу в аккаунте
  8. Проделывайте эти шаги применительно к каждому своему сайту.

Резюме

Google является крупнейшей и популярнейшей поисковой машиной во всём Интернете. Каждый год миллионы веб-сайтов попадают в индекс Google, что естественным образом усложняет задачу нахождения Вашего сайта в результатах поисковой выдачи (SERP). Поэтому создайте и начинайте использовать Google Sitemap прямо сейчас.

Источник: http://www.searchenginecollege.com/

www.seoschool.ru


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.