Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.
Простой пример robots.txt:
User-agent: * Allow: /
Здесь роботс полностью разрешает индексацию всего сайта.
Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:
ваш_сайт.ru/robots.txt
Для размещения файла robots.txt в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.
Если файл доступен, то вы увидите содержимое robots.txt в браузере.
Для чего нужен robots.txt
Roots.txt для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование robots.txt подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы robots.txt, например директива Host или Sitemap, но об этом ниже.
Как создать robots.txt
Поскольку robots.txt — это текстовый файл, и чтобы создать файл robots.txt, можно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла robots.txt не должно вызвать проблем даже у новичков. О том, как составить robots.txt и что писать в роботсе на примерах покажу ниже.
Cоздать robots.txt онлайн
Вариант для ленивых — создать роботс онлайн и скачать файл robots.txt уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.
Редактирование robots.txt
После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».
Правильная настройка robots.txt
Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.
Чтобы понять, как сделать правильный robots txt, для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.
Правильный robots.txt начинается с директивы User-agent, которая указывает, к какому роботу обращены конкретные директивы.
Примеры User-agent в robots.txt:
# Указывает директивы для всех роботов одновременно User-agent: * # Указывает директивы для всех роботов Яндекса User-agent: Yandex # Указывает директивы для только основного индексирующего робота Яндекса User-agent: YandexBot # Указывает директивы для всех роботов Google User-agent: Googlebot
Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.
Пример robots.txt с несколькими вхождениями User-agent:
# Будет использована всеми роботами Яндекса User-agent: Yandex Disallow: /*utm_ # Будет использована всеми роботами Google User-agent: Googlebot Disallow: /*utm_ # Будет использована всеми роботами кроме роботов Яндекса и Google User-agent: * Allow: /*utm_
Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».
Пример неправильного перевода строки в robots.txt:
User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=
Пример правильного перевода строки в robots.txt:
User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=
Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».
Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.
Пример совместного использования директив в robots.txt:
User-agent: * Allow: /blog/page Disallow: /blog
Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».
Прошлый пример robots.txt в правильной сортировке:
User-agent: * Disallow: /blog Allow: /blog/page
Сначала запрещаем весь раздел, потом разрешаем некоторые его части.
Еще один правильный пример robots.txt с совместными директивами:
User-agent: * Allow: / Disallow: /blog Allow: /blog/page
Обратите внимание на правильную последовательность директив в данном robots.txt.
Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».
Пример директивы «Disallow/Allow» без параметров:
User-agent: * Disallow: # равнозначно Allow: / Disallow: /blog Allow: /blog/page
Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.
Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы создать идеальный robots txt своими руками.
Синтаксис robots.txt
Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.
Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:
- Каждая директива начинается с новой строки;
- Не указывайте больше одной директивы в одной строке;
- Не ставьте пробел в начало строки;
- Параметр директивы должен быть в одну строку;
- Не нужно обрамлять параметры директив в кавычки;
- Параметры директив не требуют закрывающих точки с запятой;
- Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
- Допускаются комментарии в robots.txt после знака решетки #;
- Пустой перевод строки может трактоваться как окончание директивы User-agent;
- Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
- В директивах «Allow», «Disallow» указывается не более одного параметра;
- Название файла robots.txt не допускает наличие заглавных букв, ошибочное написание названия файла — Robots.txt или ROBOTS.TXT;
- Написание названия директив и параметров заглавными буквами считается плохим тоном и если по стандарту, robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий;
- Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
- Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
- Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
- Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
- В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
- Использование любых символов национальных алфавитов в robots.txt не допускается.
Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».
В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.
Как проверить robots.txt
Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:
Проверка файла robots.txt в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml
Проверка файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru
Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию. Иначе, сервис может сообщить, что не удалось загрузить robots.txt. Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.
Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.
Robots.txt vs Яндекс и Google
Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить запрет индексации в robots.txt для Яндекса, но, например не для Google.
Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.
Запретить индексацию: robots.txt Disallow
Disallow — запрещающая директива, которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.
Пример как в robots.txt запретить индексацию сайта:
User-agent: * Disallow: /
Данный пример закрывает от индексации весь сайт для всех роботов.
В параметре директивы Disallow допускается использование специальных символов * и $:
* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:
User-agent: Yandex Disallow: /page
User-agent: Yandex Disallow: /page*
$ — указывает на точное соответствие исключения значению параметра:
User-agent: Googlebot Disallow: /page$
В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.
Если закрыть индексацию сайта robots.txt, в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы, можно воспользоваться не только robots txt, но и аналогичными html-тегами:
- <meta name=»robots» content=»noindex»/> — не индексировать содержимое страницы;
- <meta name=»robots» content=»nofollow»/> — не переходить по ссылкам на странице;
- <meta name=»robots» content=»none»/> — запрещено индексировать содержимое и переходить по ссылкам на странице;
- <meta name=»robots» content=»noindex, nofollow»/> — аналогично content=»none».
Разрешить индексацию: robots.txt Allow
Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.
Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:
User-agent: * Disallow: / Allow: /page
Запрещается индексировать весь сайт, кроме страниц, начинающихся с /page.
Disallow и Allow с пустым значением параметра
Пустая директива Disallow:
User-agent: * Disallow:
Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:
User-agent: * Allow: /
Пустая директива Allow:
User-agent: * Allow:
Разрешить ничего или полный запрет индексации сайта, равнозначно:
User-agent: * Disallow: /
Главное зеркало сайта: robots.txt Host
Директива Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Из всех популярных поисковых систем, директива Host распознаётся только роботами Яндекса. Директива Host полезна в том случае, если ваш сайт доступен по нескольким доменам, например:
mysite.ru mysite.com
Или для определения приоритета между:
mysite.ru www.mysite.ru
Роботу Яндекса можно указать, какое зеркало является главным. Директива Host указывается в блоке директивы «User-agent: Yandex» и в качестве параметра, указывается предпочтительный адрес сайта без «http://».
Пример robots.txt с указанием главного зеркала:
User-agent: Yandex Disallow: /page Host: mysite.ru
В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.
User-agent: Yandex Disallow: /page Host: www.mysite.ru
В качестве основного зеркала указывается доменное имя www.mysite.ru.
Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.
Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.
Карта сайта: robots.txt sitemap
При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте файла карты сайта sitemap.xml.
Пример robots.txt с указанием адреса карты сайта:
User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml
Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.
Директива Clean-param
Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.
Синтаксис директивы Clean-param:
Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]
Рассмотрим на примере страницы со следующим URL:
www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3
Пример robots.txt Clean-param:
Clean-param: parm1&parm2&parm3 /page.html # только для page.html
или
Clean-param: parm1&parm2&parm3 / # для всех
Директива Crawl-delay
Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.
Пример robots.txt Crawl-delay:
User-agent: Yandex Disallow: /page Crawl-delay: 3
В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.
Комментарии в robots.txt
Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.
Примеры комментариев в robots.txt:
User-agent: * # Комментарий может идти от начала строки Disallow: /page # А может быть продолжением строки с директивой # Роботы # игнорируют # комментарии Host: www.mysite.ru
В заключении
Файл robots.txt — очень важный и нужный инструмент взаимодействия с поисковыми роботами и один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно и с умом.
Если у вас есть вопросы — пишите в комментариях.
Рекомендуйте статью друзьям и не забывайте подписываться на блог.
Новые интересные статьи каждый день.
convertmonster.ru
Как влияет robots.txt на индексацию сайта
Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов. В частности, GoogleBot не использует директиву Host и Crawl-Delay, YandexNews с недавних пор стал игнорировать директиву Crawl-Delay, а YandexDirect и YandexVideoParser игнорируют более общие директивы в роботсе (но руководствуются теми, которые указаны специально для них).
Подробнее об исключениях:
Исключения Яндекса
Стандарт исключений для роботов (Википедия)
Максимальную нагрузку на сайт создают роботы, которые скачивают контент с вашего сайта. Следовательно, указывая, что именно индексировать, а что игнорировать, а также с какими временны́ми промежутками производить скачивание, вы можете, с одной стороны, значительно снизить нагрузку на сайт со стороны роботов, а с другой стороны, ускорить процесс скачивания, запретив обход ненужных страниц.
К таким ненужным страницам относятся скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и т.д., формы заказа и корзина со всеми шагами оформления покупки, функционал поиска, личный кабинет, админка.
Для большинства роботов также желательно отключить индексацию всех JS и CSS. Но для GoogleBot и Yandex такие файлы нужно оставить для индексирования, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования (пруф Google, пруф Яндекс).
Директивы robots.txt
Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. Однако не все поисковые системы и роботы поддерживают те или иные директивы. В связи с этим для нас полезнее будет знать не стандарт, а то, как руководствуются теми или иными директивы основные роботы.
Давайте рассмотрим по порядку.
User-agent
Это самая главная директива, определяющая для каких роботов далее следуют правила.
Для всех роботов:
User-agent: *
Для конкретного бота:
User-agent: GoogleBot
Обратите внимание, что в robots.txt не важен регистр символов. Т.е. юзер-агент для гугла можно с таким же успехом записать соледующим образом:
user-agent: googlebot
Ниже приведена таблица основных юзер-агентов различных поисковых систем.
Бот | Функция |
---|---|
Googlebot | основной индексирующий робот Google |
Googlebot-News | Google Новости |
Googlebot-Image | Google Картинки |
Googlebot-Video | видео |
Mediapartners-Google | Google AdSense, Google Mobile AdSense |
Mediapartners | Google AdSense, Google Mobile AdSense |
AdsBot-Google | проверка качества целевой страницы |
AdsBot-Google-Mobile-Apps | Робот Google для приложений |
Яндекс | |
YandexBot | основной индексирующий робот Яндекса |
YandexImages | Яндекс.Картинки |
YandexVideo | Яндекс.Видео |
YandexMedia | мультимедийные данные |
YandexBlogs | робот поиска по блогам |
YandexAddurl | робот, обращающийся к странице при добавлении ее через форму «Добавить URL» |
YandexFavicons | робот, индексирующий пиктограммы сайтов (favicons) |
YandexDirect | Яндекс.Директ |
YandexMetrika | Яндекс.Метрика |
YandexCatalog | Яндекс.Каталог |
YandexNews | Яндекс.Новости |
YandexImageResizer | робот мобильных сервисов |
Bing | |
Bingbot | основной индексирующий робот Bing |
Yahoo! | |
Slurp | основной индексирующий робот Yahoo! |
Mail.Ru | |
Mail.Ru | основной индексирующий робот Mail.Ru |
Rambler | |
StackRambler | Ранее основной индексирующий робот Rambler. Однако с 23.06.11 Rambler перестает поддерживать собственную поисковую систему и теперь использует на своих сервисах технологию Яндекса. Более не актуально. |
Disallow и Allow
Disallow закрывает от индексирования страницы и разделы сайта.
Allow принудительно открывает для индексирования страницы и разделы сайта.
Но здесь не все так просто.
Во-первых, нужно знать дополнительные операторы и понимать, как они используются — это *, $ и #.
* — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.
Примеры использования:
Disallow: *?s=
Disallow: /category/$
Следующие ссылки будут закрыты от индексации:
http://site.ru/?s=
http://site.ru/?s=keyword
http://site.ru/page/?s=keyword
http://site.ru/category/
Следующие ссылки будут открыты для индексации:
http://site.ru/category/cat1/
http://site.ru/category-folder/
Во-вторых, нужно понимать, каким образом выполняются вложенные правила.
Помните, что порядок записи директив не важен. Наследование правил, что открыть или закрыть от индексации определяется по тому, какие директории указаны. Разберем на примере.
Allow: *.css
Disallow: /template/
http://site.ru/template/ — закрыто от индексирования
http://site.ru/template/style.css — закрыто от индексирования
http://site.ru/style.css — открыто для индексирования
http://site.ru/theme/style.css — открыто для индексирования
Если нужно, чтобы все файлы .css были открыты для индексирования придется это дополнительно прописать для каждой из закрытых папок. В нашем случае:
Allow: *.css
Allow: /template/*.css
Disallow: /template/
Повторюсь, порядок директив не важен.
Sitemap
Директива для указания пути к XML-файлу Sitemap. URL-адрес прописывается так же, как в адресной строке.
Например,
Sitemap: http://site.ru/sitemap.xml
Директива Sitemap указывается в любом месте файла robots.txt без привязки к конкретному user-agent. Можно указать несколько правил Sitemap.
Host
Директива для указания главного зеркала сайта (в большинстве случаев: с www или без www). Обратите внимание, что главное зеркало указывается БЕЗ http://, но С https://. Также если необходимо, то указывается порт.
Директива поддерживается только ботами Яндекса и Mail.Ru. Другими роботами, в частности GoogleBot, команда не будет учтена. Host прописывается только один раз!
Пример 1:
Host: site.ru
Пример 2:
Host: https://site.ru
Crawl-delay
Директива для установления интервала времени между скачиванием роботом страниц сайта. Поддерживается роботами Яндекса, Mail.Ru, Bing, Yahoo. Значение может устанавливаться в целых или дробных единицах (разделитель — точка), время в секундах.
Пример 1:
Crawl-delay: 3
Пример 2:
Crawl-delay: 0.5
Если сайт имеет небольшую нагрузку, то необходимости устанавливать такое правило нет. Однако если индексация страниц роботом приводит к тому, что сайт превышает лимиты или испытывает значительные нагрузки вплоть до перебоев работы сервера, то эта директива поможет снизить нагрузку.
Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений — 0.1, 0.2, 0.5 — и постепенно их увеличивать. Для роботов поисковых систем, имеющих меньшее значение для результатов продвижения, таких как Mail.Ru, Bing и Yahoo можно изначально установить бо́льшие значения, чем для роботов Яндекса.
Clean-param
Это правило сообщает краулеру, что URL-адреса с указанными параметрами не нужно индексировать. Для правила указывается два аргумента: параметр и URL раздела. Директива поддерживается Яндексом.
Пример 1:
Clean-param: author_id http://site.ru/articles/
http://site.ru/articles/?author_id=267539 — индексироваться не будет
Пример 2:
Clean-param: author_id&sid http://site.ru/articles/
http://site.ru/articles/?author_id=267539&sid=0995823627 — индексироваться не будет
Яндекс также рекомендует использовать эту директиву для того, чтобы не учитывались UTM-метки и идентификаторы сессий. Пример:
Clean-Param: utm_source&utm_medium&utm_campaign
Другие параметры
В расширенной спецификации robots.txt можно найти еще параметры Request-rate и Visit-time. Однако они на данный момент не поддерживаются ведущими поисковыми системами.
Смысл директив:
Request-rate: 1/5 — загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 — загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.
Закрывающий robots.txt
Если вам нужно настроить, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать следующие директивы:
User-agent: *
Disallow: /
Проверьте, чтобы на тестовых площадках вашего сайта были прописаны эти директивы.
Правильная настройка robots.txt
Для России и стран СНГ, где доля Яндекса ощутима, следует прописывать директивы для всех роботов и отдельно для Яндекса и Google.
Чтобы правильно настроить robots.txt воспользуйтесь следующим алгоритмом:
- Закройте от индексирования админку сайта
- Закройте от индексирования личный кабинет, авторизацию, регистрацию
- Закройте от индексирования корзину, формы заказа, данные по доставке и заказам
- Закройте от индексирования ajax, json-скрипты
- Закройте от индексирования папку cgi
- Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google
- Закройте от индексирования функционал поиска
- Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов)
- Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS)
- Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения
- Закройте от индексирования страницы с параметрами UTM-меток и сессий
- Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
- Укажите Sitemap и Host
- По необходимости пропишите Crawl-Delay и Clean-Param
- Проверьте корректность robots.txt через инструменты Google и Яндекса (описано ниже)
- Через 2 недели перепроверьте, появились ли в поисковой выдаче новые страницы, которые не должны индексироваться. В случае необходимости повторить выше перечисленные шаги.
Пример robots.txt
# Пример файла robots.txt для настройки гипотетического сайта https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/*.jpg Allow: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/*.jpg Allow: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl-Delay: 0.5 Sitemap: https://site.ru/sitemap.xml Host: https://site.ru
Как добавить и где находится robots.txt
После того как вы создали файл robots.txt, его необходимо разместить на вашем сайте по адресу site.ru/robots.txt — т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt
Как проверить robots.txt
Проверка robots.txt осуществляется по следующим ссылкам:
- В Яндекс.Вебмастере — на вкладке Инструменты>Анализ robots.txt
- В Google Search Console — на вкладке Сканирование>Инструмент проверки файла robots.txt
Типичные ошибки в robots.txt
В конце статьи приведу несколько типичных ошибок файла robots.txt
- robots.txt отсутствует
- в robots.txt сайт закрыт от индексирования (Disallow: /)
- в файле присутствуют лишь самые основные директивы, нет детальной проработки файла
- в файле не закрыты от индексирования страницы с UTM-метками и идентификаторами сессий
- в файле указаны только директивы
Allow: *.css
Allow: *.js
Allow: *.png
Allow: *.jpg
Allow: *.gif
при этом файлы css, js, png, jpg, gif закрыты другими директивами в ряде директорий - директива Host прописана несколько раз
- в Host не указан протокол https
- путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта
P.S.
Если у вас есть дополнения к статье или вопросы, пишите ниже в комментариях.
Если у вас сайт на CMS WordPress, вам будет полезна статья «Как настроить правильный robots.txt для WordPress».
seogio.ru
Эксклюзив
Предположим у Вас есть страницы Вашего сайта вида — http://www.you_site.ru/begun.php?book=zoom или http://www.you_site.ru/begun.php?cool=books
Возникает вопрос, как же мне запретить индексировать все эти страницы, ведь они будут создаваться и создаваться, не буду же я каждую страницу прописывать в robots.txt
Ответ на этот вопрос очень прост. Вам будет достаточно запретить индексацию страницы begun.php, то есть так:
Disallow: begun.php
или так
Disallow: /begun.php
а теперь сюрприз, запретив таким образом старницу begun.php Ваша страница begun.php всё же будет индексироваться если урл будет выглядить например так http://www.you_site.ru/chtoto/begun.php?book=zoom
Чтобы поисковики не индексировали и в этом случае, прийдется таки дописывать каталоги, то есть в этом случае нужно будет написать так:
Disallow: /chtoto/begun.php
В следующей ситуации мы запрещаем индексировать все страницы у которых идут сессии, то есть страница page3.php будет нормально проиндексирована, а все её копии, начинающиеся на page3.php;phpessionid будут запрещены к индексации.
User-agent: *
Disallow: /page3.php;phpessionid
p.s. Наличие robots.txt на сервере не является обязательным, его отсутствие, как и пустой файл robots.txt, или неправильно составленный, будет интерпретироваться роботом как разрешение на полную индексацию сайта. Проверить свой robots.txt Вы можете на этой странице — http://www.yandex.ru/cgi-bin/test-robots А почитать интересную информацию, задать вопрос профессионалам и другое, Вы можете на этом форуме — http://www.webmasterworld.com/forum93/ О том, как работает робот yandex, можно прочитать здесь — http://webmaster.yandex.ru/faq.xml?id=502499
|
Похожие статьи: |
yapro.ru
Простыми словами
Чтобы не «кормить» читателя сложными объяснениями, которые обычно встречаются на специализированных сайтах, лучше объяснить все «на пальцах». Поисковый робот приходит на ваш сайт и индексирует страницы. После вы смотрите отчеты, которые указывают на проблемы, ошибки и пр.
Но на сайтах есть и такая информация, которая не обязательна для статистики. К примеру, страница «О компании» или «Контакты». Все это необязательно для индексации, а в некоторых случаях нежелательно, поскольку может исказить статистические данные. Чтобы этого всего не было, лучше закрывать эти страницы от робота. Именно для этого и нужна команда в файле robots.txt Disallow.
Стандарт
Этот документ всегда есть на сайтах. Его созданием занимаются разработчики и программисты. Иногда это делать могут и владельцы ресурса, особенно, если он небольшой. В этом случае работа с ним не занимает много времени.
Robots.txt называют стандартом исключений для поискового робота. Он представлен документом, в котором прописывают основные ограничения. Документ помещают в корень ресурса. При этом так, чтобы его можно было найти по пути «/robots.txt». Если у ресурса есть несколько поддоменов, то этот файлик помещается в корень каждого из них. Стандарт непрерывно связан с другим – Sitemaps.
Карта сайта
Чтобы понимать полную картину того, о чем идет речь, пару слов о Sitemaps. Это файл написанный языком XML. Он хранит все данные о ресурсе для ПС. По документу можно узнать о веб-страницах, индексируемых роботами.
Файл дает быстрый доступ ПС к любой страничке, показывает последние изменения, частоту и важность их. По этим критериям робот наиболее правильно сканирует сайт. Но важно понимать, что наличие такого файла не дает уверенности в том, что все странички будут проиндексированы. Он является больше подсказкой на пути к этому процессу.
Использование
Правильный файл robots.txt используется добровольно. Сам стандарт появился еще в 1994 году. Его принял консорциум W3C. С того момента стал использоваться почти во всех поисковых машин. Он нужен для «дозированной» корректировки сканирования ресурса поисковым роботом. Файл содержит комплекс инструкций, которые используют ПС.
Благодаря набору инструментов легко устанавливают файлы, страницы, каталоги, которые нельзя индексировать. Robots.txt указывает и на такие файлы, которые нужно проверить сразу.
Для чего?
Несмотря на то, что файл действительно можно использовать добровольно, его создают практически все сайты. Это нужно для того, чтобы упорядочить работу робота. Иначе он будет проверять все страницы в случайной последовательности, и помимо того, что может пропускать некоторые страницы, создает весомую нагрузку на ресурс.
Также файл используют, чтобы скрыть от глаз поисковой системы:
- Страницы с личными данными посетителей.
- Страницы, на которых есть формы отправки данных и т. п.
- Сайты-зеркала.
- Страницы с результатами поиска.
Если вы указали в robots.txt Disallow для конкретной страницы, есть шанс, что она все же появится в поисковой выдаче. Такой вариант может произойти, если на одном из внешних ресурсов или внутри вашего сайта размещена ссылка на такую страницу.
Директивы
Говоря о запрете для поисковой системы, часто используют понятие «директивы». Этот термин известен всем программистам. Он часто заменяется синонимом «указание» и используется вместе с «командами». Иногда может быть представлен набором конструкций языка программирования.
Директива Disallow в robots.txt одна из самых распространенных, но не единственная. Помимо неё есть еще несколько, которые отвечают за определенные указания. К примеру, есть User agent, который показывает на роботов поисковой системы. Allow — это противоположная команда Disallow. Она указывает на разрешение для сканирования некоторых страниц. Далее рассмотрим подробнее основные команды.
Визитка
Естественно, в файле robots.txt User agent Disallow не единственные директивы, но одни из самых распространенных. Именно из них состоит большинство файлов для небольших ресурсов. Визиткой для любой системы все же считается команда User agent. Это правило создано для того, чтобы указать на роботов, посматривающих инструкции, которые будут написаны далее в документе.
Сейчас существует 300 поисковых роботов. Если вы хотите, чтобы каждый из них следовал определенным указанием, не следует их переписывать все вряд. Достаточно будет указать «User-agent: *». «Звездочка» в этом случае покажет системам, что следующие правила рассчитаны на всех поисковые системы.
Если же вы создаете указания для Google, тогда нужно указать имя робота. В этом случае используйте Googlebot. Если в документе будет указано только это имя, тогда остальные поисковые системы не будут воспринимать команды файла robots.txt: Disallow, Allow и т. д. Они будут считать, что документ пустой, и для них нет никаких инструкций.
Полный список имен ботов можно найти в интернете. Он очень длинный, поэтому, если вам нужны указания для определенных сервисов Google или Yandex, придется указывать конкретные имена.
Запрет
О следующей команде мы уже говорили много раз. Disallow как раз и указывает на то, какая информация не должна считываться роботом. Если вы хотите показать поисковым системам весь свой контент, тогда достаточно написать «Disallow:». Так роботы будут сканировать все страницы вашего ресурса.
Полный запрет индексации в robots.txt «Disallow: /». Если вы напишите так, тогда роботы не будут сканировать ресурс вообще. Обычно это делается на начальных этапах, при подготовке к запуску проекта, экспериментах и т. д. Если сайт уже готов показать себя, тогда смените это значение, чтобы пользователи могли познакомиться с ним.
Вообще команда универсальная. Она может заблокировать определенные элементы. К примеру, папку, командой «Disallow: /papka/», может запретить для сканирования ссылку, файл или документы определенного разрешения.
Разрешение
Чтобы позволить роботу просматривать определенные страницы, файлы или каталоги, используют директиву Allow. Иногда команда нужна для того, чтобы робот посетил файлы с определенного раздела. К примеру, если это интернет-магазин, можно указать каталог. Остальные страницы не будут просканированы. Но помните, что для начала нужно запретить сайту просматривать весь контент, а после указать команду Allow с открытыми страницами.
Зеркала
Еще одна директива Host. Её используют не все веб-мастера. Она нужна в том случае, если ваш ресурс имеет зеркала. Тогда это правило обязательное, поскольку указывает роботу «Яндекса» на то, какое из зеркал является главным, и какое нужно сканировать.
Система не сбивается самостоятельно и легко находит нужный ресурс по инструкциям, которые описаны в robots.txt. В файлике сам сайт прописывается без указания «http://», но только в том случае, если он работает на HTTP. Если же он использует протокол HTTPS, тогда указывает эту приставку. Например, «Host: site.com» если HTTP, или «Host: https://site.com» в случае с HTTPS.
Навигатор
О Sitemap мы уже говорили, но как об отдельном файле. Глядя на правила написания robots.txt с примерами, видим и использование подобной команды. В файле указывают «Sitemap: http://site.com/sitemap.xml». Это делается для того, чтобы робот проверил все страницы, которые указаны на карте сайта по адресу. Каждый раз возвращаясь, робот будет просматривать новые обновления, изменения, которые были внесены и быстрее отправлять данные в поисковую систему.
Дополнительные команды
Это были основные директивы, которые указывают на важные и нужные команды. Есть и менее полезные, и не всегда применяемые указания. К примеру, Crawl-delay задает период, который будет использоваться между загрузками страниц. Это нужно для слабых серверов, чтобы не «положить» их нашествием роботов. Для указания параметра используются секунды.
Clean-param помогает избежать дублирование контента, который находится на разных динамических адресах. Они возникают в том случае, если существует функция сортировки. Такая команда будет выглядеть так: «Clean-param: ref /catalog/get_product.com».
Универсальный
Если вы не знаете, как создать правильный robots.txt, – не страшно. Помимо указаний, есть универсальные варианты этого файла. Их можно размещать практически на любом сайте. Исключением может стать только крупный ресурс. Но в этом случае о файле должны знать профессионалы и заниматься им специальные люди.
Универсальный набор директив позволяет открывать содержимое сайта для индексации. Тут есть прописка хоста и указывается карта сайта. Она дает возможность роботам всегда посещать страницы, обязательные для сканирования.
Загвоздка в том, что данные могут варьироваться в зависимости от системы, на которой стоит ваш ресурс. Поэтому правила нужно подбирать, глядя на тип сайта и CMS. Если вы не уверены, что созданный вами файл правильный, можно проверить в инструменте вебмастера Google и «Яндекс».
Ошибки
Если вы понимаете, что значит Disallow в robots.txt, это не дает гарантии того, что вы не ошибетесь при создании документа. Существует ряд распространенных проблем, которые возникают у неопытных пользователей.
Часто путают значения директивы. Это может быть связано и с непониманием, и с незнанием указаний. Возможно, пользователь просто недоглядел и по невнимательности перепутал. К примеру, могут использовать для User-agent значение «/», а для Disallow имя робота.
Перечисление – это еще одна распространенная ошибка. Некоторые пользователи считают, что перечисление запрещенных страниц, файлов или папок нужно указывать подряд в один ряд. На деле же для каждой запрещенной или разрешенной ссылки, файла и папки нужно писать команду снова и с новой строки.
Ошибки могут быть вызваны неправильным названием самого файла. Помните, что он называется «robots.txt». Используйте для названия нижний регистр, без вариаций типа «Robots.txt» или «ROBOTS.txt».
Поле User-agent должно быть заполнено всегда. Не оставляйте эту директиву без команды. Снова возвращаясь к хосту, помните, что если сайт использует протокол HTTP, то указывать в команде его не нужно. Только если это расширенный его вариант HTTPS. Нельзя оставлять директиву Disallow без значения. Если она вам не нужна, просто не указывайте её.
Выводы
Резюмируя, стоит сказать, что robots.txt – это стандарт, который требует точности. Если вы с ним ни разу не сталкивались, то на первых этапах создания у вас будет возникать много вопросов. Лучше отдать эту работу веб-мастерам, поскольку они работают с документом все время. К тому же могут случаться некоторые изменения в восприятии директив поисковыми системами. Если же у вас небольшой сайт — маленький интернет-магазин или блог — тогда достаточно будет изучить этот вопрос и взять один из универсальных примеров.
fb.ru
Как правильно прописать disallow
После директивы disallow в rodots txt всегда ставится двоеточие (:), а затем ее параметры, прописывающие путь на сайте
Отсутствие параметров в директиве disallow означает полный доступ ко всем страницам сайта, например:
User-agent: * # параметр * говорит о том, что директива
# disallow применима ко всем роботам
Disallow: # доступ открыт ко всем страницам
Параметр прямой слеш ( / ) в disallow robots txt закрывает доступ ко всем страницам сайта. Если, конечно, он применяется один, например:
User-agent: *
Disallow: / # доступ закрыт для всех страниц сайта
Чтобы сократить количество директив disallow robots.txt, можно применять так называемые регулярные выражения. Суть в том, что в качестве параметра в disallow указывается основной каталог, а далее применяют спецсимвол звездочка (*). Символ * означает любую последовательность символов, в том числе и пустую. Например:
User-agent: * # применимо ко всем роботам
Disallow: /administrator/* # блокирует доступ к страницам начинающимся с
# ‘/administrator’ и далее любые символы
Disallow: /*/cache # блокирует доступ к страницам, путь которых содержит
# слово ‘cache’ , а перед ним и после любые символы
Disallow: /components/
Disallow: /includes/
По умолчанию символ * приписывается в конце каждого правила в директиве disallow.
То есть, если даже вы не поставили в конце символ *, считается, что он там есть. Это нужно иметь в виду.
Это правило можно отменить, применив в директиве disallow robots txt в конце другой спецсимвол – знак доллара ($). Он отменяет правило по умолчанию — * на конце пути. Например:
User-agent: *
Disallow: /component # закрывает доступ к страницам, начинающимся с
# ‘component’, например, ‘component’;/, ‘component.html’ и т.д.
User-agent: *
Disallow: /component$ # запрещает путь ‘component’, но не закрывает
# доступ к странице ‘component.html’ и др.
Таким образом, создавая определенные регулярные выражения с использованием спецсимволов ‘*’ и ‘$’, можно закрывать доступ, как к целым каталогам, так и к отдельной странице. Это значительно сокращает время на создание файла robots.txt, а также сокращает его объем. Дело в том, что файл robots.txt имеет ограничение по объему.
В robots txt директива disallow достаточно надежно закрывает доступ к определенным страницам сайта. Поэтому, создав файл, нужно проверять результат его действия.
Для этого нужно во-первых, проверить сам файл, а затем отслеживать индексацию страниц до и после применения директивы disallow robots txt. Кстати, находится файл robots.txt в корневой папке сайта.
P.S. В файле robots.txt disallow это универсальная дирректива для всех видов CMS – систем. Будь то joomla, вордпресс или какая другая система управления сайтом.
P.P.S Полное или частичное импользование статьи возможно только с активной ссылкой на источник. Ссылка должна быть рабочей и не закрытой для индексации.
giperkan.ru
Что такое robots.txt и зачем он нужен?
Как свидетельствует само название, robots.txt это текстовый файл (документ в формате .txt), содержащий четкие инструкции для индексации конкретного сайта. Иначе говоря, данный файл указывает поисковиками, какие страницы веб-ресурса необходимо проиндексировать, а какие нет – запретить к индексации.
Казалось бы, зачем запрещать индексировать какое-то содержимое сайта? Дескать, пусть поисковый робот индексирует все без разбору, руководствуясь принципом: чем больше страниц, тем лучше! Так рассуждать может лишь дилетант от СЕО.
Далеко не весь контент, из которого состоит сайт, нужен поисковым роботам. Есть системные файлы, есть дубликаты страниц, есть рубрики ключевых слов и много чего еще есть, что вовсе не обязательно индексировать. В противном случае не исключена следующая ситуация.
Поисковый робот, придя к вам на сайт, первым долгом пытается отыскать пресловутый robots.txt. Если этот файл им не обнаружен или обнаружен, но при этом он составлен неправильно (без необходимых запретов), «посланник» поисковой системы начинает изучать сайт по своему собственному усмотрению.
В процессе такого изучения он индексирует все подряд и далеко не факт, что начинает он с тех страниц, которые нужно вводить в поиск в первую очередь (новые статьи, обзоры, фотоотчеты и т.д.). Естественно, что в таком случае индексация нового сайта может несколько затянуться.
Дабы избежать такой незавидной участи, веб-мастеру необходимо вовремя позаботиться о создании правильного файла robots.txt.
«User-agent:» – основная директива robots.txt
На практике в robots.txt с помощью специальных терминов прописываются директивы (команды), главной среди которых можно считать директиву «User-agent:». Последняя используется для конкретизации поискового робота, которому в дальнейшем будут даваться те или иные указания. Например:
- User-agent: Googlebot – все команды, которые последуют после этой базовой директивы, будет касаться исключительно поисковой системы Google (ее индексирующего робота);
- User-agent: Yandex – адресат в данном случае отечественный поисковик Яндекс.
В файле robots.txt можно обратиться ко всем остальным поисковым системам вместе взятым. Команда в этом случае будет выглядеть так: User-agent: *. Под специальным символом «*» принято понимать «любой текст». В нашем случае – любые другие, кроме Яндекса, поисковики. Гугл, кстати, тоже воспринимает данную директиву на свой счет, если не обращаться лично к нему.
Команда «Disallow:» – запрет индексации в robots.txt
После основной директивы «User-agent:», обращенной к поисковым системам, могут следовать конкретные команды. В их числе самой распространенной можно считать директиву «Disallow:». При помощи этой команды поисковому роботу можно запретить индексировать веб-ресурс целиком или какую-то его часть. Все зависит от того, какое расширение будет у данной директивы. Рассмотрим примеры:
User-agent: Yandex Disallow: /
Такого рода запись в файле robots.txt означает, что поисковому роботу Яндекса вообще не позволено индексировать данный сайт, так как запрещающий знак «/» стоит в гордом одиночестве и не сопровождается какими-то уточнениями.
User-agent: Yandex Disallow: /wp-admin
Как видно, на этот раз уточнения имеются и касаются они системной папки wp-admin в CMS WordPress. То есть индексирующий робот посредством данной команды (прописанному в ней пути) откажется от индексации всей этой папки.
User-agent: Yandex Disallow: /wp-content/themes
Такое указание роботу Яндекса предполагает его допуск в большую категорию «wp-content», в которой он может индексировать все содержимое, кроме «themes».
Исследуем «запретные» возможности текстового документа robots.txt дальше:
User-agent: Yandex Disallow: /index$
В данной команде, как следует из примера, используется еще один специальный знак «$». Его применение подсказывает роботу, что нельзя индексировать те страницы, в ссылках которых имеется последовательность букв «index». При этом индексировать отдельный файл сайта с аналогичным названием «index.php» роботу не запрещено. Таким образом, символ «$» применяется в случае, когда необходим избирательный подход к запрету индексации.
Также в файле robots.txt можно запретить индексацию отдельных страниц ресурса, в которых встречаются те или иные символы. Выглядеть это может так:
User-agent: Yandex Disallow: *&*
Эта команда приказывает поисковому роботу Яндекса не индексировать все те страницы веб-сайта, в URL-адресах которых встречается символ «&». Причем этот знак в ссылке должен стоять между любыми другими символами. Однако может быть и другая ситуация:
User-agent: Yandex Disallow: *&
Тут запрет индексации касается всех тех страниц, ссылки которых заканчиваются на «&».
Если с запретом индексации системных файлов сайта вопросов быть не должно, то по поводу запрета индексировать отдельные страницы ресурса такие могут возникнуть. Мол, зачем это нужно в принципе? Соображений на сей счет у опытного веб-мастера может быть много, но главное из них – необходимость избавиться в поиске от дубликатов страниц. С помощью команды «Disallow:» и группы специальных символов, рассмотренных выше, бороться с «нежелательными» страницами можно довольно просто.
Команда «Allow:» – разрешение индексации в robots.txt
Антиподом предыдущей директивы можно считать команду «Allow:». При помощи тех же самых уточняющих элементов, но используя данную команду в файле robots.txt можно разрешить индексирующему роботу вносить нужные вам элементы сайта в поисковую базу. В подтверждение – очередной пример:
User-agent: Yandex Allow: /wp-admin
По какой-то причине веб-мастер передумал и внес соответствующие корректировки в robots.txt. Как следствие, отныне содержимое папки wp-admin официально разрешено к индексации Яндексом.
Несмотря на то, что команда «Allow:» существует, на практике она используется не так уж и часто. По большому счету в ней нет надобности, поскольку она применяется автоматически. Владельцу сайта достаточно воспользоваться директивой «Disallow:», запретив к индексации то или иное его содержимое. После этого весь остальной контент ресурса, который не запрещен в файле robots.txt, воспринимается поисковым роботом как такой, который индексировать можно и нужно. Все как в юриспруденции: «Все, что не запрещено законом, – разрешено».
Директивы «Host:» и «Sitemap:»
Завершают обзор важных директив в robots.txt команды «Host:» и «Sitemap:». Что касается первой, то она предназначается исключительно для Яндекса, указывая ему, какое зеркало сайта (с www или без) считать основным. На примере PR-CY.ru это может выглядеть следующим образом:
User-agent: Yandex Host: pr-cy.ru
или…
User-agent: Yandex Host: www.pr-cy.ru
Использование этой команды также позволяет избегать ненужного дублирования содержимого сайта.
В свою очередь директива «Sitemap:» указывает индексирующему роботу правильный путь к так называемой Карте сайта – файлам sitemap.xml и sitemap.xml.gz (в случае с CMS WordPress). Гипотетический пример может быть следующим:
User-agent: * Sitemap: http://pr-cy.ru/sitemap.xml Sitemap: http://pr-cy.ru/sitemap.xml.gz
Прописывание данной команды в файле robots.txt поможет поисковому роботу быстрее проиндексировать Карту сайта. Это, в свою очередь, также ускорит процесс попадания страниц веб-ресурса в поисковую выдачу.
Файл robots.txt готов – что дальше?
Предположим, что вы, как начинающий веб-мастер, овладели всем массивом информации, который мы привели выше. Что делать после? Создавать текстовый документ robots.txt с учетом особенностей вашего сайта. Для этого необходимо:
- воспользоваться текстовым редактором (например, Notepad) для составления нужного вам robots.txt;
- проверить корректность созданного документа, например, посредством данного сервиса Яндекса;
- при помощи FTP-клиента закачать готовый файл в корневую папку своего сайта (в ситуации с WordPress речь обычно идет о системной папке Public_html).
Все. Дальше остается только ждать, когда появятся поисковые роботы, изучат ваш robots.txt, а после – возьмутся за индексацию вашего сайта в ускоренном режиме.
Да, чуть не забыли. Начинающему веб-мастеру, вне всякого сомнения, прежде чем экспериментировать самому, захочется сперва посмотреть на готовые примеры данного файла в исполнении других. Нет ничего проще. Для этого в адресной строке браузера достаточно ввести site.ru/robots.txt. Вместо «site.ru» – название интересующего вас ресурса. Только и всего.
Удачных экспериментов и спасибо, что читали!
pr-cy.ru