Файл robots txt для wordpress

Как настроить robots txt для сайта WordPress

От автора: одним из файлов, которые используют поисковики при индексации вашего сайта, есть файл robots.txt. Не сложно понять из названия файла, что он используется для роботов. И действительно, этот файл позволяет указать поисковому роботу что можно индексировать на вашем сайте, а что вы не хотите видеть в поисковом индексе. Итак, давайте посмотрим, как настроить robots txt для сайта WordPress.

Статей на эту тему в сети множество. Практически в каждой из этих статей можно найти свой вариант файла robots txt, который можно взять и использовать практически без правок на своем сайте WordPress. Я не буду в очередной раз переписывать в данной статье один из таких вариантов, поскольку особого смысла в этом нет — все эти варианты вы без труда сможете найти в сети. В этой же статье мы просто разберем, как как создать robots txt для WordPress и какой минимум правил там должен быть.


Начнем с того, где должен располагаться файл robots.txt и что в него писать. Данный файл, как и файл sitemap.xml, должен быть расположен в корне вашего сайта, т.е. он должен быть доступен по адресу http://site/robots.txt

Попробуйте обратиться по такому адресу, заменив слово site адресом вашего сайта. Вы можете увидеть при этом примерно такую картину:

Файл robots txt для wordpress

Хотя можете увидеть и вот такую картину:

Файл robots txt для wordpress

Странная ситуация — скажете вы. Действительно, адрес один и тот же, но в первом случае файл доступен, во втором — нет. При этом если заглянуть в корень сайта, то никакого файла robots.txt вы там не обнаружите. Как так и где же находится robots.txt в WordPress?

Все дело в простой настройке — это настройка ЧПУ. Если на вашем сайте включены ЧПУ, тогда вы увидите динамически сгенерированный движком robots.txt. В противном случае будет возвращена ошибка 404.

Включим ЧПУ в меню Настройки — Постоянные ссылки, отметив настройку Название записи. Сохраним изменения — теперь файл robots.txt будет динамически генерироваться движком.


Как видно на первом рисунке, в этом файле используются некие директивы, задающие определенные правила, а именно — разрешить или запретить индексировать что-либо по заданному адресу. Как несложно догадаться, директива Disallow запрещает индексирование. В данном случае это все содержимое папки wp-admin. Ну а директива Allow разрешает индексирование. В моем случае разрешено индексирование файла admin-ajax.php из запрещенной выше папки wp-admin.

В общем, поисковикам этот файл, конечно, без надобности, даже и не представляю, из каких соображений WordPress прописал это правило. Ну да мне и не жалко, в принципе :)

К слову, я специально добавлял выше фразу «в моем случае «, поскольку в вашем случае содержимое robots.txt уже может отличаться. Например, может быть запрещена к индексированию папка wp-includes.

Кроме директив Disallow и Allow в robots.txt мы видим директиву User-agent, для которой в качестве значения указана звездочка. Звездочка означает, что идущий далее набор правил относится ко всем поисковикам. Также можно вместо звездочки указывать названия конкретных поисковиков. Файл robots.txt поддерживает и другие директивы. Я на них останавливаться не буду, все их с примерами можно посмотреть в консоли для веб-мастеров Гугла или Яндекса. Также можете прочесть информацию на данном сайте.

Как создать robots txt для WordPress

Итак, файл для поисковых роботов у нас есть, но вполне вероятно, что он вас не устроит в текущем виде. Как же составить свой файл. Здесь есть несколько вариантов. Начнем с первого — ручное создание файла. Создайте обычный текстовый документ в блокноте и сохраните его под именем robots с расширением txt. В этом файле запишите необходимый набор правил и просто сохраните его в корень вашего сайта WordPress, рядом с файлом конфигурации wp-config.php.


На всякий случай проверьте, что файл загрузился и доступен, обратившись к нему из браузера. Это был первый способ. Второй способ — это все та же динамическая генерация файла, только теперь это сделает плагин. Если вы используете популярный плагин All in One SEO, тогда можно воспользоваться одним из его модулей.

Сначала этот модуль нужно включить. Идем в меню All in One SEO — Управление модулями и активируем модуль Robots.txt.

Файл robots txt для wordpress

После этого в меню плагина появится новый пункт — Robots.txt. Перейдем туда и увидим уже предлагаемый набор правил, который можно сохранить.

Файл robots txt для wordpress

Давайте сохраним и проверим изменения, обратившись на сайте WordPress к robots.txt.

Файл robots txt для wordpress

Как видим, все работает. Теперь вы можете написать robots txt для WordPress на свой вкус и так, как вам нужно. Ну а у меня на этом все. Удачи!


Файл robots txt для wordpress

webformyself.com

Создание файла robots.txt

1. Создайте обычный текстовый файл с названием robots в формате .txt.

2. Добавьте в него следующую информацию :

  User-agent: Yandex  Disallow: /wp-admin  Disallow: /wp-includes  Disallow: /wp-comments  Disallow: /wp-content/plugins  Disallow: /wp-content/themes  Disallow: /wp-content/cache  Disallow: /wp-login.php  Disallow: /wp-register.php  Disallow: */trackback  Disallow: */feed  Disallow: /cgi-bin  Disallow: /tmp/  Disallow: *?s=    User-agent: *  Disallow: /wp-admin  Disallow: /wp-includes  Disallow: /wp-comments  Disallow: /wp-content/plugins  Disallow: /wp-content/themes  Disallow: /wp-content/cache  Disallow: /wp-login.php  Disallow: /wp-register.php  Disallow: */trackback  Disallow: */feed  Disallow: /cgi-bin  Disallow: /tmp/  Disallow: *?s=    Host: site.com  Sitemap: http://site.com/sitemap.xml  

3. Замените в в текстовом файле строчку site.com на адрес Вашего сайта.

4. Сохраните изменения и загрузите файл robots.txt (с помощью FTP) в корневую папку Вашего сайта.

5. Готово.

Для просмотра и скачки примера, нажмите кнопку ниже и сохраните файл (Ctrl + S на клавиатуре).

Скачать пример файла robots.txt

Разбираемся в файле robots.txt (директивы)


Давайте теперь более детально разберем, что именно и зачем мы добавили в файл robots.txt.

User-agent — директива, которая используется для указания названия поискового робота. С помощью этой директивы можно запретить или разрешить поисковым роботам посещать Ваш сайт. Примеры:

Запрещаем роботу Яндекса просматривать папку с кэшем:

  User-agent: Yandex  Disallow: /wp-content/cache  

Разрешаем роботу Bing просматривать папку themes (с темами сайта):

  User-agent: bingbot  Allow: /wp-content/themes  

Allow и Disallow — разрешающая и запрещающая директива. Примеры:

Разрешим боту Яндекса просматривать папку wp-admin:

  User-agent: Yandex  Allow: /wp-admin  

Запретим всем ботам просматривать папку wp-content:

  User-agent: *  Disallow: /wp-content  

В нашем robots.txt мы не используем директиву Allow, так как всё, что не запрещено боту с помощью Disallow — по умолчанию будет разрешено.


Host — директива, с помощью которой нужно указать главное зеркало сайта, которое и будет индексироваться роботом.

Sitemap — используя эту директиву, нужно указать путь к карте сайта. Напомню, что карта сайта является очень важным инструментом при продвижении сайта! Обязательно указывайте её в этой директиве!

Если остались какие-то вопросы — задавайте их в комментарий. Если же информации в этом уроке для Вас оказалось недостаточно, рекомендую почитать подробнее о всех директивах и способах их использования перейдя по этой ссылке.


wp-lessons.com

О файле robots.txt

Файл robots.txt это текстовой файл, в котором прописываются правила для поисковых машин для сканирования, а значит индексации папок и файлов сайта. Находится файл robots.txt должен в корневом каталоге сайта. Файл robots.txt наряду с картой сайта Sitemap  это основные документы SEO оптимизации блогов сделанных на CMS WordPress.

Важно! Недопустимо пустые переводы строк между директивами User-agent и Disallow (Allow), а также между директивами Disallow и Allow.

Важно! URL файла robots.txt чувствителен к регистру.

На базовой версии файл robots.txt для wordpress выглядит следующим образом:

User-agent:
Disallow: /wp-admin/
Disallow: /wp-includes/

  • User-agent это обращение к поисковикам. [*] звезда, означает, что следующие директивы группы обращены ко всем поисковикам;
  • Директива Disallow запрещает поисковикам индексировать только то, что находится в папках /wp-admin/ и /wp-includes/.

Файл robots.txt составляется из строк, каждая из которых является отдельной директивой. Директива, а проще говоря, правило, пишется для поисковиков. Весь файл robots.txt  пишется по специальному  несложному синтаксису.

Синтаксис файла robots.txt

Символ ‘#’ назначен для комментариев. Все, что находится после решетки и до первого перевода строки не исполняется и не учитывается поисковиками.

Первой рабочей директивой  файла robots.txt (начало группы) нужно прописывать директиву User-agent. Она показывает  к кому поисковику относится следующие за ним директивы;

Недопустимо пустые переводы строк между директивами User-agent и Disallow (Allow);

Директива User-agent со звездой , то есть User-agent: *
, означает, что правила robots.txt  относятся ко всем поисковикам;

Для главных поисковых роботов Яндекс и Google директивы User-agent файла robots.txt должны выгладить так:

User-agent: Yandex
User-agent: Googlebot

Правила для поисковиков прописываются директивами «Disallow» — запрет или «Allow»-разрешение;

User-agent: * Allow: /cgi-bin Disallow: / # запрещает скачивать все, кроме страниц  # начинающихся с '/cgi-bin'

Любой файл robots.txt должен содержать директиву «Disallow»;

Пустая Disallow разрешает индексацию всего сайта, Disallow закрытая слеш (/) полностью закрывает сайт от индексации.

Disallow: / # блокирует доступ ко всему сайту

Составим Файл robots.txt для wordpresss

Что же стоит спрятать от поисковиков?

Разумно спрятать все папки с личной информацией, паролями, логинами и т.п. Это три папки. Директивы выглядят так:

User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallw: /wp-includes/

Все плагины блога, темы, кэш не являются контентной информацией блога, поэтому их тоже спрячем.

Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/

В SEO продвижении, особенно в структуре WP, важное значение имеет отсутствие повторов (дублирование) контента в зоне одного домена. Дублирование возникает при редактировании материалов, при комментировании, при работе на блоге нескольких авторов, при постоянном упоминании одного автора в представлении к статье (имя автора). Много дублирования в тегах блога. Cтоит спрятать эти папки от поисковиков.

Если на блоге вы используете SEF ссылки (человекопонятные адреса статей), без знаков вопроса в URL, то можно запретить поисковикам индексировать эти страницы.

   
Disallow: /*?* Disallow: /*?

Таким же образом вы можете запретить индексацию любой папки или файла блога. Чтобы запретить индексацию файлов, например .pdf нужно прописать директиву:

Disallow: /*.pdf

Спецсимвол звезда ‘*’  означает любую, включая пустую,  последовательность символов.

В файле robots.txt есть одна интересная директива специальная для Яндекс. Это директива Host. С помощью неё вы можете (должны) сообщить Яндекс основной домен (главное зеркало) своего блога. Директив Host в файле должна быть одна. Если внесены несколько директив Host читается первая по списку. Правда, для этого нужно сделать отдельную секцию для “User-agent” для Яндекс.

User-agent: Yandex

В файл robots.txt обязательно нужно вставить  информацию о своей карте Sitemap

Карту-сайта  нужно генерировать  при помощи любого веб-инструмента Sitemap. Он генерирует четыре формата карты-сайта. Один из них, файл формата  [.xml], сначала нужно загрузить в корень сайта, а потом включить в  файл robots.txt. Если карт-сайта несколько загрузите все. Рекомендую два генератора Sitemap:

  • https://pro-sitemaps.com/ 
  • http://www.mysitemapgenerator.com/

Если вы видите большую загрузку своего сервера, то можно воспользоваться директивой «Crawl-delay». Она задаст время в миллисекундах, между загрузками двух страниц. Добавлять директиву «Crawl-delay» нужно сразу после “User-agent”.

User-agent: * Crawl-delay: 3.5 # задает таймаут в 3.5 секунды

Вообще менять файл  robots.txt на сайте WordPress это работа творческая. Каждый файл robots.txt  должен быть индивидуальным и отвечать вашим личным требованиям к поисковикам.

Файл robots.txt для wordpress: пример

Приведу, как мне кажется, разумный Файл robots.txt для wordpress

User-agent: *  Disallow: /cgi-bin  Disallow: /wp-admin/  Disallow: /wp-includes/  Disallow: /wp-content/plugins/  Disallow: /wp-content/cache/  Disallow: /wp-content/themes/  Disallow: /wp-trackback  Disallow: /wp-feed  Disallow: /wp-comments Disallow: /category/  Disallow: /author/  Disallow: /page/</del>  Disallow: */trackback  Disallow: */comments  Disallow: /*.php  Sitemap: http://ваш_сайт.ru/sitemap.xml.gz  Sitemap: http://ваш_сайт.ru/sitemap.xml  User-agent: Yandex  Disallow: /cgi-bin #блокирует доступ к страницам начинающихся с '/cgi-bin'  Disallow: /wp-admin/ #блокирует доступ к содержимому папки wp-admin   Disallow: /wp-includes/  Disallow: /wp-content/plugins/  #блокирует содержимое папки plugins в каталоге wp-content  Disallow: /wp-content/cache/  Disallow: /wp-content/themes/  Disallow: /wp-trackback #блокирует доступ к страницам нащинающихся с wp-trackback  Disallow: /wp-feed  Disallow: /wp-comments  <del>Disallow: /category/  Disallow: /author/  Disallow: /page/</del>  Disallow: */trackback  Disallow: */comments  Disallow: /*.php  Host: ваш_сайт.ru  Sitemap: http://ваш_сайт/sitemap.xml

Примечание: 21-03-2018. Яндекс сообщил:

…мы отказываемся от директивы Host. Теперь эту директиву можно удалять из robots.txt, но важно, чтобы на всех не главных зеркалах вашего сайта теперь стоял 301-й постраничный редирект.

Пояснения к файлу

Этот файл robots.txt для wordpress содержит выделенную инструкцию для поисковика Яндекс. В эту часть файла добавлена специальная директива Host, которая читается только ботами Яндекс и определяет основное зеркало сайта. Двух директив Host  в файле robots.txt быть не должно.

В этом примере файла robots.txt закрыто для поисковиков все содержание папок:  wp-admin, wp-includes, plugins, cashe, themes, autor, category. Если не хотите закрывать от поисковиков архивы статей, авторов и категории уберите строки (директивы), которые я зачеркнул. Закрыта индексация страниц wordpress («на любителя»). Добавлены карты сайта.

Приведенный Файл robots.txt является частным и сделан для индивидуальных требований.

Для альтернативы, приведу другой рекомендованный Файл robots.txt. Рекомендация автора плагина WordPress SEO Plugins (yoast.com).

User-Agent: * Disallow: /wp-content/plugins/

Повторюсь и выделю, нет уникальных файлов robots.txt. Продумайте, что нужно именно вам закрыть от поисковиков или оставьте файл robots.txt для wordpress по умолчанию. Частые манипуляции с файлом robots.txt, будут лихорадить вашу выдачу в индексе поисковиков.

Полезные ссылки

  • Robots для Google: https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=ru
  • Robots для Яндекс: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html#crawl-delay

На этом про файл robots.txt для wordpress все!

©www.wordpress-abc.ru

www.wordpress-abc.ru

Правильный Robots.txt для WordPress

правильноДействительно самый лучший robots.txt, который я видел на данный момент, это роботс, предложенный в блоге wp-kama. Ряд директив и комментариев я возьму из его образца + внесу свои корректировки. Корректировки коснутся нескольких правил, почему так напишу ниже. Кроме того, напишем индивидуальные правила для всех роботов, для Яндекса и для Google.

Ниже привожу короткий и расширенный вариант. Короткий не включает отдельные блоки для Google и Яндекса. Расширенный уже менее актуален, т.к. теперь нет принципиальных особенностей между двумя крупными поисковиками: обеим системам нужно индексировать файлы скриптов и изображений, обе не поддерживают директиву Host. Тем не менее, если в этом мире снова что-то изменится, либо вам потребуется все-таки как-то по-отдельному управлять индексацией файлов на сайте Яндексом и Гугл, сохраню в этой статье и второй вариант.

Еще раз обращаю внимание, что это базовый файл robots.txt. В каждом конкретном случае нужно смотреть реальный сайт и по-необходимости вносить корректировки. Поручайте это дело опытным специалистам!

Короткий вариант (оптимальный)

User-agent: * # общие правила для роботов, кроме Яндекса и Google,    # т.к. для них правила ниже  Disallow: /cgi-bin # папка на хостинге  Disallow: /? # все параметры запроса на главной  Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins  Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет,    # правило можно удалить)  Disallow: *?s= # поиск  Disallow: *&s= # поиск  Disallow: /search/ # поиск  Disallow: /author/ # архив автора  Disallow: /users/ # архив авторов  Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой    # ссылки на статью  Disallow: */feed # все фиды  Disallow: */rss # rss фид  Disallow: */embed # все встраивания  Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,    # правило можно удалить)  Disallow: /xmlrpc.php # файл WordPress API  Disallow: *utm*= # ссылки с utm-метками  Disallow: *openstat= # ссылки с метками openstat  Allow: */uploads # открываем папку с файлами uploads    # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent   # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.  Sitemap: http://site.ru/sitemap.xml  Sitemap: http://site.ru/sitemap.xml.gz    # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS   # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал   # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.  Host: www.site.ru

Расширенный вариант (отдельные правила для Google и Яндекса)

User-agent: * # общие правила для роботов, кроме Яндекса и Google,    # т.к. для них правила ниже  Disallow: /cgi-bin # папка на хостинге  Disallow: /? # все параметры запроса на главной  Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins  Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет,    # правило можно удалить)  Disallow: *?s= # поиск  Disallow: *&s= # поиск  Disallow: /search/ # поиск  Disallow: /author/ # архив автора  Disallow: /users/ # архив авторов  Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой    # ссылки на статью  Disallow: */feed # все фиды  Disallow: */rss # rss фид  Disallow: */embed # все встраивания  Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,    # правило можно удалить)  Disallow: /xmlrpc.php # файл WordPress API  Disallow: *utm*= # ссылки с utm-метками  Disallow: *openstat= # ссылки с метками openstat  Allow: */uploads # открываем папку с файлами uploads    User-agent: GoogleBot # правила для Google (комментарии не дублирую)  Disallow: /cgi-bin  Disallow: /?  Disallow: /wp-  Disallow: /wp/  Disallow: *?s=  Disallow: *&s=  Disallow: /search/  Disallow: /author/  Disallow: /users/  Disallow: */trackback  Disallow: */feed  Disallow: */rss  Disallow: */embed  Disallow: */wlwmanifest.xml  Disallow: /xmlrpc.php  Disallow: *utm*=  Disallow: *openstat=  Allow: */uploads  Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета)  Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета)  Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.  Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.  Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.  Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.  Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS    User-agent: Yandex # правила для Яндекса (комментарии не дублирую)  Disallow: /cgi-bin  Disallow: /?  Disallow: /wp-  Disallow: /wp/  Disallow: *?s=  Disallow: *&s=  Disallow: /search/  Disallow: /author/  Disallow: /users/  Disallow: */trackback  Disallow: */feed  Disallow: */rss  Disallow: */embed  Disallow: */wlwmanifest.xml  Disallow: /xmlrpc.php  Allow: */uploads  Allow: /*/*.js  Allow: /*/*.css  Allow: /wp-*.png  Allow: /wp-*.jpg  Allow: /wp-*.jpeg  Allow: /wp-*.gif  Allow: /wp-admin/admin-ajax.php  Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать    # от индексирования, а удалять параметры меток,    # Google такие правила не поддерживает  Clean-Param: openstat # аналогично    # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent   # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.  Sitemap: http://site.ru/sitemap.xml  Sitemap: http://site.ru/sitemap.xml.gz    # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS   # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал   # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.  Host: www.site.ru

В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.

Ошибочные рекомендации других блогеров для Robots.txt на WordPress

ошибка

  1. Использовать правила только для User-agent: *
    Для многих поисковых систем не требуется индексация JS и CSS для улучшения ранжирования, кроме того, для менее значимых роботов вы можете настроить большее значение Crawl-Delay и снизить за их счет нагрузку на ваш сайт.
  2. Прописывание Sitemap после каждого User-agent
    Это делать не нужно. Один sitemap должен быть указан один раз в любом месте файла robots.txt
  3. Закрыть папки wp-content, wp-includes, cache, plugins, themes
    Это устаревшие требования. Однако подобные советы я находил даже в статье с пафосным названием «Самые правильный robots для WordPress 2018»! Для Яндекса и Google лучше будет их вообще не закрывать. Или закрывать «по умному», как это описано выше.
  4. Закрывать страницы тегов и категорий
    Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика
  5. Закрывать от индексации страницы пагинации /page/
    Это делать не нужно. Для таких страниц настраивается тег rel=»canonical», таким образом, такие страницы тоже посещаются роботом и на них учитываются расположенные товары/статьи, а также учитывается внутренняя ссылочная масса.
  6. Прописать Crawl-Delay
    Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.
  7. Ляпы
    Некоторые правила я могу отнести только к категории «блогер не подумал». Например: Disallow: /20 — по такому правилу не только закроете все архивы, но и заодно все статьи о 20 способах или 200 советах, как сделать мир лучше 🙂

Спорные рекомендации других блогеров для Robots.txt на WordPress

  1. Комментарии
    Некоторые ребята советуют закрывать от индексирования комментарии Disallow: /comments и Disallow: */comment-*.
  2. Открыть папку uploads только для Googlebot-Image и YandexImages
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/
    Совет достаточно сомнительный, т.к. для ранжирования страницы необходима информация о том, какие изображения и файлы размещены на ней.

Спасибо за ваше внимание! Если у вас возникнут вопросы или предложения, пишите в комментариях!

seogio.ru

Зачем нужен robots.txt

Итак, robots.txt – служебный файл, предназначенный для поисковых роботов и показывающий им, какие файлы, папки, разделы сайта следует индексировать, а какие нет. Закрытые от индексации в роботсе статьи никогда не окажутся в индексе поисковых систем.

Очень важно скрыть от индексирования все ненужные файлы и папки (программную часть движка и прочее), чтобы поисковик не тратил на них силы, а то устанет и до самого важного не дойдет! 🙂

Если у сайта имеются поддомены, для каждого из них формируется отдельный robots.txt.

Яндекс строго следует правилам файла robots.txt, а вот Google нет. Он запросто может проиндексировать запрещенные страницы и выводить их в поиске, особенно если на эту страницу ведут ссылки. В панели вебмастера обеих поисковых систем есть инструмент проверки файла robots.txt, которая показывает, правильно ли он работает: 
роботс для вордпресс

Где находится robots.txt WordPress

Этот файл должен находиться в корневом каталоге вашего сайта. Попасть туда, чтобы загрузить вновь отредактированный файл, можно по ftp, используя Total Commander, например. Можно просмотреть содержимое роботса в браузере, набрав в адресной строке: https://адрес_сайта/robots.txt.

Правильный robots.txt для WordPress

А вот и он, код самого правильного файла роботс. Скопируйте его в свой robots.txt и на этом можно закончить. Если вы любознательны, продолжайте чтение и узнайте, что значит каждая строчка файла.

Перейдем к подробному рассмотрению значения этих строк.

  • «User-agent: *» означает, что правила, приведенные ниже, будут действовать для всех поисковиков. Во второй части файла мы прописываем правило специально для Яндекса: «User-agent: Yandex».
  • «Allow:» — разрешено индексировать. В варианте роботса для вордпресс мы это не используем.
  • «Disallow:» — запрещено индексировать.
  • «Host: ваш_сайт.ru» — обязательно нужно указать основное зеркало. Ваш сайт открывается по двум адресам: с www и без www. Но в итоге происходит редирект на один из адресов (у меня на блоге без www) – это и есть основное зеркало, которое нужно указать здесь. Эта строчка может быть расположена в любой части файла.
  • «Sitemap:» — ссылка на XML-карту сайта. Если файлов с XML-картами несколько, пропишите путь к каждому из них.
  • Регулярные выражения: звездочка * — означает произвольную последовательность символов.

Очень подробно о директивах robots.txt написано в помощи Яндекса, поэтому если что-то не понятно, попробуйте прочитать там.

Если на вашем сайте не настроены ЧПУ, то вышеприведенный файл роботс для вордпресс вам не подойдет, воспользуйтесь следующим:

После загрузки завершения настройки robots.txt WordPress обязательно проверьте его работу в вебмастерах поисковиков (об этом было написано выше). В ближайшее время я планирую написать еще несколько постов о продвижении блога, поэтому подписывайтесь на RSS, чтобы быть в курсе.

pro-wordpress.ru

Где находится стандартный файл настроек роботс в WP?

Стандартный установщик Вордпресс не содержит файл роботс. Поэтому после установки CMS Вам потребуется создать его самостоятельно. В нашей статье вы найдете исчерпывающую информацию о всех командах, которые содержатся в этом файле. Также мы предлагаем Вам готовый работающий код для этого файла — вам достаточно скопировать его в свой файл роботс. Все что вам нужно сделать — создать свой файл, скопировать в него код, и добавить его в корневую папку Вашего сайта. После этого проверьте его коррекность для поисковых систем по нашей инструкции.

Пример файла robots.txt, который вы можете использовать на своем сайте.

Вы можете выделить этот код и вставить на свой wordpress-сайт, заменив ссылки в разделе Host и Sitemap на адрес своего сайта.

User-agent: *

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: http://site.ru/

Sitemap: http://site.ru/sitemap.xml

Файл robots.txt представляет собой простой текстовый файл, который вы можете создать в любом текстовом редакторе. Все инструкции, которые используются в robots.txt приводят к одному из трех результатов:

  1. Разрешение индексации – поисковые роботы могут просканировать весь контент.
  2. Полный запрет индексации – ничего из содержания сайта не будет сканироваться.
  3. Условное разрешение – задаются определенные директивы, которые указывают возможность сканирования конкретных папок и файлов.

Часто возникают разногласия по поводу того, что следует помещать в файл robots.txt. Имейте в виду, что этот файл не предназначен для решения проблем безопасности веб-сайта, поэтому если требуется закрыть роботам доступ к частному контенту, необходимо защитить паролем область, где хранится такая информация.

Как правило, файл robots.txt призван служить руководством для поисковиков, но они могут и не соблюдать эти инструкции. Вариант файла robots.txt приведен на скриншоте.

пример роботс для вордпресс

Давайте разберем, какие функции выполняет каждая строка в этом файле. Директива User-agent обозначает группу инструкций, предназначенных одному роботу или всем сразу. Существует два варианта ее применения:

  1. Если всем роботам задаются одинаковые указания, ставится знак звездочки (строка 1);
  2. если указано имя конкретного бота, то условия будут применимы только к нему (строка 15).

Разработчиками Яндекса отмечается, если в User-agent напрямую указан робот этой поисковой системы, то следует повторить в этом разделе те же общие инструкции, что используются для других поисковых роботов (строки 15-24). В противном случае роботом Яндекса будут учитываться только те команды, которые прописаны для него явно и проигнорируются остальные.

Disallow

Директива Disallow информирует роботов, какие директории не требуется индексировать. Например, если нужно, чтобы поисковики не индексировали фотографии на сайте, поместите файлы с этими фотографиями в одну папку и закройте к ней доступ.

Allow

Директива Allow позволяет сообщить роботу, что он может увидеть файл в папке, запрещенной другими инструкциями. В примере этой директивы нет, т.к. этот файл работает по принципу «что не запрещено – то разрешено».

Host и Sitemap

Директива Host сообщает об адресе основного зеркала сайта. Команда Sitemap предназначена для любых роботов, она отмечает расположение xml-файла со структурой сайта и облегчает индексацию страниц поисковиками.

Куда загружать файл robots.txt в WordPress

При отсутствии на сайте файла robots.txt, следует его создать. Можно использовать программу «Notepad++» в среде Windows или «TextEdit» для Mac.

  1. Создайте новый текстовый файл, запишите нужные директивы и сохраните на компьютере под названием robots.txt.
  2. Подключитесь к серверу хостинга через файловый менеджер и скопируйте в корневой каталог (1) веб-сайта файл robots.txt (2).
  3. В адресной строке наберите /robots.txt сразу после названия домена и убедитесь, что содержимое файла отображается браузером. Если вы используете поддомены, нужно создавать robots.txt для каждого поддомена.

копирование

Проверка роботс тхт Яндексом и Google — правильно ли работает файл?

Рекомендуется протестировать файл robots.txt, чтобы проверить, что он работает именно таким образом, как ожидается от помещенных в него инструкций. Перед анализом, убедитесь, что сайт зарегистрирован в инструментах веб-мастера, которые предлагаются поисковиками Google и Яндекс.

Обе системы позволяют отправить файл robots.txt на проверку, после чего выдают результаты анализа и сообщения об ошибках, если они были обнаружены.

проверка файла

Для чего нужен robots.txt на вордпресс сайте?

Файл robots.txt – обыкновенный текстовый документ, размещенный на веб-сервере, он сообщает поисковым роботам о доступе к разделам сайта. При использовании этого файла можно задавать инструкции, например, запретить поисковикам индексировать служебные файлы и категории сайта, указать основную версию сайта и путь к карте сайта в формате xml. Прежде чем поисковик проиндексирует сайт, на него зайдет робот, например, Googlebot или Yandex, и просканирует файл robots.txt на предмет команд о том, какие страницы разрешено посещать и сохранять в результатах поиска.

Чтобы проверить, имеется ли на сайте файл robots.txt, задайте в адресной строке /robots.txt сразу после названия домена. В случае когда этот файл отсутствует, роботы-поисковики обладают полным доступом к вашему сайту. При этом в выдаче поиска могут оказаться ссылки на админпанель и вся информация, которую следует скрыть от посторонних. В связи с этим выделяют ряд причин, по которым потребуется использование файла robots.txt:

  • На сайте есть контент, который вы хотите заблокировать от показа в поисковых системах, например, дубли страниц или результаты внутреннего поиска по сайту, личный кабинет пользователя или корзина покупателя.
  • Вы хотите точно настроить доступ к сайту для известных роботов.
  • Вы используете платные ссылки или рекламные объявления, требующие специальных инструкций для роботов.
  • Вы разрабатываете сайт в режиме реального времени, но пока не хотите, чтобы поисковые системы индексировали его.
  • Вы хотите сообщить поисковым роботам, где расположен файл навигации по сайту sitemap.

www.ipipe.ru

Как создать файл robots.txt для WordPress

Воспользуйтесь любым текстовым редактором (например, блокнотом), создайте файл с именем robots.txt и заполните его как показано ниже. Если Вы захотите его дополнить, то я приведу ссылки на справки, где подробно все значения расписаны. После этого необходимо загрузить файл в корневой каталог вашего сайта.

Файл robots.txt общий для Google и Яндекс :

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */comment-
Disallow: *?replytocom=
Disallow: */feed
Disallow: */*/feed/*/
Disallow: /?s=
Disallow: /xmlrpc.php
Disallow: /archives/date/
Disallow: /archives/tag/
Disallow: /archives/author/
Disallow: /page/
Disallow: /*?*
Disallow: /tag
Allow: /wp-content/uploads/
Host: сайт.ru
Sitemap: http://сайт.ru/sitemap.xml.gz
Sitemap: http://сайт.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Или раздельный:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: сайт.ru
Sitemap: http://сайт.ru/sitemap.xml.gz
Sitemap: http://сайт.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
User-agent: ia_archiver
Disallow: /

Небольшая инфографика для наглядности:

robots_txt
Robots.txt наглядный пример.Картинка- robotstxt.org.ru

Замените сайт.ru на ваш URL адрес блога. Как настроить индивидуально важный файл robots.txt можно прочитав эти справки:

На странице помощи Яндекса. Проверить правильность составления файла можно в webmaster.yandex — Настройка индексирования — Анализ robots.txt. Далее, в Google robots.txt можно проверить по этой . Незабудьте что проверяемый блог должен быть добавлен в Инструменты для веб-мастеров Google и Яндекс. Обратите внимание, что для Яндекса и Google правила составления robots.txt немного различаются. Вот ещё полезный ресурс для изучения robotstxt.org.ru. Вот и всё. Теперь остаётся загрузить созданный файл в корневой каталог вашего блога. Корень блога это — папка public_html, где находятся  файл config.php, index.php и так далее.

Вот на этом позвольте с вами не надолго попрощаться. Удачи. До новых встреч на страницах блога.

P.S Обновил robots.txt 2016 год

wordpressmania.ru

Важная теория

Сначала определение самого файла.

Файл Robots.txt дает понимание поисковых систем о том, что не нужно индексировать на сайте для предотвращение появления дублированного контента. Можно закрыть от индексации целые разделы, отдельные страницы, папки на хостинге и так далее. Все, что только в голову взбредет.

Именно на этот файл в первую очередь обращают внимание поисковые роботы при заходе на сайт, чтобы понять, куда стоит смотреть, а что необходимо игнорировать и не заносить в поисковую базу.

Также данный файл служит для облегчения работы поисковым роботам, чтобы они не индексировали много мусорных страниц. Это создает нагрузку на наш сайт, так как роботы будут долго лазить в процессе индексирования.

Файл Robots.txt размещается в корневом каталоге любого сайта и имеет расширение обычного текстового документа. То есть мы его можем редактировать у себя на компьютере с помощью обычного текстового редактора — блокнота.

Чтобы просмотреть содержимое этого файла на лбом сайта, стоит к доменному имени дописать название файла через правую наклонную черту вот так: имя домена.ру/robots.txt

Очень важно понимать, что для некоторых сайтов файл может различаться, так как может быть сложная структура. Но основная мысль в том, чтобы закрыть страницы, которые генерируются самим движком и создают дублированный контент. Также задача стоит в том, чтобы предотвратить попадание таких страниц в индекс, а не только их содержимого. Если у вас простой сайт на WordPress, то файл вам подойдет.

Также рекомендую во все вникать и постараться разобраться в тонкостях, так как это те моменты, которые постепенно могут губить ресурс.

Далее стоит понять, как поисковые системы относятся к этому файлу, так как в Яндексе и в Google имеются различия в восприятии запретов, которые прописываются в файле robots.

Различия в работе для Яндекса и Google

Единственное и пожалуй весомое различие проявляется в том, что Яндекс воспринимает запреты в файле, как некое обязательное правило и довольно хорошо следует всем запретам. Мы ему сказали, что эти страницы в индекс брать не нужно, он и не берет их.

В Google же ситуация совершенно иная. Дело в том, что Google действует по принципу «на зло». Что я имею ввиду? Мы ставим запрет на некоторые служебные страницы. Самой частой такой страницей на которую ставят запрет, является страница, создаваемая ссылкой «Ответить» при включенной функции древовидных комментариев.

«>

Страница по такой ссылке имеет приставку «replytocom». Когда мы ставим запрет на такую страницу, google не может получить доступ к ее содержимому и забирает такой адрес в индекс. В итоге, чем больше комментариев на ресурсе, тем больше и мусорных адресов в индексе, что не есть хорошо.

Конечно же, так как мы закрыли такие адреса от индексации, то содержимое страниц не индексируется и не происходит появление дублированного контента в индекс. Об этом свидетельствует надпись «A description for this result is not available because of this site’s robots.txt».

«>

Переводится это так: «Описание веб-страницы не доступно из-за ограничения в robots.txt».

Как бы ничего страшного. Но страница то попала в индекс, хоть и дублирования не произошло. В общем, это может быть, но можно ведь полностью избавиться от такого мусора.

И тут имеется несколько решений:

  • Самый простой вариант — открыть такие адреса для робота google в файле robots, чтобы он смог их просканировать. Тогда он наткнется на мета-тег noindex в исходном коде страницы, который не позволит забрать документ в индекс.«>

    Даем доступ — google сам во всем разбирается. Также на такие страницы добавляется атрибут канонических адресов rel=»canonical», который укажет на главный адрес данной страницы, что скажет поисковой системе:

    Данный адрес индексировать не нужно, так как имеется главная версия страницы, которую и стоит взять в базу.

    В итоге, имеется 2 настройки, которые не позволят забрать мусор в индекс. Но это при условии, что подобные страницы открыты в файле роботс и гугл полностью имеет к ним доступ;

  • Более сложный вариант заключается в полном закрытии таких ссылок от поисковых систем, чтобы их даже обнаружить нельзя было. Тут можно использовать различные скрипты и плагины. Хорошая функция имеется в плагине WordPress seo by yoast, которая убирает приставку «replytocom» из ссылок «Ответить».«>

Также имеются специальные плагины под настройку комментариев, где имеется функция закрытия таких ссылок. Можно и их использовать. Но зачем изобретать колесо? Ведь можно ничего не делать и все будет хорошо и без нашего участия. Главное здесь — открыть доступ, чтобы google смог разобраться во всей ситуации.

Google обязательно найдет такие страницы по внутренним ссылкам (в нашем случае для примера — ссылка «Ответить»). Об этом нам говорит сама справка гугла:

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Однако даже если вы запретите поисковым роботам сканировать содержание сайта с помощью файла robots.txt, это не исключает, что Google обнаружит его другими способами и добавит в индекс.

А что дальше? Если доступ открыть, то он наткнется на мета-тег Noindex, запрещающий индексирования страницы, и на атрибут rel=»canonical», который укажет на главный адрес страницы. Из последнего роботу гугла будет понятно, что данный документ не является главным и его не стоит брать в индекс. Вот и все дела. Ничего в индекс не попадет и никаких конфликтов с поисковым роботом Google не произойдет. И не придется потом избавляться от мусора в индексе.

Если же доступ будет закрыт, то велика вероятность, а скорее всего 100%, что адреса, найденные по таким ссылкам, googlebot проиндексирует. В этом случае придется от них избавляться, что уже занимает время ни одного дня, недели или даже месяца. Все зависит от количества мусора.

В общем, чтобы не произошло такого, стоит использовать правильный файл без лишних запретов + открытые всех подобных страниц для поисковой системы Google.

Можно конечно же просто закрыть все подобные ссылки скриптами или плагинами и сделать 301 редирект с дублированных страниц на главную, чтобы поискового робота сразу перекидывало на главный адрес, который он и будет индексировать, не обращая внимание на дубли.

Второй вариант является более жестким, так сказать более твердым, так как мы делаем некоторые манипуляции, закрывая весь мусор от поисковиков. Мы нее даем им самим разобраться в сложившейся ситуации. Ни малейшего шанса, что страницы по внутренним ссылкам попадут в индекс.

Лично я так и поступил. У меня все закрыто скриптом и редиректами.

Прежде, чем мы рассмотрим основу правильно файла robots, разберем основные директивы, чтобы на базовом уровне вы понимали, как составляется этот файл и как его можно будет доработать под свои нужды.

Основные директивы

Основными директивами файла robots являются:

  • User-agent — директива, которая указывает, к какому роботу поисковых систем принадлежат правила, прописанные для запретов и разрешений. Если правила необходимо присвоить ко всем поисковым системам, то после директивы ставится звездочка *, если же стоит прописать правила к определенному роботу, например к Яндексу, то стоит прописать имя робота. В данном случае директива будет прописана так:

    User-agent: Yandex

    Название других роботов:

    • Google — Googlebot;
    • Яндекс — Yandex;
    • Рамблер — StackRambler;
    • Мэйл.ру — Mail.Ru.
  • Disallow — директива призвана для запрета от индексации каталогов, страниц и документов. Чтобы запретить какой-то раздел, что после директивы прописать название каталога через правую наклонную черту. Например необходимо закрыть категорию «inter» на сайте, тогда необходимо будет прописать следующим образом:

    Disallow: /inter

    В этом случае будет запрещен от индексации каталог «inter», а также все, что находится внутри него;

  • Allow — директива для разрешения частей сайта к индексации. Если нужно разрешить какую-то часть, то по аналогии с директивой Disallow прописывает название каталога или отдельной страницы. Например, если мне нужно открыть подраздел «pr» внутри каталога «inter», то правило будет прописано следующим образом:

    Allow: /inter/pr

    Хоть каталог «inter» мы и закрыли в предыдущем случае, подраздел «pr» будет индексироваться и все, что внутри него также будет доступно для поисковых роботов.

  • Host — директива призвана, чтобы указать поисковым роботам основное зеркало сайта (с www или без).«>

    Прописывать стоит только к Яндексу. Также необходимо указать главное зеркало сайта в панели веб-мастера Яндекс.

    «>

  • Sitemap — директива призвана указать путь к карте сайта в формате XML. Стоит прописывать ко всем поисковым роботам. Достаточно указать только к директиве User-agent: *, которая ко всем роботам и действует.«>

Важно! После каждой директивы обязательно должен быть отступ в виде одного пробела.

Зная основные моменты в работе robots.txt и базовые принципы его составление, можно приступить к его сборке.

Составляем правильный файл

Вообще, идеальным вариантом было бы полностью открыть свой сайт к индексации и дать возможность поисковым роботам самим разобраться во всей ситуации. Но их алгоритмы не совершенны и они берут в индекс все, что можно только забрать в поисковую базу. А нам это ни к чему, так как будет куча дублированного контента в рамках сайта и куча мусорных страниц.

Чтобы такого не было, нужно составить такой файл, который будет разрешать к индексации только страницы самих статей, то есть контента и по надобности страницы, если они несут полезную информацию посетителю и поисковым системам.

Из пункта 2 сего материала вам стало понятно, что в файле не должно быть лишних запретов для Google, чтобы в индекс не полетели лишние адреса страниц. Это ни к чему. Яндекс же относится к данному файлу нормально и запреты воспринимает хорошо. Что укажем к запрету, то Яндекс и не будет индексировать.

На основе этого я сделал файл, который открывает весь сайт для поисковой системи Google (кроме служебных директорий самого движка WordPress) и закрывает все страницы дублей от Яндекса, Mail и других поисковиков.

Мой файл имеет довольно большой вид.

Как видим, файл Robots.txt для wordpress вышел довольно большой. Это связано с тем, что правила я прописал к 3м основным роботам: Яндекс, Google и mail. К первым 2м обязательно нужно сделать. Также и к поисковому роботу mail не помешает, так как в последнее время поисковик довольно неплохо развивается и начинает приводить все больше и больше трафика.

Что касается самого содержимого файла, то для роботов Яндекса, Mail и для дериктивы, работающей со всеми роботами (User-agent: *), правила прописаны одни и те же. Запрет идет для всех основных моментов, связанных с появлением дублей в индексе.

Только к поисковому роботу Google я прописал отдельный вариант, который предполагает открытие всего содержимого сайта, кроме служебных папок самого движка. Почему именно так, я рассказывал выше. Нужно, чтобы Googlebot мог просканировать все страницы по внутренним ссылка и увидеть на них запреты в виде мета-тега robots со значением noindex, а также атрибут rel=»canonical», что заставит его оставить дубли в покое.

Также к каждому роботу я разрешил индексирование изображений (Allow: /wp-content/uploads/).

В конце файла я отдельно прописал разрешение индексации изображений для картиночных роботов Google и Яндекса. Вместе с этим разрешил весь сайт для роботов контекстной рекламы этих же поисковиков.

Интересным моментом является закрытие ссылки, которая создается плагином Subscribe to comments.

«>

Если вы его используете, то в данном файле используйте запрет на ее индексирование, так как поисковый робот ее также обнаружит.

Для этого используется следующая строка:

Disallow: /?wp-subscription-manager*

Используя данный файл вы не будете бояться, что в индексе будет появляться дублированный контент, который образуется самим движком, а точнее его внутренними ссылками на страницах сайта. Яндекс все запреты сочтет за некую догму, а Google наткнется на запреты, когда зайдет на дубли, создаваемые движком.

Как я уже описывал ранее, то более продвинутыми настройками является скрытие таких ссылок, чтобы поисковые роботы даже не смогли их найти. К тому же это не только в 100% мере обезопасит нас сейчас, но и даст нам некую подстраховку на будущее, так как алгоритмы поисковых систем постоянно меняются и возможно, что запреты, которые работают сейчас, не будут работать через некоторое время.

Но тут также. Разработчики движка всегда идут в ногу со временем и учтут все новые изменения в работе ПС в совершенствовании wordpress. Исходя из этого, бояться в ближайшее время ничего не стоит.

В следующих статьях я буду описать процесс избавления от дублей страниц, которые могут появиться на ресурсе, а также способы скрытия опасных ссылок, создаваемых средствами WordPress, если вы все же решите обезопасить себя на все 100%. Мы ведь не знаем, как поведет себя поисковой робот? Может он начнет игнорировать запреты даже при наличии мета-тега Noindex и атрибута rel=»canonical». В этом случае спасет скрытие опасных ссылок.

Итак, возможно, статья вышла довольно сложная для первого понимания, так как затронут не только вопрос составления самого файла, но и принципов работы поисковых роботов и того, что стоит сделать в идеале, что страшно, а что нет.

Если у вас имеются какие-то вопросы или неясности, то буду благодарен, если напишите об этом в комментариях, чтобы я как-то изменил данный материал для более отзывчивого восприятия другими пользователями.

На этом закончу этот пост. До скорых встреч!

С уважением, Константин Хмелев!

Файл robots txt для wordpress

kostyakhmelev.ru


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.

Adblock
detector