Robots txt для joomla 3


Правильная настройка Robots.txt для Joomla сайта имеет огромную важность для сео-продвижения ресурса. Любая ошибка может привести к выпадению страниц из индекса Яндекс и Гугл, а это приведет к снижению посещаемости. Ведь именно этот файл отвечает, за то, как будут видеть сайт поисковики.

Например, если использовать стандартный файл Robots.txt в Joomla, то придется забыть об индексации изображений, размещенных на нем. Кроме того, поисковый бот не сможет понять оформления сайта, будет утеряна определенная часть контента, переход робота по ссылкам меню будет затруднен. Оригинальное оформление дополнительных модулей выполняется, чтобы сделать сайт более удобным и красочным для пользователей, а стандартный файл robots.txt не даст это оценить поисковому роботу.

Разработчики Joomla знают об этой проблеме, и в версиях от 3.3, файл robots.txt получил значительные доработки, но, при апгрейде CMS обновление файла предыдущей версии не происходит автоматически — файл подгружается в корень сайта с расширением .txt.dist, которое нужно редактировать. К тому же, нужно все равно внести изменения, которые нужны этому конкретному сайту.

Внесение необходимых изменений в Robots.txt


Доработка от разработчиков новой версии Robots.txt для Джумла заключается в удалении трех запрещающих директив с папок изображений, фона и медиа. Для получения поисковым ботом полной картины сайта, со всеми оригинальными фишками, этого не достаточно. Чтобы понять это, можно в Google Search Console сравнить, как видит сайт пользователь и робот.

При проверке будет видно, что видео, фон отдельных модулей (с версии 2.5 они могут иметь собственное оформление) роботу недоступны, так же не отображается разметка сайта. А анализ сайта покажет, что поисковый бот не получил доступа к папке плагинов, компонентов и фонов шаблона (tmp).

Чтобы исправить это, достаточно удалить соответствующие директивы или использовать разрешающую директиву, с указанным путем для нужного компонента. Ведь удаление откроет путь ко всем плагинам, а это допустимо не всегда. Иногда, например, плагины устанавливаются для сокрытия исходящих ссылок и если показать этот плагин поисковику, ему это не понравится.

Также, нужно удалить запрет на папку модулей, ведь именно туда устанавливаются модули, обладающие собственным фоном и оформлением, которые поисковый робот, в противном случае, не увидит.

То же самое относится к папке компонентов, для получения роботом скриптов, файлов стилей и изображений по этому пути.

Пример правильного Robots.txt для Joomla:

 


Кроме этого, считается, что микроразметка интегрирована в Джумлу, но на самом деле, большинство пользователей используют коммерческие шаблоны, где шаблоны материалов переписаны и значительно отличаются от стандартных и путь к ним в Robots.txt нужно прописать вручную.

Правильная настройка Robots.txt для Joomla сайта совсем простая, занимает так мало времени, тем не менее, есть ресурсы, где эта работа не проводится годами, теряется посещаемость, увеличивается бюджет на сео-продвижение, а чтобы избежать всего этого, довольно выполнить эти простые действия!

www.joomfox.org


Robots.txt что это за файл и для чего он нужен

Это обычный текстовый файл, который нужен исключительно для поисковых систем, именно он служит для указания (или если хотите рекомендации) поисковым роботам, что и как индексировать. От правильно составленного файла robot.txt зависит многое, с его помощью можно закрыть сайт от поисковых роботов или наоборот, разрешить обход только определенных разделов сайта. Поэтому грамотное его составление является одной из приоритетных задач в SEO оптимизации сайта.

Для того чтобы правильно отредактировать файл robots.txt сначала необходимо определиться с его расположением. Для любого сайта, в том числе, созданном в CMS Joomla 3, данный файл находится в корневой директории (папке) сайта. После установки Joomla 3 этот файл уже присутствует, но его содержание далеко от идеала.

Синтаксис файла robots.txt

В Joomla 3 файл robots.txt в базовом варианте содержит только самое основное, его содержимое примерно такое:


В самом начале файла может содержаться еще текст, но он, скажем так, закомментирован символом «#». Проще говоря, строка, вначале которой содержится символ «#» не учитывается поисковыми роботами и для уменьшения размера файла их можно смело удалять. Таким образом, базовый файл robot.txt будет иметь именно указанное выше содержание. Давайте разберем каждую строку.


Первая строка содержит директиву User-agent, в качестве параметров которой выступает имя робота, который будет индексировать сайт. Таким образом, следующие за ней директивы будут обрабатываться только указанным роботом. Параметров может быть множество, но давайте рассмотрит только те, которые нужны именно нам:

  • User-agent: * #Данный параметр со значением "*" говорит, что следующий за данной строкой текст будет содержать информацию для всех роботов без исключения.

У данного параметра существуют и другие значения, самые распространенные из них это робот Яндекса и Гугла:

  • User-agent: Yandex #как понятно из названия параметр предназначен для роботов Яндекса, причем для всех роботов, которых у Яндекса больше 10 штук, рассматривать каждый по отдельности не вижу смысла.
  • User-agent: Googlebot #а это основной индексирующий робот Гугла.

Стоит отметить, если вы не указали директиву User-agent, то роботы будут думать, что им разрешен обход всего сайта, то есть доступ не ограничен. Так что не стоит ею пренебрегать.


Следующая директива Disallow, она необходима, для запрета поисковым роботам индексировать определенные разделы, она играет очень важную роль, поскольку Joomla славится созданием дублей страниц. 

На этом директивы в базовом файле robots.txt закончились, но их гораздо больше чем две. Все описывать не буду, напишу только то, что действительно нужно для правильной индексации сайтов на Joomla. 

joom4all.ru

Зачем нужен robots txt

Сам robots.txt является системным файлом и расположен в корневой директории нашего сайта на Joomla или WordPress. Если Сайт создается на любой другой CMS, то он обязательно будет там. Если же у Вас нет данного файла, то в срочном порядке необходимо его создать с помощью стандартного блокнота и залить на хостинг.

Файл robots на прямую отвечает за индексирование любого сайта и его настройка является архиважной, иначе, Вы получите головную боль и Ваш проект просто будет топтаться на одном месте, а то и вообще улетит далеко назад.

Теперь рассмотрим какие вообще бывают типы поисковых роботов и их назначение.  Основной упор конечно делаем под Яндекс и Гугл, так как именно оттуда нам нужен качественный трафик для нашего сайта. У Яндекса, помимо основного робота, существует также и вспомогательные боты в количестве около 10 штук, которые также участвуют в формирование общего анализа сайтов и порядка их выдачи.

Вот какие бывают роботы у Яндекса:


  • «Яндексбот» — Основной поисковый робот индексирующий все ресурсы сети;
  • «Яндекс Медиа» — Робот, занимающийся поиском и анализом медийных элементов;
  • «Яндек Каталог» — Предназначен для снятия заброшенных, или не рабочих ресурсов из каталога Яндекса;
  • «Яндекс Имейджес» — предназначен для индексирования картинок;
  • «Яндекс Ньюс» — индексирует новостные разделы сайтов;
  • «Яндекс Блогс»  — предназначен для индекса новых постов и комментарий на блогах, производит поиск по блогам.

Если в  самом файле robots.txt прописаны основные директивы к конкретному роботу, то общие правила работы на него уже не действуют. Но, указание команд конкретно к каждому роботу, требует достаточных знаний в этой области и поэтому советую оставить эту затею и прописать в файле робота только общие директивы на индексирование Вашего сайта.

Таким образом Вы можете настроить под свои нужды любого робота и манипулировать этим.

Терминатор обещает вернуться на ваш сайт

Правильный robots txt для сайта

Мы рассмотрим настройку данного файла на примере движка Джумла 3.3. После установки дистрибутива Джумла (как установить оболочку Денвер для движка Джумла читаем здесь), содержание файла роботс выглядит следующим образом:


Стандартные записи файла robots в Джумла

Теперь нам нужно разобраться, что вообще значат все эти данные и как их применить к своему сайту. Для каждого сайта я рекомендую приписать отдельно следующие директивы:

User-agent: Yandex — эта запись будет сообщать о том, что данные команды относятся именно к поисковому роботу Яндекса. После этой записи будут идти основные каталоги вашего сайта, которые требуется проиндексировать.

User-agent: Googlebot —  основная запись для поискового робота  Гугла.

User-agent: * — данная запись будет означать, что правила индексирования каталогов и файлов Вашего сайта будут одни для всех поисковых роботов. Поэтому можно использовать все три записи одновременно, если у Вас особые требования к индексации ресурса. Пробуйте и смотрите как те или иные настройки влияют на скорость индексации и ее качество.

Далее мы рассмотрим основные команды, разрешающие и запрещающие индексацию определенных разделов сайта.  Данные команды нам необходимы для того, чтобы избавиться от всевозможного мусора, и дублей страниц, которые может генерировать наша CMS.


рвая и очень важная команда для поискового робота это «Disallow:». Данная директива говорит роботу, что тот или иной раздел сайта индексировать не требуется или же определенную страницу. далее приведу примеры с пояснениями, чтобы разложить все по полочкам. Не стоит новичкам пугаться, все достаточно просто и совсем не трудно, главное уловить суть всего этого. Итак, вот основные на мой взгляд  директивы робота которые помогут решить ряд проблем с индексацией и поможет бороться с дублями.

Disallow: — использовать в таком виде не стоит, так как никакого толку от пустой директивы не будет и ее обязательно требуется внимательно заполнять , так как если вы к примеру чистили файл robots.txt и оставили просто слеш «/», то это будет означать следующее:

Disallow: / — Ваш сайт полностью закрыт от  индексации поисковыми роботами. Если Вы поставили такую запись, то в панели вебмастера  Яндекса Вы увидите сообщение о том, что робот не может проиндексировать страницы сайта, закрытые находятся в данном файле.

Disallow: /templates/ —  так закрывается любая папка (каталог) в CMS  Joomla  и любой другой CMS. К примеру, данная папка содержит шаблон сайта и все файлы которые к нему относятся, но нам не нужно загружать робота бесполезной информацией технического характера и отвлекать от индексации нужного контента. Запрет индексации robots txt поможет видеть нужный и полезный контент быстрее и выдавать его в поиск.


Таким образом мы можем закрыть любой раздел нашего проекта. А теперь, давайте рассмотрим второй, очень важный элемент в настройке нашего робота, и это будет «Allow:». Данная команда дает нам возможность открыть определенный раздел или просто нужную страницу сайта. Допустим, мне нужно, чтобы индексировалась страница с нужным мне постом, а остальные были закрыты, тогда вносим такую запись в наш файл:

Теперь ставим перед собой задачу. Нам нужно закрыть весь сайт от индексации в Яндексе и оставить открытой только одну нужную страницу для индекса. Вот пример записи такой команды:

Вроде бы ничего сложного, но стоит намудрить с командами и прописать их с ошибкой, то можно наплодить не только кучу дублей страниц, но и отправить в индекс огромное количество мусора, который роботы будут индексировать неделями. А если Вы публикуете на своем сайте или блоге новые посты, то скорее всего пока они будут индексироваться роботами неделями, их могут копировать на другие ресурсы, а также потеряете ту аудиторию, которая могла увидеть вашу новость, будь она в выдаче поисковых систем.

Еще один не маловажный момент, при запрете индексации robots txt ненужных страниц, является следующая запись:

Disallow: /flash — это будет означать, что все, что находится  и начинается с  «/flash» будет запрещено для индексации.

Также стоит закрыть от индекса и служебные элементы, такие как печать, лента новостей, авторизация и т.д. Я это сделал следующим образом:

Символ «*»  будет означать что любая последовательность как до и после не должна индексироваться.

Для ускорения индексации новых страниц, а также для оказания помощи поисковому роботу при брожении по сайту необходимо ставить карту сайта. Данная карта не представляет никакой пользы для пользователей, пришедших на сайт и имеет расширение типа .xml. У меня на блоге путь к карте выглядит так:

И если данная карта уже готова и лежит в корне сайта, ее в обязательном порядке необходимо указать для индексации следующим образом, используя команду » Sitemap «:

Для установления основного зеркала сайта, нам необходимо не только установить его в панели яндекс-вебмастер как на скрине:

Установка главного зеркала сайта

Но, также в файле robots необходимо его прописать, используя директиву «Host». У меня это выглядит так:

Пример кода файла robots txt для Джумла

Ну вот и вроде мы рассмотрели основные директивы и научились закрывать не нужные нам разделы сайтов.  В качестве примера, даю Вам свой файл robots.txt для CMS Joomla для поисковой системы Яндекс. Не забудьте поменять данные на свои.

Отлично. Теперь просто копируйте данный файл и ставьте в свой. Но перед установкой обязательно все проверьте, так как папки на разных CMS везде разные и могут отличаться.

firelinks.ru

Вступление

Какими бы ни были причины создания своего сайта, самим фактом размещения его в Интернет, вы включаетесь в соревнование по продвижению сайта, где основными арбитрами становятся поисковые системы со своими вездесущими поисковыми роботами (ботами). Даже если вы специально не занимаетесь продвижением сайта, поисковики, рано или поздно начнут посещать ваш сайт, сканируя его страницы, файлы и каталоги.

Что такое файл robots.txt

Процесс сканирования поисковиками сайта практически неконтролируемый, но управляемый. Поисковые боты это всего лишь программы, в алгоритмы которых (правда, не всех) были включены обязательный поиск файла robots.txt в каталоге сайта, а при его нахождении его «чтение».

Сразу замечу, что не все поисковые системы обращают внимание на файл robots.txt. Многие боты его игнорируют, но основные поисковики его видят очень хорошо.

Правила написания файла robots.txt

Итак, при начале обхода сайта, поисковик ищет файл robots.txtи просматривает его для получения правил (директив) сканирования.

Примечание: Не путаем директивы сканирования в файле robots.txtи директивы индексирования (показа содержания) задающимися мета тегами robots.    

Файл robots.txt это специальный инструмент, который создан для управления поведением поисковых роботов при сканировании сайта. Синтаксис robots.txt нарочито простой. По расширению это простой текстовой файл, создать его можно в любом текстовом редакторе. Директив, команд которые понимают поисковики, несколько и основные из них две:

  • Disallow– Запрещено;
  • Allow– Разрешено.

Предусмотрено в файле «личное» обращение к поисковикам, при помощи директивы: [User-agent:], а именно:

  • [User-agent:*] – обращение ко всем поисковым ботам;
  • [User-agent:] – обращение к поисковикам Яндекс; 
  • [User-agent:] – обращение к поисковикам Google.

Не буду переписывать, давно написанные правила составления файла robots.txt, дам три ссылки:

  • https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
  • https://support.google.com/webmasters/answer/6062596?hl=ru
  • http://www.robotstxt.org/orig.html

, здесь лишь отмечу: Не существует правильного или неправильного файла robots.txt, то есть, нет единого универсального файла, который может использоваться поголовно всеми. Каждый сайт уникален и вы сами должны решать, что показывать поисковикам, а что закрывать от них. Хотя у Joomla есть рекомендации на этот счет.

Рекомендованный файл robots.txt для Joomla 3

Повторюсь, нет единого файла robots.txt работающего для всех сайтов Joomla. Однако есть файл robots.txt рекомендуемый системой Joomla, который назовем файлом по умолчанию. Он лежит в системе под именем: robots.txt.dist и чтобы им воспользоваться достаточно его переименовать в файл robots.txt. В нем 14 директив disallow и общее обращение ко всем ботам.

Не обязательно самому составлять файл robots.txt. можно воспользоваться генераторами файлов robots.txt. например, тут: http://pr-cy.ru/robots/.

Как проверить свой файл robots.txt

Если вы самостоятельно оставили файл robots.txtего нужно и можно проверить в своем личном кабинете на сервисах веб-мастеров Яндекс (https://webmaster.yandex.ru/robots.xml) и Google (https://www.google.com/webmasters/tools/robots-testing-tool)

yandex robots txt 1

google search consol 1

google search consol robotstxt 1

Альтернатива файла robots.txt на Joomla 3

В этой статье я уже упоминал, о метатегах robots. У них следующий синтаксис: <meta name=»robots» content=»noindex, nofollow»>. Именно так выглядят метатеги robots задающиеся в Joomla.

Эти мета теги также обращаются к поисковым ботам, но уже не запрещают сканировать файлы сайта, а запрещают их индексирование. То есть, поисковик может поместить страницу сайта в свою базу данных, но не может поместить её в страницы выдачи (индекс).

О метатегах и управления ими, планирую написать в следующей статье, здесь отмечу: Директивы файла robots.txt имеют преимущество перед директивами указанными в метатегах robots. То есть, запрет сканирования, более важен, чем запрет индексирования.

©Joomla3-x.ru.

joomla3-x.ru

Для чего предназначен?

В предисловии я уже описал, что это такое. Теперь расскажу, зачем он нужен. Robots.txt – небольшой текстовой файл, который хранится в корне сайта. Он используется поисковыми системами. В нем четко прописаны правила индексации, т. е. какие разделы сайта нужно индексировать (добавлять в поиск), а какие – нет.

Зачем нужен Robots.txt

Обычно от индексации закрываются технические разделы сайта. Изредка в черный список попадают неуникальные страницы (копипаст политики конфиденциальности тому пример). Здесь же “роботам объясняются” принципы работы с разделами, которые нужно индексировать. Очень часто прописывают правила для нескольких роботов отдельно. Об этом мы и поговорим далее.

При правильной настройке robots.txt ваш сайт гарантированно вырастет в позициях поисковых систем. Роботы будут учитывать только полезный контент, обделяя вниманием дублированные или технические разделы.

Создание robots.txt

Чтобы создать файл, достаточно воспользоваться стандартным функционалом вашей операционной системы, после чего выгрузить его на сервер через FTP. Где он лежит (на сервере) догадаться несложно – в корне. Обычно эта папка называется public_html.

Вы без труда сможете попасть в нее с помощью любого FTP-клиента (например, FileZilla) или встроенного файлового менеджера. Естественно, мы не будем загружать на сервер пустой роботс. Впишем туда несколько основных директив (правил).

Как создать robots.txt

User-agent: *
Allow: /

Используя эти строки в своем файле robots, вы обратитесь ко всем роботам (директива User-agent), позволив им индексировать ваш сайт всецело и полностью (включая все тех. страницы Allow: /)

Конечно же, такой вариант нам не особо подходит. Файл будет не особо полезен для оптимизации под поисковики. Он определенно нуждается в грамотной настройке. Но перед этим мы рассмотрим все основные директивы и значения robots.txt.

Директивы

User-agent Одна из важнейших, т. к. указывает каким роботам следовать идущим после нее правилам. Правила учитываются до следующего User-agent в файле.
Allow Разрешает индексацию каких-либо блоков ресурса. Например: “/” или “/tag/”.
Disallow Наоборот, запрещает индексацию разделов.
Sitemap Путь до карты сайта (в формате xml).
Host Главное зеркало (с www или без, или если у вас несколько доменов). Здесь же указывается защищенный протокол https (при наличии). Если у вас стандартный http, его указывать не нужно.
Crawl-delay С ее помощью вы сможете установить интервал посещения и загрузки файлов вашего сайта для роботов. Помогает снизить нагрузку на хост.
Clean-param

 

Позволяет отключить индексацию параметров на тех или иных страницах (по типу www.site.com/cat/state?admin_id8883278).
В отличие от предыдущих директив, здесь указываются 2 значения (адрес и сам параметр).

Это все правила, которые поддерживаются флагманскими поисковиками. Именно с их помощью мы будем создавать наш роботс, оперируя различными вариациями для самых разных видов сайтов.

Настройка

Для грамотной настройки файла роботов нам нужно точно знать, какие из разделов сайта должны быть проиндексированы, а какие – нет. В случае с простым одностраничником на html + css нам достаточно прописать несколько основных директив, таких как:

User-agent: *
Allow: /
Sitemap: site.ru/sitemap.xml
Host: www.site.ru

Здесь мы указали правила и значения для всех поисковых систем. Но лучше добавить отдельные директивы для Гугла и Яндекса. Выглядеть это будет так:

User-agent: *
Allow: /

User-agent: Yandex
Allow: /
Disallow: /politika

User-agent: GoogleBot
Allow: /
Disallow: /tags/

Sitemap: site.ru/sitemap.xml
Host: site.ru

Теперь на нашем html-сайте будут индексироваться абсолютно все файлы. Если мы хотим исключить какую-то страницу или картинку, то нам необходимо указать относительную ссылку на этот фрагмент в Disallow.

Вы можете использовать сервисы автоматической генерации файлов роботс. Не гарантирую, что с их помощью вы создадите идеально правильный вариант, но в качестве ознакомления можно попробовать.

Среди таких сервисов можно выделить:

  • PR-CY,
  • htmlweb.

С их помощью вы сможете создать robots.txt в автоматическом режиме. Лично я крайне не рекомендую этот вариант, потому как намного проще сделать это вручную, настроив под свою платформу.

Говоря о платформах, я имею ввиду всевозможные CMS, фреймворки, SaaS-системы и многое другое. Далее мы поговорим о том, как настраивать файл роботов WordPress и Joomla.

Но перед этим выделим несколько универсальных правил, которыми можно будет руководствоваться при создании и настройке роботс почти для любого сайта:

Закрываем от индексирования (Disallow):

  • админку сайта;
  • личный кабинет и страницы регистрации/авторизации;
  • корзину, данные с форм заказов (для интернет-магазина);
  • папку cgi (располагается на хосте);
  • служебные разделы;
  • скрипты ajax и json;
  • UTM и Openstat-метки;
  • различные параметры.

Открываем (Allow):

  • картинки;
  • JS и CSS-файлы;
  • прочие элементы, которые должны учитываться поисковыми системами.

Помимо этого, в конце не забываем указать данные sitemap (путь к карте сайта) и host (главное зеркало).

Robots.txt для WordPress

Для создания файла нам нужно точно так же забросить robots.txt в корень сайта. Изменять его содержимое в таком случае можно будет с помощью все тех же FTP и файловых менеджеров.

Есть и более удобный вариант – создать файл с помощью плагинов. В частности, такая функция есть у Yoast SEO. Править роботс прямо из админки куда удобнее, поэтому сам я использую именно такой способ работы с robots.txt.

Как вы решите создать этот файл – дело ваше, нам важнее понять, какие именно директивы там должны быть. На своих сайтах под управлением WordPress использую такой вариант:

User-agent: * # правила для всех роботов, за исключением Гугла и Яндекса

Disallow: /cgi-bin # папка со скриптами
Disallow: /? # параметры запросов с домашней страницы
Disallow: /wp- # файлы самой CSM (с приставкой wp-)
Disallow: *?s= #
Disallow: *&s= # все, что связано с поиском
Disallow: /search/ # /
Disallow: /author/ # архивы авторов
Disallow: /users/ # и пользователей
Disallow: */trackback # уведомления от WP о том, что на вас кто-то ссылается
Disallow: */feed # фид в xml
Disallow: */rss # и rss
Disallow: */embed # встроенные элементы
Disallow: /xmlrpc.php # WordPress API
Disallow: *utm= # UTM-метки
Disallow: *openstat= # Openstat-метки
Disallow: /tag/ # тэги (при наличии)
Allow: */uploads # открываем загрузки (картинки и т. д.)

User-agent: GoogleBot # для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/
Allow: */uploads
Allow: /*/*.js # открываем JS-файлы
Allow: /*/*.css # и CSS
Allow: /wp-*.png # и картинки в формате png
Allow: /wp-*.jpg #
Allow: /wp-*.jpeg # и в других форматах
Allow: /wp-*.gif # /
Allow: /wp-admin/admin-ajax.php # работает вместе с плагинами

User-agent: Yandex # для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # чистим UTM-метки
Clean-Param: openstat # и про Openstat не забываем

Sitemap: https://site.ru/sitemap_index.xml # прописываем путь до карты сайта
Host: https://site.ru # главное зеркало

Внимание! При копировании строк в файл – не забудьте удалить все комментарии (текст после #).

Такой вариант robots.txt наиболее популярен среди вебмастеров, которые используют WP. Идеальный ли он? Нет. Вы можете попытаться что-то добавить или наоборот убрать. Но учтите, что при оптимизации текстовика роботов нередки ошибки. О них мы поговорим далее.

Robots.txt для Joomla

И хотя в 2018 Joomla редко кто использует, я считаю, что нельзя обделять вниманием эту замечательную CMS. При продвижении проектов на Joomla вам непременно придется создавать файл роботс, а иначе как вы хотите закрывать от индексации ненужные элементы?

Как и в предыдущем случае, вы можете создать файл вручную, просто закинув его на хост, либо же использовать модуль для этих целей. В обоих случаях вам придется его грамотно настраивать. Вот так будет выглядеть правильный вариант для Joomla:

User-agent: *
Allow: /*.css?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

User-agent: Yandex
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

User-agent: GoogleBot
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Host: site.ru # не забудьте здесь поменять адрес на свой
Sitemap: site.ru/sitemap.xml # и здесь

Как правило, этого достаточно, чтобы лишние файлы не попадали в индекс.

Ошибки при настройке

Очень часто люди допускают ошибки при создании и настройке файла роботс. Вот самые часто встречающиеся из них:

  • Правила указаны только для User-agent.
  • Отсутствуют Host и Sitemap.
  • Наличие http-протокола в директиве Host (нужно указывать лишь https).
  • Несоблюдение правил вложенности при открытии/закрытии картинок.
  • Не закрыты UTM и Openstat-метки.
  • Прописывание директив host и sitemap для каждого робота.
  • Поверхностная проработка файла.

Очень важно правильно настроить этот маленький файлик. При допущении грубых ошибок вы можете потерять значительную часть трафика, поэтому будьте предельно внимательны при настройке.

Как проверить файл?

Для этих целей лучше использовать специальные сервисы от Yandex и Google, т. к. эти поисковые системы являются наиболее популярными и востребованными (чаще всего единственно используемыми), такие поисковики как Bing, Yahoo или Rambler рассматривать нет смысла.

Для начала рассмотрим вариант с Яндексом. Заходим в Вебмастер. После чего в Инструменты – Анализ robots.txt.

Анализ в Яндекс.Вебмастер

Здесь вы сможете проверить файл на ошибки, а также проверить в реальном времени, какие страницы открыты для индексации, а какие – нет. Весьма удобно.

У Гугла есть точно такой же сервис. Идем в Search Console. Находим вкладку Сканирование, выбираем – Инструмент проверки файла robots.txt.

Анализ роботс в Search Console

Здесь точно такие же функции, как и в отечественном сервисе.

Обратите внимание, что он показывает мне 2 ошибки. Связано это с тем, что Гугл не распознает директивы очистки параметров, которые я указал для Яндекса:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Обращать внимание на это не стоит, т. к. роботы Google используют только правила для GoogleBot.

Заключение

Файл robots.txt очень важен для SEO-оптимизации вашего сайта. Подходите к его настройке со всей ответственностью, потому как при неправильной реализации все может пойти прахом.

Учитывайте все инструкции, которыми я поделился в этой статье, и не забывайте, что вам не обязательно точь-в-точь копировать мои варианты роботс. Вполне возможно, что вам придется дополнительно разбираться в каждой из директив, подстраивая файл под свой конкретный случай.

А если вы хотите более глубоко разобраться в robots.txt и создании сайтов на WordPress, то я приглашаю вас на курс Василия Блинова “Как создать блог”. На нем вы узнаете, как можно без особого труда создать сайт, не забыв оптимизировать его для поисковиков.

iklife.ru

Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить «/robots.txt», полный вид выглядит так: «http://вашсайт.ru/robots.txt». Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта.

Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.

Что же такое robots.txt?

Robots.txt — файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt — залог успешной индексации вашего проекта в сети Интернет!

Правила и термины robots.txt:

В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота —User-agent. Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex — User-agent: Yandex.

Затем следуют директивы Allow и Disallow, которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает.

Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.

Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.

Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap. Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.

Правильный robots.txt, который рекомендуется использовать на CMS Joomla 2.5 и 3.x:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://путь к вашей карте XML формата
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru (или www.vash_sait.ru)
Sitemap: http://путь к вашей карте XML формата

joomlatpl.ru

Если robots.txt не помогает, то что делать?!

Не смотря на то, что есть некие стандарты по роботсу и индексации, разные поисковые машины работают несколько по-разному.
Если для ПС Яндекс запрещающие инструкции в robots.txt это фактически закон, то ПС Google ведет себя по-другому. Думаю, ни для кого не секрет, что robots.txt для него носит лишь рекомендательный характер.

Справка из ПС Google.
 — по robots.txt

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс.

— по мета тегу <meta name="robots" content="noindex">

Чтобы полностью исключить вероятность появления содержания страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.

При этом вы должны выбрать только один из способов — или роботс, или мета-тег. Если вы добавите мета тег на страницу, и при этом она закрыта в роботсе, но ее url уже есть в индексе, то эффекта не будет пока вы не откроете ее в robots.txt, в противном случае гуглбот не сможет просканировать содержание страницы и не увидит запрещающий мета-тег noindex, который как раз и приводит к полному выпадению документа из выдачи.

Управление индексацией контента в Joomla средствами мета-тега

Теперь приведу пару примеров — каким образом можно добавлять этот мета-тег на дублирующие или просто нежелательные страницы в Joomla
1. в index.php шаблона после <head>, если вставить следующее
то это приведет к появлению мета-тега на страницах, типа site.ru/article?bla_bla_bla (если после знака '?' не используются реальные параметры, допустим для страницы печати не сработает)

2. закрываем результаты поиска (иногда на такие страницы ставят ссылки)
*в начале нужно определить переменную
впрочем, больше примеров переменных тут http://joomlaforum.ru/index.php/topic,67278.0.html

3. закрыть страницы печати или дубль документа, где на конце ?tmpl=component или &print=1, можно через файл component.php (обычно есть во всех шаблонах Joomla или берете из папки system), прописав в нем также этот мета-тег в <head></head>

4. закрыть от индексации страницы пагинации,
 в index.php в начале
в head

В компонентах можно использовать API Joomla (также определив необходимые условия для вывода)

Также для самостоятельного изучения:JRequest :: getVar, $_SERVER

http://docs.joomla.org/JDocument/setMetaData

Внимание! Все примеры приведены лишь в качестве примера альтернативных решений, а не инструкция к действию! Если вы не уверены в своих действиях и плохо понимаете о чем речь, настоятельно рекомендую обойтись настройками robots.txt!

joomlaforum.ru

Robots txt для joomla

От автора: приветствую Вас дорогой друг. Индексация поисковыми системами — очень важный этап в развитии сайта так как правильные действия на данном шаге обеспечат быстрое попадание страниц в поиск и значительное увеличение посещаемости. Конечно в данной статье мы не сможем рассмотреть абсолютно все нюансы, связанные с индексацией. Но мы поговорим о наиболее важном инструменте robots txt для joomla, который определяет необходимые инструкции для поисковых систем.

Конечно, поисковая система, будь то Yandex или Google — это сложнейший программный продукт и она, я бы сказал достаточно “умная”, в плане индексации сайтов и поиска необходимой информации. Но как Вы знаете, любое программное обеспечение, или же определенный механизм, по сути самостоятельно не работает, всегда требуется участие человека, либо для настройки, либо для управления, либо для задания неких начальных параметров. И как Вы понимаете, поисковик не исключение, а значит для лучших результатов индексирования и самое главное для обеспечения правильного индексирования, был придуман robots.txt — файл в котором владельцы сайтов могут определить инструкции для индексирования страниц.

Таким образом, robots.txt — это специальный текстовый файл в котором определены инструкции для различных поисковых систем по индексированию страниц сайт. Если сказать проще, в данном файле указано, что нужно индексировать, а что нет. Как правило, вышеуказанный файл располагается в корне интересующего сайта для быстрого доступа роботу поисковика.

При этом обратите внимание, что имя файла регистрозависимое. Содержимое данного файла состоит из так называемых директив, и достаточно простое для понимания. Директива – это инструкция, указание для поисковой системы.

Теперь давайте определимся, что же мы можем “указывать” поисковым системам. В robots.txt определяются страницы, и даже целые каталоги, которые запрещены к индексированию, указывается основное зеркало сайта, интервал времени загрузки данных, путь к файлу SiteMap (карта сайта) и т.д.

Обычно, в комплекте с наиболее популярными CMS поставляется и оговариваемый нами, файл robots.txt, в котором разработчики в качестве примера, определили корректные инструкции, благодаря которым, сайт будет нормально работать. Joomla не исключение и в корне исходников Вы найдете интересующий файл:

Соответственно давайте поговорим о синтаксисе и используемых директивах. Все текстовое содержимое, следующее после знака # и до конца текущей строки, считается комментарием и восприниматься поисковой системой не будет, таким образом можно указать некоторое пояснение к определенным правилам индексации. Далее первая директива, которая определена в файле robots для joomla — это User-agent. Данный параметр указывает имя робота поисковой системы, для которой будут применены правила индексации, описанные ниже.

В данном примере мы указываем, что следующие правила будут справедливы для абсолютно всех роботов поисковых систем. Если же необходимо задать несколько правил для робота Yandex, в качестве значения директивы User-agent, нужно указать следующее:

Для Google соответственно:

Далее в файле определена директива Disallow, которая указывает, какая папка или страница, по определенному URL, запрещена к индексации. Соответственно запрещать индексировать Вы можете следующие страницы: одинаковые по содержанию (дубли), страницы содержащие личную или конфиденциальную информацию, управляющие или страницы панели администратора, доступ к которым разрешен только определенным пользователям и, наконец абсолютно любые страницы которые в зависимости от логики работы конкретного сайта, не должны быть доступны поисковикам.

К примеру, запрет индексирования каталога administrator выглядит следующим образом:

Или же запрет индексации всего сайта в целом:

В противоположность директиве Disallow, придумана директива Allow, которая указывает какие страницы или каталоги разрешены к индексации.

По сути, мы с Вами только что рассмотрели все директивы, которые использованы в стандартном файле robots txt для джумлы. Но давайте рассмотрим еще несколько.

Директива Crawl-delay – используется для определения интервала времени для закачки данных определенной страницы, то есть задается пауза между скачиванием, при этом она актуальна только для Yandex. Таким образом, указав необходимый тайм-аут, Вы значительно разгрузите используемый сервер, так как скачав определенный ресурс поисковый робот, будет ждать столько секунд, то есть сколько указано в текущей директиве.

Для ускорения индексации так же рекомендуется сгенерировать карту сайта (Site Map), в которой будет приведен список страниц, в виде ссылок. При этом данная карта располагается так же в корне исходников CMS и путь к ней можно определить в файле robots.txt, используя директиву Sitemap, тем самым Вы как бы укажите роботу список доступных страниц сайта, которые подлежат индексации.

Ну и наконец. последняя важная директива которая очень часто используется в файлах robots.txt – это Host, которая используется для поисковой системы Yandex и определяет главное зеркало сайта.

Как Вы уже увидели, значение каждой директивы – это определенный текст и в основном это определенный путь, соответственно для формирования данного значения предусмотрены два управляющих символа, которые я хотел бы рассмотреть.

Символ “*” – указывает абсолютно любую последовательность символов и бывает очень полезным, если необходимо задать некоторое произвольное значение, идущее перед заданным.

В данном примере запрещены к индексации все страницы в адресе которых содержится параметр admin. Символ “$”- используется для отмены добавления к каждому правилу, по умолчанию, выше рассмотренного символа.

В данном примере мы запрещаем к индексации вашсайт./ru/page, но не запрещаем вашсайт./ru/page/one.

На этом данная статья завершена. Всего Вам доброго и удачного кодирования!!!

Robots txt для joomla 3

webformyself.com


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.