Краулинговый бюджет


Что такое краулинговый бюджет

Краулинговый бюджет — это количество страниц, которые поисковые бот может обойти за конкретный временной период. Поэтому, мусор должен быть удален.

Как оптимизировать, что сделать

Найти мусорные страницы

Найти мусорные страницы можно путем сортировки по размеру страницы используя бесплатное программного обеспечение Screaming Frog SEO Spider.

Screaming Frog SEO Spider

Или Xenu’s Link Sleuth

Все страницы должны быть доступны по одному URL. Дубликаты страниц должны отдавать 301 редирект.

Использовать заголовок HTTP/1.1 304 Not Modified

Отдавая поисковому роботу 304 код (если страница не была изменена с предыдущего захода) мы даем роботу понять, что заново страницу индексировать не надо и экономим краулинговый бюджет, которым располагает наш сайт.

Рекомендованное чтиво по теме на сайте социальной сети интернет-специалистов MegaIndex.org по ссылкам далее:

  • Индексация сайта.

Термины

Краулинговый спрос — цифра обозначающая количество страниц подлежащих индексации по расчету поисковой системой. Расчет производится на основании:

  • Актуальности контента документов сайта в индексе поисковой системы;
  • Популярности документа на основе сигналов из социальных сетей.

Краулинговый бюджет — цифра обозначающая количество страниц подлежащих сканированию.
На цифру краулингово бюджета влияет краулинговый спрос и доступность сервера.
Например, если на IP расположено множество сайтов, Google проиндексирует можно ожидать цифру краулингового бюджета меньше за цифру краулинговый спроса.

www.megaindex.org

Аналитик отдела качества поиска Google Гэри Илш опубликовал подробный пост, посвящённый краулинговому бюджету. В нём он объяснил, что понимается под этим термином, какие факторы влияют на краулинговый бюджет, что такое скорость сканирования и краулинговый спрос.

По словам Илша, для большинства сайтов краулинговый бюджет – это то,  о чём им точно не стоит беспокоиться. Обращать внимание на бюджет сканирования стоит лишь крупным сайтам.

«Приоритезация того, что нужно сканировать, когда, и сколько ресурсов может выделить сервер, более важно для крупных сайтов или же ресурсов с динамическими страницами, создаваемыми на основании заданных параметров», — отметил Илш.


Возможность ограничения скорости сканирования создана для того, чтобы Google не обрабатывал слишком много страниц сайта слишком быстро. Это позволяет избежать излишней нагрузки на сервер.

Краулинговый спрос (crawl demand) представляет собой количество страниц, которые хочет просканировать Google. Этот показатель основан на популярности страниц сайта и актуальности контента в индексе поисковой системы.

Краулинговый бюджет объединяет в себе скорость сканирования и краулинговый спрос. В Google под краулинговым бюджетом понимают количество URL, которые Googlebot хочет и может просканировать.

Факторы, влияющие на краулинговый бюджет

В Google выяснили, что наличие на сайте большого количества низкокачественных страниц может оказать негативное влияние на его сканирование и индексирование. Ниже – перечень категорий, в которые попадают эти страницы (в порядке убывания значимости):

  • Фасетная навигация и идентификаторы сессий;
  • Дубликаты;
  • Страницы, возвращающие ошибку soft 404;
  • Взломанные страницы;
  • Низкокачественный и спамный контент;
  • URL, создающие бесконечные пространства (такие, как календари).

Растрачивание ресурсов сервера на эти страницы приведёт к снижению активности сканирования действительно ценных страниц. В конечном итоге это может привести к тому, что качественный контент сайта будет индексироваться с задержкой.

FAQ по краулинговому бюджету

Влияет ли скорость сайта на краулинговый бюджет? Как насчёт ошибок сканирования?

Уменьшение скорости загрузки сайта улучшает UX, одновременно повышая скорость сканирования. Для Googlebot быстрый сайт – это признак хорошей работы серверов. А это значит, что поисковый робот может просканировать больше контента за одно и то же количество соединений. В то же время значительное число ошибок 5хх сигнализирует об обратном, и сканирование сайта замедляется.

Мы рекомендуем следить за отчётом «Ошибки сканирования» в Search Console и поддерживать количество ошибок сервера на низком уровне.

Является ли сканирование фактором ранжирования?

Увеличение скорости сканирования не обязательно приведёт к повышению позиций сайта в выдаче. Google использует в ранжировании сотни сигналов. Хотя сканирование необходимо для присутствия сайта в результатах поиска, оно не является сигналом для ранжирования.

Расходуется ли краулинговый бюджет на альтернативные URL и встроенный контент?

Обычно учитываются все URL, которые сканирует Googlebot. Альтернативные URL (AMP, hreflang) и встроенный контент (CSS, JavaScript) также сканируются. Соответственно, на них расходуется краулинговый бюджет. То же самое касается и цепочек редиректов.


Могу ли я контролировать Googlebot с помощью директивы «crawl-delay»?

Googlebot не обрабатывает директиву «crawl-delay».

А директива nofollow влияет на краулинговый бюджет?

Бывает по-разному. Любой URL, который сканируется, влияет на краулинговый бюджет. Поэтому, даже если URL содержит директиву nofollow, он может по-прежнему сканироваться в том случае, если на другой странице на сайте или любой другой странице в интернете эта ссылка не помечена как nofollow.

www.searchengines.ru

Способы повышения краулингового бюджета

Краулинговый бюджет сочетает в себе скорость сканирования и краулинговый спрос, т.е. количество страниц, которые хочет просканировать поисковик Google. Этот параметр основывается на популярности страниц ресурса и актуальности контента в индексе поисковика.

В поисковой системе Google краулинговый бюджет представляет собой количество URL, которое поисковый робот хочет и имеет возможность просканировать.

Для поисковика Google краулинговый бюджет пропорционален PageRank сайта. Чем он выше, тем скорее пройдет индексирование и тем большее количество страниц попадет в индекс. Для повышения краулингового бюджета необходимо повысить PageRank, что делается при помощи ссылок с качественных источников и других способов оптимизации.


Веб-страницы индексируются не сразу. Когда поисковый робот попадает на новый сайт, он индексирует несколько страниц, после чего анализирует их качество. Если оно признается высоким, индексация пойдет скорее. Поэтому рекомендуется загружать по несколько веб-страниц через определенные периоды времени. Обозначим дополнительные факторы повышения краулингового бюджета:

  • Количество оригинальных страниц. Копированный контент или дублированный материал приведут к тому, что робот станет реже заходить на сайт.
  • Регулярное обновление контента. Учитывается добавление новых текстов, обновление рубрикаторов.
  • Не менее важный фактор — посещаемость ресурса. Чем она выше, тем скорее индексируется новый материал.

Причины понижения краулингового бюджета

Негативное влияние на краулинговый бюджет оказывают битые ссылки и цепочки редиректов. Они свидетельствуют о плохой структуре и усложняют работу поисковика. Индексацию замедляет статический контент: если информация не обновляется, скорость попадания в индекс снижается.

Также негативно влияет на скорость индексации и сканирования большое количество некачественных страниц, которые распределяются на следующие группы:

  • фасетная навигация;
  • идентификаторы сессий;
  • дубликаты;
  • страницы, которые подверглись взлому;
  • некачественный контент, спам.

Если сервер будет расходовать свои ресурсы на такие страницы, то в итоге это приведет к падению интенсивности сканирования страниц с качественным и полезным контентом.

Следует отметить, что увеличение скорости сканирования не всегда обеспечивает рост позиций сайта в поисковой выдаче. Система Google использует при ранжировании самые разные сигналы и в данном случае сканирование не является одним из них.

Если вебмастеру предстоит запуск крупного проекта, лучше позаботиться о выделенном сервере (несколько сайтов, расположенных на одном сервере, индексируются медленнее).

Краулинговый бюджет расходуется на все URL, включая альтернативные, и на встроенный контент.

Знание этих особенностей позволит скорее добиться высокой посещаемости ресурса. Не сомневайтесь, опытные специалисты «Паньшин Групп» обеспечат эффективное продвижение, обращайтесь!

 

apanshin.ru

Что такое краулинговый бюджет, и каким ресурсам стоит о нем беспокоиться

От автора: представитель Google пояснил, что такое скорость сканирования, краулинговый спрос и краулинговый бюджет. А также рассказал о факторах, влияющих на него.


Аналитик отдела, отвечающего за качественный показатель поискового сервиса Google, Гэри Илш пояснил основные понятия, касающиеся краулингового бюджета. Публикация, посвященная этой теме, размещена на официальном ресурсе Google для вебмастеров.

Илш отметил, что краулинговый бюджет важен только для крупных или динамически создаваемых ресурсов. С его помощью сайты могут расставить приоритеты над тем, сколько веб-страниц нужно сканировать, установить сроки сканирования. А также, какой лимит мощностей может предоставить сервер на этот процесс.

Возможность влияния на скорость сканирования реализована для того, чтобы вебмастер мог снизить интенсивность обработки страниц ресурса поисковым роботом и таким образом уменьшить потребление серверных мощностей.

Под краулинговым спросом понимается то количество веб-страниц сайта, которое готов просканировать поисковик. Данный показатель формируется на основе востребованности страниц ресурса пользователями и актуальности публикуемого контента относительно других проиндексированных в Google ресурсов.

Краулинговый бюджет – это то количество URL, которое готов и может проанализировать поисковый робот Google.

Гэри Илш пояснил, что наличие на сайте большого объема «низкосортных» страниц негативно влияет на показатели анализа и индексирования. Под такими страницами Google понимает:

Источник: https://webmasters.googleblog.com/

Редакция: Команда webformyself.


Краулинговый бюджет

webformyself.com

Google рассказал, что такое краулинговый бюджет. Представитель компании Гэри Илш опубликовал подробный пост, посвященный этой теме. В нем он объяснил, что понимается под этим термином, какие факторы могут влиять на краулинговый бюджет, что такое скорость сканирования и краулинговый спрос.

Как рассказал Илш, большинству сайтов не стоит беспокоиться о краулинговом бюджете. Обращать внимание на бюджет сканирования стоит только крупным сайтам.

Краулинговый спрос – это количество страниц, которые хочет просканировать Google. Показатель основан на популярности страниц сайта и актуальности контента в индексе поисковой системы.

Краулинговый бюджет объединил в себе скорость сканирования и краулинговый спрос. Под краулинговым бюджетом Google понимает количество URL, которые хочет и может просканировать Googlebot.

Факторы, которые влияют на краулинговый бюджет

В Google отмечают, что к таким факторам относится большое количество некачественных страниц, к которым относятся:

  • Фасетная навигация и идентификаторы сессий.
  • Дубликаты.
  • Страницы, возвращающие ошибку soft 404.
  • Взломанные страницы.
  • Низкокачественный и спамный контент.
  • URL, создающие бесконечные пространства (календари).

Влияет ли скорость сайта на краулинговый бюджет? И как насчет ошибок сканирования?

Высокая скорость сайта улучшает UX и одновременно повышает скорость сканирования. А для Googlebot быстрый сайт является признаком хорошей работы серверов.

Google рекомендует следить за отчетом «Ошибки сканирования» в Search Console и поддерживать количество ошибок сервера на низком уровне.

Сканирование – это фактор ранжирования?

Нет. И высокая скорость сканирования совсем не обязательно приведет к повышению позиций сайта в выдаче.

Краулинговый бюджет расходуется на альтернативные URL и встроенный контент?

Чаще всего учитываются все URL, сканируемые Googlebot. Сканируются и альтернативные URL (AMP, hreflang), а также встроенный контент (CSS, JavaScript). На них расходуется краулинговый бюджет.

Можно контролировать Googlebot с помощью директивы «crawl-delay»?

Он не обрабатывает эту директиву.

А директива nofollow влияет на краулинговый бюджет?

Здесь все бывает по-разному. Любой сканируемый URL влияет на краулинговый бюджет. То есть, даже если URL содержит директиву nofollow, он может сканироваться в случае, если на другой странице на сайте или любой другой странице в интернете эта ссылка не помечена как nofollow.

Источник:

www.seonews.ru

1. Что такое краулинговый бюджет, и почему нужно уделять ему внимание


Краулинговый бюджет — это количество страниц, которое робот-краулер обходит за определённый промежуток времени. Единого значения у этого показателя нет: каждый сайт имеет свой уникальный краулинговый бюджет, который можно узнать с помощью Google Search Console и Bing Webmaster Tools.

Не стоит воспринимать его как нечто само самой разумеющееся или как то, на что нельзя повлиять. Краулинговый бюджет можно и нужно оптимизировать: от него будет зависеть, насколько быстро новый контент попадёт в результаты поисковой выдачи.

2. Способы оптимизации краулингового бюджета

Если роботы не спешат добавлять новые странички вашего сайта в индекс, значит, пора применять методы, которые помогут исправить ситуацию. В рамках данной статьи мы будем приводить примеры проверки большинства важных параметров при помощи онлайн-сервисов и десктопного краулера Netpeak Spider.

2.1. Проверяем, не закрыты ли важные для продвижения файлы и страницы в robots.txt

Следите за тем, чтобы файл robots.txt не закрывал страницы, важные для продвижения, иначе роботы не будут иметь к ним доступ. Также скрывайте малозначимые страницы и нежелательный для индексации контент — это поможет сэкономить краулинговый бюджет и распределить его между страницами, которые потенциально могут приносить трафик.

2.1.1. Google Search Console

Один из способов проверить файл robots.txt — через Google Search Console.

  1. Зайдите в GSC.
  2. Кликните по разделу «Сканирование» и выберите «Инструмент проверки файла robots.txt». 
  3. Внизу интерфейса введите URL и нажмите «Проверить».

Проверка в гугл консоле

2.1.2. Netpeak Spider

Чтобы выявить проблемы, связанные с robots.txt, на всём сайте, обратимся к Netpeak Spider.

  1. Зайдите в программу, введите начальный URL и, не меняя параметров по умолчанию, нажмите «Старт».
  2. На вкладке «Ошибки» найдите ошибку «Заблокировано в robots.txt», чтобы увидеть, какие страницы запрещены к индексации. Нажмите на неё, чтобы ознакомиться с полным списком и убедиться, что ни одна важная страница не попала под запрет, а все лишние страницы скрыты от поисковых роботов. Заблокировано в роботс
  3. Перейдите на вкладку «Сводка», чтобы посмотреть, сколько страниц отдают значение true (открыты для индексации) и false (закрыты для индексации) в файле robots.txt. Чтобы отфильтровать результаты по тому или иному значению, выполните аналогичные действия, описанные в предыдущем пункте. 
  4. Экспортируйте текущую таблицу на своё устройство, нажав на кнопку слева над таблицей результатов.

Экспорт таблицы

На диаграмме «Причины неиндексирумости URL» вкладке «Дашборд» вы можете посмотреть, какой процент страниц скрыт с помощью в robots.txt или любого другого метода. Нажмите на нужную вам область диаграммы, чтобы отфильтровать результаты.

Причины неиндексируемости урл

Если вы хотите поменять что-то в файле robots.txt, но опасаетесь того, как это воспримут поисковые роботы, воспользуйтесь функцией «Виртуальный robots.txt». Он позволяет протестировать обновлённый файл, не меняя актуальный.

1. Найдите функцию в меню «Настройки».

 Меню настройки

2. Отметьте галочкой «Использовать виртуальный robots.txt», после чего впишите директивы или вставьте их через буфер обмена. Нажмите кнопку «OK».

Использовать виртуальный роботс

3. Запустите сканирование в обычном режиме. По завершению сканирования директивы, прописанные в виртуальном файле, отобразятся в колонке «Разрешён в robots.txt» в основной таблице.

Запустить сканирование

2.2. Устраняем ошибки на сайте: цепочки редиректов, дубликаты и битые ссылки

2.2.1. Цепочки редиректов

Один или два последовательных редиректа не навредят сайту: робот-краулер легко сможет перемещаться по ним до «конечного» пункта. Но не стоит допускать ситуации, когда редиректы образовывают цепочку из пяти и более звеньев. Из-за неё поисковый робот попросту может не добраться до целевой страницы.

Чтобы проверить, нет ли на вашем сайте подобных цепочек, воспользуйтесь Netpeak Spider. Для этого вам следует:

1. На вкладке «Параметры» боковой панели в разделе «Индексация» отметить галочкой пункт «Редирект».

Редирект в параметрах

2. Ввести начальный URL сайта в адресную строку и нажать кнопку «Старт».

3. По окончанию сканирования перейти на боковую панель на вкладку «Ошибки».

В раздел ошибки

Если на вашем сайте были обнаружены цепочки редиректов, они будут отображены на этой вкладке как ошибка с соответствующим названием. Кликните по ней, чтобы подробно ознакомиться со списком URL на вкладке отфильтрованных результатов.

4. Выгрузите отчёт по ошибкам с помощью функции экспорта. Кнопки для экспорта данных находятся:

  • слева над таблицей результатов — выгружает текущую таблицу;
  • в главном меню: пункт «Экспорт» → «Специальные отчёты» → «Редиректы» → «Цепочки редиректов».

Отчет по ошибкам

 

2.2.2. Дубликаты и битые ссылки

Дубли страниц и битые ссылки также негативно влияют на краулинговый бюджет, так как робот тратит свои лимиты на их обход вместо того, чтобы сканировать исправно работающие ссылки и актуальные страницы.

Уследить за появлением дубликатов и битых ссылок часто не представляется возможным, особенно на сайтах-гигантах. Именно поэтому важно регулярно проводить технический аудит сайта и устранять подобные проблемы. В этом вам также может помочь Netpeak Spider. Для поиска дублированного контента и битых ссылок выполните несколько простых действий:

  1. Введите адрес сайта и запустите сканирование с настройками по умолчанию. 
  2. Перейдите на боковую панель и откройте вкладку со списком ошибок, чтобы увидеть все проблемы на данном сайте. 
  3. Кликните по названию той или иной ошибки, чтобы получить подробные данные о ней и увидеть список страниц, на которых эта ошибка была найдена.

2.3. Настраиваем 304 Last-Modified

HTTP-заголовок Last-Modified указывает роботу дату последнего изменения страницы. Если страница с последнего посещения не менялась, робот не будет снова её сканировать. Это существенно экономит краулинговый бюджет, особенно для сайтов с часто обновляемым контентом.

2.3.1. Проверка наличия заголовка Last-Modified

Чтобы проверить, настроен ли на отдельной странице заголовок, воспользуйтесь онлайн-сервисом Last-Modified.com.

Проверка наличия ласт-модифид

Для проверки всех страниц сайта сразу просканируйте его в Netpeak Spider:

  1. Запустите сканирование с применением настроек по умолчанию.
  2. В таблице всех результатов ознакомьтесь с содержимым колонки «Last-Modified».

Last modified

 

2.3.2. Настройка заголовка Last-Modified 

Если Last-Modified не был найден, выполните его установку.

Для статических сайтов пропишите следующий метатег (c нужной датой) в коде каждой отдельной страницы:

<meta http-equiv=»Last-Modified» content=»Fri, 19 Dec 2018 16:07:44 GMT»>

Для динамических сайтов рекомендуется использовать настройку в PHP. В этом случае следует поместить в header.php перед закрывающим тегом </head> следующий отрывок кода:

<?php
$LastModified_unix = 1294844676;
$Last Modified = gmdate(«D, d M Y H:i:s GMT», $LastModified_unix);
$IfModifiedSince = false;
if (isset($_ENV[‘HTTP_IF_MODIFIED_SINCE’]))
$IfModifiedSince = strtotime(substr($_ENV[‘HTTP_IF_MODIFIED_SINCE’], 5));
if (isset($_SERVER[‘HTTP_IF_MODIFIED_SINCE’]))
$IfModifiedSince = strtotime(substr($_SERVER[‘HTTP_IF_MODIFIED_SINCE’], 5));
If ($IfModifiedSince && $IfModifiedSince >= &LastModified_unix) {
header ($_SERVER[‘SERVER_PROTOCOL’] . ‘ 304 Not Modified’);
exit;
}
header(‘Last-Modified: ‘ . $LastModified);
?>

Также вместо ручной настройки можно воспользоваться различными плагинами, например, в случае с WordPress она выполняется с помощью WP Super Cache, Clearfy, Last Modified Timestamp и пр.

2.4. Следим за «чистотой» карты сайта

Карта сайта помогает поисковым роботам упросить краулинг и быстрее находить новый контент. Чтобы она работала исправно, регулярно обновляйте её и удаляйте «мусорные» страницы.

С помощью встроенного инструмента Netpeak Spider «Валидатор XML Sitemap» вы можете найти критические ошибки (если они имеются) в вашей карте сайта.

  1. Откройте меню «Инструменты» и выберите «Валидатор XML Sitemap».
  2. В поле «URL карты сайта» вставьте адрес вашей карты и нажмите «Старт».
  3. По завершению сканирования ознакомьтесь с найденными ошибками на боковой панели инструмента.

Карта сайта сайтмап

Если в карту сайта были внесены изменения, с помощью валидатора вы можете известить об этом поисковые системы Google и Bing. Для этого в верхнем правом углу над вкладкой с ошибками нажмите «Отправить Ping поисковым системам» и выберите нужную вам поисковую систему.

Коротко о главном

Краулинговый бюджет — это количество страниц на сайте, которые обходит робот-краулер за определённый промежуток времени. Он всегда ограничен, и если зачастую небольшим веб-ресурсам можно не беспокоиться на этот счёт, то средним и большим сайтам рекомендуется заниматься его оптимизацией. Нехватка краулингового бюджета может привести к тому, что новые страницы сайта не будут попадать в индекс, и следовательно, в поисковую выдачу.

Существует немало методов увеличения краулингового бюджета, среди которых наиболее приоритетными являются:

  • Проверка важных для продвижения страниц в файле в robots.txt.
  • Устранение цепочек редиректов, дублей страниц и битых ссылок на сайте.
  • Настройка заголовка Last-Modified.
  • Чистка карты сайта от «мусорных» страниц.

Произвести большую часть технических работ, описанных выше, можно с помощью Netpeak Spider.

А какие методы оптимизации краулингового бюджета используете вы?

Расскажите о своих методах в комментариях под этим постом.

uaweb.ua

Внутренние ссылки

Распределение ссылочной массы по сайту крайне важно! Конечно, внутренние ссылки должны продвигать наиболее важные страницы вашего сайта, но так же они должны помогать поисковым роботам добираться до всех страниц сайта в минимальное число кликов. Отчет о внутренних ссылках в Google Webmaster Tools — это один из самых простых способов определить, какие страницы считаются самыми важными (на основе вашей внутренней ссылочной структуры).Краулинговый бюджет

google-internal-links-report

Если в верхней части таблицы у вас отображены не самые важные страницы вашего сайта, то имеются проблемы с правильной структурой и перелинковкой сайта. Очень часто такие проблемы появляются у блогов, когда самыми «сильными» страницами становятся главная и категории. Проведя правильную оптимизацию, можно уменьшить частоту сканирования страниц сайта, уменьшить нагрузку на сервер с сайтом и улучшить индексацию нового материала. Так же следует учесть, что при правильном перераспределении веса можно получить дополнительный трафик за счет улучшения позиций сайта в ПС.

Очень эффективными в данном плане становятся обычные HTML карты сайта, отражающие все страницы сайта (по рубрикам, датам, алфавиту и т.д.). Так же в Google Webmaster Tools можно найти информацию и о том, сколько страниц было обработано в конкретный день.

Чеклист или конкретные действия

  • Использование HTTP заголовков if modifed/last modified существенно улучшит ситуацию. Нужно отдавать 304 ответ сервера при запросе к страницам, которые не претерпели изменения с последнего обращения робота, тогда ему не придется заново ее сканировать, а он просто пропустит ее и пойдет дальше;
  • Наличие XML и HTML карта сайта. Не ограничивайтесь созданием лишь xml карт, информация оттуда может не использоваться поисковыми системами, ведь ее очень просто подделать;
  • Правильная настройка работы с XML картой сайта (обновление, разбиение разных категорий контента в расстановка приоритетов, пинг новых записей в ПС);
  • Правильная настройка Robots.txt и использование rel=canonical очень важны — избавляемся от всего мусора в индексе: страницы пагаинации, фильтрации, прочие явно низкокачественные страницы. Это простое действие оказывает очень важное влияние на индексирование сайта и краулинговый бюджет;
  • Оптимизация внутренней ссылочной массы и перелинковки;

Итоги и выводы

Использование 304 If-Modified-Since HTTP заголовка может в значительной степени сэкономить и оптимизировать ваш краулинговый бюджет.

После установки и настройки, можно незначительно изменить ключевые страницы сайта, дабы они получили приоритет над менее важными. Так же обновление страниц можно проводить периодически, для поддержания их актуальности в ПС.

 

sawinyh.ru

Чем важен краулинговый бюджет?

Чем больше краулинговый бюджет и чем лучше менеджмент, тем быстрее Google будет находить важные веб-страницы.

Определение бюджета

В Google Search Console содержатся достаточно общие, но важные данные для этого шага. Зайдите в свой аккаунт Search Console, затем: Crawl -> Crawl Stats.
Здесь вы узнаете, сколько ваших страниц ежедневно сканируются.

Краулинговый бюджет

 

На этом скриншоте сообщается, что Google ежедневно сканирует 32 страницы сайта. За месяц: 32*30=960.
Конечно, эти данные могут меняться. Но так вы сможете составить общее представление о том, сколько страниц Google может просканировать за определенный период.
Если нужна более детальная статистика, понадобится проанализировать серверные логи. Месторасположение файлов журналов зависит от конфигурации.
Apache обычно сохраняет их здесь:

  • /var/log/httpd/access_log
  • /var/log/apache2/access.log
  • /var/log/httpd-access.log

Эти файлы сложно читать и анализировать (понадобятся знания регулярных выражений уровня джидая), либо специализированные инструменты.

Как поисковики формируют краулинговый бюджет?

Об этом нет точных сведений. Нельзя с определенностью сказать, как поисковые системы формируют краулинговый бюджет для сайтов. Считается, что Google учитывает два фактора:

  • Популярность — более популярные страницы сканируются чаще других
  • Запаздывание («staleness» error, или ошибка из-за устаревания данных) — Google не позволяет данным о страницах устаревать.

Судя по всему, термином «популярность» Google заменяет устаревший PageRank.
В 2010 бывший сотрудник Google Мэтт Каттс сказал, что «ориентировочное число страниц, которые мы сканируем, пропорционально вашему PageRank».
Сейчас PageRank уже не предается всеобщей огласке, поэтому можно сказать, что краулинговый бюджет пропорционален количеству обратных ссылок и значимости сайта «в глазах» Google.
Как насчет внутренних ссылок? Возможно ли увеличить скорость сканирования конкретной страницы, если направить на нее больше внутренних ссылок? Чтобы ответить на эти вопросы, мы решили выяснить, есть ли связь между внутренними/внешними ссылками и статистическими данными. Были созданы данные для 11 сайтов и проведено простое сравнение.

С помощью инструмента Website Auditor мы создали проекты для 11 сайтов. Подсчитали количество внутренних ссылок, ведущих на каждую страницу каждого из этих сайтов. Затем с помощью SEO Spyglass проверили проекты для этих же 11 сайтов. В каждом проекте проверили статистику и скопировали анкорные ссылки и несколько внешних ссылок, ведущих на каждую страницу. Затем анализировалась статистика сканирования в журналах веб-сервера, чтобы посмотреть, как часто Googlebot посещает страницы. Все данные в таблице.

Краулинговый бюджет

Эти данные свидетельствуют о наличии корреляции (0,978) между числом посещений краулера и числом внешних ссылок. В то же время, корреляция между посещениями и внутренними ссылками очень слабая (0,154).
Это говорит о том, что обратные ссылки куда весомее для сайта, чем внутренние ссылки.

Означает ли это, что единственный способ улучшить краулинговый бюджет — привлекать ссылки и публиковать свежий контент? Если говорить в общем о ссылочном профиле сайта, то да. Собирайте ссылки, часто обновляйте контент, и краулинговый бюджет будет расти пропорционально.
Но что касается отдельных страниц… Примеры, которые будут описываться дальше, показывают, что можно попросту тратить краулинговый бюджет, даже не отдавая себе в этом отчет.
Но при хорошем менеджменте можно удвоить количество сканирований отдельных страниц — однако краулинговый бюджет все еще будет пропорционален количеству обратных ссылок каждой страницы.

1. Важные страницы должны быть доступны, менее важные — заблокированы

Файлы .htaccess и robots.txt не должны блокировать важные страницы сайта. У ботов должен быть доступ к файлам CSS и Javascript. Вместе с тем, стоит блокировать контент, который в поисковой выдаче не нужен. В первую очередь, это дублирующий контент, страницы, которые подвергаются редизайну, динамически генерируемые URL и прочее.

Краулинговый бюджет

  1. Запустите Website Auditor (инструмент для создания и управления robots.txt.), скачать его можно на сайте разработчика.
  2. Перейдите к вкладке Pages. Кликнув по иконке Robots.txt, вы увидите содержимое файла robots.txt.
  3. Чтобы добавить новое правило в robots.txt, кликните Add rule. Вы можете выбрать инструкцию (Disallow или Allow), краулер (впишите его название или выберите из списка распространенных поисковых ботов), URL или директорию, которую вы также хотели бы заблокировать.
  4. Существующие правила можно удалять или редактировать.
  5. Завершив редактирование, кликните Next. Сохраните файл на жестком диске или загрузите его на сайт через FTP.

В модуле Pages можно узнать статистику, относящуюся к краулеру. Кэш Google, Bing и Yahoo, инструкции robots.txt и код состояния HTTP.

Краулинговый бюджет

Стоит учитывать, что поисковые пауки не всегда следуют инструкциям в файле robots.txt.

И хотя страница блокируется в robots.txt, Google об этом знает. Она не кэшируется, для нее не создается стандартный сниппет.
Вот, что об этом предмете говорит Google:
Директива Disallow файла robots.txt не гарантирует отсутствия страницы в результатах поиска. Поисковая система все равно может просканировать ее с учетом релевантной сторонней информации, такой как входящие ссылки. Если вы хотите строго запретить индексирование страницы, используйте метатег robots со значением noindex или HTTP-заголовок X-Robots-Tag. В этом случае не следует блокировать доступ к странице в файле robots.txt, поскольку робот Google должен просканировать ее, чтобы обнаружить тег и выполнить директиву.

Если вы устанавливаете директиву disallow для больших файлов, блокируя папки, Googlebot может посчитать, что это сделано по ошибке и продолжить сканирование ограниченных зон.

2. Избегайте длинных цепочек переадресации

Если имеет место неоправданно большое количество редиректов 301 и 302, краулеры на каком-то этапе могут остановиться и нужная страница не будет сканироваться. Более того, каждый перенаправленный URL — это потеря элемента из краулингового бюджета. Проверьте, нет ли последовательных двух, трех редиректов, а также убедитесь, что они по-настоящему нужны.
Полный список редиректов можно найти в WebSite Auditor.

  • Откройте свой проект и перейдите к модулю Site Audit.
  • Кликните по Pages with 302 redirect и Pages with 301 .
  • Кликните Pages with long redirect chains, чтобы получить список URL с более чем двумя последовательными редиректами.

Краулинговый бюджет

3. Управление параметрами URL

Популярные системы управления контентом генерируют множество динамических URL, некоторые из которых могут вести на одну и ту же страницу. По умолчанию поисковые боты обрабатывают эти URL как отдельные страницы; в результате весь краулинговый бюджет может быть исчерпан, также может появиться дублирующийся контент. Если движок веб-сайта или CMS добавляет параметры URL, которые не влияют на контент страниц, удостоверьтесь, что Googlebot об этом знает. Добавьте эти параметры в своем аккаунте Google Search Console (Сканирование-> Параметры URL).

4. Поиск и устранение ошибок HTTP

Любой URL, который Google сканирует, в т.ч. CSS и JavaScript, приходится на один из элементов краулингового бюджета. Незачем тратить бюджет на страницы 404 или 503, не так ли? Проверьте наличие недоступных ссылок или серверных ошибок, исправьте их как можно скорее.

  • В проекте Website Auditor перейдите: Site Structure > Site Audit.
  • Кликните Broken links. На панели справа есть список недоступных ссылок на сайте, которые нужно исправить.
  • Затем кликните Resources with 4xx status code и Resources with 5xx status code, чтобы узнать список ресурсов, которые возвращают ошибки HTTP.

Краулинговый бюджет

5. Использование RSS

Паук Google достаточно регулярно посещает RSS-каналы. Если определенные разделы на вашем сайте обновляются часто (блог, страницы с рекомендуемыми товарами, раздел новой продукции) — не забудьте создать для всего этого RSS-канал и добавить в Google Feed Burner.

6. Обновляйте sitemap

XML-файлы sitemap играют важную роль в сканировании сайта. Эти файлы сообщают поисковым системам, как организован контент, и позволяют ботам находить новый контент быстрее.
XML sitemap следует регулярно обновлять и освобождать от мусора (неканонические страницы, URL, которые перенаправляют на другие страницы, и блокирующиеся страницы).

Список таких URL выдаст инструмент Website Auditor.

  • В проекте WebSite Auditor перейдите к модулю Site Audit
  • Кликните Pages with 4xx status code, чтобы получить список страниц 4xx, если они есть. Скопируйте URL в отдельный файл (подойдет любая таблица или текстовый редактор).

Краулинговый бюджет

  • Кликните Pages with 301 redirect, после чего появится список страниц 301. Скопируйте их также.
  • Повторите то же с Pages with 302 redirect.
  • Кликните Pages with rel=’canonical’, чтобы получить список канонических и неканонических страниц. Добавьте эти URL в список.

В Website Auditor также присутствует удобный генератор XML sitemap. Кликните Sitemap, чтобы создать XML.

Краулинговый бюджет

Если у вас большой сайт со множеством разделов, не будет лишним создать отдельный sitemap для каждого из них, что позволит быстро находить разделы сайта с ошибками сканирования. К примеру, у вас может быть sitemap для доски обсуждений, еще один sitemap для блога и еще для основных страниц сайта. Для e-commerce-площадок уместно создавать отдельные sitemap для больших товарных категорий.
Проверьте, что все файлы sitemap доступны краулерам. Вы можете добавить ссылки на файлы sitemap в robots.txt и зарегистрировать их в Search Console.

7. Структура сайта и внутренние ссылки

И хотя нет прямой связи между внутренними ссылками и вашим бюджетом, структура сайта все еще остается важным фактором, который позволяет сделать контент доступным поисковым ботам.
У древовидной структуры сайта множество преимуществ, в частности, UX.
Есть хороший ориентир: держать важные разделы сайта на расстоянии не более 3 кликов от любой страницы. Добавьте важные страницы и категории в меню сайта или футер.
Как можно видеть, SEO — это не только «ценный контент» и «ссылки из авторитетных источников». Вы сделали яркий фасад сайта, теперь не будет лишним спуститься в подвал, поохотиться на пауков, и так улучшить позиции в выдаче.

astra.red


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.