Как самостоятельно создать и без ошибок настроить robots.txt

Роботы поисковиков периодически сканируют все интернет-пространство. Они фиксируют все изменения: новые сайты, новые страницы, изменение контента на просмотренных ранее ресурсах. На основании полученной информации они принимают решение: оставить страницы без внимания или же занести их в базу поиска. В зависимости от размещенной информации страницы имеют различный вес. Календарь, политика конфиденциальности, точное время, прогноз погоды в данном регионе — эти виджеты можно назвать техническими и не вносить в каталог. Наоборот, тексты с релевантным содержанием и рекламными блоками нуждаются в индексации.

Индексирование сайта: как происходит?

При посещении страницы поисковые программы (их называют еще роботами, спайдерами, краулерами, пауками) определяют ее технические параметры: ключевые слова (о чем эта страница?), характеристики текста, изображения, видео, элементы управления, внутренние и внешние ссылки.

Полученная информация заносится в список (базу) инспектирования (этот список или каталог тоже иногда называют индексом). Информацию о результатах проверки можно увидеть в Яндекс Вебмастере или Google Search Console. Процессы проверки в Яндекс и Google имеют много общего; различия касаются периодичности обхода, времени анализа, выводов о релевантности страницы. Один и тот же сайт в разных поисковых системах находится на разных позициях.

Когда пользователь вводит поисковый запрос в строку поиска, поисковая система не просматривает все сайты интернета, а ищет в каталоге. Найденные ссылки и страницы оцениваются более чем за 200 критериями и выдаются в порядке ранжирования. На место в выдаче влияет не только качество контента и полнота ответа на запрос, а многие технические моменты: скорость загрузки, мобильная версия, удобство для пользователей.

Если страницы нет в каталоге — она не показывается в выдаче, на нее не могут перейти посетители. Поэтому вебмастера стремятся к тому, чтобы индексирование произошло как можно быстрее и в каталоге оказалось как можно больше текстов. Ускорить процесс индексации или как-то повлиять на него невозможно, а закрыть от просмотра некоторую часть контента — вполне. С этой целью создается и используется robots.txt.

Возможности файла

Robots очень полезен сайту и решает целый ряд задач. Вот что он делает:

оптимизирует бюджет краулинга— общее число страниц, проверяемое программами поиска за фиксированный отрезок времени. Состояние бюджета можно посмотреть в Google S. Console, вкладка «Статистика»;
запрещает индексацию страниц, тех частей сайта, где размещается второстепенная информация (владелец не хочет ее рекламировать по каким-то своим соображениям);
дает указания поисковому роботу, какие блоки требуется включить в каталог;
разграничивает доступ ботам от разных поисковиков: Яндексу — одни, Google — другие;
показывает расположение зеркала — с помощью директивы host;
запрещает сбор сведений без разрешения владельца.

Управление доступом к индексированию осуществляется с 1994 года, но до сих пор не потеряло своей актуальности. Правильно настроенный robots решает 80% задач, связанных с индексированием сайтов и отдельных страниц.

Какими способами создается robots.txt?

При создании этого файла не нужны какие-то особые программы: достаточно простейшего редактора текстов Windows Блокнота, WordPad или NotePad. После написания текста с «нуля» или редактирования имеющегося его перемещают в главную директорию ресурса. Путь должен быть таким: domen.ru/robots.txt. Правила четко указывают, что он не может находиться в других папках, подпапках, архивах и вложениях. После окончания редактирования текст загружают на сервер; для этого используют FTP-клиент (например, FileZilla, WINSCP). В процессе проверки боты ищут этот файл и выполняют его инструкции.

Для многих интернет-сайтов в robots расположен стандартный текст. Сгенерировать код проще всего в он-лайн генераторе. Много времени для этого не надо; при этом ваши интересы учтены не будут, исключить из базы блоки с нежелательным контентом не удастся. Когда цель продвижения на высокие позиции не ставится, то стандартным robots можно и ограничиться.

Значительно выгодный и эффективный способ — написать код самостоятельно. Для этого не требуется глубоко вникать в программирование. Достаточно знать правила написания команд, основные предписания и верить в свои возможности.

Установки robots

User-agent — называет имя алгоритма, которому предназначена инструкция. Имеет синтаксис: User.agent: * Возможны следующие варианты: YandexBot — для краулера Яндекса; GoogleBot — для Google. Если вместо имени конкретного обходчика стоит «*», то инструкции предназначены для всех программ поиска без разбора.
Allow — по этой директиве индексируются конкретные страницы. Пример: Allow: /stranica01.html —разрешено занести в список stranica01.html.
Запрещающая директива —Disallow — действует противоположно разрешающей: не позволяет проверять страницу. Примеры: Disallow: / — закрыто для индексирования всё; Disallow: / stranica02.html — для индексирования закрыта stranica02. (К этому же результату приводит использование тега noindex).
Host — в системе поиска Яндекс указывает адрес основного зеркала. Возможны следующие записи: а) Host: sitename01.ru; б) Host: www.sitename02.ru; в) Host: htps://sitename03.ru. Не используется с 2018 года.
Sitemap — создается c расширением XML. Пример: Sitemap: www.sitename04.ru/sitemap.xml.
Clean-param — не разрешает индексировать блоки с одинаковым контентом. Эта установка особенно полезна интернет-магазинам. Товары в одной категории отличаются незначительными деталями, (например, цветом), а их описания идентичны. При этом каждый товар представлен на отдельной странице. Со временем накапливаются дубли: логины заказчиков, перезагрузки, повторные покупки. Чтобы эти сведения не засоряли каталог, необходимо в строке Clean-param: указать option /index.php.
Crawl-Delay — ограничение на время анализа страницы в процессе проверки. Используется роботами Яндекса. Когда сервер сильно нагружен, обмен информацией замедляется. Опция регулирует поведение краулера.

Несколько простых правил описывают размещение директив. Каждая занимает одну строку, а следующая — с новой. Незаполненные строки нежелательны; они используются для логического отделения блоков и для лучшего восприятия, ошибок не возникает.

Важная особенность — длина записи. В файле robots высший приоритет имеет более длинная запись. Рассмотрим несколько последовательно расположенных директив: Disallow: /page01(9 символов, начиная с двоеточия); Allow: /pppage02 (11 символов). В этом блоке робот примет во внимание разрешающую запись.

Комбинация установок на запрет и разрешение индексирования для разных разделов, страниц разными ботами может быть самой различной. Правильная настройка значительно ускоряет загрузку.

Синтаксис файла

В строках инструкции для уточнения действий используют всего несколько специальных знаков:

* - подразумевает неопределенное количество знаков. Может находиться только в начале и в середине конструкции. Пример: Allow: /*shlit — разрешен доступ к всем страницам, оканчивающимися на split;
# - используется тогда, когда необходимы комментарии к коду; они помогают ориентироваться в незнакомых записях. Исполнители их игнорируют, а для вебмастеров очень полезны;
$ - прекращение действия ранее обозначенного правила. Действует как противоположность «*». В примере: Disallow: /test$ запрещена проверка страницы, имеющей параметр test, но разрешена для test.ru, test.com.

Имеет значение регистр: большие, малые буквы различаются. «Param» и «param» обозначают совершенно разные адреса. Директивы принимают во внимание тело адреса, «/» указывает, что она расположена непосредственно за корневым каталогом. Рассмотрим строку: Disallow: /start. Бот «понимает» это следующим образом: www.site.ru/start. Чтобы робот мог выполнить такую команду, в начало записи добавляется «*».

Какой контент не нужно проверять? (рекомендации)

итоги поиска. После каждого изменения сохраняются дубли, только увеличивающие занимаемое пространство;
корзины для товаров в интернет-магазинах, настройки фильтров, расчеты стоимости, формы подписки и другие скрипты. А вот скрипты на Java можно не закрывать — они в индекс не попадают;
формы входа и регистрации; эти сведения являются конфиденциальными;
перечни, архивы и папки, входящие в систему. Целевого, рекламного контента в них нет. Их исключение ускоряет процесс проверки.

Возможные ошибки

robots не в главном каталоге, а в другом месте;
строка Disallow: / от анализа закрыто всё;
применяются записи без указания путей; в этом случае алгортьмы заносят в индекс все подряд;
не запрещен анализ страниц с UTM-метками;
неверный адрес карты сайта.

Проверка правильности

После загрузки вновь созданный robots инспектируют. Возможности для этого у каждой поисковой системы свои.

Правильность работы файла можно осуществить с помощью он-лайн сервисов, например pr-cy.ru, Пиксель Тулс.

Выводы

Без индексирования страниц сайта пользователи не могут на них перейти.

Указать роботам, какие страницы нужно включить в каталог, а какие нет, можно в файле robots.txt.

Лучший способ создания и редактирования этого файла — самостоятельно. Это не так сложно. От его правильной настройки зависит результат: попадут посетители на сайт или нет.

Получить коммерческое предложение на услуги