Перейти к содержанию

13.09.2013

Как составить Robots.txt. Часть 1

robots-txt

Robots.txt. Давайте сегодня мы поговорим с Вами разговор о том, как правильно составить и использовать файл под названием robots.txt. Но прежде всего давайте все же разберемся для чего служит этот файл robots.txt? Этот файл служит для того, чтобы показать поисковым роботам, прежде всего таким поисковым системам, как Яндекс и Google, какие папки и файлы сайта или блога запрещены к индексации ими. Файл robots.txt располагается как правило в корневой директории блога или сайта.
Для таких сайтов,которые состоят из небольшого количества страниц, где то до 50, сайтов, составление файла robots.txt практически ненужно. Такие сайты создаются для того, чтобы все страницы его индексировались поисковыми системами. Иначе, для чего его вообще создавать.
Совсем по другому состоит дело при создании больших динамических многостраничных проектов. Они создаются, как правило на CMS WordPress, DLE и других. Их в интернете довольно много: как платных, так и бесплатных. К примеру на WordPress, при создании блога или другого какого ресурса, имеется возможность появления дублированного контекста. А это может отриццательно влиять на ранжирование сайта или блога в поисковых системах. Поэтому там активно используется файл robots.txt.
Например, Yandex, для более быстрого удаления из индексации некоторых директорий блога требует прописывания исключаемых из индекса директорий в файле robots.txt.
Файл robots.txt обычно выглядит так:
User-agent: *
Disallow: /delo.php
Disallow: /d123/
Disallow: /travel/dat/
Разберем поподробней.
В строчке User-agent мы указываем конкретный робот ( Yandex, Google, StackRambler ) или ставим * – тем самым мы указываем - все роботы.

В строчке Disallow указываем путь к конкретному файлу или папке , запрещенной к индексации . Для разрешения доступа роботу к конкретным частям блога или блогу целиком, используют такую директиву, как Allow. При этом,пустые строки в файле robots.text между строками User-agent и Disallow, и Allow не допускаются.
Многие, для улучшения индексации сайта используют sitemaps.xml. С помощью этого файла составляется карта сайта или блога. Вот ее и скармливают поисковому роботу.Путь к Sitemap также прописывают в robots.text.

Например:

User-agent: Yandex
Allow: /
Sitemap: http://mуsite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://mуsite.ru/site_structure/my_sitemaps2.xml

Так же в robots.text можно вставить главное зеркало Вашего сайта.Для этого используется директива Host. Эта директива, как утверждает Help Яндекса, не дает гарантии при выборе указанного хоста как главного зеркала, но при принятии нужного решения все же учитывает ее с довольно высоким приоритетом.
Например: Возьмем www.mуsite.ru как главное зеркало блога, следовательно robots.txt для всех блогов из группы зеркал будет выглядеть так

User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.mysite.ru

Воспользовавшись директивой Crawl-delay, вы можете задать время обхода поисковиком страниц Вашего блога.С помощью этой директории задается минимальный промежуток времени (в секундах), между окончанием просмотра им одной страницы и началом просмотра последующей.

Например:

User-agent: Yandex
Crawl-delay: 2 # задает таймаут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды

Используя robots.text, Вы тем самым помогаете поисковому роботу индексировать Ваш ресурс так, как Вы бы это хотели.

Поделитесь своими мыслями, оставьте комментарий.

(required)
(required)

Внимание: HTML допускается. Ваш e-mail никогда не будет опубликован.

Подписка на комментарии