Наверное, каждый веб мастер видел у себя на хостинге в корневом каталоге файл robots.txt, если создавал сайт с помощью CMS. Более продвинутые разработчики создают и правят этот файл сами. Без него можно обойтись. Но именно его отсутствие может не только навредить вашему сайту, а как не странно – вывести его из строя.
Некоторые пользователи любят создавать форумы, гостевые книги и поля для комментариев. Но при этом допускают одну большую ошибку – либо забывают, что они это сделали и вовсе не контролируют созданное, либо помнят, не выставляют в меру различных причин защитный инструментарий. После таких ошибок всевозможные открытые поля ввода за считанные дни покрываются спамом, нецензурной бранью, посторонней рекламой и иными действиями и поступками. И что самое страшное – всё это остаётся на анализ роботам. А последним всё равно, что анализировать. Данные передаются службам, а при обнаружении проблем и неполадок – в РосКомНадзор. А там уже решают, что с вами делать.
Файл robots.txt устанавливает правила и исключение на сканирование ваших страниц сайтов. С помощью этого файла можно запретить доступ на форум, поля комментарий или любую гостевую книгу. Так же можно не индексировать личную информацию, текста с закрытых страниц и многое другое, что очень полезно не только в целях защиты, но и конфиденциальности.
Язык написания команд простой и базируется на регулярных выражениях, которые можно найти в сети и перестроить под свой сайт. Так же в файле robots.txt можно запретить:
1. Посещать определённые папки сайта, страницы, разделы, домены.
2. Считывать информацию с определённого IP адреса.
3. Поиск и индексирование определёнными поисковиками.
Файл настройки может не только запретить индексацию определённой папки или страницы, а так же перенаправление в другой каталог или зеркало. Самым эффективным использованием файла robots.txt является запрет индексации:
1. Административных папок и файлов.
2. Фалов, о которых не рекомендуется знать пользователю.
3. Документы, предназначены для печати.
4. Файлы и папки со скриптами, картинками.
5. Серверные страницы, карты Google и Яндекса.
Тем самым настройка файла robots.txt поможет вам не только обезопасить себя и свой сайт от нежелательного индексирования лишних или конфиденциальных файлов, но и ускорит саму индексацию роботом, а так же предотвратит блокировку аккаунта из-за назойливых спамщиков.