Индексация сайта: Управление индексацией

То что Ваш сайт проиндексировался – это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы вы хотели видеть страницы вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру. Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-маагазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.

1. Управление индексацией при помощи файла robots.txt
Файл robots.txt является самым популярным инструмент, посредством которого вы сможете эффективно управлять индексацией вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.

2.Основная информация по файлу robots.txt
Файл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.
К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.
Основные требования:
• все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр: robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно;
• файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;
• файл robots.txt должен быть размещен в корневом каталоге сайта.

2.1. Содержимое файла robots.txt
Файл robots.txt обязательно включает в себя две директивы: «User-agent» и «Disallow». Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву «Host» для определения основного зеркала сайта.
Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.
Директива «User-agent»
Запись «User-agent» должна содержать название поискового робота. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:
User-agent: *
Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Яндекс:
User-agent: Yandex
Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать эти названия:
1. На сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру» (на Яндексе он тоже есть http://webmaster.yandex.ru/faq.xml), в котором часто указываются названия поисковых роботов.
2. При просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.
Названия основных роботов популярных поисковых систем:
Google – «googlebot»;
Яндекса – «Yandex»;
Рамблера – «StackRambler»;
Yahoo! – «Yahoo! Slurp»;
MSN – «msnbot».
Директива «Disallow»
Директива «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.
Рассмотрим различные примеры записи «Disallow».
Пример1.Сайт полностью открыт для индексирования:
Disallow:
Пример 2. Для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»:
Disallow: /page.htm
Disallow: /dir/page2.htm
Пример 3. Для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории:
Disallow: /cgi-bin/
Disallow: /forum/
Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.
Пример 4. Для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д:
Disallow: /dir
Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система Google поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов.
Пример 5. Запрет индексации файлов с расширением «htm»:
Disallow: *.htm$
Директива «Host»
Директива «Host» необходима для определения основного зеркала сайта, то есть, если сайт имеет зеркало, то с помощью директивы «Host» можно выбрать url того сайта, под которым проиндексируется ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.
В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.
Пример 6. www.site.ru – основное зеркало:
Host: www.site.ru
Оформление комментариев в файле robots.txt
Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.
Пример 7. Комментарий находится на одной строке вместе с директивой:
Disallow: /cgi-bin/ #комментарий
Желательно размещать комментарий на отдельной строке.

2.2 Управление индексацией с помощью мета-тегов
С помощью мета-тегов тоже можно управлять индексацией страниц сайта. Мета-теги должны находиться в заголовке HTML-документа (между тегами <HEAD> и </HEAD>).
<META NAME="имя" CONTENT="содержимое">
Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы вашего сайта:
1. <META NAME="robots" CONTENT="all"> или <META NAME="Robots" CONTENT="NOINDEX,FOLLOW"> – управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он не индексировал все страницы.
2. <META NAME="description" CONTENT="Описание страницы или сайта"> – необходим для поисковых систем, чтобы определить релевантна ли страница данному запросу.
3. <META NAME="keywords" CONTENT="ключевые, слова, о, вашей, странице, через, запятую"> – повышает вероятность нахождения страницы поисковиком по выбранному запросу (ам).
4. <META NAME="document-state"CONTENT="dynamic"> – управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что ваш документ является динамичным и роботу следует индексировать его регулярно.
Есть теги, которые непосредственно к индексации не относятся, но выполняют также важную роль дл удобства работы пользователя с сайтом:
1. <META HTTP-EQUIV="pragma" CONTENT="no-cache"> – контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.
2. <META HTTP-EQUIV="refresh" CONTENT="7, URL=http:\\www.server.com\page.html"> – определение задержки в секундах, после которой браузер автоматически обновляет документ или происходит редирект.
3. <'META HTTP-EQUIV="expires" CONTENT="Wed, 01 Aug 2006 08:21:57 GMT"> – указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.
Есть еще один мета-тег revisit-after, по поводу использования, которого ходило раньше много слухов, что он может заставить роботы поисковых систем посещать сайт с определенной периодичностью, однако специалисты Яндекс официально опровергли это.
Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.
Для того, чтобы прописать их не нужно много времени, поэтому старайтесь ввести максимально полную мета-информацию о странице.
Источник : http://www.seonews.ru

1 комментарий:

Unknown16 мая 2014 г. в 12:05
Купить обратные ссылки в LinxGo быстро и не дорого! Веб-приложение для найма аккредитованных обратных ссылок, оптимизированных и индексируемых поисковыми системами. Платформа, которая позволяет создавать цепи обратных ссылок сразу, более чем с 500 каталогами, с отчетом о расположении Ваших обратных ссылок. Множество вариантов для позиционирования в поисковых системах через массовую публикацию контента. Более подробную информацию смотрите здесь http://linxgo.com/HghBE0 или на самом сайте http://linxgo.com
ОтветитьУдалить
Ответы

Добавить комментарий

Индексация сайта

среда, 17 ноября 2010 г.

Управление индексацией

1 комментарий:

Обо мне

Архив блога

среда, 17 ноября 2010 г.

Управление индексацией

1 комментарий:

среда, 17 ноября 2010 г.