Регистрация

robots.txt

TipTop 30-06-2009, 11:34 3506 Хаки DLE

В этой записи я расскажу о том, как сделать правильный robots.txt для своего сайта на Даталайф.

Откуда проблемы?
Имея кучу сайтов на DataLife Engine, сталкиваешься с одинаковыми проблемами: к примеру, Яндекс проиндексировал печатные версии страниц (url вида print:…), конечно же, Сапа не видит их. А Яндексу они приятнее, так как всякого мусора на них меньше: только контент. Или же Яндекс индексирует ссылки вида ”my-dle-site/user/ya-spamer”, на которых куча внешних ссылок в профилях и никакого контента.
Вообще, причины вспомнить о robots.txt могут быть разными, к примеру, в этом заветном файле можно передать Sitemap Google’у и Яндексу не заходя в панель вебмастера.

Как сделать правильно?
Почитав и интернете форумы и официальные мануалы поисковиков и сравнивая прочитанное, можно сказать, что люди часто не читают руководств и ошибаются, к примеру, в robots.txt нет директивы”Allow” есть только”Disallow”
Для начала давайте выясним, чего мы хотим от нашего файла:
Хорошая индексируемость нужных страниц ПС
Отсутствие ненужных страниц в индексе ПС (всё равно вылетят из индекса)
Задание заркала для Яндекса

Если хотите разобраться, тогда давайте по порядку. Это запретит индексировать всем поисковым роботам страницы для печати:

User-agent: *
Disallow: /*print



Уберём из индекса страницы без контента (они рано или поздно всё выпадут):


Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /favorites/
Disallow: /index.php?do=register
Disallow: /?do=lastcomments
Disallow: /statistics.html


По вкусу, и в зависимости от уровня Вашей паранои можно добавить также:


Disallow: /index.php?do=pm
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?subaction=newposts


Теперь любезно добавляем Sitemap для Поисковых систем. Вы наверняка прекрасно знаете, насколько он полезен для индексации Вашего сайта.
Идём в админку -> другие разделы -> в самом низу заходим в «Google Sitemap». Оставляем все настройки по умолчанию и жмём «создать/обновить». Сверху должна появиться надпись вида «25.01.2009 10:37 файл индекса для Google Sitemap был создан и доступен по адресу: http://my-dle-site.ru/sitemap.xml». Теперь даём знать о нём поисковикам:

Sitemap: http://my-dle-site.ru/sitemap.xml


И добавляем основное зеркало для Яндекса, чтобы не было недоразумений с его стороны) Идём по адресу: http://yandex.ru/yandsearch?serverurl=my-dle-site.ru
и смотрим, как проиндексирован Ваш сайт с www или без. Добавляем в robots.txt директиву вида:


User-agent: Yandex
Host: my-dle-site.ru



my-dle-site.ru, если сайт в индексе без www, и наоборот. Если сайт ещё не проиндексирован Яшей, то указывайте так, как Вам больше нравится видеть Ваш сайт.

Вот и всё. Правильный robots.txt для ДЛЕ будет выглядеть примерно так:


User-agent: *
Disallow: /*print
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /user/
Disallow: /favorites/
Disallow: /index.php?do=register
Disallow: /?do=lastcomments
Disallow: /statistics.html
Sitemap: http://my-dle-site.ru/sitemap.xml
User-agent: Yandex
Host: my-dle-site.ru



Потратив 5 минут на создание такого файла можно значительно облегчить себе/поисковикам жизнь/работу в дальнейшем.

Другие публикации по категории:

Модификация прибавления страниц в Карту сайта для Google и Яндекса

Возможности DataLife Engine разрешают создовать кроме страниц контента распределённого по

10.05.11 Хаки DLE
Авто защита Datalife Engine от внешних ссылок

Этот первоочередной хак должен юзать любой вебмастер перед тем как выпустить свой сайт в мир.

11.11.10 Хаки DLE
Повышаем качество индексации

Все знают, что карта сайта в формате XML играет важный роль для быстрой индексации всех страниц

09.10.09 Хаки DLE

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Powered by Dleshka.org. Сайт предназначен для выбора шаблонов и дополнений с использованием CMS DataLife Engine.
Закрыть