Правильный robots.txt. Дублированный контент

Автор: lettore

Рубрики: SEO

Правильный robots.txt для wordpress

правильный robots.txt

Как выглядит правильный robots.txt для wordpress — вот в чем вопрос! Он волнует многих и как правило каждый сайтодержатель оформляет его по разному. Действительно его содержание зависит от ваших требований и желаний.

Далее читателям на заметку об этом расскажу по подробнее.

Дублированный контент

Как только сайт или блог увидел белый свет на него сразу начинают нападать поисковые роботы пытаясь вырвать все вкусняшки. Тем самым поиск забивается дублированными страницами. Единственное дельное объяснение, которое дает понять для чего нужно запрещать индексацию дублированного контента, это дает больше времени роботу проиндексировать полезную информацию.

Сервис проверки robots.txt  от яндекса  и правила оформления robots.txt

Для WordPress могу посоветовать плагин, который помогает автоматичесии избавляться от дублированного контента из комментариев.

В своем robots.txt я постарался избавиться дублированного контента. Вот шаблон robots.txt:

Содержание robots.txt:

  • User-agent: *
  • Disallow: /cgi-bin
  • Allow: /wp-content/uploads
  • Disallow: /download
  • Disallow: /wp-admin
  • Disallow: /wp-content
  • Disallow: /wp-content/plugins
  • Disallow: /wp-content/cache
  • Disallow: /wp-content/themes
  • Disallow: /wp-trackback
  • Disallow: /wp-feed
  • Disallow: /wp-comments
  • Disallow: /wp-includes
  • Disallow: /wp-login.php
  • Disallow: /wp-register.php
  • Disallow: /xmlrpc.php
  • Disallow: /topic
  • Disallow: /archive
  • Disallow: /page
  • Disallow: /attachment
  • Disallow: */comments
  • Disallow: /comments
  • Disallow: */trackback
  • Disallow: */feed
  • Disallow: /feed
  • Disallow: /?feed=
  • Disallow: /?s=
  • Disallow: /*utm_
  • Disallow: */comment-page-*
  • Disallow: *?replytocom
  • Clean-param: utm_source
  • Host: www.lettore.ru
  • User-agent: MediaPartners-Google
  • Allow: /
  • Sitemap: http://lettore.ru/sitemap.xml

Вот видео на котором Мэтт Катс поясняет почему важно иметь файл robots.txt

[youtube]P7GY1fE5JQQ&feature[/youtube]

Мэтт Катс подметил, что если есть возможность создать файл robots.txt, лучше это сделать, пусть даже совсем пустой или с User-agent: *Disallow и не заполненный. Оба варианта Google воспринимает как полностью равнозначные. Однако личный совет от Катса – использовать вариант с User-agent: *Disallow, который дает поисковику понять, что вебмастер сознательно разрешает роботу индексировать все на сайте. В случае пустого файла можно предположить, что кто-то по ошибке удалил его содержимое.

В правильной настройке индексации сайта вам всегда поможет seo специалист.

Подпишись и узнаешь быстрее всех!

subscribe Система Orphus