Руководство для начинающих роботов TXT файлов для SEO

  1. Почему я не должен редактировать файл robots.txt с моим FTP-клиентом Dreamweaver, например?
  2. Где я могу разместить файл robots.txt на веб-сайте?
  3. Могу ли я использовать Robots.txt в подкаталогах?
  4. Почему я должен создавать свой файл robots.txt только в формате ASCII?
  5. Могу ли я использовать файл Robots.txt, если я на бесплатном хосте ?
  6. Что я помещаю в файл robots.txt?
  7. Скажем, я хочу сохранить файл / папку вне Google. Что именно мне нужно сделать?
  8. Могу ли я автоматически сгенерировать и замаскировать robots.txt?

Джон Мюллер дал недавнюю презентацию (в видео выше) о том, как использовать файл robots

Джон Мюллер дал недавнюю презентацию (в видео выше) о том, как использовать файл robots.txt. Мой друг Себастьян был также достаточно мил, чтобы помочь мне создать руководство для идиота на Robots.txt. Q & A ниже:

Что ж, у «версии идиота» не будет интересных деталей, но это поможет вам начать. Robots.txt - это простой текстовый файл. Вы не должны редактировать его с помощью HTML-редакторов, текстовых процессоров или других приложений, кроме простого текстового редактора, такого как vi (хорошо, notepad.exe также разрешен). Вы не должны вставлять изображения и тому подобное, также любой другой HTML-код строго запрещен.

Оглавление

Почему я не должен редактировать файл robots.txt с моим FTP-клиентом Dreamweaver, например?

Потому что все эти модные приложения содержат бесполезную ерунду, такую ​​как форматирование, HTML-код и так далее. Скорее всего, поисковые системы не способны интерпретировать файл robots.txt, например:

DOCTYPE text / plain PUBLIC "- // W3C // DTD TEXT 1.0 Transitional // Суахили" "http://www.w3.org/TR/text/DTD/plain1-transitional.dtd"> {\ b \ lang2057 \ langfe1031 \ langnp2057 \ insrsid6911344 \ charrsid11089941 Пользовательский агент: Googlebot } {\ lang2057 \ langfe1031 \ langnp2057 \ insrsid6911344 \ charrsid11089941 \ Отключение строки : / \ \ line Allow: } {\ cs15 \ i \ lrs10 \ lrs10 \ i \ lang2057 \ langfe1031 \ langnp2057 \ insrsid6911344 \ charrsid2903095 content } {\ cs15 \ i \ lang2057 \ langfe1031 \ langnp2057 \ insrsid6911344 \ charrsid2903095 / } ...

(Хорошо, хорошо, я составил этот пример, но он представляет необработанное содержимое текстовых файлов, сохраненных с помощью HTML-редакторов и текстовых процессоров.)

Где я могу разместить файл robots.txt на веб-сайте?

Robots.txt находится в корневом каталоге вашего веб-пространства, например, это домен или поддомен.

"/Web/user/htdocs/example.com/robots.txt"

решив к

http://example.com/robots.txt.

Могу ли я использовать Robots.txt в подкаталогах?

Конечно, вы можете создавать файлы robots.txt во всех ваших подкаталогах, но вы не должны ожидать, что поисковые системы будут запрашивать / подчиняться им. Если вы по каким-то странным причинам используете субдомены, такие как crap.example.com, то example.com/robots.txt не совсем подходит для управления сканированием субдоменов, поэтому убедитесь, что каждый субдомен обслуживает свой собственный robots.txt. Когда вы загружаете свой robots.txt, а затем делаете это в режиме ASCII, ваш FTP-клиент обычно предлагает «ASCII | Auto | Binary» - выбирайте «ASCII», даже если вы использовали редактор ANSI для его создания.

Почему я должен создавать свой файл robots.txt только в формате ASCII?

Поскольку простые текстовые файлы содержат только содержимое ASCII. Иногда стандарты, которые гласят «загружать * .htm * .php * .txt .htaccess * .xml файлы в режиме ASCII, чтобы предотвратить их непреднамеренное повреждение во время передачи, хранение с недопустимыми кодами EOL и т. Д.», Имеют смысл. (Вы просили версию идиота, не так ли?)

Могу ли я использовать файл Robots.txt, если я на бесплатном хосте ?

Если у вас бесплатный хостинг, robots.txt не для вас. Ваша хостинговая служба создаст файл «robots.txt» только для чтения, который подходит для кражи еще большего количества трафика, чем его реклама, которую вы не можете удалить из своих верхних и нижних колонтитулов. Теперь, если вам все еще интересна эта тема, вы должны узнать, как работают поисковые системы, чтобы понять, что вы можете заархивировать с помощью файла robots.txt и какие просто мифы размещены на вашем любимом форуме.

Что я помещаю в файл robots.txt?

Ваш файл robots.txt содержит полезные, но в значительной степени игнорируемые утверждения, такие как

# Пожалуйста, не сканируйте этот сайт в рабочее время!

(сканер не знает о вашем часовом поясе и не получает ваши часы работы с вашего сайта), а также фактические директивы сканера. Другими словами, все, что вы пишете в своем robots.txt, является директивой для сканеров (тупых веб-роботов, которые могут извлекать ваше содержимое, но не более того), а не индексаторов (высокотехнологичных алгоритмов, которые ранжируют только мозговые далекие от Мэтта и меня).

В настоящее время в robots.txt можно использовать только три оператора:

Запретить: / путь Разрешить: / путь Карта сайта: http://example.com/sitemap.xml

Некоторые поисковые системы поддерживают другие директивы, такие как «crawl-delay», но это совершенно бессмысленно, поэтому их можно игнорировать.

Содержимое файла robots.txt состоит из разделов, посвященных определенным сканерам. Если вам нечего скрывать, то ваш файл robots.txt выглядит так:

Пользовательский агент: * Disallow: Разрешить: / Карта сайта: http://example.com/sitemap.xml

Если вы знакомы с Google, но MSN вас пугает, напишите:

User-agent: * Disallow: User-agent: Googlebot Disallow: User-agent: msnbot Disallow: /

Обратите внимание, что вы должны завершить каждую секцию сканера пустой строкой. Вы можете собрать имена сканеров, посетив раздел веб-мастеров поисковой системы.

Из приведенных выше примеров вы узнали, что каждая поисковая система имеет свой собственный раздел (по крайней мере, если вы хотите что-то скрыть от определенного SE), что каждый раздел начинается с

Агент пользователя: [имя сканера]

и каждый раздел заканчивается пустой строкой. Имя пользовательского агента «*» обозначает универсального веб-робота, это означает, что если в вашем файле robots.txt отсутствует раздел для определенного сканера, он будет использовать директивы «*», а также, когда у вас есть раздел для определенного сканер будет игнорировать раздел «*». Другими словами, если вы создаете раздел для сканера, вы должны продублировать все операторы из раздела «все сканеры» («User-agent: *»), прежде чем редактировать код.

Теперь к директивам. Самая важная директива для гусеничных

Disallow: / путь

«Disallow» означает, что сканер не должен извлекать содержимое из URI, которые соответствуют «/ path». «/ Путь» является либо относительным URI, либо шаблоном URI («*» соответствует любой строке, а «$» обозначает конец URI). Не все поисковые системы поддерживают символы подстановки, например, в MSN отсутствует поддержка символов подстановки (они могут когда-нибудь вырасти).

URI всегда относятся к корню веб-пространства, поэтому, если вы копируете и вставляете URL-адреса, удалите часть http://example.com, но не косую черту.

Разрешить: путь /

уточняет Disallow: заявления, например

Пользователь-агент: Googlebot Disallow: / Разрешить: / content /

позволяет сканировать только в пределах http://example.com/content/

Карта сайта: http://example.com/sitemap.xml

указывает поисковым системам, которые поддерживают протокол sitemaps, на отправку файлов.

Обратите внимание, что все директивы robots.txt являются директивами сканеров, которые не влияют на индексацию. Поисковые системы индексируют запрещенные URL-адреса, извлекая заголовок и фрагмент из иностранных источников, например списков ODP (DMOZ - The Open Directory) или каталога Yahoo. Некоторые поисковые системы предоставляют метод удаления запрещенного содержимого из своих поисковой выдачи по запросу.

Скажем, я хочу сохранить файл / папку вне Google. Что именно мне нужно сделать?

Вы проверяете каждый HTTP-запрос на Googlebot и отправляете ему код ответа 403 или 410 HTTP. Или добавьте метатег Googlebot «noindex, noarchive».
(* meta name = ”Googlebot” content = ”noindex, noarchive” / *). Блоки Robots.txt с Disallow: не препятствуют индексации. Не блокируйте сканирование страниц, которые вы хотите деиндексировать, если вы не хотите использовать терминатор URL на основе robots.txt от Google каждые шесть месяцев.

Если кто-то хочет узнать больше о robots.txt, куда они идут?

Честно говоря, я не знаю лучшего ресурса, чем мой мозг, частично сброшенный сюда. Я даже разработал несколько новых директив robots.txt и опубликовал запрос на комментарии несколько дней назад. Я надеюсь, что Google, единственная поисковая система, которая серьезно инвестирует в развитие REP, не будет игнорировать этот пост, вызванный скрытно встроенной «Google bashing». Я планирую написать еще несколько постов, не техничных и реальных примеров.

Могу ли я автоматически сгенерировать и замаскировать robots.txt?

Конечно, вы можете спросить, и да, это для всех и на 100% этично. Это очень простая задача, на самом деле это простая маскировка. Хитрость заключается в том, чтобы сделать файл robots.txt серверным скриптом. Затем проверьте все запросы на наличие проверенных сканеров и предоставьте нужное содержимое каждой поисковой системе. Умный robots.txt даже поддерживает списки IP-адресов сканеров и сохраняет необработанные данные для отчетов. Недавно я написал руководство по скрытым файлам robots.txt по запросу лояльного читателя.

Если вам понравилось это пошаговое руководство для начинающих - вы можете перенести свои знания на следующий уровень по адресу http://sebastians-pamphlets.com/

Что Google говорит о текстовых файлах Robots

Файл robots.txt ограничивает доступ к вашему сайту роботами поисковых систем, которые сканируют Интернет. Эти боты автоматизированы, и перед тем, как получить доступ к страницам сайта, они проверяют, существует ли файл robots.txt, который не позволяет им получить доступ к определенным страницам. (Все уважаемые роботы будут уважать директивы в файле robots.txt, хотя некоторые могут интерпретировать их по-разному. Однако robots.txt не подлежит применению, и некоторые спамеры и другие нарушители могут его игнорировать. По этой причине мы рекомендуем защищать паролем конфиденциальная информация.)

Если вы хотите, чтобы поисковые системы проиндексировали все на вашем сайте, вам не нужен файл robots.txt (даже не пустой). Пока Google не будет сканировать или индексировать содержимое страниц, заблокированных robots.txt, мы можем по-прежнему индексировать URL-адреса, если мы находим их на других страницах в Интернете.

В результате URL-адрес страницы и, возможно, другая общедоступная информация, такая как якорный текст в ссылках на сайт…. может появиться в результатах поиска Google.

Статьи по Теме


Популярное
Атомэнергопром - атомная отрасль России - главная
АО «Атомэнергопром» (полное название — акционерное общество «Атомный энергопромышленный комплекс») — интегрированная компания, консолидирующая гражданские активы российской атомной отрасли . Атомэнергопром

ЗАВОД №9, Екатеринбург
"ЗАВОД №9", ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО Регион Свердловская область, Екатеринбург Адрес 620012, г. ЕКАТЕРИНБУРГ, пл. ПЕРВОЙ ПЯТИЛЕТКИ Телефон (343) 327-29-32 Факс (343)

Аграрное общество (признаки и разрушение)
В отличие от современных людей, человек древности и средневековья был значитель­но ближе к земле-кормилице, к традициям и обычаям своих предков. Поэтому и тот тип цивилизации, что существовал до Нового

Личный кабинет НПФ Доверие
НПФ «Доверие» — акционерное общество, предлагающее программы переноса в Фонд накопительной части пенсии по договору ОПС и программы формирования дополнительной негосударственной пенсии по договору НПО.

МУ СБР в ПФО (г. Нижний Новгород) - АООТ ТНК «Гермес-Союз» (ОАО «Промышленная компания «Гермес-Союз»)
  АООТ  ТНК «Гермес-Союз» (ОАО «Промышленная компания «Гермес-Союз») Акционерное общество открытого типа Транснациональная нефтяная компания «Гермес-Союз» (АООТ ТНК «Гермес-Союз») – наименование

ФЛ "БАРНАУЛЬСКИЙ" ЗАО "РАЙФФАЙЗЕНБАНК" - г. БАРНАУЛ, пр-т ЛЕНИНА, д. 163 - ФИЛИАЛ "БАРНАУЛЬСКИЙ" ЗАКРЫТОГО АКЦИОНЕРНОГО ОБЩЕСТВА "РАЙФФАЙЗЕНБАНК" В Г. БАРНАУЛЕ
ОКАЗАНИЕ УСЛУГ ПО ОТКРЫТИЮ И ВЕДЕНИЮ РАСЧЕТНЫХ СЧЕТОВ УПРАВЛЕНИЯ ФЕДЕРАЛЬНОГО КАЗНАЧЕЙСТВА ПО АЛТАЙСКОМУ КРАЮ ДЛЯ УЧЕТА ОПЕРАЦИЙ ПО ОБЕСПЕЧЕНИЮ ПОЛУЧАТЕЛЕЙ СРЕДСТВ БЮДЖЕТОВ БЮДЖЕТНОЙ СИСТЕМЫ РОССИЙСКОЙ

Традиционное (аграрное) общество
Традиционное (аграрное) общество представляло доиндустриальную стадию цивилизационного развития. Традиционными были все общества древности и средневековья. Их экономика характеризовалась господством

Новости компаний
Другие отчётные документы "Автоматика" в ИПС "ДатаКапитал" ОПУБЛИКОВАННЫЕ СООБЩЕНИЯ ЭМИТЕНТОВ АО "Концерн "Автоматика" - Проведение общего собрания акционеров акционерного

АО "НОВЫЙ РЕГИСТРАТОР"
Предлагаемая компанией продукция и услуги: Трансфер-агентское и регистраторское обслуживание Приобретаемая компанией продукция и услуги: - Дополнительная информация о компании: Член ПАРТАД

Банк "ГЛОБЭКС" - кредитование, вклады, банковские карты, денежные переводы, банковские услуги.
Примечание к курсам для безналичных операций по банковским картам При совершении безналичных конверсионных операций по банковским картам (покупки/продажи) Банком применяется механизм установления

Счетчики