SEO: как обнаружить, исправить дубликаты страниц контента

  1. Дублированный контент разбавляет ссылки
  2. Как обнаружить дублирующийся контент
  3. Пример дублированного контента
  4. Исправление дублирующегося контента
  5. Общие перенаправления URL
  6. Перенаправления один к одному

Дублированный контент остается распространенным препятствием, когда речь идет об увеличении органического поискового трафика на сайтах розничных сетей.

Вот некоторые преимущества адресации дублированного контента для повышения производительности SEO по сравнению с другими маркетинговыми действиями, такими как создание ссылок, маркетинг контента или продвижение контента:

  • Консолидация дублированного контента может быть выполнена относительно быстро, так как требует небольшого набора технических изменений;
  • Вероятно, вы увидите улучшение рейтинга в течение нескольких недель после внесения исправлений;
  • Новые изменения и улучшения на вашем сайте быстрее обнаруживаются Google, поскольку ему приходится сканировать и индексировать меньше страниц, чем раньше.

Консолидация дублированного контента не сводится к тому, чтобы избежать штрафов Google. Речь идет о создании ссылок. Ссылки полезны для эффективности SEO, но если ссылки оказываются на дублирующих страницах, они вам не помогут. Они идут впустую.

Дублированный контент разбавляет ссылки

Дублированный контент остается распространенным препятствием, когда речь идет об увеличении органического поискового трафика на сайтах розничных сетей

Один и тот же контент, доступный по нескольким URL-адресам, снижает репутацию. Источник: Google.

Я нашел лучшее объяснение этого года назад, когда Google опубликовал SEO аудит (PDF), что он вел на своих сайтах.

Верхняя часть иллюстрации выше имеет три страницы одного и того же продукта. Каждый из них накапливает ссылки и репутацию соответствующей страницы. Google и другие крупные поисковые системы все еще рассматривают качество и количество ссылок со сторонних сайтов как своего рода одобрение. Они используют эти ссылки для определения приоритетов, насколько глубоко и часто они посещают страницы сайта, сколько они индексируют, сколько они ранжируют и как высоко они ранжируются.

Репутация главной страницы, также известной как каноническая страница, размыта, потому что другие две страницы получают часть репутации. Поскольку они имеют одинаковое содержание, они будут конкурировать за одни и те же ключевые слова, но в результатах поиска большую часть времени будет отображаться только одно. Другими словами, эти ссылки на другие страницы теряются.

Нижняя часть иллюстрации показывает, что, просто объединяя дубликаты, мы увеличиваем ссылки на каноническую страницу и ее репутацию. Мы исправили их.

Результаты могут быть драматичными. Я видел увеличение выручки на 45% по сравнению с прошлым годом - более 200 000 долларов США менее чем за два месяца - благодаря удалению дублированного контента. Дополнительный доход приносят многие другие страницы продукта, которые ранее не оценивались и не получали трафик поисковых систем из-за дублированного контента.

Как обнаружить дублирующийся контент

Чтобы определить, есть ли на вашем сайте дублированный контент, введите сайт Google : yoursitename.com и проверьте, сколько страниц в списке.

com и проверьте, сколько страниц в списке

Введите в Google «site: yoursitename.com» и проверьте, сколько страниц в списке.

Продукты должны составлять основную часть страниц на большинстве розничных сайтов. Если Google перечисляет намного больше страниц, чем у вас есть продукты, ваш сайт, скорее всего, имеет дублированный контент.

Если ваши XML-карты сайта являются исчерпывающими, вы можете использовать Google Search Console и сравнить количество страниц, проиндексированных в ваших XML-файлах сайта, с количеством всех проиндексированных страниц в статусе индекса.

Пример дублированного контента

One Kings Lane - розничный продавец мебели и товаров для дома. Используя диагностический инструмент, я вижу, что Onekingslane.com имеет более 800 000 страниц, проиндексированных Google. Но, похоже, проблема с дублированным контентом.

В навигации по сайту я нашел страница продукта - синий коврик - у которого нет канонического тега для объединения дублированного контента. Когда я искал в Google название продукта - «Fleurs Rug, Blue» - оно оказалось на первом месте.

One Kings Lane имеет высший рейтинг в Google за «Fleurs Rug, Blue», несмотря на отсутствие канонических тегов.

Но когда я нажал на этот список поиска, я перешел на другую страницу. Идентификаторы продукта отличаются: 4577674 против 2747242. Одна страница отображается при навигации по сайту, другая - проиндексированная, и ни одна из них не имеет канонических тегов.

Это, вероятно, вызывает понижение репутации, даже несмотря на то, что страница занимает первое место по поиску «Fleurs Rug, Blue». Но большинство страниц продукта ранжируются по сотням ключевых слов, а не только по названию продукта. В этом случае разбавление, скорее всего, приведет к тому, что страница будет иметь более низкий рейтинг, чем в противном случае.

Однако дублированный контент не является самой большой проблемой в этом примере. Когда я нажал на этот результат поиска, я перешел на несуществующую страницу.

Нажатие на результат поиска для синего коврика вызвало ошибку.

Страница больше не существует. Google, скорее всего, исключит этот продукт из результатов поиска.

Даже если One Kings Lane перестроит страницу продукта, присвоив ей новый идентификатор продукта, Google может потребоваться несколько недель, чтобы подобрать его, поскольку робот Googlebot должен сканировать не менее 800 000 страниц по всему сайту.

Исправление дублирующегося контента

Устаревшая тактика обращения с дублированным контентом состоит в том, чтобы запретить поисковым системам сканировать дубликаты страниц в файле robots.txt. Но это не консолидирует репутацию дубликатов на канонических страницах. Он избегает штрафов, но не восстанавливает ссылки. Когда вы блокируете дубликаты страниц с помощью robots.txt, эти дубликаты страниц по-прежнему накапливают ссылки и репутацию страницы, что не помогает сайту.

Вместо этого ниже приводятся рецепты для решения наиболее распространенных проблем с дублированным содержимым с использованием перенаправлений 301 в Apache. Но сначала полезно понять варианты использования для постоянных перенаправлений и канонических тегов.

Канонические теги и перенаправления объединяют дубликаты страниц. Но перенаправления, как правило, более эффективны, потому что поисковые системы редко их игнорируют, а перенаправленные страницы не нужно индексировать. Однако вы не можете (или не должны) использовать перенаправления для консолидации близких дубликатов, таких как один и тот же продукт в разных цветах или продукты, перечисленные в нескольких категориях.

Лучшая консолидация дублированного контента - это то, что вам не нужно делать. Например, вместо создания иерархии сайтов с помощью site.com/category1/product1 просто используйте site.com/product1 . Это исключает необходимость объединения продуктов, перечисленных в нескольких категориях.

Общие перенаправления URL

Далее следуют рецепты перенаправления Apache для решения пяти распространенных проблем с дублированным контентом.

Я буду использовать mod_rewrite и предположить, что он включен на вашем сайте

RewriteEngine On # Это включит возможности перезаписи

Я также буду использовать htaccess checker для проверки моих правил перезаписи.

Дублирование протокола. Мы хотим убедиться, что наш магазин доступен только через HTTP или HTTPS, но не обоими способами. (Я рассмотрел процесс перехода интернет-магазина на HTTPS, в SEO: как перенести сайт электронной коммерции на HTTPS . ») Здесь я заставлю HTTPS.

RewriteEngine On # Это включит возможности Rewrite RewriteCond% {HTTPS}! = On # Это проверяет, чтобы убедиться, что соединение еще не установлено HTTPS RewriteRule ^ /? (. *) Https://www.webstore.com/$1 [R = 301, L] RewriteEngine On # Это включит возможности Rewrite RewriteCond% {HTTPS}

Это проверяет, чтобы убедиться, что соединение уже не HTTPS.

Обратите внимание, что это правило также будет касаться редкого случая дублирования IP, когда сайт также доступен через IP-адрес.

Обратите внимание, что это правило также будет касаться редкого случая дублирования IP, когда сайт также доступен через IP-адрес

Это правило также будет работать для устранения редкого случая дублирования IP, когда сайт также доступен через IP-адрес.

В следующих примерах мы предполагаем, что у нас есть полный сайт с использованием HTTPS.

Конечный слеш дублирования. Мы хотим убедиться, что у нас есть только страницы с косой чертой или без косой черты, но не обе. Ниже вы можете найти примеры того, как выполнить оба случая.

Это правило добавляет отсутствующие косые черты:

RewriteEngine On # Это включит возможности перезаписи% {REQUEST_FILENAME}! -F # Эта проверка позволяет убедиться, что мы не добавляем косые черты в файлы, т. Е. /Index.html/ будет неправильным RewriteRule ^ ([^ /] +) / ? $ https://www.webstore.com/$1/ [R = 301, L] RewriteEngine On # Это включит возможности перезаписи% {REQUEST_FILENAME}

Это правило добавляет пропущенные косые черты.

Этот удаляет их:

RewriteEngine On # Это включит возможности перезаписи% {REQUEST_FILENAME}! -F # Это проверяет, чтобы убедиться, что мы не добавляем косые черты в файлы, т.е. /index.html/ будет неправильным RewriteRule (. +) / $ Https: / /www.webstore.com/$1 [R = 301, L] RewriteEngine On # Это включит возможности перезаписи% {REQUEST_FILENAME}

Это правило удаляет отсутствующие косые черты.

Дублирование файлов Распространенным случаем дубликата файла является индексный файл каталога. В системах на основе PHP это index.php . В системах .NET это default.aspx . Мы хотим удалить этот индексный файл каталога, чтобы избежать дубликатов.

% {REQUEST_FILENAME} -f # Это необязательно и проверяет, чтобы убедиться, что мы воздействуем только на файлы. RewriteRule (. *) /? Index.php $ https://www.webstore.com/$1 [R = 301, L] % {REQUEST_FILENAME} -f # Это необязательно и проверяет, чтобы убедиться, что мы воздействуем только на файлы

Это правило удаляет этот индексный файл каталога.

Дублирование старых страниц. Другой распространенный сценарий - системы электронной коммерции, которые добавляют URL-адреса, удобные для поисковых систем, оставляя эквивалентные URL-адреса, не подходящие для поисковых систем, доступными без перенаправлений.

RewriteCond% {QUERY_STRING} ^ id = ([0-9] +) # это гарантирует, что мы будем делать это только в том случае, если в строках URL-запроса есть идентификаторы RewriteRule ^ category / product.php /product-%1.html? [R = 301, L] # Обратите внимание, что ссылки на регулярные выражения из RewriteCond ссылаются на%, а на ссылки в RewriteRule - $

[R = 301, L] # Обратите внимание, что ссылки на регулярные выражения из RewriteCond ссылаются на%, а на ссылки в RewriteRule - $

Это правило запрещает доступ к URL-адресам, не связанным с поисковой системой, без перенаправлений.

Перенаправления один к одному

В приведенных выше примерах я предполагаю, что идентификаторы продукта одинаковы для обоих URL - канонической версии и дубликата. Это позволяет использовать одно правило для сопоставления всех страниц продукта. Однако идентификаторы продуктов часто не совпадают, или новые URL не используют идентификаторы. В таких случаях вам понадобятся сопоставления «один к одному».

Но массивные сопоставления и перенаправления один к одному значительно замедляют работу сайта - в 10 раз медленнее, по моему опыту.

Чтобы преодолеть это, я использую приложение под названием RewriteMap , Конкретный MapType для использования в этом случае - это тип DBM, который представляет собой хеш-файл, который обеспечивает очень быстрый доступ.

Когда используется MapType DBM, MapSource представляет собой путь файловой системы к файлу базы данных DBM, содержащему пары ключ-значение для использования в отображении. Это работает точно так же, как TXT-карта, но намного быстрее, потому что DBM индексируется, а текстовый файл - нет. Это позволяет более быстрый доступ к нужному ключу.

Процесс заключается в сохранении файла сопоставления один-к-одному в текстовый файл. Формат описан ниже. Затем используйте инструмент Apache httxt2dbm для преобразования текстового файла в файл DBM, например, в следующем примере.

$ httxt2dbm -i productsone2one.txt -o productsone2one.map

После создания файла DBM укажите его в правилах перезаписи. Предыдущее правило можно переписать так:

Продукты RewriteMap «dbm: /etc/apache/productsone2one.map» # эти карты включают старые URL-адреса, сопоставленные с новыми URL-адресами RewriteCond% {QUERY_STRING} ^ id = ([0-9] +) # это гарантирует, что мы делаем это только тогда, когда есть это идентификаторы в строках запроса URL RewriteRule ^ (. *) $ $ {products: $ 1 | NOTFOUND} [R = 301, L] # это ищет любой устаревший URL на карте, а 301 перенаправляет на заменяющий URL, также найденный в файл # если сопоставления нет в файле dbm, сервер вернет 404

В основном, ссылка на карту и назовите ее продукты . Затем используйте карту в правиле перезаписи. В этом случае, если не найдено соответствия для устаревшего URL-адреса продукта, я возвращаю ошибку 404, чтобы найти эти страницы в консоли поиска Google и добавить их на карту. Если бы мы вернули ту же страницу, это создаст цикл перенаправления. Существуют более сложные решения, которые могут решить эту проблему, но они выходят за рамки этой статьи.

On # Это проверяет, чтобы убедиться, что соединение еще не установлено HTTPS RewriteRule ^ /?
Html/ будет неправильным RewriteRule ^ ([^ /] +) / ?
RewriteRule (. *) /?
1.html?

Популярное
Атомэнергопром - атомная отрасль России - главная
АО «Атомэнергопром» (полное название — акционерное общество «Атомный энергопромышленный комплекс») — интегрированная компания, консолидирующая гражданские активы российской атомной отрасли . Атомэнергопром

ЗАВОД №9, Екатеринбург
"ЗАВОД №9", ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО Регион Свердловская область, Екатеринбург Адрес 620012, г. ЕКАТЕРИНБУРГ, пл. ПЕРВОЙ ПЯТИЛЕТКИ Телефон (343) 327-29-32 Факс (343)

Аграрное общество (признаки и разрушение)
В отличие от современных людей, человек древности и средневековья был значитель­но ближе к земле-кормилице, к традициям и обычаям своих предков. Поэтому и тот тип цивилизации, что существовал до Нового

Личный кабинет НПФ Доверие
НПФ «Доверие» — акционерное общество, предлагающее программы переноса в Фонд накопительной части пенсии по договору ОПС и программы формирования дополнительной негосударственной пенсии по договору НПО.

МУ СБР в ПФО (г. Нижний Новгород) - АООТ ТНК «Гермес-Союз» (ОАО «Промышленная компания «Гермес-Союз»)
  АООТ  ТНК «Гермес-Союз» (ОАО «Промышленная компания «Гермес-Союз») Акционерное общество открытого типа Транснациональная нефтяная компания «Гермес-Союз» (АООТ ТНК «Гермес-Союз») – наименование

ФЛ "БАРНАУЛЬСКИЙ" ЗАО "РАЙФФАЙЗЕНБАНК" - г. БАРНАУЛ, пр-т ЛЕНИНА, д. 163 - ФИЛИАЛ "БАРНАУЛЬСКИЙ" ЗАКРЫТОГО АКЦИОНЕРНОГО ОБЩЕСТВА "РАЙФФАЙЗЕНБАНК" В Г. БАРНАУЛЕ
ОКАЗАНИЕ УСЛУГ ПО ОТКРЫТИЮ И ВЕДЕНИЮ РАСЧЕТНЫХ СЧЕТОВ УПРАВЛЕНИЯ ФЕДЕРАЛЬНОГО КАЗНАЧЕЙСТВА ПО АЛТАЙСКОМУ КРАЮ ДЛЯ УЧЕТА ОПЕРАЦИЙ ПО ОБЕСПЕЧЕНИЮ ПОЛУЧАТЕЛЕЙ СРЕДСТВ БЮДЖЕТОВ БЮДЖЕТНОЙ СИСТЕМЫ РОССИЙСКОЙ

Традиционное (аграрное) общество
Традиционное (аграрное) общество представляло доиндустриальную стадию цивилизационного развития. Традиционными были все общества древности и средневековья. Их экономика характеризовалась господством

Новости компаний
Другие отчётные документы "Автоматика" в ИПС "ДатаКапитал" ОПУБЛИКОВАННЫЕ СООБЩЕНИЯ ЭМИТЕНТОВ АО "Концерн "Автоматика" - Проведение общего собрания акционеров акционерного

АО "НОВЫЙ РЕГИСТРАТОР"
Предлагаемая компанией продукция и услуги: Трансфер-агентское и регистраторское обслуживание Приобретаемая компанией продукция и услуги: - Дополнительная информация о компании: Член ПАРТАД

Банк "ГЛОБЭКС" - кредитование, вклады, банковские карты, денежные переводы, банковские услуги.
Примечание к курсам для безналичных операций по банковским картам При совершении безналичных конверсионных операций по банковским картам (покупки/продажи) Банком применяется механизм установления

Счетчики