Дублированный контент в Google продолжение…

Авторский перевод статьи Vanessa Fox с http://googlewebmastercentral.blogspot.com/. Если вы хотите процитировать или скопировать статью себе на сайт, пожалуйста не забывайте ставить ссылку на источник.

Саммит посвященный дублированному контенту SMX Advanced.
Несколько месяцев назад Адам написал статью о дублированном контенте (русский перевод). Вот наиболее важные вещи из нее:

На саммите мы хотели узнать какие именно технологии дублирования вызывают наиболее жаркие споры участников. Этими технологиями оказались копирование сайта, синдикация (RSS) и дубликаты внутри одного сайта. Мы обсудили возможные пути решения этих вопросов и некоторые решения предложенные участниками саммита будут рассмотрены наряду с нашими внутренними разработками. Я приведу некоторые из возможных решений для того что бы те кто не принимал участие в саммите могли принять участие в обсуждении.

Определение основного url в файле Sitemap
Один из вопросов которые мы обсуждали это указание предпочтительной ссылки на материал в файле sitemap, в качестве решения проблемы когда существует несколько версий одного и того же текста на сайте. Это поможет роботу включить в индекс только указанный вами материал не путая его с копиями.

Методика выявления параметров страницы которые не должны индексироваться роботом
Обсуждалась реализация этой технологии через инструменты для вэб-мастеров Google либо новые команды в robots.txt. Например если ссылка содержит сессионные переменные вэбмастер может указать переменную, которая поможет поисковым роботам индексировать “чистовую” версию урла и консолидировать ссылки на этот адрес. Участники саммита склонились к варианту указания через robots.txt

Способы определения авторства контента
Корректная работа данных методов позволяет поисковым системам определять на каком сайте находится оригинальная версия текста в отличие от синдицированной или скопированной. Заметьте что мы неплохо продвинулись в этом направлении судя по тому что этот вопрос обсуждался небольшой группой участников. Однако аудитория была заинтересована в том чтобы аутентификация текстов выступала в роли дополнительной защиты. Некоторые участники предлагали считать оригинальным текстом документ с наиболее ранней датой создания, но он не подходит из за легкости исправление даты документа со стороны нечестных вэб-мастеров. Кто-то даже предлагал регстрировать тексты перед их публикацией, но мы отклонили и этот метод , так как далеко не все авторы текстов будут знать о существовании такого сервиса или кто-нибудь может успеть раньше автора ( например если текст уже давно опубликован ). В настоящее время мы используем несколько факторов таких как авторитет сайта и количество ссылок на страницу с текстом. Если у вашего сайта есть rss-лента мы советуем попросить владельцев тех сайтов которые используют ваш контент заблокировать его от поисковых роботов через robots.txt. Сделайте это условием использования ваших статей.

Сервис с отчетами о дублированном контенте для владельцев сайтов
Большую поддержку у аудитории нашла идея создания сервиса который будет сообщать о дубликатах текстов на вашем и на других сайтах в сети. В добавок мы обсуждали систему оповещения вэбмастера о появившемся дубле. Оповещения могут приходить как по электронной почте так и через rss. Особенно полезным такое оповещение будет при обнаружении роботом ваших материалов на других сайтах.

Работа с популярными движками блогов и CMS для решения проблем с дубликатами
Некоторые дубликаты возникают из за того что программное обеспечение сайтов копирует один и тот же материал на несколько разных страниц. Например в блоге одна и та же статья может находится на главной странице, по постоянной ссылке (пермалинк), по категории и в архиве. Мы всегда готовы обсудить способы решения этих проблем с создателями подобного программного обеспечения.

Кроме обсуждения общих тенденций у аудитории возникло несколько частных вопросов:

Вопрос: Если я поставлю “nofollow” на все дубликаты контента на моем сайте, поможет ли это поднятся в выдаче поисковика ?
Количество nofollow ссылок на сайте никак не влияет на выдачу, однако это не лучший способ закрыть ваши дубликаты от индексации, к примеру на дублированные тексты могут вести ссылки с других сайтов. В данный момент лучшим способом будет закрытия страницы через robots.txt

Вопрос: Есть поисковые системы кроме Google поддерживающие альянс Sitemap ?
Мы запустили сервис sitemaps.org в ноябре прошлого года и постоянно с ним работаем. В апреле мы добавили возможно устанавливать адрес карты сайта в robots.txt. Мы продолжаем работать над тем что бы жизнь вэб-мастера стала проще.

Вопрос: Многие страницы на моем сайте содержат графики, причем на каждой странице графики разные, могу ли я быть уверен что поисковик не посчитает эти страницы дублями, ведь поисковики “не видят” картинки ?
Для того что бы оградить себя от проблем с дублями в этом случае включайте уникальный текст на каждую страницу ( например различные заголовки страниц, заглавия и мета-теги ) и не забывайте указывать alt’ы для каждой картинки. Например вместо использования alt=”график” , пишите alt=”график показывающий июньский тренд по доллару”.

Вопрос: Я экспортирую (RSS) контент многим сайтам-партнерам, и сейчас стал замечать что по некоторым ключевикам (из моих текстов) их сайты выше моего, что мне делать ?
В случае если вы свободно распостраняете тексты с вашего сайта, вам нужно будет расширить количество и качество контента на сайте что сделать его уникальным.

Вопрос: Как простому пользователю мне хочется видеть в результатах поиска и дубликаты материалов, можете ли вы добавить такую опцию ?
Наши исследования показали что большинству пользователей неинтересны дубликаты контента. Одна из участниц саммита в частности заявила что может и не захотеть информацию с одного и того же сайта, но в этом случае другие сайты будут содержать другую информацию и соответственно появятся в результатах поиска. Помните что вы можете добавить "&filter=0" в строке параметров поиска (в урл) что бы просмотреть дополнительные страницы которые были отфильтрованы.

Мы продолжаем расширять и укреплять партнерство вэб-мастерами. Если вам есть что добавить - давайте это обсудим - http://googlewebmastercentral.blogspot.com/