Спрятать текст от Google
Сегодня нашел интересный вопрос “Как спрятать текст от Google” в своей группе, и тут же решил отписать по теме пост, дабы развернуть тему более подробно.
Вся проблема была в том, что тег NOFOLLOW якобы используется только в ссылках, нужно найти альтернативу NOINDEX от Yandex, которая бы позволяла скрыть определенный БЛОК на сайте.
Усердствовать не нужно – “черное сео” ПМ не любят.
Сразу укажу способы, которые известны мне, и которыми я пользуюсь постоянно:
1. Скрыть методами robots.txt
2. Метатеги для робота
3. Исключить из индекса блок сайта
4. Поставить информативную картинку
5. Создать FLASH-ролик
6. Создать JavaScript с нужным текстом
7. Разграничение доступа
8. Установить дату для страницы
ROBOTS.TXT
Немного о том, что это такое, файл robots.txt кладется в корневую директорию вашего сайта и позволяет прописать некую служебную информацию для роботов поисковых систем, в частности: что разрешено, а что запрещено для индексации (для ускорения обхода сайта), зеркала сайта, время обхода и т.п.
Для нас важно:
User-Agent: gsa-crawler
Disallow: /folder1/
Allow: /folder1/myfile.html
User-Agent – для какого робота использовать следующие правила
Disallow – запрет индексации
Allow – разрешено для индексации
Как мы можем облегчить жизнь себе и другим с помощью этого файла? Да все просто! Ставим минимум дублирующего контента, а также исключим контент, не представляющий интереса для пользователя или же не “тематичный” нашему ресурсу. Это даст плюсы:
1. Быстрый и “безпроблемный” обход сайта пауком
2. Как следствие, – большее количество “сканирований” – если конечно документы не “старые” (об этом – ниже).
3. Как следствие из двух пунктов выше, – лучшие результаты ранжирования в ПМ.
И полезные ссылки по robots.txt:
http://help.yandex.ru/webmaster/?id=996567
http://www.google.ru/support/webmasters/bin/answer.py?answer=40360
Использование Google-метатегов
Данным тегом мы можем запретить от индексацию всю страницу на котором он размещен, немного документации от Google:
| Tag | Description | Example |
|---|---|---|
| noindex | The search appliance crawler retrieves and archives the document in the search appliance cache, but does not index it. The document is counted as part of the license limit. | <META NAME=”robots” CONTENT=”noindex”> |
| nofollow | The search appliance crawler retrieves and archives the document in the search appliance cache, but does not follow links on the Web page to other documents. The document is counted as part of the license limit. | <META NAME=”robots” CONTENT=”nofollow”> |
| noarchive | The search appliance crawler retrieves and indexes the document, but does not archive it in its cache. The document is counted as part of the license limit. | <META NAME=”robots” CONTENT=”noarchive”> |
Можно воспользоваться комбинированным тегом:
<META NAME="robots" CONTENT="noarchive, nofollow">
Исключаем из индекса
Вот это самый действенный метод после robots.txt… Хотя в идеале лучше когда ничего не надо скрывать) Но наверное таких страниц просто не бывает) Либо их единицы.
У меня есть “предположение”, что количество “запретных от индексации блоков на сайте” влияет пропорционально на результаты ранжирования. Поэтому я стремлюсь к уменьшению количества таких “мест”.
Ближе к теме, – Гугл советует нам исключить из индекса:
1. Результаты поиска
2. “Лишние анкоры”
3. Страницы не представляющие интереса для пользователей.
Теги выглядят довольно просто, различные их вариации можно поглядеть по таблице:
| Flag | Description | Example | Results |
|---|---|---|---|
| index | Words between the tags are not indexed as occurring on the current page. | fish <!–googleoff: index–>shark <!–googleon: index–>mackerel |
The words fish and mackerel are indexed for this page, but the occurrence of shark is not indexed. This page could appear in search results for the term shark only if the word appears elsewhere on the page or in anchortext for links to the page. Hyperlinks that appear within these tags are followed. |
| anchor | Anchor text that appears between the tags and in links to other pages is not indexed. This prevents the index from using the hyperlink to associate the link text with the target page in search results. | <!–googleoff: anchor–><A href=sharks_rugby.html> shark </A> <!–googleon: anchor–> |
The word shark is not associated with the page sharks_rugby.html. Otherwise this hyperlink would cause the page sharks_rugby.html to appear in the search results for the term shark. |
| snippet | Text between the tags is not used to create snippets for search results. | <!–googleoff: snippet–>Come to the fair! <!–googleon: snippet–> |
The text Come to the fair! does not appear in snippets with the search results. |
| all | Turns on all the attributes. Text between the tags is not indexed, followed to another linked-to page, or used for a snippet. | <!–googleoff: all–>Come to the fair! <!–googleon: all–> |
The text Come to the fair! is not indexed, is not associated with anchor text, and does not appear in snippets with the search results. |
В идеале лучше так:
<!–googleoff: all–> …but not that one! <!–googleon: all>
Информативная картинка
Информативная картинка – не предел мечтаний скрытого контента, но является “железным” способом. Описывать много я не буду, главное помнить, что картинка тоже способ увеличения информативности. Тем более подключим фантазию).
К тегу IMG SRC можно применить атрибуты title и alt, а этого уже немало. Все не помещается? Подключаем анимацию: gif и flash.
Flash – в настоящий момент индексируется только поисковой системой Rambler (точнее текст из Flash), но остальные ПМ вскоре также устранят в себе этот недостаток. Я стараюсь избежать флеша. Интересную информацию можно почитать тут.
JavaScript
Приведу информацию из http://www.seop.ru/sites_indexing.html. Этим и ограничусь) Говорить можно долго. Главное, – говорить по теме.
Разграничение доступа
Данный пункт очень прост – делайте личные разделы, страницы, которые будут недоступны ПМ. Все это прекрасно реализуется как и стандартными средставами CMS, так и руками, – вооружившись PHP и MySQL.
Дата страницы
Каждой странице можно указать дату создания. Ну а можно оперировать датами для “нужной нам” индексации контента. Синтаксис тега:
<META name="date" content="2007-07-11">
Посмотреть появилось ли чего нового по данной теме можно на форуме.
Как и всегда, – здравая критика, замечания и отзывы, – приветствуются!


