Поисковый спам



Поисковый спам – это интернет-ресурсы, которые созданы с целью манипуляции поисковой выдачей и обмана посетителей сайта.

Поисковый спам искажает выдачу, засоряя ее неинформативными сайтами, и усложняет ранжирование. Раньше в тегах «description» и «meta keywords» вписывались популярные запросы, которые не видны пользователям, но определяются поисковыми роботами. В итоге пользователь, вводя в поиске определенный запрос, не получал искомую информацию, а попадал на сайты другой тематики. Это привело к тому, что роботы стали обращать внимание не только на мета-теги, но и на сам контент страницы, определяя общую релевантность.

Другие способы манипуляций, приводящие к поисковому спаму:

  • Невидимый текст. Текст размещается на странице и делается одинакового цвета с цветом подложки. В итоге текст не виден посетителям, но виден поисковым роботам.

  • Текст размером в один пиксель. Размер текста уменьшают до минимально возможного и также не видного пользователям. Эти виды спама устарели, и поисковые роботы могут определять подобные недобросовестные методы, исключая такие сайты из выдачи.

  • Ссылочный спам. Закупка или установка большого количества ссылок на один сайт. Чаще всего создается большое количество бесплатных сайтов, с которых проставляются ссылки на определенный веб-ресурс. Поисковые роботы реагируют на такие действия, считая их искусственной накруткой.

  • Дорвеи – специально созданные и продвигаемые страницы, которые ссылаются на необходимый сайт и перенаправляют пользователя на него.

  • Клоакинг – маскировка содержимого сайта, когда посетитель видит одно, а поисковым машинам показывается совсем другая информация.

seo.ru

Описание

Изначально термин «спам» представлял собой аббревиатуру, которая расшифровывалась как SPiced hAM, что означало «острая ветчина». Именно под таким товарным знаком компанией Hormel Foods производились острые колбасные изделия. По одной из версий происхождения слова, после окончания Второй мировой войны на складах компании осталось огромное количество консервов, которыми ранее снабжалась американская армия.

Для того чтобы реализовать эту продукцию, не отличавшуюся свежестью, Hormel Foods провела обширную рекламную кампанию, в ходе которой слово «SPAM» было расклеено практически на всех витринах дешёвых магазинов, кузовах автобусов и фасадах зданий. Призывы купить консервы беспрерывно опубликовывались в газетах и транслировались по радио. Однако всемирную известность это слово получило только благодаря шоу «Летающий цирк Монти Пайтона» в 1969г., на котором героями программы была разыграна пародийная сцена на назойливую рекламу консервов SPAM.

Позднее, в 1986г., в сети Usenet (одной из старейших сетей, широко используемой до появления Интернета) появилось огромное количество сообщений от некоего Дэйва Родеса, рекламировавшего новую финансовую пирамиду и предлагавшего всем желающим заработать деньги. Автор с завидным упорством распространял свои тексты. В итоге они настолько надоели подписчикам, что их стали сравнивать с рекламируемыми в шоу «Летающий цирк Монти Пайтона» консервами. Именно так за словом «спам» закрепилось новое значение, обозначающее назойливые рекламные рассылки.


В России самый первый известный случай массовой рассылки спама был зафиксирован в период Августовского путча 19 августа 1991 года, во время которого тогдашний директор компании «Релком» (одного из первых отечественных провайдеров) распространил через электронную почту обращение Бориса Ельцина.

Немного позднее, в 1993г., администратор сети Usenet Ричард Депью запустил программу, ошибка которой спровоцировала отправку нескольких сотен идентичных сообщений в одну из конференций, что повлекло за собой новую волну употребления слова «спам».

В 1994г. юридическая контора Canter&Siegel наняла программиста, создавшего небольшую программу, разместившую всё в том же Usenet рекламу оказываемых услуг. Стоит отметить, что из-за огромного количества спама данная сеть быстро потеряла интерес посетителей.

На данный момент термин «спам» (вошедший в широкое употребление даже несмотря на то, что колбасные изделия Hormel Foods с этим названием производятся до сих пор) относится не только к электронным и почтовым рассылкам, но и к поисковым системам, где получил название спамдексинг.

Виды поискового спама

К поисковому спаму относятся любые способы, так или иначе воздействующие на выдачу результатов в поисковых системах. Среди них могут присутствовать:


  • Вписывание ключевых слов, не имеющих отношения к содержанию страницы, в мета-теги keywords и description. Из-за большого количества случаев подобного обмана многие поисковые системы перестали анализировать содержание мета-тегов и стали обращать внимание на сам текст.
  • Увеличение частоты ключевых слов или повышение их веса при помощи элементов HTML-разметки.
  • Использование невидимого пользователям, но индексируемого поисковыми роботами текста путём придания ему идентичного основному фону страницы цвета.
  • Покупка ссылок, увеличивающих рейтинги сайта.
  • Применение дорвеев или клоакинга, ведущих к прямому обману поисковых систем.

www.webeffector.ru

Содержание текста

Приведу сразу пример:

поисковый спам в тексте

Итог:

Рубашка женская, из коллекции женской одежды, очень женственная – это женская рубашка. И еще очень ценное замечание о том, что она будет удобна в комплекте с брюками или юбкой.

Да, действительно, без брюк или юбки как-то неудобно получится ? .

Поисковый спам – это не только процент вхождений ключевого слова в текст. Неестественные словосочетания и конструкции предложений – это  тоже поисковый спам, который вычисляется алгоритмами поисковых систем, а тем более при ручной модерации сайта.

Оформление текста


Теперь я хочу обратить Ваше внимание на выделенные слова на скриншоте выше: «рубашка женская», «рубашка», «женская рубашка». Владельцы сайта думают, что посетители забыли, на какой странице находятся, и им нужно три раза в одном абзаце напомнить, что они ищут именно женскую рубашку? Понятно, что такие фразы рассчитаны не на пользователей, а на искусственное увеличение релевантности страницы – поисковый спам.

Внутренние ссылки

Вспомним, о чем говорили вначале – все, что создается на сайте, должно быть ориентировано на пользователей. Это необходимо учитывать, делая и внутреннюю перелинковку страниц. В противном случае вы рискуете попасть под фильтр.

Чаще всего встречаются:

— ссылки со спамными анкорами. Например, «купить плиту в Воронеже недорого». Пользователь и так знает, что он находится в Воронеже и зашел на воронежский сайт. И, наверное, сам может решить, дорого это ему или нет. Понятно, что такие ссылки рассчитаны на поисковых роботов.

— еще одна распространенная ошибка – ссылки на главную страницу с ключевым словом в анкоре:

Внутренние ссылки


Ссылки на сайте обычно ведут на внутренние уточняющие страницы, где размещена более подробная информация об услуге или товаре. Ссылка на главную страницу с анкором «организация праздников Санкт-Петербург» может расцениваться как попытка искусственно увеличить вес главной страницы по этому запросу. Подобные ссылки могут встречаться как в контенте страницы, так и в шаблонной части сайта.

Метатеги

Подготавливая заголовки и описания для своих страниц, учитывайте, что они должны быть написаны человеческим языком и легко читаться. Заголовки с перечнем ключевых слов или включающие спамные конструкции рано или поздно могут стать причиной санкций со стороны поисковых систем.

Заполняя метатег keywords не стоит вставлять в него 20-30 ключевых фраз. Достаточно будет 3-5. Значение этого метатега в Яндексе если и есть, то очень минимально, и при продвижении количество ключевых фраз в нем вам вряд ли поможет, но может стать дополнительным сигналом о наличии на сайте поискового спама.

Спам в навигации

Приведу пример:

Спам в навигации

Не нужно возле названия каждого праздника повторять в меню слово «подарки». Для пользователей вполне достаточно, что категория называется «Подарки к праздникам». Страница от таких повторений лучше ранжироваться не будет, а вот фильтр вы получить можете.

Шаблонная часть сайта

Нередкая ситуация, когда в названия служебных блоков сайта стараются включить продвигаемые запросы. Например, на сайте по доставке цветов могут быть блоки:


  • «Новости о доставке цветов»;
  • «Статьи о доставке цветов»;
  • «Отзывы о доставке цветов в Москве»;
  • «Доставка цветов. Популярные букеты».

Пользователь в курсе, что он на сайте доставки цветов, и такие заголовки могут расцениваться как спам. Вполне достаточно «Новости», «Статьи», «Отзывы», «Популярные букеты».

Еще одна частая ошибка – это спамное размещение ключевых слов в шапке сайта. Если вы хотите использовать ключевое слово в шапке сайта, то следите за тем, чтобы оно туда логично и красиво вписывалось. Слоган – это отлично, но это должен быть удачный слоган, работающий на увеличение конверсии и лояльности посетителей, а не косолапо спрятанные ключевые запросы.

Спам в заголовках 

Вес ключевой фразы увеличивается, если она попадает в заголовки?!

Ну что ж, давайте этим воспользуемся и сделаем пять заголовков <h2> и десять <h3>. Не помогло? Давайте увеличим количество. Понятно, что так делать не нужно, и это – дорога под фильтр.

Насколько важны для продвижения подзаголовки и как их сейчас учитывают поисковые алгоритмы — вопрос спорный. Логично предположить, что после того, как оптимизаторы начали накручивать этот фактор, его значение уменьшилось. Однозначно можно сказать только, что заголовок <h1> необходим, и он продолжает эффективно влиять на выдачу.

В тех случаях, когда сайт уже попал под фильтр за переоптимизацию, мы часто советуем вообще убрать или значительно сократить количество всех заголовков, кроме <h1>.

Повтор вхождения ключа в мета-тегах, <h1> и url страницы


Во многих cms системах по умолчанию заголовок страницы дублируется в адресе и title. И если вы назовете страницы «Купить классическую рубашку», что уже само по себе неверно (слово «купить» в заголовке – явный спам), то получите:

— <title>Купить классическую рубашку</title>;
— <h1>Купить классическую рубашку <h1>;
— url: /kupit-klassicheskuju-rubashku.html.

Такое совпадение может расцениваться как поисковый спам, и его желательно избегать.

Спам в коде

Иногда приходится встречаться с такой логикой рассуждения «оптимизаторов». Заголовок усиливает вес ключевого слова, его также усиливает выделения жирным и курсивом. Плюсом считается ссылка на страницу с ключевым словом внутри. А давай-ка я сделаю:

<h1>
<a href=”ссылка на ту же страницу”>
<strong>
<em>
<i>
<b>Рубашки классические</b>
</i>
</em>
</strong>
</a>
</h1>


И какой поисковик сможет устоять против такой вот SEO-бомбы ?! ?

Нужны комментарии? Тег <h1> не должен быть ссылкой, тем более на ту же страницу. Выделения жирным и курсивом правильно указать в стилях и незачем повторять по два раза.

Правильный заголовок будет выглядеть так:
<h1 class=”pagetitle”> Рубашки классические</h1>

Еще один распространенный вид поискового спама – включение нерелевантных описаний картинок, атрибут «alt». Описание должны соответствовать картинке, а не быть перечнем ключевых запросов.

Возьмем те же классические рубашки:

«Купить классическую рубашку в Москве» – поисковый спам.

Правильное описание к изображению будет «Классическая рубашка + номер товара или 1-2 основных характеристики».

Спам в логике наполнения сайта

Для развития сайта важно, чтобы пользователи приходили не только по основным высокочастотным запросам. Большое значение, особенно при продвижении молодых сайтов, имеют переходы по низкочастотным ключевым фразам. Все верно, но часто оптимизаторы забывают о пользователях и работают исключительно на поисковые системы. В итоге сайты начинают наполняться раздутыми разделами «Наши статьи», «Новости» и т.п. У сайта с десятью основными коммерческими страницами появляется раздел с парой сотен информационных статей, качество которых часто очень сомнительно.

Магазин цветов, например, может создать страницы под каждый район города «доставка цветов + название района». Потом создать статьи по доставке каждого вида цветов «вид цветов + доставка в Москве». И так пройтись по всем низкочастотным запросам.

Понятно, что доставка роз или гладиолусов ничем принципиально не отличается, и, по сути, все эти статьи не нужны посетителям, а соответственно являются поисковым спамом.

В заключение хочу дать несколько советов.


Не ориентируйтесь на наличие сайтов с поисковым спамом в выдаче

Часто приходится слышать, что в ТОПе находятся сайты с гораздо большим числом поискового спама, но под фильтр они не попали. Да, находятся, легче ли вам от этого? Возможно, это следствие хороших поведенческих факторов или авторитета ресурсов, а может до них еще не дошла очередь. Ваш сайт под фильтром! И вместо бесполезной полемики и сетований на несправедливость Яндекса, лучше заняться чисткой своего сайта.

Комплексное устранение спама

Если сайт попал под фильтр, не следует рассчитывать, что устранив только один признак, который, возможно, и стал причиной наложения фильтра, с вас снимут санкции.

Сайт уже находится на заметке и, чтобы исправить ситуацию, нужен комплексный подход, полная чистка сайта от поискового спама. Устраняя проблемы точечно, вы можете затянуть снятие санкций на многие месяцы.

siteclinic.ru

Контекстный спам

Контекстный спам, как можно догадаться из самого названия, изобилует большим количеством так называемых ключевых слов в тексте, размещенном на сайте. Чаще всего контекстный спам располагается на основной странице (главной) веб-ресурса. В итоге получается, что эта страница просто пестрит одним и тем же ключевым словом (фразой), но тем не менее это может привести к хорошим результатам. Реже осуществляется перенасыщение ключом тегов веб-документов, использование для ключевых слов шрифта, равного 1 пикселю и т.д. Благодаря современным средствам безопасности, применением контекстного спама сократилось во много раз и его использование стало просто нецелесообразным.

Ссылочный спам

Гораздо чаще сейчас можно встретить ссылочный спам. Принцип его работы заключается в неестественных манипуляциях как с внешней ссылкой, так и внутренней (с массой ссылок какого-то веб-ресурса). К сожалению, современные поисковые системы далеко не всегда могут определить, откуда появилась та или иная ссылка, а это значит, что именно его можно считать самым безопасным. Тем не менее чрезмерное использование ссылочного спама может привести к наложению фильтра АГС.

Поведенческий спам

Что касается поведенческого спама, то эта разновидность появилась относительно недавно. Современные поисковые системы разрабатывают методы борьбы с ним, а это значит, что многие оптимизаторы могут взять такой вид спама на «вооружение». Чаще всего накрутка с его помощью осуществляется покупкой активности на биржах. В связи с этим можно совершенно точно сказать, что его применение потребует от оптимизатора определенных финансовых затрат, которые далеко не всегда будут маленькими.

www.kakprosto.ru

Поиско́вый спам (спамдексинг или веб-спам) — сайты и страницы в Интернете, созданные с целью манипуляции результатами поиска в поисковых машинах — в конечном счёте, для обмана пользователя.
Основные виды поскогово спама:
Не имеющие отношения к содержимому страницы, но популярные в поисковых запросах слова в тегах «meta keywords», «description», например «sex», «халява». В результате поисковые машины стали анализировать не только специальные теги, но и сам текст сайта.
«Накачка» текста ключевыми словами — искусственное повышение частоты ключевого слова или выражения в тексте и (или) использование элементов разметки HTML (h1-3, strong, b, em, i) для искусственного повышения веса ключевого слова.
«Невидимый текст» — текст, невидимый для посетителя страницы, но индексируемый поисковой машиной. Применяется цвет текста, соответствующий цвету фона, текст размером в 1 пиксель, блоки текста, со стилем «display:none».
Ссылочный спам — ссылки, «накручивающие» параметр «link popularity» и PageRank сайта. Так как поисковики, отвечая на запрос, ориентируются на количество ссылок, имеющихся на других сайтах на данный ресурс, то появилась идея как-то увеличить число таких ссылок:
1. Создать небольшие сайты на бесплатном хостинге, зарегистрировать их в большом количестве тематических каталогов и с них ссылаться на основной.
2. Принять участие в обмене ссылками.
3. Приобретать ссылки за деньги.
4. Ссылочный спам с гостевых книг, блогов, вики и пр.

Поисковые машины борются с этим, создавая фильтры, в которые добавляют сайты, ссылки с которых не учитываются при ранжировании.

Дорвеи — промежуточные страницы, созданные для накрутки веса страницы при ссылочном ранжировании или для организации Гугл-бомбы. В соответствии с технологией дорвеев в поисковом индексе надо продвигать специальную страницу дорвей. А уже с этой страницы перенаправлять на рекламную. У одной рекламной может быть неограниченное число дорвеев. Поисковые машины в ответ удаляют из своей базы данных сайты, в которых есть автоматическое перенаправление. На что спамеры отвечают простой уловкой: просят посетителя самого нажать на кнопку «Вход на сайт» или что-то подобное.
Маскировка, или «клоакинг» — анализ переменных запроса, при котором поисковой машине отдается содержимое сайта, отличное от того, которое видит пользователь.

otvet.mail.ru

Как поисковый спам учитывается при поиске

При ранжировании сайтов поисковыми системами в формуле учитывается не только релевантность сайта, его авторитетность и все остальные показатели качества, но также и коэффициент спамности. Причем, этот коэффициент не бинарный (спам или не спам), а непрерывный, как многие другие ранки.

Для работы с поиском в Google даже существует разные отделы, один посвящен качеству поиска (Search Quality Team) и его задача как раз обеспечивать качество выдачи (работают с формулой ранжирования). Глава этого отдела Амит Сингал (Amit Singhal). Другой отдел (Webspam Team) борется с поисковым спамом во главе с Мэттом Каттсом (Matt Catts). Соответственно, алгоритм “Панда” (в 2011 г) это разработка отдела качества, в то время как алгоритм “Пингвин” (в 2012-ом) это порождение отдела по борьбе с вебспамом.

В одном из своих патентов компания Microsoft приводит схему, как формируется поисковая выдача с учетом модуля классификатора вебспама (для общего представления).

Формирование списка сайтов с использованием классификатора вебспама (из патента Майкрософт)

Стоит отметить, что для определения спамности документа используются не только автоматические методы, но и ручные (в единичных случаях), а также “стуки” от вебмастеров через специальную форму.

Небольшое описание проблемы поискового спама

Для описания проблемы определения поискового спама ниже приведена небольшая выдержка из документа Spam: It’s Not for Inboxes Anymore (научный труд ребят из стенфордского университета по классификации веб-спама, на который, впоследствии, ссылались авторы других трудов).

“В ряде случаев вебспам очевиден. Например, при публикации этой статьи (в 2005 г), топовым результатом поиска Google по запросу “Kaiser pharmacy online” была страница, внешне аналогичная выдаче Google, за исключением заголовка Gogle, и все ссылки вели на ряд сайтов, продающих дешевые лекарства, отпускаемые по рецепту. Естественно, эти грубые результаты намеренно подрывают репутацию Google и, несомненно, должны быть помечены как “спам”.

Однако, рассмотрим другой случай. Сайт “World News Network” ранжируется третьим в Google по запросам “world news” и “news network”, наряду с такими компаниями, как CNN, BBC и FOX. Пользователю очевидно, что WNN не является источником новостей; это компания, владеющая тысячами сайтов, каждый из которых по отдельности является онлайн-газетой определенной тематики в определенном географическом регионе (например, Бизнес в Каире или Азиатское Побережье). Дальнейший просмотр сайтов покажет, что многие статьи нетематичны. Например, определенные статьи, принадлежащие разделу “Бизнес в Каире”, мало относятся к бизнесу в Каире, и больше раскрывают основные события, такие как война в Ираке. Эти WNN-ресурсы, плотно ссылаются друг на друга, при этом, нет других неаффилированных сайтов, ссылающихся на них. Несмотря на то, что статьи берутся из достойных источников, вроде Associated Press, CNN и New York Times, ссылки на действительный источник ставятся редко. Таким образом, здесь имеется серая область. Агрегация новостей может быть полезной, но дает ли WNN что-либо истинно ценное или существует лишь для получения прибыли с рекламы на его страницах?

Размытость картины также зависит от субъективного взгляда пользователя. При поиске “miserable failure” в Google и Yahoo первым результатом была официальная биография президента Джоржа Буша (Мишель Мур и Хиллари Клинтон также были в десятке). Спамные техники, конечно же, влияли на рейтинг, но в данном случае вебспам неочевиден, так как одобряете ли вы результат или нет, зависит от личных предпочтений. Таким образом, даже если ценность заключается в довольно странном результате, она всё же есть.

Таким образом, определение вебспама не так просто как может показаться. С одной стороны, вебспам это явное влияние на ожидание людей. С другой стороны, это серьезная проблема. Ежедневно производится множество попыток повлиять на людей – рекомендации, телевидение и газеты, политическая пропаганда и евангелизм. Одному пользователю что-то может казаться некорректным, обманчивым, неубедительным и раздражающим, другие могут в этом находить соответствие своим взглядам. Автоматически генерируемый мусор, никому не несущий ценности, легко классифицировать как спам. Однако, что на счет большой серой области, где контент несет для кого-то хотя бы небольшую ценность? И кому решать, где кончается серая область и начинается сплошной бесполезняк?”

Классификация

Авторы приведенного выше труда классифицировали поисковый спам и опубликовали одноименный документ.

Webspam Taxonomy (405 Кб) (см. перевод на SeoNews).

Судя описанной классификации вебспам бывает текстовый и ссылочный. Опишем коротко каждый из них. Ниже приведен рисунок, описывающий текстовый вебспам.

(кликните для увеличения)
Текстовый поисковый спам

Текстовый спам это, прежде всего, повторения ключевого слова (переоптимизация) в различных информационных составляющих сайта (теле документа, заголовке, мета-тегах, ссылках и ЧПУ). Но также сюда относятся:

Свалка. Когда страница завалена множеством разных ключевых слов, чтобы повысить вероятность захода на неё хотя бы по ряду низкочастотных запросов.

Вплетение. Когда берутся цитаты с других источников (например, новостных) и в них вплетается нужная ключевая фраза (или несколько).

Смешивание. Когда контент агрегируется из различных источников в надежде синтезировать что-то уникальное.

Среди ссылочного поискового спама также имеется большое разнообразие:

(кликните для увеличения)
Ссылочный поисковый спам

Здесь предлагается анализировать не только входящие ссылки, но и исходящие, где к спаму относят каталоги ссылок (часто нетематические). Что касается входящих, то это:

Линк-фермы. Специально созданные сайты для размещения на них ссылок. Часто это сеть сателлитов, сплогов или специальные ссылочные системы.

Скрытые ссылки. Ссылки на сайте-доноре либо скрыты в коде, либо имеют цвет фона, чтобы их не видели посетители (или сам владелец сайта, если ресурс был взломан).

Обмен ссылками. Участие в системах по обмену ссылками. Также сюда относится обмен со своими же ресурсами (сателлитами).

Ссылки из комментариев. Уже в 2005 году понимали малозначимость ссылок из комментариев. Особенно, если они имели такой вид: “У вас хороший сайт. Загляните также на мой про <a>казино</a>”.

Ссылки с/на освобождающиеся домены. Чаще всего освобождающиеся домены с имеющейся ссылочной массой покупают именно с целью манипулирования выдачей.

Немодерируемые ссылки. Все типы ссылок, которые не проходят модерацию. Сюда относятся и гостевые книги, доски объявлений, а также ряд других сайтов (каталогов).

Помимо ссылочного и текстового спама в классификации выделены другие общеизвестные типы, такие как клоакинг, редирект (дорвеи) и скрытый контент.

Методы обнаружения

На основе приведенной выше классификации поискового спама было разработано множество методов его определения, разработаны различные SpamRank, Anti-Trust Rank и другие Spam-ранки.

1. Антиспам контента

Один из методов определения контентного поискового спама это статистический анализ различных его информационных составляющих. В одном из документов специалисты из Microsoft показывают явные зависимости спамности контента от количества используемых слов, средней их длины, сжимаемости текста, используемых водянистых слов и других параметров.

Detecting Spam Web Pages throught Content Analysis (221 Кб)

Например, ниже показано распределение страниц в зависимости от количества используемых слов, а также красной линией вероятность спама в зависимости от того же числа слов на странице.

Зависимость спамности от числа слов на странице

Здесь четко видно, что страницы с количеством слов больше 500-600 явно выделяются из общей массы и вероятность спама в них больше, чем для остальных. На следующем рисунке та же зависимость, только по заголовку TITLE.

Зависимость спамности документа от количества слов в заголовке

Заголовки длиннее 10-15 слов встречаются в сети достаточно редко и чем длиннее заголовок, тем больше вероятность попадания документа в спам-зону.

Ещё интересна зависимость спамности контента от его способности к сжатию (архивации).

Зависимость спамности контента от его сжимаемости

Спамный контент часто хорошо сжимается. И так далее… Смотрите другие интересные зависимости в приведенном выше документе.

Для определения текстового поискового спама используются и другие техники. Читайте, например:

Spam, Damn Spam, and Statistics (706 Кб) — другой документ от Microsoft, описывающий статистические методы определения спама.

Анализ разнообразия тематической структуры текста (224 Кб) — труды специалиста из МГУ, где описаны методы обнаружения массово порождаемых неестественных текстов на основе анализа разнообразия тематической структуры текста (поиск шаблонности).

2. Ссылочный антиспам

Из-за большого разнообразия ссылочного поискового спама также существует большое разнообразие методов его идентификации. Например, Anti-Trust Rank (по аналогии с TrustRank) по начальной выборке заведомо спамных сайтов находит аналогичные ресурсы. SpamRank меряет количество незаслуженного PageRank с помощью анализа обратных ссылок. Другие алгоритмы позволяют определять линк-фармы, сетки сайтов, обменивающихся ссылками, и другие спам-техники. Ниже приведены некоторые из полезных для прочтения документов на эту тему.

Анализ качества контента и ссылок для антиспама (148 Кб)
(Университет в Пекине, Китай).

Поиск ссылочных шаблонов для борьбы с вебспамом (237 Кб)
(Венгерская Академия Наук).

Рейтинг Дирихле (238 Кб)
(Университет Иллинойс в Урбана-Шампейне).

Ссылочные альянсы (485 Кб)
(Стэнфордский университет).

R-SpamRank: Определение спама с помощью анализа ссылок (97 Кб)
(Университет Цинхуа, Китай).

Исключение влияния ссылочного плагиата при ранжировании (104 Кб)
(Университет Лехай, США).

Использование латентных графов с положительными и отрицательными ссылками для устранения спама в информационном поиске (211 Кб)
(Калифорнийских технологический институт).

Заключение

Как пишут сами представители поисковых систем, для определения спама идет попытка идентифицировать не только используемые техники, но и мотивы. Например, скрытие контента не говорит ничего само по себе, так как контент может скрываться с целью улучшения юзабилити сайта и данный метод использоваться не для манипулирования выдачей, а для удобства пользователя.

Несмотря на всю сложность определения поискового спама, на данный момент существует достаточное количество методов и большие обучающие выборки. Но здесь возникает вопрос: не расширилась ли классификация поискового спама, относится ли покупка ссылок к спамным техникам?

Скорей всего с 2005 года классификация расширилась и к текстовому поисковому спаму может относится также количество страниц в дополнительном индексе (наличие большого количества дублей и шаблонных страниц на сайте), что наблюдается одной из причин попадания сайтов под антиспам-фильтр “Пингвин” в Google (исходя из проведенного эксперимента).

Также, покупка ссылок является спамной техникой, но не сам факт покупки, а наличие в этих ссылках продвигаемых ключевых фраз. Ещё в прошлом году на CyberMarketing 2011 и на Optimization.by Кирилл Николаев (руководитель группы отдела вебпоиска Яндекс) выступал с докладом, где упоминалось о неучете ряда ссылок для сайтов (иногда до 90% ссылочной массы просто игнорируется). То же самое мы наблюдаем в антиспам-алгоритме “Пингвин” от Google, где явно видно отсечение влияния прямых вхождений ключевых запросов в анкорах входящих ссылок, если они занимают первое место в анкор-листе.

Если несколько лет назад поисковики не могли отключить влияние всех продажных ссылок из-за малого количества игроков в определенных тематиках, то к этому времени коммерческих сайтов появилось достаточно много и есть из кого выбрать ТОП, поэтому, ссылки начали играть меньшую роль, и больше уделяется внимание ценности ресурса и его юзабилити.

Целью данной статьи не было найти современные способы продвижения сайтов, а лишь описать поисковый спам, показать серьезность проблемы для поисковиков и какие они используют подходы для её решения. На основе этих данных, надеюсь, читатель увидит тенденции и будет прилагать дальнейшие усилия по продвижению сайта в перспективное русло!

devaka.ru

Поисковый спам – что это?

Общепринятое название запрещенных способов оптимизации, которые иногда используют некоторые вебмастера, — это поисковый спам.

Данное название обусловлено тем, что поисковая выдача заспамливается страницами с нерелевантным содержимым из-за использования нечестных способов продвижения. Другими словами,

поисковый спам — это когда по запросу пользователя выдается контент, который не соответствует этому запросу (по мнению пользователя) и который не должен находиться в ТОПе (по мнению поисковика).

Наличие таких спам-страниц в поисковой выдаче отрицательно сказывается на отношении людей к поисковым системам, снижает степень их доверия.

Виды поискового спама

Что подпадает под поисковый спам? Перечислим его основные виды.

  1. Набивка контента ключевыми словами и фразами

Ключами «под завязку» может заполняться (набиваться) сам текст, а также описания к картинкам и видеофайлам, мета-теги и т.д.

Все это делается в надежде на то, что алгоритм поисковиков посчитает страницу более релевантной данным ключам. На самом же деле этот способ SEO-оптимизации уже давно не работает. Вебмастера, использующие его, с большЕй вероятностью получат бан для своего сайта, чем прирост его позиций в выдаче.

  1. Автоматический редирект

— это моментальное перенаправление пользователей с одной страницы на другую.

В данном случае при заходе на страницу какого-либо сайта человек мгновенно перенаправляется на другой сайт.

Зачастую пользователь даже не успевает заметить самого редиректа (так как он происходит автоматически и очень быстро). Чаще всего после редиректа человек оказывается на странице рекламного содержания, которая заспамлена ссылками.

  1. Клоаки

В данном случае для каждой из продвигаемых страниц вебмастер создает сразу две версии.

  • Первая версия страницы предназначается для поисковых систем,
  • вторая версия – для обычных пользователей.

Таким образом, клоаки — это разный контент для поисковых систем и для пользователей.

Специальный механизм отслеживает, кто именно заходит на сайт — робот поисковой системы или обычный человек. Исходя из этого, выдается та или иная версия страницы.

Страница для поисковиков очень тщательно оптимизируется, на ней отсутствуют все лишние элементы и детали, но есть масса ключевых слов для поисковых машин. Страница для простых посетителей делается нормальной, максимально удобной и красивой (с точки зрения дизайна и внешнего вида).

И вроде бы «волки сыты, и овцы целы», то есть, поисковики довольны, и пользователи в счастье. Но на самом деле, используя клоаки, вебмастер обманывает поисковик, который в свою очередь такие вещи не прощает и банит «раздваивающиеся» страницы.

  1. Свопинг

Под данным термином подразумевают полную замену содержимого страницы сайта сразу после ее успешной индексации в поисковых системах. Первоочередная задача вебмастера или оптимизатора, использующего свопинг, — наполнить страницу уникальным и качественным контентом, продвинуть ее в выдаче и получить хороший трафик с поисковых систем.

Затем после очередного апдейта (периодического обновления поисковой системы) вебмастер полностью меняет содержимое своей страницы. Вместо уникального контента там появляется текст, напичканный ключами и ссылками на продвигаемые ресурсы (сайты).

Понятно, что при следующем апдейте поисковики обнаружат подмену и пессимизируют страницу. Но до тех пор она будет продолжать собирать трафик (посетителей), какое-то время находясь в ТОПе.

  1. Невидимый текст и ссылки

Прятать текст и ссылки на странице сайта от взгляда посетителей можно разными способами. К примеру,

  • можно использовать очень мелкие шрифты,
  • можно делать одинаковыми цвет шрифта и цвет фона страницы (например, текст белого цвета на белом фоне),
  • можно использовать специальные правила стилей CSS для маскировки ссылок.
  • Можно вставлять в страницу однопиксельные изображения, содержащие ссылку и т.д.

Текст и ссылки не видны для пользователей, но видны для индексирующих роботов поисковых систем.

www.inetgramotnost.ru

Как используется поисковый спам

Понятие «спамить» в общем смысле сейчас имеет оттенок назойливого и несанкционированного действия в отношении интернет-пользователя, которое производится с целью коммерческой выгоды.

Поисковый спам на сайте имеет цель обмануть не только пользователя, но и поисковую систему и ее роботов. На ранжирование поисковой системой влияет очень много факторов. Поисковый спам влияет на все эти факторы в экстремальной форме, доводит каждый элемент оптимизации сайта до запредельного уровня, от чего систему начинает «тошнить», и она воспринимает сайт как фишинговый сервис.

Виды поискового спама

Переоптимизация сайта может касаться:

  • Ключевых слов (контента)
  • Ссылок
  • Заголовков и мета-тэгов (верстки)
  • Доменного имени

Каждый из этих видов демонстрирует заспамленность одного из элементов оптимизации сайта, который в таком виде рассчитывает искусственно повлиять на поисковую выдачу.

Заспамленность текста ключевыми словами

Это вид спама характерен частым, неестественным содержанием ключевых слов в тексте. Выглядит такой спам примерно так:

Вот он я, вот мы диваны продаем, ты видел, что мы продаем? Мы вот диваны продаем. Диваны по очень привлекательной цене. Диваны. Диваны! Диваны… Очень много диванов.

Google в своем руководстве для вебмастеров говорит, что излишнее количество ключевых слов создает неудобства для пользователей и может негативно повлиять на рейтинг сайта. Yandex советует пользоваться статистикой поисковых запросов, но только для того, чтобы узнать самые животрепещущие проблемы пользователей и разместить на своем сайте самый лучший ответ на заданный вопрос. Другие попытки повлиять на позицию сайта в выдаче система Яндекса не признает и открыто об этом пишет.

Кстати, с точки зрения русского языка спам ключевых слов называется тавтологией и также является грубой ошибкой.

Заспамленность доменного имени

Да, домен тоже можно заспамить. Некоторые ухитряются вставить ключевые слова даже в доменное имя. Его название, возраст, история и другие характеристики влияют на SEO. Но избыток ключевых слов типа купитькроватьвмосквенедорогобыстро.рф сделает домен неудобным с точки зрения пользователя и заспамленным с точки зрения поиска.

Заспамленность заголовков и мета-данных

Спам заголовков и мета-тэгов касается использования ключевых слов и включения их в большом количестве в мета-тэги, атрибуты title и другие элементы верстки. Об этом подробнее мы поговорим позднее в следующих статьях.

Заспамленность ссылок

Под ссылочным спамом понимается:

  • Внутренняя переоптимизация. Например, вы ставите 10 внутренних ссылок на одну и ту же страницу с одним и тем же словом «купить». Ценность таких ссылок моментально пропадает, и поисковая система не поощряет такую «оптимизацию».
  • Скрытые спам-ссылки, которые видны только роботам. Скрытые ссылки перенаправляют на посторонние ресурсы, не имеющие отношения к сайту, и пользователям выдаются другие страницы.

Как поисковая система реагирует на спам

Заспамленность сайта — очень относительное и субъективное понятие. В самом общем смысле оно означает переизбыток оптимизации разных элементов сайта в целях его продвижения в результатах выдачи. Заспамленность — не случайный показатель, это результат осмысленных действий с целью одурачить систему и вылезти в топ. Сайт перестает нести практическую пользу, роботы это видят и понижают позиции сайта в выдаче. У вас могут уйти месяцы и годы в попытках вернуть доверие поисковой системы.

Любой вид спама — это плохой метод продвижения, не поощряемого поисковой системой. Это факт, об этом говорят вебмастера Яндекса на семинарах, и об этом написано в хелпе русскоязычной поисковой системы, о переоптимизации говорит сам Яндекс в своей популярной статье.

Яндекс даже пишет об этом — пруф ниже.

Из этого мы делаем несколько выводов:

  • Поисковые системы знают и используют понятие «переоптимизация» и «спам».
  • Поисковые системы умеют обнаруживать сайты, которые злоупотребляют оптимизацией, и карают их понижениями позиций и недобавлением в Яндекс.Каталог.
  • Поисковые системы смотрят на сайт глобально и могут менять свое отношение.

Поисковая система не такая уж и глупая, и замечает изменения на вашем сайте, умеет делать выводы, следит за вами, если контент на сайте часто обновляется.

Как избежать заспамленности сайта?

Если вы ставите осмысленные внутренние ссылки, используете соответствующие контексту ключевые слова, заголовки, которые отражают содержание статьи, пишите тексты для людей, в первую очередь, то у вас не получится переоптимизировать сайт.

На самом деле, чтобы «получить бан» за спам на сайте, нужно делать это намеренно, в обход правилам, стремясь к быстрым результатам в SEO.

Проверить заспамленность сайта

Можно:

  • В Гугл Вебмастерс. Это сервис для вебмастеров от Google, где есть информация об оптимизации HTML на вашем сайте. Нас интересует количество повторяющихся заголовков и метаописаний — случайных или намеренных ошибок оптимизатора. Сократите количество ошибок и разнообразьте эти поля.
  • В программном коде страницы или визуально на страницах сайта. Иногда спам на странице виден невооруженным взглядом. Контент на странице бывает перенасыщен ключевыми словами настолько, что его становится невозможно читать. Открыв код верстки, можно увидеть, как в тэгах title, keywords и description также может присутствовать тошнотворное количество ключевиков.
  • Через анализ входящих ссылок и внутренней ссылочной структуры. Изучите в Яндекс.Вебмастере (Индексирование сайта — Входящие ссылки) входящие ссылки, каким образом другие сайты ссылаются на вас, не перенасыщены ли ссылки и контент в ссылках ключевиками. В Google Search Console можете проверить, как организованы внутренние ссылки (Поисковый трафик — Внутренние ссылки). Это в принципе поможет не только выявить заспамленность, но и проанализировать структуру сайта.
  • Через специальные программы. Они дают примерное представление о вашем уровне оптимизации сайта. Мы рекомендуем не считать за истину результаты их проверок и проводить ревизию самостоятельно или попросить сделать это за вас.

convertmonster.ru


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.