Новости
[ 2009-08-19 06:48:23]

Promodo

Статьи публикации по созданию сайтов, рекламе в Интернет

   Статьи  » Зарубежные поисковые системы ( Google, Yahoo, MSN и другие)



Новые фильтры Google в понимании оптимизаторов

2007-08-06 10:33:45

На фоне развития поисковых систем, развивались и люди, которые всегда нарушали правила и стремились любыми способами быстрее увидеть свой сайт на первой странице выдачи. Если три-четыре года назад какие-то методы поискового спама не были по зубам Google, то сейчас многие из них ушли в небытие, уступив место более изощренным и дорогостоящим в реализации способам. На сегодняшний день определение спама в Google полностью автоматизировано, модераторы стараются не вмешиваться в работу алгоритмов и удалять сайт руками, это делается алгоритмически.

Со временем у вебмастеров начали появляться внятные выводы об алгоритмах этой поисковой системы. Сейчас уже можно в некоторых случаях говорить о том, что плохо, а что хорошо для Google. Естественно, это все догадки оптимизаторов, но что-то в этом, конечно же, может быть правдой.

Что такое песочница или Google Sandbox.

Пожалуй, это самый жаркий момент, который интересовал вебмастеров со всего мира в Google, начиная с 2004 года, когда это явление впервые проявилось, и интересует до сих пор. Вследствие различных совершенствований алгоритмов, сложилась такая ситуация, что новому сайту практически невозможно попасть на первую страницу поиска в Google по конкурентным запросам. Ходит мнение, что поисковая система просто не пускает в течение 6 месяцев новые сайты в выдачу по конкурентным запросам. Это немного не так и давайте разберемся почему.

Первое, на что нужно обратить внимание, это на публикации представителей этой поисковой системы. Они заявляют, что ничего подобного специально не разрабатывали, и все это следствие различных факторов. Они не могут быть одинаковыми для всех сайтов, а рассчитываются в зависимости от ситуации.

Основная идея этого явления (Sandbox) заключается в том, что недавно появившийся в сети сайт не может быть авторитетным и его голос не стоит принимать во внимание. Для начала, люди должны узнать все о нем, проанализировать, дать свое мнение. На все это нужно время чисто физически. Также, немного неестественно выглядит сайт, который вдруг ни с того ни с сего получил много ссылок, а его конкуренты нет. В зависимости от ситуации, Google рассчитывает пороговые значение для каждого сайта, также это явление зависит от поискового запроса. Пока сайт не удовлетворяет всем требованиям, его либо нельзя найти среди первых 1000 результатов, либо он очень далеко от первой страницы, если общее количество всех релевантных запросу документов небольшое.

Многие вебмастера возмущаются: «Как же так, у меня ведь такой интересный сайт?» Почти все сводится к каким-то санкциям и запретам, но техническую сторону вопроса никто даже не собирается рассматривать. В любом случае, для большинства это понятие (Sandbox) выглядит как черный ящик. На выходе имеем какие-то данные и на входе. Но, связать их в одно целое, выяснить взаимодействие факторов четко не удается. Каждый вебмастер или специалист по продвижению сайтов пытается трактовать этот черный ящик по-своему. Вследствие чего появляется большое количество фантастических рассказов и рецептов, чтобы побороть это явление. Это выглядит очень смешно, учитывая огромные интеллектуальные и технические возможности специалистов из Google. Надеяться на какие-то прямолинейные рецепты, которые сработают для любого случая, просто глупо.

Давайте хотя бы попытаемся предположить, что же может входить в эти грандиозные формулы Google, какие факторы и в какой степени на что влияют.

Начнем с временных факторов. Нам известно, что компания Google уже зарегистрировала несколько патентов на тему ранжирования сайтов, полагаясь на исторические данные об их развитии. Теперь для определения релевантности в алгоритмах могут использоваться: дата регистрации домена, дата первой индексации сайта, даты появления внешних ссылок и их динамика, даты всех изменений текста на сайте и другие.

Внимательно прочитав все эти патенты можно предположить, что:

  • чем раньше сайт зарегистрирован – тем лучше;
  • чем раньше первый раз проиндексирован – тем лучше;
  • чем дольше стоят внешние ссылки на сайт, тем больше веса они передают;
  • если внешние ссылки появляются естественно, не очень быстро, то это хорошо;
  • если сайт часто обновляется, то это хорошо;
  • если сайт резко поменял свою тематику через какое-то время, то это плохо;
  • со временем усиливается влияние всех факторов: как внутренних, так и внешних.
Поскольку, поисковые системы ранжируют страницы сайтов, то можно предположить, что есть какие-то факторы, зависящие от самого сайта. Это могут быть все те временные факторы, что мы упомянули, а также внутреннее содержимое сайта. Можно предположить, что Google ведет статистику по всем сайтам в сети и знает, какой вид имеет среднестатистический хороший сайт, как он должен развиваться, в какой последовательности. Тогда можно сказать, что лучше не усердствовать с оптимизацией контента сайта на начальном этапе развития, не гнаться за плотностью ключевых слов и прочим.

Безусловно, что на работу этого алгоритма влияют внешние факторы, применительно к какому-то конкретному сайту. Какими же они могут быть? Естественно, что речь идет о ссылках. Все внешние ссылки, текст, которым они ссылаются, все это может влиять на расчет того порога в Sandbox. Учитывается как количество ссылок, динамика их появления, так и то, с каких сайтов эти ссылки стоят, с какими именно ключевыми словами. Появление за короткий промежуток времени большого количества внешних ссылок – это плохо. Ссылки с плохих сайтов – это не плюс. Ссылки с одинаковым текстом, участие в системах автоматического обмена и кольцах – это плохо. Естественные ссылки и ссылки с авторитетных сайтов – это хорошо.

Что же еще может участвовать в алгоритмах этого Sandbox? Абсолютно очевидно – это запрос, который вы вводите в поисковой системе. Именно от запроса будет в большей мере зависеть то, будет ли ваш сайт участвовать в основной группе сайтов, или попадет под воздействие ограничительного алгоритма Sandbox.

Давайте разберемся, какими же свойствами вообще обладает поисковый запрос. Каждый запрос имеет частоту его поиска в системе. Есть запросы с большой популярностью, у них эта характеристика больше. А есть и запросы с маленькой частотой набора. Когда происходит выборка в индексе по каким-то словосочетаниям, то появляется определенное количество всех релевантных документов. Появляется количество всех ссылок в сети с этими ключами, и Google известны все их числовые характеристики.

Также, зная запрос можно узнать, покупают ли рекламодатели объявления в Google Adwords или нет, какая там общая конкуренция. Имея такую статистику по частоте, конкуренции, суммам, которые тратятся, Google может произвести группировку сайтов по принципу: коммерческий или нет. И в зависимости от этого настроить автоматически коэффициенты, участвующие в расчетах алгоритма Sandbox.

Представители Google как-то сообщали о том, что более популярным запросам уделяется больше внимания, чем непопулярным в плане контроля качества. Естественно, что все это делается автоматически, то есть на анализ популярных тематик тратиться больше процессорного времени всех серверов. По очень популярным, коммерчески привлекательным запросам, мы почти не будем замечать плохих сайтов или дорвеев, тогда как по запрещенным в Adwords тематикам или просто редко набираемым запросам мы можем увидеть до 90% дорвеев на первой странице. Все это связанно с тем, что более сложные алгоритмы вступают в работу только при определенных частотах, и нет смысла тратить дополнительные ресурсы на пересчет всех параметров. Там где это неоправданно, некоторые алгоритмы не работают. Ведь, качество поиска определяется чем? Да просто, доволен ли пользователь тем, что ему предлагается по запросу, или нет. Если он искал что-то, нашел и остался довольным, то поиск качественный.

Также, во всей этой системе участвует и сам пользователь. То, из какой страны он подает запрос, каким региональным Google пользуется, может сказаться на результатах ранжирования. Но, это влияние в частности будет зависеть от тех же частотных характеристик поискового запроса, только в контексте сложившихся региональных особенностей.

Учитывая все ранее сказанное, можно предложить такую обобщенную схему Sandbox.


Рисунок 1 Обобщенная схема Sandbox


Ну вот, когда рассмотрены большинство возможных факторов, можно сделать какие-то выводы, примерить на эту схему то, с чем мы сталкиваемся в реальности и проверить работают ли наши предположения.

Временные характеристики домена однозначно только уменьшают пороговое значение. Но, есть взаимодействие между датой регистрации домена, датой первой индексации, датами появления обратных ссылок. Если просто зарегистрировать домен и отложить его на время, не делая сайт и не ставя внешние ссылки, то это минимально повлияет на пороговое значение. Более важной составляющей является дата первой индексации и даты появления, динамика роста внешних ссылок.

Чем популярнее запрос, тем больше коэффициенты для расчета порогового значения. Также учитывается коммерческая сторона поискового запроса и тематика.

Внутренние контентные характеристики сайта минимально влияют на процесс расчета порога, но излишнее количество ключевых слов (переоптимизация сайта) ведет к его увеличению.

Внешние характеристики сайта могут как уменьшить время пребывания под этим фильтром, так и увеличить. Наблюдается некая “золотая середина”. Если не выходить за ее пределы в обе стороны, то это как минимум не увеличит порог. Какие именно коэффициенты этого взаимодействия, сколько ссылок надо ставить, с какой скоростью, с каких сайтов и с каким Page Rank – все это точно сказать невозможно. Эти параметры рассчитываются динамически под каждый конкретный запрос и сайт. Например, не нужно ставить на новый сайт ссылки с таких же новых сайтов, а также не нужно сразу ставить ссылки с PageRank=8, например.

В зависимости от того, какой пользователь подает запрос, в какой региональный Google, результаты выдачи могут отличаться. Как объяснить, например, то, что для русских запросов этот фильтр либо вообще не наблюдается, либо только по самым конкурентным тематикам? Да очень просто. Популярность этих запросов в Google не так велика. Люди мало пользуются этой поисковой системой, частотные характеристики запросов меньше, чем англоязычных, вот и алгоритмы чуть мягче. Все это из-за конкурентности запросов и количества сайтов, участвующих в выборке. Поисковая система оперирует словами, фразами на разных языках. Для каждого языка есть свои особенности, но это мало влияет на чисто технические задачи, как поиск по базе данных и расчет всяких математических формул.

Фильтр Google -30, -950 и другие.

Среди оптимизаторов ходит слух, что существуют некие фильтры, которые опускают именно ваш сайт на какое-то конкретное количество позиций в выдаче за выявленные нарушения. Попросту говоря, было бы глупо со стороны Google такое делать. Представители этой поисковой системы, да и других тоже, заявляли о том, что никто не может манипулировать позициями сайтов, нельзя точно поставить сайт на то или иное место по поисковому запросу. А если учесть то, что пользователям из разных стран, да и в пределах одной страны, могут показываться различные результаты, то это не представляется возможным. Да, есть автоматические фильтры-пенальты, которые накладываются на сайт за мелкие нарушения. Со временем они также автоматически и снимаются, если ошибки устранены. Но, наказание не может быть строго в 30 позиций, например. Наказать сайт можно, уменьшив его численные показатели, например, реальный Page Rank или силу внешнего ссылочного ранжирования. В результате один сайт опуститься на 30 позиций, а другой на 40. В последнее время на одном из известных форумов для оптимизаторов начали появляться темы, что появился новый фильтр Google -20. Через несколько дней выяснилось, что это была ошибка в программе, которая определяла позиции сайтов в выдаче. Программа эта довольно популярная и используется очень многими вебмастерами. После того, как разработчики устранили ошибку – новый фильтр Google исчез. Так что нужно спокойно относиться к всякого рода заявлениям о фильтрах с точным указанием чисел.

Фильтр Google Supplemental Results.

У данной поисковой системы четко можно выделить два индекса для документов. Один основной, а второй дополнительный. Когда по какому-то запросу Google не найдет релевантных документов из основного индекса, то он добавит в выдачу их из дополнительного. Раньше в дополнительный индекс попадали дубликаты страниц, дорвеи, страницы с большим количеством ссылок, страницы с плохим, по мнению Google контентом. Сейчас же ситуация немного поменялась. Представители поисковой системы рассказали какие именно документы находятся в дополнительном индексе. Попадают в Supplemental Results документы, которые имеют недостаточный Page Rank, чтобы быть в основном индексе, а также те, которые имеют плохое содержание: дубликаты, пустые страницы и другие. Поскольку реальный Page Rank пересчитывается постоянно, то могут быть ситуации, когда документ с уникальным контентом тоже попадает в дополнительный индекс. Это означает, что вам просто нужно немного подождать, вы можете добавить внешних ссылок на этот документ и все будет в порядке. Через некоторое время ваша страница будет в основном индексе.

С другой стороны можно также предположить, что если страница попала в дополнительный индекс, значит реальный Page Rank у нее теперь стал маленький, не тот, что виден в GoogleBar. Следовательно, по конкурентному запросу ваш документ не будет показываться на первой странице, а по какому-то менее конкурентному будет.

Фильтр за дублирование контента.

Этот фильтр проявляется в том, что Google из всей массы дубликатов выбирает главный, а все остальные могут получить пенальти, либо попадают в дополнительный индекс. Следовательно, по какому-то запросу выше должен быть главный сайт, все остальные должны находится ниже. Но, сам принцип определения более релевантного сайта не так прост, как может показаться. Например, источник какой-то новости может быть намного ниже по запросу, чем сайт, который просто перепечатал эту новость. Google берет во внимание авторитетность самого сайта, а только потом контент. Следовательно, чем авторитетней сайт, тем больше у него шансов быть выше в случае дублирования.

Фильтр на одинаковые тексты ссылок.

Чтобы сделать свой поиск более качественным, Google старается бороться с искусственным увеличением ссылочной популярности сайта. В частности, ссылки, ведущие на сайт, не могут быть с одинаковым текстом. Ведь ссылка – это голос вебмастера. Он сам решает чем именно понравился ему ваш сайт, сам ставит ссылку. Совпадения в 100 одинаковых ссылок с разных сайтов для Google не пройдут. Сразу видно, что идет искусственное увеличение популярности. Подобный фильтр может не учитывать все эти ссылки, либо учтет несколько, а остальные нет. Так что оптимизаторам надо привыкать к тому, чтобы все ссылки были уникальными.

Существует также множество других фильтров, придуманных самими оптимизаторами. Но все они являются лишь догадками, и пока никто из представителей поисковой системы не подтвердит их – нет смысла фантазировать зря. Google сегодня – это мощная система, объединяющая в себя огромное количество всяких взаимосвязей и фильтров, так что нам остается только набраться терпения и наблюдать за всем этим.




Автор статьи - Александр Лавро

Компания Promodo.



    Контакты
В Москве:
+7(495) 979-98-54
contact@promodo.ru

В Харькове:
+38(057) 752-54-62
+38(057) 755-90-60
contact@promodo.com

Форма для связи

    Наши клиенты

    Полезные статьи

 
Срочное изготовление пластиковых карт с доставкой.

    Наши работы
Наши партнеры:
Rambler's Top100
Центральный офис:
Украина, 61072, г. Харьков,
ул. 23 Августа, д.31Б, оф. 305

Тел.: +38(057) 752-54-62, +38(057) 755-90-60
Представительство в Москве:
125167, г.Москва, Ленинградский проспект, д.37, корп.6.
Тел.: +7(495) 979-98-54