Вернуться   SEO форум - оптимизация и продвижение сайтов > Поисковые системы > Google

Важная информация
Google - Поисковая система Google. Продвижение и раскрутка, оптимизация сайта, поисковое продвижение сайтов под Гугл, PR (Page Rank).

Ответ
 
Опции темы Оценить тему Опции просмотра
Старый 14.12.2011, 14:31   #1
 
Аватар для падаван
 
Сообщений: 814
FR (активность): 21,516

Доп. информация
По умолчанию Автор темы Гугл видит ВсЕ. В прямом смысле видит

Из последних рассылок Сео-Пульт

О всевидящем Гугле. Скрипты и даже flash - для него нет преград)

Часть I

Оффтоп:
Майкл Кинг – программист и веб-разработчик, занимается SEO с 2006 года. Начал карьеру в Microsoft в качестве вебмастера, потом работал в других компаниях, среди которых DigitalPersona и WildTangent. В Razorfish работал с Ralph Lauren, ADT, State Farm, Hawaiian Airlines, T. Rowe Price, Citibank. В настоящий момент Майкл возглавляет отдел SEO компании Publicis Modem, проводит аудиты сайтов, а также профессионально занимается музыкой.

Мэтт Каттс во время конференции Pubcon объявил, что Googlebot может работать с AJAX-страницами – например, индексировать комментарии на Facebook. Так совпало, что это заявление было сделано всего через несколько часов после того, как я обнародовал исследование Джошуа Гиардино, в котором высказано предположение, что Googlebot – это headless browser (браузер без графического пользовательского интерфейса), сделанный на основе кода Chromium. И теперь я собираюсь оспорить заявление Мэтта Каттса. Googlebot не только что поумнел, он уже некоторое время не является текстовым пауком; как не являются им ни BingBot, ни Slurp. Все свидетельствует о том, что поисковые роботы (Search Robots) – это headless browsers, и у поисковиков такая функция появилась еще в 2004 году.

Оговорка: Я не работаю ни на какой поисковик. Все сказанное здесь – теоретические умозаключения, основанные на патентных исследованиях (моих и Джошуа Гиардино), а также на некоторых указаниях Билла Славски и анализе поисковой выдачи.

Что такое headless browser?
Headless browser («безголовый браузер») – это полноценный веб-браузер без визуального интерфейса. Как и все TSR-программы (резидентные программы), он запускается без какого-либо оповещения на экране компьютера, но с ним могут взаимодействовать другие программы. Headless browser можно управлять с помощью командной строки или скриптового языка: можно загрузить страницу и алгоритмически исследовать данные, которые увидит пользователь Firefox, Chrome или (тьфу!) Internet Explorer. Ванесса Фокс намекает, что Google именно таким образом просматривал AJAX уже в январе 2010 года.

Однако поисковикам удалось бы убедить нас в том, что их пауки все еще походят на браузер Lynx и могут только видеть и понимать текст и его метки. В целом, они приучили нас верить, что Googlebot, Slurp и Bingbot не похожи на Пэкмена. Нам внушают, что они обрабатывают информацию, не понимая, откуда она и что означает. Представьте, что пунктирная линия, которую «проглатывает» Пэкмен – это веб-страницы. Время от времени он натыкается на стену и меняет направление. Представьте, что SEO – это такие таблетки силы. Представьте, что «призраки» (та синяя штука на картинке) – это технические проблемы SEO, о которые Пэкмен споткнется, и которые не позволят ему добраться до вашей страницы. SEO помогает пауку поисковых машин «съесть» этот призрак; а если сайт не оптимизирован, то Пэкмен умирает и возрождается на другом сайте.

Именно этот принцип нам предлагают уже много лет. Единственная проблема – это уже не так. Но будем справедливы: Google обычно не врет, а недоговаривает, поэтому это наша вина, что мы так долго не могли всего этого понять.

Советую вам прочитать исследование Джоша целиком, а здесь приведу некоторые основные моменты:

- Патент, зарегистрированный в 2004 году под названием «Деление документа на основании визуальных пробелов», содержит обсуждение методов, которые Google использует для визуального отображения страниц и создания моделей DOM (объектных моделей документов), чтобы лучше понимать контент и структуру страницы. Ключевая цитата из этого патента гласит: «Также могут использоваться и другие методы создания соответствующих значений веса – например, на основе изучения поведения или исходного кода программ или при помощи размеченной вручную группы веб-страниц для автоматической установки мер веса через процесс обучения машины».

- Хитрый мистер Каттс на конференции Pubcon намекнул, что GoogleBot скоро будет учитывать, что происходит в той части страницы, которая видна без прокрутки, в качестве показателя качества восприятия пользователем, представив это как новую функцию. Это любопытно, так как согласно патенту от 17 июня 2004 года под названием «Ранжирование документов на основе характеристик и/или поведения пользователей», эта функция существует уже семь лет. В ключевой цитате этого патента описываются «примеры характеристик, связанных со ссылкой, могут включать размер шрифта анкора, относящегося к ссылке; расположение ссылки (измеряемое, например, в списке HTML, в бегущей строке, выше или ниже первого экрана содержимого страницы, просмотренной в браузере с разрешением 800 на 600 пикселей, стороне (верхней, нижней, левой, правой) документа в нижнем колонтитуле, боковой колонке и т.д.); есть ли ссылка в списке, расположение ссылки в списке; цвет шрифта и/или атрибуты ссылки (например, курсив, пол утона, совпадающий с фоном цвет и т.п.)». Это свидетельствует о том, что Google уже какое-то время учитывает границы экрана. Я бы также сказал, что эта функция действует прямо сейчас, так как существуют моментальные превью, на которых страницы обрезаны там, где Google видит начало полосы прокрутки.

- Не секрет, что Google уже некоторое время в известной степени использует JavaScript, но «Поиск по контенту, доступному через веб-формы» указывает на то, что Google использует headless browser, чтобы производить действия, имитирующие работу пользователя. «Многие сайты часто используют JavaScript для преобразования строки вызова метода перед отправкой данных в форму. Это делается для того, чтобы предотвратить загрузки пауком. Эти веб-формы невозможно легко активизировать автоматически. В разных вариантах для обхода используется эмуляция JavaScript. В одном из вариантов реализации запускается простой клиент браузера, который работает с JavaScript». Хм-м-м, интересно.
Google также принадлежит значительное число патентов IBM, и это при всех их замечательных исследованиях удаленных систем, параллельной обработки данных и безинтерфейсных систем – например, патент под названием «Одновременная сетевая конфигурация множества систем без интерфейса». Хотя Google и сам несомненно проводил широкие исследования в этих областях.

Не стоит забывать и о патенте, принадлежащем Microsoft, который называется «Эффективное определение режима работы скрипта путем регулирования браузера», который не оставляет возможностей для разночтений, так как там во многих местах говорится, что Bingbot – это браузер. «Метод анализа одного или нескольких скриптов, содержащихся в документе, для определения, выполняют ли эти скрипты одну или несколько заданных функций; этот метод включает в себя следующие шаги: идентификация путем выбора из одного или нескольких скриптов тех, что соответствуют одной или нескольким заранее заданным функциям; расшифровка одного или нескольких соответствующих скриптов; перехват сигнала внешней функции от одного или нескольких соответствующих скриптов во время расшифровки одного или нескольких соответствующих скриптов, сигнал внешней функции направляется на объектную модель документа, обеспечивая характерную реакцию, вне зависимости от объектной модели документа, на сигнал внешней функции; запрос браузера на создание объектной модели документа, если характерная реакция не обеспечила дальнейшую работу соответствующих скриптов; обеспечение специальной реакции, получаемой с учетом созданной объектной модели документа, на сигнал внешней функции, если браузер получил запрос на создание объектной модели документа». Действительно, любопытно.

Более того, в феврале 2005 года Yahoo зарегистрировал патент, озаглавленный «Методы просмотра динамического веб-контента», в котором написано: «Архитектура программной системы может быть разной. На рис. 1 показан пример архитектуры, в которой модули объединены с традиционным поисковым роботом и движком браузера, который здесь действует как обычный веб-браузер без пользовательского интерфейса (иначе говоря, “headless browser”). Леди и джентльмены, мне кажется, это неоспоримое доказательство. Дальше в этом патенте говорится о автоматическом и ручном заполнении форм и методах применения JavaScript.

Поисковые роботы на самом деле напоминают Пэкмена, но не тот рот без лица, в который мои родители играли в барах и игровых автоматах в середине 80-х. Googlebot и Bingbot больше похожи на трехмерного Пэкмена с глазами, носом и конечностями, на которого мы не обращаем внимания на консольных системах с 90-х годов. Этот Пэкмен может драться, пинаться, прыгать и молниеносно передвигаться по сети в четырех измерениях (4-е – это время, см. обновления). Иначе говоря, поисковые пауки могут обрабатывать информацию со страницы так же, как мы видим ее в своих браузерах, и они достигли такого высокого уровня способностей, что могут имитировать пользователя.

Вы когда-нибудь читали ЛСКП (лицензионное соглашение для конечного пользователя) для Chrome? Да, я тоже не читал, но, как и в большинстве продуктов Google, вас просят согласиться на применение программы, в которой ваши данные об использовании отправляются Google. Предполагаю, что эти данные используются не только для информирования алгоритма ранжирования, но и как средство обучения алгоритмов Googlebot – чтобы научить его заполнять определенные поля и формы. Например, Google может использовать данные, вводимые пользователем, для определения, какие данные вводятся в какое поле, а затем программным путем заполнить формы сгенерированной информацией такого же типа. Если 500 пользователей введут свой возраст в поле «Возраст», у робота будут данные о том, что в это поле надо вводить возраст. Поэтому Пэкмен больше не натыкается на двери и стены: у него есть ключи, и он может войти через парадную дверь.

Часть II

Оффтоп:
Доказательства

Функция Instant Preview – вот почему мы видим скриншоты-аннотации в SERP. Эти превью обладают впечатляющей возможностью: они не только отображают скриншот страницы, но также визуально выделяют и подчеркивают текст, подходящий под ваш запрос. Этого просто невозможно достигнуть простым текстовым пауком.



Cкриншоты флеш-страниц – вы, возможно, уже заметили в Инструментах вебмастера Google скриншоты флеш-сайтов. Постойте... я думал, Google не видит флеш...

Подтверждение запросов AJAX POST – Мэтт Каттс подтвердил, что GoogleBot умеет обращаться с запросами AJAX POST, и, по случайному совпадению, это произошло через несколько часов после того как Рэнд запостил статью «GoogleBot – это Chrome». Согласно определению, AJAX – это контент, загружаемый JavaScript, когда происходит действие после загрузки страницы. Следовательно, его невозможно отследить с помощью текстового паука, потому что текстовый паук не выполняет JavaScript, а только получает существующий код, каким он предоставлен при первоначальной загрузке.

Google отслеживает Flash – Мэтт Клэйтон также показал мне некоторые журналы сервера, в которых GoogleBot получал доступ к URL, которые доступны только через встроенные Flash-модули на Mixcloud.com:

66.249.71.130 "13/Nov/2011:11:55:41 +0000" "GET /config/?w=300&h=300&js=1&embed_type=widget_standard&feed= http%3A//www.mixcloud.com/chrisreadsubstance/bbe-mixtape-competition-2010.json&tk=TlVMTA HTTP/1.1" 200 695 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

66.249.71.116 "13/Nov/2011:11:51:14 +0000" "GET /config/?w=300&h=300&js=1&feed=http%3A//www.mixcloud.com/ZiMoN/electro-house-mix-16.json&embed_type=widget_standard&tk=TlVMTA HTTP/1.1" 200 694 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Допустим, это не новость, но другой пост от 2008 года объясняет, что Google «рассматривает Flash-файлы таким же образом, как это делал бы человек, вводя данные, и так далее». А, вы имеете в виду, как человек работает с браузером?

Скорость сайта – Хотя Google мог бы получать время загрузки сайтов с панели инструментов и данные об использовании от Chrome, для него гораздо надежнее получать эту информацию, индексируя саму сеть. Не выполняя всего кода страницы, практически невозможно точно вычислить время загрузки этой страницы.

До сих пор все это могло звучать так, как будто Google находится всего в нескольких шагах от SkyNet. А оптимизаторы и Google уже много лет уверяют нас, что поисковый робот (паук) имеет текстовую основу, поэтому это может показаться вам фантастикой. Уверяю вас, это не так, и многие из тех вещей, о которых я говорю, доступны программистам даже с намного менее сильной командой инженеров, чем у Google.

Знакомьтесь – PhantomJS
PhantomJS – это headless Webkit browser, которым можно управлять через JavaScript API. С помощью небольшой автоматизации скрипта браузер легко можно превратить в паука. Забавно, что его логотипом является призрак, похожий на призраки в Pacman, а концепт довольно прост: PhantomJS используется для загрузки страницы так, как пользователь видит ее в Firefox, Chrome или Safari, извлечения материалов и прослеживания ссылок. PhantomJS имеет бесчисленное количество приложений для парсинга информации и других видов анализа сайтов, и я советую SEO-общественности осознать это прежде чем мы двинемся дальше.

Джош воспользовался PhantomJS, чтобы подготовить некоторые доказательства сведений, которые я выложил на SearchLove.

Ранее, когда я выпустил GoFish, я уже упоминал, что столкнулся с трудностями при сборе информации о росте количества запросов с Google Insights с помощью текстового паука из-за того, что список этих вопросов предоставляется через AJAX. Ричард Бакстер предположил, что эти данные легко можно собрать с помощью строки XPath (XPath string), и это убеждает меня в том, что поисковая архитектура ImportXML в Google Docs основана тоже на headless browser.



На схеме написано красным: «Обычным путем эти данные получить невозможно, потому что это AJAX».

Во всяком случае, здесь Джош снимает эти данные со страницы при помощи PhantomJS.

Делать скриншоты текстовым пауком невозможно, но с помощью headless webkit browser это проще простого. На этом примере Джош показывает, как делаются скриншоты при помощи PhantomJS.

Chromium – это общедоступная ветвь браузера Webkit, а я сильно сомневаюсь, что Google создал браузер из чисто альтруистических побуждений. Вышеупомянутое исследование предполагает, что GoogleBot – это многопоточный headless browser на основе того же самого кода.

Почему нам ничего не говорят?
Ну, вообще-то, говорят, но утверждают, что «робот-индексатор для создания превью» – это совершенно отдельный объект. Представьте этого робота как «миссис Pacman».

Участник главного форума вебмастеров пожаловался, что в качестве пользовательского агента у них в журналах отображается "Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/534.14 (KHTML, like Gecko) Chrome/9.0.597 Safari/534.14", а не "Mozilla/5.0 (en-us) AppleWebKit/525.13 (KHTML, like Gecko; Google Web Preview) Version/3.1 Safari/525.13".

Джон Му рассказал: «В качестве инструмента для тестирования мгновенных превью мы используем пользовательский агент по образцу Chrome, чтобы можно было сравнить то, что будет видеть браузер (при помощи этого пользовательского агента), с тем, что видим мы с помощью доступа Googlebot к кэшированному превью».

В то время как headless browser и Googlebot, как мы знаем, отличаются, мне кажется, что они всегда параллельно просматривают страницы и собирают информацию для индексации и ранжирования. Другими словами, это как одновременная двухпользовательская версия Pacman с миссис Pacman в 3D и обычным Pacman, которые играют на одном уровне в одно время. В конце концов, паукам не было бы смысла просматривать всю сеть дважды по отдельности.

Так почему же относительно этих возможностей не все так ясно, ведь они имеют отношение к ранжированию? В двух словах: качество поиска. Прикрываясь недостатками текстовых пауков, поисковики могут продолжать использовать их в качестве козла отпущения, объясняющего их неидеальные результаты. Они могут продолжать двигаться в направлении таких вещей как предполагаемый AuthorRank и полагаться на SEO, чтобы в буквальном смысле оптимизировать свои поисковые машины. Они могут продолжать говорить неопределенные вещи, вроде «не гонитесь на алгоритмом», «улучшайте пользовательское восприятие» и «мы учитываем то, что видно без прокрутки», что заставляет специалистов SEO облегчать работу Google.

Основной продукцией Google (и единственной их продукцией, если спросить у Эрика Шмидта в суде), является поиск, и если обнародовать информацию о том, что их возможности намного превосходят заявленные, то им придется повысить качество поиска. Они не говорят нам об этом, потому что с ростом возможностей растет и ответственность.

Что это означает для нас?
Когда мы с Джошем представили свое исследование, многие люди спрашивали меня: «Как это должно поменять мои действия в плане SEO?». По моему мнению, есть три момента:

1. Javascript не поможет вам ничего скрыть. Если вам казалось, что с помощью постзагрузки JavaScript вы можете спрятать какой-либо контент – прекратите это делать. Заманивание и переключение теперь на 100% неэффективный метод. Pacman видит все.

2. Пользовательское впечатление чрезвычайно важно. Google сейчас может в буквальном смысле видеть ваш сайт! Как сказал Мэтт Катс, они смотрят на то, что выше границы прокрутки, а следовательно, могут учитывать при ранжировании то, сколько рекламы представлено на странице. Google может применять данные о поведенческих факторах вместе с дизайном сайта чтобы определить, насколько сайт полезен для людей. Это одновременно радует и пугает, но также это означает, что каждый специалист SEO должен приобрести книгу Круга «Не заставляй меня думать».

3. Инструменты SEO должны стать умнее. Большинство средств SEO основано на текстовых сборщиках (text scrapers), и хотя многие из них довольно сложны (в данный момент лидирует SEOmoz), они все еще сильно напоминают Pacman 80-х годов. Если мы хотим понять, что на самом деле принимает во внимание Google при ранжировании страниц, надо учитывать больше аспектов.

- При обсуждении таких вещей как Page Authority и вероятность спама необходимо визуально проверять страницы с точки зрения программы, а не ограничиваться простыми показателями, такими как плотность распределения ключевиков и граф ссылок. Другими словами, нам нужен показатель качества пользовательского восприятия (UX Quality Score), на который влиял бы визуальный анализ и возможные видоизменения спама.

- Следует сравнивать, насколько отображаемая страница отличается от того, что можно предполагать по коду. Это можно назвать коэффициентом дельта (Delta Score).

- При оценке распределения доли ссылок на странице нужно также учитывать динамическое преобразование (dinamic transformations), поскольку поисковые машины способны понять, сколько в действительности ссылок на странице. Этот фактор тоже можно включить в коэффициент дельта (Delta Score).

- Также следует включить в наш анализ обработку естественного языка, так как это, по-видимому, тоже учитывается алгоритмом Google. Этот фактор не оказывает значительного влияния на общий результат, но помогает определить ключевые понятия, с которыми машина ассоциирует контент, а также полностью понять, чего стоит ссылка с учетом желаемого результата. Другими словами, необходим контекстуальный анализ графа ссылок.
В двух вещах я согласен с Мэттом Катсом. Единственный постоянный параметр – это перемены. Однако мы должны также понимать, что Google будет продолжать дезинформировать нас относительно своих возможностей или подталкивать к определенным выводам, которых мы потом будем придерживаться. Поэтому нам следует понимать, что Google в ответе за свои технологии. Проще говоря, если они могут точно доказать, что они ничего такого не делают, то с этого момента им следует начать; в конце концов, там работают одни из самых талантливых инженеров на планете.

Google продолжает усложнять поисковый маркетинг и отменять данные, позволяющие нам улучшать восприятие пользователем, но факт в том, что у нас симбиоз. Поисковики нуждаются в SEO-специалистах и вебмастерах, чтобы сделать сеть быстрее, проще и понятнее, а мы нуждаемся в поисковиках, чтобы качественный контент поощрялся, занимая более заметные места. Проблема в том, что у Google в руках все карты, и я рад, что приложил свои усилия к тому, чтобы вырвать одну из них.

Твой ход, Мэтт.


ученик SeoCafe
падаван вне форума  
Сказавших "Спасибо!": 8 (показать список)
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 14.12.2011, 15:04   #2
 
Аватар для Jaga
 
Сообщений: 2,479
FR (активность): 74,145

Доп. информация
По умолчанию

Это что же? Теперь ничего не скроешь? К примеру пользовательское меню.


Кто в Яндекс продвигал, тот в цирке не смеется. народная мудрость

Со временем найдутся все
Jaga вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 14.12.2011, 15:17   #3
 
Аватар для psychomonkey
 
Сообщений: 1,627
FR (активность): 40,550

Доп. информация
По умолчанию

Оффтоп:
сегодня побрился))) может гугл оценит))
psychomonkey вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 14.12.2011, 15:28   #4
 
Аватар для падаван
 
Сообщений: 814
FR (активность): 21,516

Доп. информация
По умолчанию Автор темы

Цитата:
Сообщение от zahar-zaharych Посмотреть сообщение
Это что же? Теперь ничего не скроешь?
похоже на то..


ученик SeoCafe
падаван вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 18.12.2011, 11:25   #5
 
Аватар для cthulchu
 
Сообщений: 3,670
FR (активность): 107,432

Доп. информация
По умолчанию

ну, сеопульт привирает в некоторых моментах. мы на сеокафе уже обсудили индексацию гуглом флеша и js.
Но, действительно, ПС не хотят, чтобы от них что-то скрывали, их цель - оценивать сайт так же, как его оценивают пользователи.
cthulchu вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Ответ

Метки
google, гугл

Быстрый ответ
Ваше имя пользователя: Регистрация. Для входа нажмите здесь
Случайный вопрос

Сообщение:
Опции
Внимание!
Этой теме более 2190 дней. Вы можете оставить сообщение здесь. Но, обращаем внимание. Возможно, рациональней создать новую тему (найти свежее обсуждение)?


Опции темы
Опции просмотра Оценка этой теме
Оценка этой теме:

Ваши права в разделе
Вы не можете создавать новые темы
Вы можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Яндекс не видит сайт по запросах valik Раскрутка в общих чертах 5 13.09.2011 13:16
Текст в скрытых блоках. Поисковик видит? SWG Оптимизация страниц сайта 9 24.06.2010 20:32
Анализ контента не видит ничего (( Pavlik Morozov SEO сервисы 0 24.03.2010 18:14
Проблема Яндекс видит не то что надо. YaltaHome.com Яndex 4 27.02.2010 14:07
гугл не видит ссылки на сайт hdr Google 4 04.03.2009 10:16

Текущее время: 13:18. Часовой пояс GMT +3.