Вернуться   SEO форум - оптимизация и продвижение сайтов > Web разработки > Программирование

Важная информация
Программирование - PHP, MySQL, JavaScript, CSS, HTML верстка и т.д.

Ответ
 
Опции темы Оценить тему Опции просмотра
Старый 28.11.2012, 02:34   #16
 
Аватар для hurt
 
Сообщений: 359
FR (активность): 11,770

Доп. информация
По умолчанию

specialist-seo,
Цитата:
Сообщение от specialist-seo Посмотреть сообщение
3) Почему не используется эмулятор браузера
что вы имеете ввиду?

Сообщение добавлено 28.11.2012 в 02:35

Цитата:
Сообщение от Elias Посмотреть сообщение
тогда какое оптимальное время задержки?
ну вы как пользователь с какой скоростью перемещаться можете от страницы к странице в поисках инфы?

Сообщение добавлено 28.11.2012 в 02:40

Цитата:
Сообщение от Elias Посмотреть сообщение
подскажите, тогда как вы куки получаете и отдает? с помощью cURL?
куккисы возвращает курл их сохраняешь в файлик, а при следующем обращении читаешь и подсовываешь яндексу
hurt вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 28.11.2012, 05:30   #17
 
Аватар для zerg
 
Сообщений: 1
FR (активность): 87

Доп. информация
По умолчанию

Цитата:
Сообщение от hurt
что вы имеете ввиду?
типа хуманэмулятор и тп.

ТС, не знаю как сейчас но яндекс раньше к примеру в вордстате подставлял картинку которая подгружалась и добавляла куки для определения ботов.


От ржавчины да от плохой точки больший оружию вред, нежели от рубления. А.В.Суворов
zerg вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 28.11.2012, 05:48   #18
 
Аватар для Elias
 
Сообщений: 13
FR (активность): 0

Доп. информация
По умолчанию Автор темы

Цитата:
Сообщение от hurt Посмотреть сообщение
куккисы возвращает курл их сохраняешь в файлик, а при следующем обращении читаешь и подсовываешь яндексу
это я понимаю, Вы код покажите программный, как делаете это...

Сообщение добавлено 28.11.2012 в 15:00

Цитата:
Сообщение от specialist-seo Посмотреть сообщение
3) Почему не используется эмулятор браузера
сегодня попробовал получить страницу выдачи яндекса с помощью библиотеки snoopy, сразу схватил капчу
вы сами пробовали парсить выдачу с помощью эмулятора браузера? может либу другую использовали?
Elias вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 28.11.2012, 14:40   #19
 
Аватар для hurt
 
Сообщений: 359
FR (активность): 11,770

Доп. информация
По умолчанию

Цитата:
Сообщение от Elias Посмотреть сообщение
это я понимаю, Вы код покажите программный, как делаете это...
ну молодой человек.. ну погуглите, примеров на блогах туча и просто пишется за 3 минуты

Сообщение добавлено 28.11.2012 в 14:42

Цитата:
Сообщение от zerg Посмотреть сообщение
типа хуманэмулятор и тп.
я полагал, что вы имеете в виду эмуляторы на php
hurt вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 29.11.2012, 09:59   #20
 
Аватар для specialist-seo
 
Сообщений: 2,416
FR (активность): 63,156

Доп. информация
По умолчанию

Цитата:
Сообщение от mrmixsun Посмотреть сообщение
ожем в качестве примера рассмотреть реальные запросы, ежели хотите, но я не вижу необходимости.
Я вижу, хотелось бы разобраться

Цитата:
Сообщение от Elias Посмотреть сообщение
какую библиотеку посоветуете?
слышал только о snoopy, но не использовал
Похоже проблема в том, что не отправляете нормальные заголовки. Даже стандартный wget и тот качает как положено.

Только что проверил через twill - все работает
http://darcs.idyll.org/~t/projects/twill/doc/

Для nodejs - есть эмулятор получающий в том числе и js код, но пока проект использовать не рекомендую.

Цитата:
Сообщение от hurt Посмотреть сообщение
что вы имеете ввиду?
Проще всего использовать компоненты и браузеры предназначенные для тестирования сайтов, в них по умолчанию есть все что нужно.
Но для некоторых из них потребуется поставить Иксы (Xdm)

В данном случае возможно разумно будет скачивать все страницы, и только потом производить их разбор.
specialist-seo вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 29.11.2012, 10:08   #21
 
Аватар для Elias
 
Сообщений: 13
FR (активность): 0

Доп. информация
По умолчанию Автор темы

Цитата:
Сообщение от hurt Посмотреть сообщение
ну молодой человек.. ну погуглите, примеров на блогах туча и просто пишется за 3 минуты
я то свой вариант выше писал.
хотелось бы увидеть Ваш вариант или комментарии по моему...

Сообщение добавлено 29.11.2012 в 13:09

Цитата:
Сообщение от specialist-seo Посмотреть сообщение
Только что проверил через twill - все работает
сейчас попробую...

Сообщение добавлено 29.11.2012 в 16:33

Цитата:
Сообщение от specialist-seo Посмотреть сообщение
http://darcs.idyll.org/~t/projects/twill/doc/
сразу не посмотрел, что на питоне...
а на php подобные либы знаете?
Elias вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 30.11.2012, 09:29   #22
 
Аватар для specialist-seo
 
Сообщений: 2,416
FR (активность): 63,156

Доп. информация
По умолчанию

Цитата:
Сообщение от Elias Посмотреть сообщение
а на php подобные либы знаете?
качественных нет, но всегда можно сделать вот так, код рабочий. У меня парсит.

Код:
<?php
 
// Конектимся
$uri ="http://yandex.ru/yandsearch?text=site%3Aspecialist-seo.ru&clid=48658&lr=213"; 
$host = "yandex.ru"; 
 
 
$Referer = '';
$User_Agent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)';
$Accept = 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8';
$Accept_Language = 'ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3';
$Accept_Charset = 'windows-1251,utf-8;q=0.7,*;q=0.7';
$Content_Type = 'Content-Type: text/html; charset=iso-8859-1';
$Cookie = 'guid=A0F20A054CDB1503X1289426179';
 
 
$samo = fsockopen($host,80);
$vars = '';
    $request = '';
    $request .= "GET {$uri} HTTP/1.1\r\n";
    $request .= "Host: {$host}\r\n";
    $request .= "User-Agent: {$User_Agent}\r\n";
    $request .= "Accept: {$Accept}\r\n";
    $request .= "Accept-Language: {$Accept_Language}\r\n";
    $request .= "Accept-Charset: {$Accept_Charset}\r\n";
    $request .= "Referer: {$Referer}\r\n";
    $request .= "Cookie: {$Cookie}\r\n";
    $request .= "Content-Type: {$Content_Type}\r\n";
    $request .= "Keep-Alive: 115\r\n";
    $request .= "Accept-Encoding: deflate\r\n";
    $request .= "Connection: close\r\n\r\n";
  //$request .= "Connection: keep-alive\r\n\r\n";
 
$body = '';
fputs($samo, $request);                                    
while(!feof($samo)) $body .= fgets($samo);//считываю полученное в переменную
fclose($samo);
echo $body;
 
?>
&clid=48658 = этот мусор браузер подставляет, но возможно с помощью его тоже определяет человек или нет.
specialist-seo вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 30.11.2012, 09:32   #23
 
Аватар для specialist-seo
 
Сообщений: 2,416
FR (активность): 63,156

Доп. информация
По умолчанию

зачем curl когда не требуется многопоточность честно говоря не понял.
specialist-seo вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 10.12.2012, 07:54   #24
 
Аватар для mrmixsun
 
Сообщений: 95
FR (активность): 3,760

Доп. информация
По умолчанию

Цитата:
Сообщение от specialist-seo Посмотреть сообщение
Я вижу, хотелось бы разобраться
Давайте разберемся, чего уж тут
например, делаю запрос через xml - старый мой парсер работал именно через него.
запрос - "строительство бассейнов", сайт - www.kontek.su. Регион - Новосибирск. Для примера.
xml отдает позицию за номером 55, веб-интерфейс отдает 35 позицию.
Я считаю существенной разницу.
Если желаете более плотно разобраться, и у вас имеется парсер xml выдачи - давайте, любой сайт, любой регион, любой запрос.


Любители состязаются друг с другом, профессионалы - сами с собой
mrmixsun вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Ответ

Быстрый ответ
Ваше имя пользователя: Регистрация. Для входа нажмите здесь
Случайный вопрос

Сообщение:
Опции
Внимание!
Этой теме более 3581 дней. Вы можете оставить сообщение здесь. Но, обращаем внимание. Возможно, рациональней создать новую тему (найти свежее обсуждение)?


Опции темы
Опции просмотра Оценка этой теме
Оценка этой теме:

Ваши права в разделе
Вы не можете создавать новые темы
Вы можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Curl PHP + Meta Refresh gunya Программирование 7 22.11.2012 15:53
К - капча, клоакинг, клик, комьюнити, конверсия, контент, контекстная реклама Jokeron SEO словарь 4 19.06.2011 14:26
Капча gruz Беседка 5 19.11.2009 02:51

Текущее время: 20:19. Часовой пояс GMT +3.