Вернуться   SEO форум - оптимизация и продвижение сайтов > Web разработки > Программирование

Важная информация
Программирование - PHP, MySQL, JavaScript, CSS, HTML верстка и т.д.

Ответ
 
Опции темы Оценить тему Опции просмотра
Старый 29.03.2013, 19:50   #1
 
Аватар для bazan
 
Сообщений: 150
FR (активность): 3,879

Доп. информация
Вопрос Автор темы Тяжёлый PHP из Cron

Уважаемые Форумчане. Подскажите решение пожалуйста. Можно ли при помощи Cron заданий, открывать PHP файлик, который через Curl сканирует URL адреса на наличие там ссылок в тексте.

Естественно Curl предполагается использовать через цикл, и этот цикл будет очень тяжелым. В итоге, получается что то вроде фоновой "индексации" URL адресов. Справится ли Cron, при проверке более 1000 ссылок??? Если нет, то может подскажите, куда копать?


Есть кнопка спасибо
bazan вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 29.03.2013, 21:20   #2
 
Аватар для upgreyt
 
Сообщений: 434
FR (активность): 16,968

Доп. информация
По умолчанию

Цитата:
Сообщение от bazan Посмотреть сообщение
Уважаемые Форумчане. Подскажите решение пожалуйста. Можно ли при помощи Cron заданий, открывать PHP файлик, который через Curl сканирует URL адреса на наличие там ссылок в тексте.

Естественно Curl предполагается использовать через цикл, и этот цикл будет очень тяжелым. В итоге, получается что то вроде фоновой "индексации" URL адресов. Справится ли Cron, при проверке более 1000 ссылок??? Если нет, то может подскажите, куда копать?
а чем плохо сразу curl использовать ?
upgreyt вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 29.03.2013, 21:31   #3
 
Аватар для bazan
 
Сообщений: 150
FR (активность): 3,879

Доп. информация
По умолчанию Автор темы

Нужно проверять по большому количеству ссылок раз в неделю и записывать рез-т в СУБД. Если просто написать на PHP нужно каждую неделю открывать эту страницу, а она не откроется из-за лимитов выполнения php скрипта по времени. Увеличить время??? Число ссылок для проверки растет, да и в ручную не очень удобно... Вот и немогу придумать реализацию АВТОМАТИЧЕСКОЙ проверки в фоновом режиме.
upgreyt, или я тебя не правильно понял???


Есть кнопка спасибо
bazan вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 29.03.2013, 21:49   #4
 
Аватар для upgreyt
 
Сообщений: 434
FR (активность): 16,968

Доп. информация
По умолчанию

Цитата:
Сообщение от bazan Посмотреть сообщение
Нужно проверять по большому количеству ссылок раз в неделю и записывать рез-т в СУБД. Если просто написать на PHP нужно каждую неделю открывать эту страницу, а она не откроется из-за лимитов выполнения php скрипта по времени. Увеличить время??? Число ссылок для проверки растет, да и в ручную не очень удобно... Вот и немогу придумать реализацию АВТОМАТИЧЕСКОЙ проверки в фоновом режиме.
upgreyt, или я тебя не правильно понял???
конджобс можно запускать 3-мя способами php, wget и curl . Как вы будете запускать задание крон ?
upgreyt вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 29.03.2013, 23:54   #5
 
Аватар для bazan
 
Сообщений: 150
FR (активность): 3,879

Доп. информация
По умолчанию Автор темы

Крон пропишу в ISPmanager, в котором укажу файл php, который в свою очередь циклит проверку ссылок. Но вопрос в том, что вряд ли это получится осуществить в фоновом режиме, при проверке огромного числа ссылок... Или можно так сделать???


Есть кнопка спасибо
bazan вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 30.03.2013, 07:50   #6
 
Аватар для Vladimir-AWM
 
Сообщений: 14
FR (активность): 78

Доп. информация
По умолчанию

Тут нужно через многопоточный CURL делать + лимит на время выполнения скрипта увеличивать.
Vladimir-AWM вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 30.03.2013, 09:58   #7
 
Аватар для Hodge
 
Сообщений: 734
FR (активность): 17,522

Доп. информация
По умолчанию

bazan, если сервер позволит сделать неограниченное выполнение скрипта, то делайте так, как описали. Если не позволит, то пусть каждый час по 5шт URL проходит.
Hodge вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
"Спасибо" от:
bazan (30.03.2013)
Старый 30.03.2013, 15:20   #8
 
Аватар для bazan
 
Сообщений: 150
FR (активность): 3,879

Доп. информация
По умолчанию Автор темы

Цитата:
Сообщение от Caffeine666 Посмотреть сообщение
каждый час по 5шт URL
Caffeine666, наверно так и придется, и прописывать в СуБД вермя последней проверки, что бы один и тот же адрес не гонять.
А можно как нибудь не через Cron? Я занаю, что мало знаю... Может я не туда нос сую, но есть веб сервисы, кроме поисковиков, которые тоже индексируют сайты. Как у них устроена эта индексация??? Дополнительным ПО на сервере что ли?


Есть кнопка спасибо
bazan вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 31.03.2013, 09:57   #9
 
Аватар для Hodge
 
Сообщений: 734
FR (активность): 17,522

Доп. информация
По умолчанию

bazan, как вариант, написать программу и пусть она запускается у вас на персональном ПК,
парсит и все необходимое делает, потом отправляет GET, ну или POST запросы на ваш сайт (записывает в базу результаты). В принципе, если у вас так горит это сделать, то освоиться программисту в другой среде - не долго.

Цитата:
c# - Visual Studio
HttpWebRequest/HttpWebResponse - отправка запросов/получение ответа от сервера
Regex - парсинг
Hodge вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
"Спасибо" от:
bazan (31.03.2013)
Старый 01.04.2013, 08:25   #10
 
Аватар для bazan
 
Сообщений: 150
FR (активность): 3,879

Доп. информация
По умолчанию Автор темы

Вобщем решил таким образом... Сделал ежечасный cron, им я перебераю URL, которые старее недели, проверяю и обновляю время проверки URL в СУБД. И думаю так, если адресов очень много, то цикл проверки прекратится с ошибкой из-за времени выполнения php и то что успел проверить запишется в MySQL, а что не устеет отбирется по времени из СУБД в следующей проверке.

Так сказать сделал расчет на ошибку, я знаю что это не правильно, но к чему это может привести? К записи логов только?

Ребят, вот нарыл у себя python на ISP. Он подходит для таких задач? Может как раз туда копать то?


Есть кнопка спасибо
bazan вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 07.08.2013, 10:11   #11
 
Аватар для hurt
 
Сообщений: 359
FR (активность): 11,770

Доп. информация
По умолчанию

не знаю может не в тему но я сделал обход задач по времени так
есть файл имеющий адреса
есть скрипт1, который получает адрес и осуществляет проверку, для него выставляем безлимит времени и указываем в нем отдачу заголовков "говорящих" формирование страницы завершено, т.е. получается, что скрипт работает, но иной скрипт или браузер его запустившие получают сразу ответ и прекращают с ним работу.

и есть скрипт2 (порцовщик), который запускается по крон скрипт1 с нужным адресом:

при этом решается проблема, когда скрипт2 производить множественный запуск скрипта1 парсинга страниц и все операции выполняются по очереди, но ни один хост не будет работать с php скриптом безгранично долго, на локальной машине это можно решить перегрузкой страницы, а в нашем случае на хосте именно передачей нужных заголовков, заголовок не подскажу, нахожусь за левой машиной, к скрипту сейчас доступов нет.
hurt вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 07.08.2013, 10:13   #12
 
Аватар для hurt
 
Сообщений: 359
FR (активность): 11,770

Доп. информация
По умолчанию

еще смотрел как-то передачу по сео с крутым выдвиженцем он сказал, что их студия объединяется с множеством аналогичных проектов и они все сливают свои хосты в одном решении, парсят сайты на наличие ссылок, собирая статистику для анализа
hurt вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Ответ

Метки
cron тяжелые задания, длительные запросы cron

Быстрый ответ
Ваше имя пользователя: Регистрация. Для входа нажмите здесь
Случайный вопрос

Сообщение:
Опции
Внимание!
Этой теме более 3205 дней. Вы можете оставить сообщение здесь. Но, обращаем внимание. Возможно, рациональней создать новую тему (найти свежее обсуждение)?


Опции темы
Опции просмотра Оценка этой теме
Оценка этой теме:

Ваши права в разделе
Вы не можете создавать новые темы
Вы можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Бэкап сайта через Cron freakos Мусорка 0 29.02.2012 16:26
Cron ancorid Программирование 2 16.05.2009 13:14

Текущее время: 14:46. Часовой пояс GMT +3.