Вернуться   SEO форум - оптимизация и продвижение сайтов > Поисковая оптимизация > Индексация сайта

Важная информация
Индексация сайта - Robots.txt, sitemap (карта сайта), редирект, .htaccess, и т.д. Бан, поисковые фильтры, ранжирование (позиции).

Ответ
выдача ТОП 9Полезны

 
Опции темы Оценить тему Опции просмотра
Старый 03.10.2013, 05:36   #16
 
Аватар для cthulchu
 
Сообщений: 3,667
FR (активность): 107,294

Доп. информация
По умолчанию

Цитата:
Сообщение от pragmatik Посмотреть сообщение
К сожалению, Яндекс при наличии редиректа говорит следующее:
Файл robots.txt не будет учтён роботом Яндекса, т.к. при запросе выполняется перенаправление.
редирект внутренний, не внешний. курите мануал по рерайту. внутренние редиректы снаружи не палятся.

Цитата:
Сообщение от Danchess Посмотреть сообщение
А зачем их скрывать, если не секрет?
почитать лог - не судьба?
starlayt все верно написал.
Цитата:
Сообщение от starlayt Посмотреть сообщение
Если не прятать то лог о бэдлогинах будет расти на глазах, это задалбывает.
ротацию можно настроить, чтобы не задалбывало.
cthulchu вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 10.03.2014, 15:24   #17
 
Аватар для Zondervit
 
Сообщений: 2
FR (активность): 10

Доп. информация
По умолчанию

amator, можно, конечно. я бы это сделал через мод рерайт, а в кондишне поставил бы проверку юзерагента. таким образом, получить контент смогут лишь те, у кого юзерагенты поисковиков. не ахти какая защита, серьзной проверки не пройдет, но для защиты от школохакеров будет полезной.Можно вас попросить написать подробнее - что и куда нужно прописывать и какие символы всавлять?

Сообщение добавлено 10.03.2014 в 15:28

Цитата:
Сообщение от cthulchu Посмотреть сообщение
зачем врать? если не знаешь, предлагаю не отвечать.

amator, можно, конечно. я бы это сделал через мод рерайт, а в кондишне поставил бы проверку юзерагента. таким образом, получить контент смогут лишь те, у кого юзерагенты поисковиков. не ахти какая защита, серьзной проверки не пройдет, но для защиты от школохакеров будет полезной.

Пишу с айпэда, и он подглючивает. Прошу прощения у модеров за предыдущий пост!

Можно ли подробнее объяснить что и куда вписывать, чтобы запретить юзерам просмотр robots.txt через браузер?

Заранее спасибо)))
Zondervit вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 10.03.2014, 16:31   #18
 
Аватар для Detecd
 
Сообщений: 778
FR (активность): 12,387

Доп. информация
По умолчанию

А не боитесь фильтров за клоакинг, под разные юзерагенты. Гугля может зайти с другого юзерагента и проиндексировать, что-то лишнее...
Самый простой способ заменить robots.txt, на проверку на каждой странице и вывода noindex на странице - тогда палиться вы не будете.

Сайтмеп вообще не палить легко, просто смените урл и уберите из роботс ссылку. А сам файл скормите через вебмастер...


Возьму проект на продвижение. Бюджет от 1 000 USD (Google/Яндекс - рунет)
Detecd вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
"Спасибо" от:
cthulchu (10.03.2014)
Старый 10.03.2014, 18:19   #19
 
Аватар для Zondervit
 
Сообщений: 2
FR (активность): 10

Доп. информация
По умолчанию

Цитата:
Сообщение от Detecd Посмотреть сообщение
А не боитесь фильтров за клоакинг, под разные юзерагенты. Гугля может зайти с другого юзерагента и проиндексировать, что-то лишнее...
Самый простой способ заменить robots.txt, на проверку на каждой странице и вывода noindex на странице - тогда палиться вы не будете.

Сайтмеп вообще не палить легко, просто смените урл и уберите из роботс ссылку. А сам файл скормите через вебмастер...

Понимаете в чем проблема - я в этом деле совсем новый человек. Я не совсем понимаю в какой файл залезть и что там написать/убрать. Может подскажете? Очень не хочется, чтобы мой роботс юзерам видели.
У других выдает ошибку 404 - типа того не найдена страница.


Пытаюсь запустить первый, в своей жизни сайт http://zondervit.ru
Zondervit вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 10.03.2014, 20:26   #20
 
Аватар для cthulchu
 
Сообщений: 3,667
FR (активность): 107,294

Доп. информация
По умолчанию

Цитата:
Сообщение от Detecd Посмотреть сообщение
А не боитесь фильтров за клоакинг, под разные юзерагенты. Гугля может зайти с другого юзерагента и проиндексировать, что-то лишнее...
Самый простой способ заменить robots.txt, на проверку на каждой странице и вывода noindex на странице - тогда палиться вы не будете.

Сайтмеп вообще не палить легко, просто смените урл и уберите из роботс ссылку. А сам файл скормите через вебмастер...
хорошие, кстати, идеи. только вот не посчитается это клоакингом. системы определения клоакинга давно стали умней глупой проверки на выдавание контента разным юзерагентам. они смотрят, что за контент выдается и каким юзерагентам. А то банить сайт, который выдает разные версии себя разным разрешениям экрана - это грех, при чем, грех злой.

короче, за подобное прятание роботса и сайтмапа ничего не будет, но да, можно прописать "роботс" каждой странице, что гораздо сложнее реализовывать и модерировать в случае, когда страниц миллионы. И можно их прятать, но тогда вы скажете о его месторасположении только гуглу и яше, тогда как остальные поисковики попадут в просак. Их мало, я понимаю, но все же. Да и не удобно это - надо помнить, где лежит сайтмап и роботс.
Цитата:
Сообщение от Zondervit Посмотреть сообщение
Очень не хочется, чтобы мой роботс юзерам видели.
вы не туда попали. вам надо "вебмастеринг для чайников" какой-то. вы слишком многого не понимаете, чтобы лезть в эту тему.
cthulchu вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 10.03.2014, 22:36   #21
 
Аватар для Unick
 
Сообщений: 698
FR (активность): 31,962

Доп. информация
По умолчанию

Сами подумаейте. Какая клоака на сайтомапе?) если я не ошибаюсь, сайтемап нужен для роботов, чтобы тыкнуть его носом в страницы, которые надо проиндексировать. А теперь вспомните что такое клоака)) мне даже интересно стало))))) как вы себе представляете фильтр клоаки из-за сайтмапа?
Цитата:
Сообщение от Zondervit Посмотреть сообщение
Понимаете в чем проблема - я в этом деле совсем новый человек. Я не совсем понимаю в какой файл залезть и что там написать/убрать. Может подскажете? Очень не хочется, чтобы мой роботс юзерам видели.
У других выдает ошибку 404 - типа того не найдена страница.
Проблема в другом, не теми вещами ты себе голову забиваешь)
Ничего с сайтом не будет, если человек сможет посмотреть сайтемап, он не умрет, трафик не измиться, позиции не упадут... Не ссы какому злостному врагу твой сайт сдался?))


andreisoroka.com
Unick вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 11.03.2014, 11:18   #22
 
Аватар для Detecd
 
Сообщений: 778
FR (активность): 12,387

Доп. информация
По умолчанию

Эх прицепились к фильтру. Если Гугл зайдет не со своего юзерагента, а это он делает 100%, и проиндексирует 100-1000-10000 страниц, вы потом устанете их удалять из индекса...

Решение мое довольно простое и модерируется в одной строчке файла header.php или где у вас находится <head></head>
Выводим это:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Если в $_SERVER['REQUEST_URI'] есть элемент, который вы не хотите индексировать.


Возьму проект на продвижение. Бюджет от 1 000 USD (Google/Яндекс - рунет)
Detecd вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 11.03.2014, 20:25   #23
 
Аватар для cthulchu
 
Сообщений: 3,667
FR (активность): 107,294

Доп. информация
По умолчанию

Цитата:
Сообщение от Detecd Посмотреть сообщение
Если Гугл зайдет не со своего юзерагента, а это он делает 100%
ну во первых, гугл это не делает. вообще. я это проверял только месяц назад в последний раз. А первый раз заметил года два назад. я понимаю, на сколько это может показаться нелогичным, но он этого не делает. думаю, он решил заменить такие проверки асессорами. Превадная инфа Кстати, при этом, нанимает дешевых асессоров, половина из которых не шарит в айти и не знает, что такое юзерагент...


Цитата:
Сообщение от Detecd Посмотреть сообщение
и проиндексирует 100-1000-10000 страниц, вы потом устанете их удалять из индекса...
А как он проиндексирует не те страницы, если мы ему 404 покажем под другим юзерагентом? мы 404 показываем тем, кто не с ботовскими юзерагентами и роботс с сайтмапом тем, кто ботами представился. Я видел уже реализацию такого, все отлично работает, индексы не осыпаются.


Цитата:
Сообщение от Detecd Посмотреть сообщение
Решение мое довольно простое и модерируется в одной строчке файла header.php или где у вас находится <head></head>
Выводим это:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
ну это-то простая часть. другое дело, что для реализации этого нам нужно знать, когда выводить это, а когда не надо, или ты предлагаешь весь сайт закрыть от просмотра? тогда да, проще.

А чтобы знать, когда вводить и когда нет, нам нужен тот же роботс в любом виде, только теперь мы должны написать код, который бы его парсил и определял - нам эту страницу надо закрывать, или нет. А код, который бы анализировал тот синтаксис, что в обычном роботсе используется будет жутко громоздким, не удобным для написания и еще и нагрузку будет создавать на сервер, в зависимости от количества записей, конечно.

Чтобы уменьшить нагрузку на аналитические элементы и на разработку кода, надо роботс составлять без масок, тобишь без звездочек и знаков вопроса. А это значит, что нужно правило для каждого адреса писать вручную. И попробуй теперь найти все адреса, по которым у тебя не 404/301. Попробуй найти все дубли. Я подскажу. их бесконечное количество в подавляющем количестве движков, просто ссылок на них нету, вот о них никто из вебмастеров не знает.

А что, если это мой конкурент и я щас хрумом прогоню непроиндексированные дубли его страниц? при чем, по адресам, включающим в себя нетематичные ЧПУ. Будет если не плохо, то, по крайней мере, неприятно. А роботсом, как раз из-за звездочки можно обьяснить, что все те страницы технические и нежелательны к индексации.
cthulchu вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 11.03.2014, 23:47   #24
 
Аватар для Detecd
 
Сообщений: 778
FR (активность): 12,387

Доп. информация
По умолчанию

Странное решение, пишем обычную регулярку в файле, аля:
admin|page|ХХХ
вместо звездочки можно использовать *+ если любите сложные роботс
Если любите использовать Allow, тут сложнее, но уверен ТС его не использует. Реализовать так же можно через регулярки.

Править это не сложно.

Проверка на клоакинг, не может быть ассесорской - это сугубо работа робота. Но спорить не буду, вполне может быть, что проблематика клоакинга раздута в интернете, но о ней стоит задумываться, а вдруг захотят проверить. Вопрос клоакинга и роботс.тхт, спорный, но теоретически возможен заход бота с другого агента...


Возьму проект на продвижение. Бюджет от 1 000 USD (Google/Яндекс - рунет)
Detecd вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 12.03.2014, 03:48   #25
 
Аватар для cthulchu
 
Сообщений: 3,667
FR (активность): 107,294

Доп. информация
По умолчанию

Цитата:
Сообщение от Detecd Посмотреть сообщение
Странное решение, пишем обычную регулярку в файле, аля:
admin|page|ХХХ
тобишь, ты предлагаешь в скрипте, который эхает страничку парсить урл запрашиваемой страницы и если в нее входит page, то ничего не делать? а если админ, то делать дизаллоу? ну так этого не достаточно. что если мне надо быстро закрыть тысячу дублей, попавших в индекс? идти код переписывать? а что если у меня страницы, которые надо запретить имеют общего - знак вопроса? теперь писать регулярку с экранированием?

Ну да, не сказал бы, что это сложно. просто вместо минуты человек затратит полчаса, чтобы это сделать, особенно, если он не помнит, где у него это реализовано. А представь, что ты хозяин сайта и у тебя есть вебмастер, который такую штуку сделал. и теперь ты его уволил и нанял другого вебмастера. Прикинь, сколько времени новый ВМ убьет на то, чтобы найти эту фигню и добавить в нее правило. еще час. В принципе, если не жалко менять минуту на час, то можно.

В любом случае, это костыль, так как представь, сколько будет гемора, если, допустим, в год содержимое роботса меняется десять раз.
Цитата:
Сообщение от Detecd Посмотреть сообщение
но теоретически возможен заход бота с другого агента...
теоретически - да. но даже если он зайдет, то возможность получения каких-либо штрафов минимальна. Я бы даже сказал, что возможность ниже, чем получить бан за цветовую гамму дизайна (только в последнем случае ПФ помогает, а тут нету ПФа). кроме того, данные, которые бот получит с роботса с левого юзерагента не будут использованы по назначению, ибо это обязанность бота представляться ботом, когда он исполняет свои служебные обязанности. это как если бы вас на дороге мент в халате остановил.

В любом случае, бот клоаку не палит сам. я как-то заказывал инструмент по поиску клоаки, сапоссылок и другого. мне его написали, валяется, пылится. алгоритм там не сложный. Но поисковики этого не делают. не знаю, почему. логики в этом бездействии не вижу. Но факт есть факт - я периодически проверяю ради интереса (как футбол вот люди смотрят, так и я) выдачу по самым прибыльным запросам мира. И частенько по менее конкурентным из них, как те же эссейки, или долги, или аренда машин, попадаются доры под клоакой. при чем, тематики там перекособачивает нафиг. Так вот, такие вот сайты порой нехило держатся в выдаче. Если я жалуюсь - на второй день сносят сайт. Если не жалуюсь (а кроме меня еще и другие конкуренты есть, которые могут быть достаточно квалифицированными, чтобы спалить похек), то бывает и две недели в топ10 плавает.

Может, связаться с кадровым агенством гугла и предложить им себя в качестве девелопера алгоритмов по определению поискового спама... все ваши сетки нафиг попалю хыхы, а я делал алгоритмы по выявлению сеток. чтобы сетки конкурентов палить и знать, как свои защищать.
cthulchu вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Ответ

Быстрый ответ
Ваше имя пользователя: Регистрация. Для входа нажмите здесь
Случайный вопрос

Сообщение:
Опции


Опции темы
Опции просмотра Оценка этой теме
Оценка этой теме:

Ваши права в разделе
Вы не можете создавать новые темы
Вы можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Зак запретить индексацию страниц календаря в robot.txt? bog35 Раскрутка в общих чертах 10 14.05.2012 09:11
Autopilot Traffic Robot 2 - поиск релевантных страниц detanatar Софт оптимизатора, SEO утилиты 0 01.04.2011 09:53
Помогите с файлом robot.txt karatistka Индексация сайта 2 27.02.2011 22:20
Как скрыть pop-under от Яндекса Pedro Яndex 13 25.05.2009 22:20
А как скрыть сообщения? marktw Беседка 16 07.02.2009 16:37

Текущее время: 07:06. Часовой пояс GMT +3.