Вернуться   SEO форум - оптимизация и продвижение сайтов > Поисковая оптимизация > Индексация сайта

Важная информация
Индексация сайта - Robots.txt, sitemap (карта сайта), редирект, .htaccess, и т.д. Бан, поисковые фильтры, ранжирование (позиции).

Ответ
выдача ТОП 1Полезны

 
Опции темы Оценить тему Опции просмотра
Старый 20.11.2012, 17:24   #1
 
Аватар для IndigoHollow
 
Сообщений: 14
FR (активность): 399

Доп. информация
По умолчанию Автор темы Возможно ли такое в robots.txt?

Стал у меня не понятно откуда Гугл вытаскивать и засовывать к себе в индекс непонятные ссылки, которые мне совсем не нужны. Вроде этих:
Код:
/statji/ventiljatcija-himicheskih-laboratoriy?PAGEN_1=1
/statji/remont-ventiljatciy/undefined?PAGEN_1=4
Дело в том, что реально существуют только такие ссылки:

Код:
/statji/ventiljatcija-himicheskih-laboratoriy/
/statji/remont-ventiljatciy/
а откуда берутся левые ссылки известно только одной CMS Битрикс и Гуглу.

Хочу запретить левые ссылки в robots.txt. Не прописывать же все их, нужно какое-то правило.

Вопрос1: можно ли в robots.txt прописать правило, которое запретит все ссылки, имеющие в своем содержании "?PAGEN_1" кроме "/?PAGEN_1"?

Вопрос2: Если я пропишу:
Disallow: /statji/remont-ventiljatciy/*
то у меня запретится сам URL "/statji/remont-ventiljatciy/" ?

P.S.: знаю, что сейчас начнутся советы о том, что легче разобраться почему такие адреса появляются и т.д., но подобных советов не нужно. Сейчас над этим работаю.
IndigoHollow вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 20.11.2012, 17:37   #2
 
Аватар для specialist-seo
 
Сообщений: 2,199
FR (активность): 49,104

Доп. информация
По умолчанию

Код:
User-agent: * 
Disallow: /*?* # блокирование доступа для страниц с ?
Данная методика опробована на практике при переносе сайта с drupal на django
Пример: сайт WD5.RU
http://wd5.ru/robots.txt
specialist-seo вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 20.11.2012, 17:42   #3
 
Аватар для specialist-seo
 
Сообщений: 2,199
FR (активность): 49,104

Доп. информация
По умолчанию

Цитата:
Сообщение от IndigoHollow Посмотреть сообщение
"?PAGEN_1" кроме "/?PAGEN_1"?
не понял в чем разница, но если нужно, вначале должно идти разрешение только для одной этой страницы, потом запрет всем остальным.
specialist-seo вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 20.11.2012, 17:44   #4
 
Аватар для СТЕПАН
 
Сообщений: 1,639
FR (активность): 98,707

Доп. информация
По умолчанию

Делай так

[html]Disallow: *?PAGEN_1[/html]
СТЕПАН вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 20.11.2012, 17:46   #5
 
Аватар для СТЕПАН
 
Сообщений: 1,639
FR (активность): 98,707

Доп. информация
По умолчанию

Цитата:
Сообщение от IndigoHollow Посмотреть сообщение
Вопрос2: Если я пропишу:
Disallow: /statji/remont-ventiljatciy/*
то у меня запретится сам URL "/statji/remont-ventiljatciy/" ?
да именно так и получится что сайт вылетит из индекса так несоветую делать
СТЕПАН вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 20.11.2012, 18:11   #6
 
Аватар для IndigoHollow
 
Сообщений: 14
FR (активность): 399

Доп. информация
По умолчанию Автор темы

Цитата:
Сообщение от specialist-seo Посмотреть сообщение
не понял в чем разница, но если нужно, вначале должно идти разрешение только для одной этой страницы, потом запрет всем остальным.
Разница в том, что во втором варианте есть слэш. Ссылки со слешем перед "?PAGEN_1" мне нужны для индексации. А ссылки без слэша не нужны. Другими словами:

/statji/ventiljatcija-himicheskih-laboratoriy?PAGEN_1=1 - не должны индексироваться
/statji/?PAGEN_1=1 - должны индексироваться

Возможно ли так сделать?

Цитата:
Сообщение от *RU*
Делай так: Disallow: *?PAGEN_1
Тогда нужные мне для индексации ссылки тоже не будут индексироваться (см. это же сообщение чуть выше).

Как можно заблокировать ссылку:
/statji/remont-ventiljatciy/undefined?PAGEN_1=4
не блокируя при этом:
/statji/remont-ventiljatciy/
?
IndigoHollow вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 20.11.2012, 18:30   #7
 
Аватар для Umka
 
Сообщений: 4,143
FR (активность): 80,659

Доп. информация
По умолчанию

IndigoHollow, попробуйте Clean-param
http://help.yandex.ru/webmaster/?id=996567#1041216

Что-то типа
Clean-param: PAGEN /statji/remont-ventiljatciy/
IndigoHollow: сообщение полезно
Umka вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
"Спасибо" от:
IndigoHollow (21.11.2012)
Старый 21.11.2012, 07:37   #8
 
Аватар для slava088
 
Сообщений: 84
FR (активность): 1,121

Доп. информация
По умолчанию

Вопрос думаю будет по теме. Насколько важно убрать к примеру как у ТС статью для индексации? Т.е. насколько плохо будет индексация из-за одной лишней ссылки, понятно если таких дублей сотни, но если пара ссылок так ли это катастрофично?
slava088 вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 22.11.2012, 11:02   #9
 
Аватар для IndigoHollow
 
Сообщений: 14
FR (активность): 399

Доп. информация
По умолчанию Автор темы

Цитата:
Сообщение от umka from ufa Посмотреть сообщение
IndigoHollow, попробуйте Clean-param
http://help.yandex.ru/webmaster/?id=996567#1041216

Что-то типа
Clean-param: PAGEN /statji/remont-ventiljatciy/
Пожалуй, это решение. Правда, левыми ссылками являются так же:

../statji/remont-ventiljatciy
, т.е. без "/" на конце. Поэтому они все равно будут в индексе. Или нет?


ВОПРОС:
если я пропишу в Robots.txt:
Disallow: /products/vosdohovodi?PAGEN
то заблокируются ли ссылки вида:
/products/vosdohovodi?PAGEN_1=1

/products/vosdohovodi?PAGEN_1=7
?

А если пропишу в Robots.txt:
Disallow: /statji/remont-ventiljatciy/undefined?PAGEN
то заблокируются ли все ссылки вида:
/statji/remont-ventiljatciy/undefined?PAGEN_1=3
/statji/remont-ventiljatciy/undefined?PAGEN_1=9
?
IndigoHollow вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 22.11.2012, 11:06   #10
 
Аватар для Umka
 
Сообщений: 4,143
FR (активность): 80,659

Доп. информация
По умолчанию

IndigoHollow, в панели вебмастера есть анализатор роботс. Подставьте свою конструкцию туда - он покажет какие страницы будут закрыты.
Umka вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 22.11.2012, 11:29   #11
 
Аватар для cthulchu
 
Сообщений: 3,670
FR (активность): 107,432

Доп. информация
По умолчанию

и еще, почему никто не использует конструкцию Allow? она же специально сделана для того, чтобы в подобных случаях упростить работу с роботсом, добавляя исключения в дизаллоу. это, конечно, не очень спортивно, примерно, как GOTO в школьном/институтском программировании, но мы же не в школе...
cthulchu на форуме  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 22.11.2012, 14:56   #12
 
Аватар для hurt
 
Сообщений: 359
FR (активность): 11,770

Доп. информация
По умолчанию

используйте канонические ссылки сложнее но эффективнее , если все понял верно
hurt вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 22.11.2012, 17:15   #13
 
Аватар для IndigoHollow
 
Сообщений: 14
FR (активность): 399

Доп. информация
По умолчанию Автор темы

ВОПРОС:
Если я пропишу в Robots.txt строку:
Disallow: /*PAGEN*
то она закроет для индексации не только URL "../articles/first/?PAGEN_1_1", но и URL "../articles/first?PAGEN_1_1" (без "/") ?
IndigoHollow вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Старый 22.11.2012, 17:18   #14
 
Аватар для cthulchu
 
Сообщений: 3,670
FR (активность): 107,432

Доп. информация
По умолчанию

Цитата:
Сообщение от IndigoHollow Посмотреть сообщение
ВОПРОС:
Если я пропишу в Robots.txt строку:
Disallow: /*PAGEN*
то она закроет для индексации не только URL "../articles/first/?PAGEN_1_1", но и URL "../articles/first?PAGEN_1_1" (без "/") ?
да, испоьзуй директиву allow
cthulchu на форуме  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
"Спасибо" от:
IndigoHollow (23.11.2012)
Старый 23.11.2012, 09:12   #15
 
Аватар для IndigoHollow
 
Сообщений: 14
FR (активность): 399

Доп. информация
По умолчанию Автор темы

Спасибо, Друзья, за ответы! Вот еще один вопрос:

Вопрос1: Если я пропишу в robots.txt следующую конструкцию:

Disallow: /*PAGEN*
Allow: /statji/?PAGEN*

то у меня на сайте под запрет попадут все страницы, имеющие в URL'ах "PAGEN", кроме:
../statji/?PAGEN_1=2
../statji/?PAGEN_1=3
../statji/?PAGEN_1=...

Так ли это?

Вопрос2: Если я пропишу:

Disallow: /*PAGEN*
Allow: /*/?PAGEN*

то у меня будут запрещены все страницы с URL, содержащие "PAGEN", кроме тех, у которых перед "PAGEN" стоит слэш?
IndigoHollow вне форума  
Ответить с цитированием Сказать Плохо за это бесполезное сообщение Быстрый ответ на это сообщение
Ответ

Быстрый ответ
Ваше имя пользователя: Регистрация. Для входа нажмите здесь
Случайный вопрос

Сообщение:
Опции
Внимание!
Этой теме более 1849 дней. Вы можете оставить сообщение здесь. Но, обращаем внимание. Возможно, рациональней создать новую тему (найти свежее обсуждение)?


Опции темы
Опции просмотра Оценка этой теме
Оценка этой теме:

Ваши права в разделе
Вы не можете создавать новые темы
Вы можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
У ГС Alexa Rank 0, как такое возможно? starlayt Раскрутка в общих чертах 4 02.04.2012 22:10
1000$ в месяц c 50 MFA сайтов возможно такое? zilon Создание MFA 34 31.01.2012 20:43
Как такое возможно? cx717 Индексация сайта 13 24.05.2011 08:43
как такое возможно?! объясните, не понимаю ... energen45 Яndex 2 10.01.2011 00:16
Кол-во ссылок. Возможно ли такое? Deponius Раскрутка в общих чертах 10 02.07.2009 15:49

Текущее время: 12:01. Часовой пояс GMT +3.