Почему Google (или Googlebot) индексирует страницу, возвращающую ошибку 500?
Googlebot время от времени индексирует один из наших сайтов с неверным параметром строки запроса. Я не уверен, как он получает этот параметр строки запроса (кажется, нет никаких сайтов, ссылающихся на нас с плохими ссылками, и ничто на нашем сайте не вставляет плохое значение). Плохой параметр приводит к тому, что сайт выдает ошибку 500, как мы и ожидали.
У меня было впечатление, что Google не будет индексировать страницы, которые возвращают ошибку 500, но оказалось, что это так. Так что теперь у меня их два вопросы:
1) Почему Googlebot вставляет случайные неверные значения строки запроса? (На самом деле меня не волнует ответ на этот вопрос, но если бы мы могли сделать что-то, чтобы избежать этого, это решило бы нашу проблему.)
2) Зачем Google индексировать страницу, которая возвращает ошибку 500?
Вот одна из ошибочных ссылок, которую создал Googlebot и которая есть у Google индексируется:
Http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1
Плохой параметр-gb=baqhuxts. Параметр " gb " должен быть целым числом. Если вы удалите этот параметр из строки запроса, вы получите красивую страницу каталога.
Относительно nofollow и роботов.txt решения: [отредактировано]
Теперь я понимаю, что я идиот, и ставлю мета-тег, говорящий поисковым роботам индексировать страницу. Тот это было глупо с моей стороны. Я их удаляю. W-(
Если Выищете в Google 'baqhuxts', вы обнаружите, что он проиндексировал 10 страниц с этим плохим параметром. Но каждая из этих страниц возвращает ошибку 500. Есть ли у кого-нибудь представление о том, почему Google считает эти страницы допустимыми для индексирования?
2 ответов:
Это, вероятно, потому, что вы говорите Google индексировать его, имея это в ваших мета-тегах:
<meta name="robots" content="index,follow">Попробуйте удалить это! :)
К сожалению, я знаю только ответ на #1:
Google будет сканировать странные страницы, потому что люди с панелью инструментов google переходят на несуществующие страницы, и их информация о просмотре передается в google. Вот почему вы часто будете находить индексируемые страницы, которые не имеют никакого бизнеса, например, страницы phpmyadmin, на которые нет ссылок из любого места.
Comments