Все о создании и продвижении сайтов, а также заработке в интернете.

Крутой способ проверки большого количества страниц в индексе Яндекса и Гугла

Крутой способ проверки большого количества страниц в индексе Яндекса и Гугла
Опубликовано в Раскрутка сайта
/
29 Май 2015
/

Доброго времени суток, дорогие читатели. Хочу вам рассказать очень полезный кейс (способ — называйте как хотите) сбора страниц в индексе яндекса и гугла, который мы с коллегами придумали на днях. Скажете вы — «А почему мне не зайти, например, в Яндекс вебмастер или спарсить выдачу?!» — все просто, в данном случае наш пациент — интернет магазин атрибутики для телефонов с огромным количеством страниц (реальных страниц товаров — около 10000 штук). Необходимо было на данном сайте проверить какие страницы товаров в данный момент находятся в индексе, а какие нет.

Почему же нам не подходят стандартные способы проверки страниц в индексе:

  • Яндекс вебмастер: там показывается лишь 1000 URL в индексе, сколько бы у вас страниц не было, он покажет лишь первую тысячу.
  • Скрипт с XML-лимитами Яндекса: честно говоря не сталкивался, но знаю, что этот способ наверняка будет более затратным, чем тот, который я вам покажу, к тому же, с Гугла вы таким образом не сможете собрать страницы с индекса
  • Проверить вручную каждую ссылку: думаю очевидно, почему нам этот метод не подходит =)

Что нам нужно для проверки индексации страниц в индексе Яндекса и Гугла

Для того, чтобы им воспользоваться нам необходим KeyCollector, думаю он есть практически у каждого СЕО-оптимизатора, а также немного денег на антикапчу. Результатом нашей проверки будет екселевский документ, в котором будет список всех URL-ов сайта отсортированных по «в индексе / не в индексе» (в случае с двумя поисковыми системами, можно будет сделать и две колонки — Индекс Яндекса и Индекс Google).

Итак, сам способ массовой проверки индексации большого количество страниц в Яндексе и Гугле

Нам нужно добыть список всех URL вашего сайта, каким образом это сделать, я думаю вы и сами знаете. В большинстве случаев у нас есть sitemap.xml в котором присутствует необходимый список ссылок. Давайте в пример возьмем сайтмап данного блога. Показывать я буду на примере 50-ти страниц, но этого будет достаточно, чтобы понять что к чему =)

1) Заходим на сайтмап -> правая кнопка мыши -> сохранить как -> sitemap.xmlВытаскиваем список урлов для проверки индексации

 

2) Далее открываем наш сохраненный файл с помощью екселя. Вылетают какие-то предупреждения — жмем везде «ОК». Видим примерно следующее:

Вытаскиваем все ссылки в ексель для проверки индексации в яндексе и гугле

Вот в принципе-то тот самый перечень страниц, которые мы и будем проверять на индексацию в Яндексе/Гугле

3) Теперь заходим в КейКоллектор и сразу создадим новый проект и зайдем в настройки -> парсинг -> общие и там где у нас написано «фильтрация символов» стираем оба поля и жмем сохранить.

заходим в кейколлектор для проверки индексации страниц

Мы это сделали для следующего нашего шага

4) Добавления наших URL-ов. Жмем добавить фразы, копируем столбик со всеми ссылками из excel — не пугайтесь, даже если их 10 000 — коллектор добавил их мгновенно. Как скопировали нажимаем «добавить в таблицу».

добавляем наши URL для проверки на индексацию

 

5) После того, как страницы были успешно добавлены — в правом верхнем углу пишем URL нашего пациента и нажимаем кнопочку «Сбор позиций сайта с ПС яндекс» (или/и гугл соответственно вашим целям) и ждем пока он закончит. Для сравнения: операция на проверок 10000 страниц заняла около 6 часов, но в данном случае это малая жертва, т.к. ваши трудо- и временные затраты практически нулевые (коллектор вам не будет грузить компьютер или еще каким-либо образом мешать, он просто тихо сделает свою работу).

Осталось только выгрузить наш документ: не забудьте в настройках -> интерфейс -> экспорт -> поставить галочки на «фраза» и «позиция с ПС яндекс» (ну и гугл, если необходимо). Сохраняем. Давайте наконец выгрузим то, что у нас получилось! (кнопочка excel в верхнем левом углу)

Готовый файл со списком ссылок проиндексированных / непроиндексированных в Google и Яндекс

 

И что мы видим в итоге: Экселевский файлик с урлами сайта и цифру напротив либо «1» либо «-1».
«1» — страница в индексе
«-1» — страница не в индексе
indexa7

Что же именно мы сделали? По сути, мы заставили КейКоллектор заходить в яндекс/гугл вбивать в поисковую строку каждый урл и собирать позицию нашего сайта в выдаче. От туда и цифра, если «1» — то это первая (и единственная) позиция, а «-1» — это значит, что страницы в выдаче нет. Хочу напомнить, что вам понадобится антикапча — иначе коллектор будет останавливаться каждые 5 минут. Спасибо за внимание.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд Оценка: 4,60 из 5 (голосов: 10)
Loading...Loading...

комментариев 10 Добавить комментарий

  • Алексей

    Интересный финт)
    Не знал о таком в киколлекторе. Вообще эта программа столько кнопок содержит, что я боюсь даже пытаться узнать, что они делают:)

    • Михаил

      На самом деле там довольно большой функционал, хоть я и использую лишь малую его часть. =)

  • Роман

    Спасибо!

  • Спасибо, а я все программы левые ищу для этого, а тут же коллектор под рукой!

  • Кредитов Город

    Можете подсказать как кейколлектором проверить урлы других сайтов на индексацию Яндекса. Нужно узнать какие ссылки зашли после заказанного прогона.

    • Михаил

      В данном случае коллектор помочь не сможет. В нем нет возможности проверки позиций множества различных сайтов, а именно на этом и строится мой метод.
      Если вам необходимо проверить до 100 сайтов, то воспользуйтесь каким-либо бесплатным сервисом, благо их в интернете много. В случае с бОльшим количеством — подсказать решение не могу.

      Данная статья посвящена именно массовой проверке (1000+) индексации страниц какого-то одного сайта.

  • Спасибо за работу.
    Проверил на кей коллекторе — работает, долговато, но работает.

  • sem online

    Выгружать надо и столбец Станица в выдаче ПС. И соотносить её с той страницей которую хотим проверить.
    Так как нужная нам страница может не быть в индексе, а ПС укажет другую внутреннюю страницу. И тогда будет 1, но не той страницы что нужна.

    • Михаил

      Спасибо за комментарий, действительно, ПС может выдать другую страницу на определенный URL. В ближайшее время дополню статью.

  • Сергей

    Наконец то нормальный действующий способ проверки. На других сайтах люди бредовые идеи дают. Даже платных сервисов нормальных не нашел, хотя задача — всего-то 6 тыс страниц проверить.

Оставить комментарий

Войти с помощью: