обработка данных

Нажмите сюда, если долго загружается,
либо "ESC" - отмена
 
Заказ обратного звонка
Заказать звонок
Наш специалист свяжется с Вами и ответит на все вопросы
Обработка данных
Наш специалист свяжется с Вами и ответит на все вопросы.
OK

Как найти страницы, непроиндексированные Google

Источник: https://searchengines.ru
Время чтения: ~4 мин
Как найти страницы, непроиндексированные Google
Статьи
959
Изображение носит иллюстрационный характер. Источник: searchengines.ru
Узнать, сколько страниц было проиндексировано Google, можно с помощью Search Console. Но как отыскать те URL, которые отсутствуют в индексе поисковой системы? Справиться с этой задачей поможет специальный скрипт на Python.
Органический поиск включает три основных компонента: сканирование, индексирование и ранжирование. Когда поисковый робот заходит на сайт, он сканирует все найденные ссылки. Эта информация затем передаётся в индекс поисковой системы, после чего определяется порядок её показа в результатах поиска.

SEO-специалисты основное внимание уделяют компоненту ранжирования. Но если поисковая система не смогла просканировать и проиндексировать страницы на сайте, он не получит трафика из Google. Обеспечение правильного сканирования и индексирования сайта – важная часть поисковой оптимизации.
Как узнать, сколько всего страниц проиндексировано
При наличии доступа к Google Search Console можно посмотреть, сколько страниц содержится в файле XML Sitemap, и сколько из них было проиндексировано. При этом в сервисе не уточняется, какие именно URL не попали в индекс поисковой системы.
Как найти страницы, непроиндексированные Google
Источник: searchengines.ru
Чтобы получить эту информацию, придётся проверить каждый URL вручную. Но эту задачу можно автоматизировать.
Как проверить, был ли URL проиндексирован Google
Чтобы узнать, был ли конкретный URL проиндексирован Google, можно использовать поисковый оператор «info:». Например:
CODE
Если URL проиндексирован, результат будет таким:
Как найти страницы, непроиндексированные Google
Источник: searchengines.ru
В противном случае Google вернёт ошибку:
Как найти страницы, непроиндексированные Google
Источник: searchengines.ru
Как использовать Python для массовой проверки статуса индексирования страниц
Теперь вы знаете, как проверить отдельный URL. Но как провести массовую проверку? Используйте следующий скрипт на Python:
CODE
Чтобы использовать этот скрипт, на компьютере должен быть установлен Python 3. Также потребуется установить библиотеку BeautifulSoup. Для этого откройте командную строку и выполните следующую команду:
CODE
После этого вы можете загрузить скрипт на свой компьютер. В той же папке, где находится скрипт, создайте текстовый файл со списком URL. Каждый URL должен идти отдельной строкой.
Как найти страницы, непроиндексированные Google
Источник: searchengines.ru
Теперь, когда скрипт готов к работе, нужно установить и настроить Tor для использования его в качестве прокси-сервера. На Windows загрузите Tor Expert Bundle. Извлеките папку из архива в локальный каталог на ПК и запустите tor.exe. Окно можно свернуть.
Как найти страницы, непроиндексированные Google
Источник: searchengines.ru
Затем нужно установить Polipo для преобразования socks-прокси в http-прокси. Загрузите последнюю версию Windows binary (она будет называться «polipo-1.x.x.x-win32.zip») и извлеките папку из архива.

В папке Polipo создайте текстовый файл (например, config.txt) со следующим содержанием:
CODE
Откройте командную строку и перейдите в папку Polipo. Выполните следующую команду:
CODE
Как найти страницы, непроиндексированные Google
Источник: searchengines.ru
На этом этапе можно запускать Python-скрипт:
CODE
Как найти страницы, непроиндексированные Google
Источник: searchengines.ru
Скрипт попросит указать количество секунд для ожидания между проверками каждого URL.

Затем он попросит ввести имя файла (без расширения) для выгрузки результатов в CSV.

Наконец, он запросит имя текстового файла, который содержит список URL для проверки.

Введите эти данные и запустите скрипт.

Конечный результат будет представлен в виде CSV-файла, который можно без труда открыть в Excel.

В итоговой таблице проиндексированным URL будет присвоено значение TRUE, непроиндексированным – FALSE.
Как найти страницы, непроиндексированные Google
Источник: searchengines.ru
Если скрипт не работает, то Google, возможно, блокирует Tor. В этом случае используйте свой собственный прокси-сервер, изменив следующие строки скрипта:
CODE

Заключение
Знать, какие страницы были проиндексированы Google, критически важно для SEO. Вы не сможете получить трафик из поиска, если ваших страниц нет в индексе поисковой системы.

К сожалению, Google не предоставляет информацию о том, какие URL не были проиндексированы. Но эта проблема решаема. Используя описанный выше скрипт, вы сможете получить эти данные без особого труда.
Поделиться
Поделиться
Поделиться
Поделиться
Поделиться
Поделиться
Поделиться
Подписка на новости. Получайте важное первым
ПОДПИСАТЬСЯ