Що таке кроулер?
Пошуковий робот - це інтернет-програма, призначена для систематичного перегляду сторінок в Інтернеті. Пошукові роботи найчастіше використовуються пошуковими системами для виявлення та обробки сторінок для індексації та відображення їх у результатах пошуку.
Окрім пошукових роботів, які обробляють HTML, для індексації зображень і відео також використовуються спеціальні пошукові роботи.
У реальному світі основними пошуковими роботами, які слід зна ти, є ті, що використовуються провідними світовими пошуковими системами: Googlebot, Bingbot, Yandex Bot та Baidu Spider.
Хороші та погані повзуни
Уявіть собі хорошого сканера як бота, який може допомогти вашому сайту, в першу чергу, додаючи ваш контент до пошукового індексу або допомагаючи вам проводити аудит вашого сайту. Іншими ознаками хорошого сканера є те, що він ідентифікує себе, виконує ваші вказівки і регулює швидкість сканування, щоб не перевантажувати ваш сервер.
Поганий пошуковий робот - це бот, який не приносить користі власнику сайту і може мати зловмисні наміри. Погані пошукові роботи можуть не ідентифікувати себе, обходити ваші директиви, створювати зайве навантаження на сервери і навіть красти контент і дані.
Типи гусениць
Існує два основних типи гусениць:
- Боти з постійним скануванням: Вони здійснюють сканування 24/7, щоб знаходити нові сторінки та переглядати старі (наприклад, Googlebot).
- Боти на вимогу: Вони сканують обмежену кількість сторінок і виконують сканування лише за запитом (наприклад, бот Ranktracker Site Audit).
Чому сканування сайтів важливе?
Основна мета пошукових роботів - з'ясувати, що міститься на вашому сайті, і додати цю інформацію до пошукового індексу. Якщо ваш сайт не сканується, то ваш контент не з'явиться в результатах пошуку.
Сканування веб-сайтів - це не разова подія, а постійна практика для активних веб-сайтів. Боти регулярно сканують сайти, щоб знаходити і додавати нові сторінки до пошукового індексу, а також оновлювати інформацію про вже існуючі сторінки.
Хоча більшість пошукових роботів асоціюються з пошуковими системами, існують й інші типи роботів. Наприклад, бот Ranktracker Site Audit може допомогти вам побачити, що не так з вашим сайтом з точки зору SEO.
Як працюють гусениці?
У двох словах, веб-сканер, такий як Googlebot, знайде URL-адреси на вашому веб-сайті за допомогою карт сайту, посилань і ручного введення через Google Search Console. Потім він переходить за "дозволеними" посиланнями на цих сторінках.
Він робить це, дотримуючись правил robots.txt, а також будь-яких атрибутів "nofollow" у посиланнях і на окремих сторінках.
Деякі веб-сайти - з більш ніж 1 мільйоном сторінок, які регулярно оновлюються, або з 10 тисячами сторінок ко нтенту, який змінюється щодня - можуть мати обмежений "бюджет сканування". Це кількість часу і ресурсів, яку бот може приділити сайту за один сеанс роботи.
Пріоритети сканування
Через обмеженість бюджетів на сканування, пошукові роботи керуються набором пріоритетів сканування. Googlebot, наприклад, враховує наступне:
- PageRank URL-адреси
- Як часто оновлюється сторінка(и)
- Незалежно від того, чи є сторінка новою
Таким чином, пошуковий робот може зосередитися на скануванні найважливіших сторінок вашого сайту в першу чергу.
Мобільна та десктопна версії повзунка
Googlebot має дві основні версії: Googlebot Desktop і Googlebot Smartphone. Сьогодні Google використовує мобільну індексацію, що означає, що агент для смартфонів є основним Googlebot, який використовується для сканування та індексації сторінок.
Різні версії веб-сайту можуть бути представлені цим різним типам пошукових роботів. Технічно бот ідентифікує себе на веб-сервері за допомогою заголовка HTTP-запиту User-Agent разом з унікальним ідентифікатором.
Найкращі практики для дружнього до сканування сайту
Щоб переконатися, що ваш сайт готовий до сканування, ми рекомендуємо виконати кілька кроків. Дотримуйтесь їх, щоб дати вашим ключовим сторінкам найкращі шанси на індексацію та ранжування.
1. Перевірте файл Robots.txt
Файл robots.txt - це файл на вашому сайті, який спілкується з цими ботами, використовуючи ряд директив для пошукових роботів. Переконайтеся, що він не забороняє хорошим ботам відвідувати сторінки або розділи, які ви хочете проіндексувати. Використовуйте такі інструменти, як тестер robots.txt від Google, щоб перевірити наявність помилок.
2. Надішліть карту сайту
Надсилання карти сайту є важливим кроком. У карті сайту перераховані всі сторінки вашого сайту, які ви хочете, щоб були проіндексовані. В Пошуковій консолі Google ви можете відправити карту сайту в розділі Індекс > Карти сайту. Цей процес аналогічний для інших пошукових систем, таких як Bing Webmaster Tools.
3. Розумно використовуйте директиви повзунка
Файл robots.txt використовує директиви, щоб вказати пошуковим роботам, які сторінки дозволено або заборонено сканувати. Важливо дозволити сканування важливих сторінок навігації вашого сайту. Будь-які директиви на рівні сторінок не будуть видимими, якщо їхній вміст заборонено для сканування у файлі robots.txt.
4. Створіть внутрішні посилання між сторінками
Внутрішні посилання допомагають пошуковим системам зрозуміти, про що кожна сторінка, і допомагають пошуковим роботам знаходити сторінки в першу чергу. Внутрішні посилання також допомагають вам визначати, як PageRank розподіляється по всьому сайту.
5. Зменшіть кількість 4хх та непотрібних перенаправлень
Помилки 4xx сигналізують пошуковим роботам про те, що контент за цією URL-адресою не існує. Використовуйте такі інструменти, як Ranktracker Site Audit, щоб виправити ці сторінки або налаштувати перенаправлення на реальну сторінку. Також усуньте непотрібні перенаправлення і ланцюжки перенаправлень, щоб забезпечити безперешкодне сканування.
6. Використовуйте аудит сайту Ranktracker, щоб виявити проблеми з індексацією та пошуковою оптимізацією
Інструмент аудиту сайту Ranktracker може допомогти, перевіривши всі неіндексовані сторінки і посилання, за якими немає переходів на вашому сайті. Він мо же виявити биті сторінки або надмірну кількість перенаправлень, включаючи ланцюжки або петлі перенаправлень, а також вказати на будь-які "сирітські" сторінки.
Поширені запитання
Чи є сканування та індексування одним і тим же?
Ні. Сканування - це процес виявлення загальнодоступних веб-сторінок та іншого контенту. Індексування - це аналіз цих сторінок пошуковими системами та збереження їх у своєму пошуковому індексі.
Які найактивніші павуки?
Найпопулярнішими пошуковими роботами є Googlebot, Bingbot, Yandex Bot та Baidu Spider. Для більш детальної інформації ознайомтеся з дослідженням трафіку ботів від Imperva. Цікаво, що AhrefsBot, який забезпечує роботу всієї бази даних посилань, виявився другим за активністю після Googlebot.
Чи зашкодять пошукові роботи моєму сайту?
Хоча більшість пошукових роботів не завдають шкоди вашому сайту, існують шкідливі роботи, які можуть це зробити. Шкідливі пошукові роботи можуть використовувати вашу пропускну здатність, що призводить до сповільнення роботи сторінок, а також можуть намагатися викрасти да ні або вилучити вміст з вашого сайту.