• Вивчайте SEO

Що таке коди стану HTTP

  • Felix Rose-Collins
  • 3 min read

Вступ

Протокол виключення роботів (REP) - це файл веб-майстра, який використовується для інструктажу роботів. Інструкції допомагають роботам сканувати веб-сторінки та індексувати їх для різних веб-сайтів. Цей REP іноді називають Robots.txt. Вони розміщуються на верхньому рівні каталогу веб-сервера, щоб бути найбільш корисними. Наприклад: https://www.123abc.com/robots.txt Групи REP використовуються як веб-стандарт, який регулює дії ботів і поведінку пошукових систем при індексуванні. У період з 1994 по 1997 рік оригінальний REP визначав поведінку ботів для файлу robots.txt. У 1996 році пошукові системи підтримали додаткові теги REP X-robot. Пошукові системи обробляли посилання, де значення містило "follow", використовуючи мікроформат rel-no follow.

Шпаргалка для роботів

Повне блокування веб-сканерів

Користувач-агент: * Заборонити: /

Щоб заблокувати певні веб-сканери з цільової папки

User-agent: Googlebot Заборонити: /no-google/?

Блокування певних веб-сканерів на цільовій веб-сторінці

User-agent: Googlebot Заборонити: /no-google/blocked-page.html User-agent: * Заборонити:   
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml

Виключення специфічних тегів протоколів роботів

Теги URI, REP застосовуються для виконання певного завдання індексатора, а в деяких випадках nosnippet, noarchive і noodpquery пошуковими системами або пошуковим запитом. Ресурси, позначені тегами виключення, пошукові системи, такі як Bing SERP, показують ці зовнішні посилання як заборонені URL-адреси. Крім того, окремі пошукові системи по-різному інтерпретують REP-теги в залежності від директив пошукових роботів. Прикладом цього може бути те, як Bing іноді показує зовнішні посилання в своїх результатах пошуку як заборонені. Google бере ті ж списки і видаляє URL і ODP-посилання зі своєї пошукової видачі. Вважається, що X-Robots будуть скасовувати директиви, які конфліктують з елементами META.

Мікроформати

Певні фактори HTML замінять налаштування сторінки в директивах мікроформатованого індексу. Цей метод програмування вимагає навичок і дуже глибокого розуміння веб-серверів і протоколу HTTP. Прикладом такого протоколу може бути сторінка тегів X-Robot з певним елементом посилання, який говорить follow, потім rel-nofollow. Індексатори Robots.txt зазвичай не мають директив, але можна встановити групові індексатори URI, які мають сервер з двосторонніми скриптами на рівні сайту.

Зіставлення зразків

Веб-майстри все ще можуть використовувати два окремих вирази для позначення виключення сторінок. Ці два символи - зірочка і знак долара. Зірочка означає, що може представляти будь-яку комбінацію символів. Знак долара позначає кінець URL-адреси.

Інформація без обмежень

Файли роботів завжди публічні, тому важливо знати, що будь-хто може переглянути файл робота, прикріплений до веб-сторінки. Також доступна інформація про те, де веб-майстер блокує механізми на сервері. Ці загальнодоступні файли залишають доступ до приватних даних користувачів, які можуть включати приватні дані фізичних осіб. Можна додати захист паролем, щоб утримати відвідувачів та інших осіб від перегляду засекречених сторінок, які не повинні індексуватися.

Додаткові правила

  • Прості мета-параметри робота, такі як команда index та follow, слід використовувати лише для запобігання індексації та скануванню сторінок.
  • Небезпечні боти, безумовно, проігнорують ці команди, і як такі вони є марним планом безпеки.
  • Для кожної URL-адреси допускається тільки один рядок "заборонити".
  • На кожному піддомені потрібні окремі файли роботів
  • Імена файлів для ботів враховують регістр
  • Пробіл не розділяє параметри пошуку

Найкращі SEO тактики: Robot.txt

Блокування сторінок - існує кілька способів перешкодити пошуковій системі індексувати та отримати доступ до веб-сторінки або домену.

Використання роботів для блокування сторінок

Це виключення вказує пошуковій системі не сканувати сторінку, але вона все одно може проіндексувати сторінку, щоб показати її в списках пошукової видачі.

Відсутність блокування індексної сторінки

Цей метод виключення повідомляє пошуковим системам, що їм дозволено відвідувати сторінку, але їм не може бути дозволено відображати URL-адресу або зберігати сторінку для свого індексу. Це кращий метод виключення.

Немає наступних посилань на заблоковані сторінки

Ця тактика не підтримується. Пошукові системи все ще можуть отримати доступ до сторінок за допомогою цієї команди. Навіть якщо пошукова система не може безпосередньо слідувати за сторінкою, вона може отримати доступ до вмісту, використовуючи аналітику браузера або інші сторінки, на які є посилання.

Meta Robots vs. Robots.txt

Приклад файлу robots.txt веб-сайту може допомогти наочно пояснити процес роботи програми. У прикладі файл робота блокує каталог. При пошуку певної URL-адреси в Google показує, що 2760 сторінок були заборонені в каталозі. В даному прикладі пошуковик не сканував URL-адреси, тому вони не будуть відображатися як традиційні лістинги. Ці сторінки будуть накопичувати посилальний сік, як тільки до них будуть прикріплені посилання. На додаток до їх ранжування, вони також почнуть набирати популярність і довіру, з'являючись в пошуковій видачі. Оскільки сторінки не можуть бути корисними для сайту, оскільки їх не сканують. Кращий спосіб вирішити цю проблему і не витрачати даремно силу ранжирування на сторінці, розумно використовувати інший метод виключення для видалення окремих сторінок. Кодування буде виглядати як: мета-тег цей метод буде демонструвати кращу продуктивність, ніж попередній метод.

Почніть користуватися Ranktracker... Безкоштовно!

Дізнайтеся, що стримує ваш сайт від ранжування.

Створіть безкоштовний обліковий запис

Або Увійдіть, використовуючи свої облікові дані

Different views of Ranktracker app