Wat zijn HTTP Status Codes

Wat is Robot.txt? (https://ranktracker-blog.s3.amazonaws.com/2016/Apr/what_is_robot_txt-1461592898726.jpg)

Intro

Robots Exclusion Protocol (REP) is een Webmaster-bestand dat wordt gebruikt om robots instructies te geven. De instructies helpen de robots bij het crawlen van webpagina's en het indexeren ervan voor verschillende websites. Dit REP wordt ook wel Robots.txt genoemd. Ze worden in het bovenste niveau van de webserver directory geplaatst om het meest bruikbaar te zijn. Bijvoorbeeld: https://www.123abc.com/robots.txt REP groepen worden gebruikt als een web standaard die bot acties en zoekmachine indexering gedrag regelt. Tussen 1994 en 1997 definieerde de oorspronkelijke REP bot gedrag voor robots.txt. In 1996 ondersteunden zoekmachines aanvullende REP X-robot tags. Zoekmachines behandelden links waarvan de waarde een "follow" bevatte met een microformat rel-no follow.

Robot spiekbriefje

Om web crawlers volledig te blokkeren

User-agent: * 
Disallow: /

Om specifieke web crawlers van een doelmap te blokkeren

User-agent: Googlebot   
Disallow: /no-google/

Om specifieke web crawlers van een doel web pagina te blokkeren

User-agent: Googlebot   
Disallow: /no-google/blocked-page.html
User-agent: * 
Disallow:   
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml

Uitsluiting Specifieke Robot Protocol Tags

URI, REP tags worden toegepast op bepaalde indexer taak, en in sommige gevallen nosnippet, noarchive en noodpquery motoren of een zoekopdracht. Bronnen met uitsluitingstags, zoekmachines zoals Bing SERP listings tonen deze externe links als verboden URL's. Naast crawler directives zullen specifieke zoekmachines REP tags verschillend interpreteren. Een voorbeeld hiervan is hoe Bing soms externe verwijzingen op hun SERP's als verboden weergeeft. Google neemt dezelfde lijsten en veegt de URL en ODP verwijzingen op hun SERPs weg. De gedachte is dat X-Robots richtlijnen zouden overrulen die in strijd zijn met META elementen.

Microformats

Bepaalde HTML-factoren zullen pagina-instellingen overrulen in micro-geformatteerde index directives. Deze manier van programmeren vereist vaardigheden en een zeer goed begrip van webservers en het HTTP-protocol. Een voorbeeld van dit protocol zou een pagina van X-Robot tags met een bepaald element link die zeggen follow dan rel-nofollow. Robots.txt indexers hebben meestal geen directives, maar het is mogelijk om groep indexers in te stellen van URI's die een server hebben met zijdelingse scripts op het niveau van de site.

Pattern Matching

Webmasters kunnen nog steeds twee afzonderlijke uitdrukkingen gebruiken om uitsluiting van pagina's aan te duiden. De twee tekens zijn de asterisk en het dollarteken. De asterisk geeft aan dat elke combinatie van tekens kan vertegenwoordigen. Het dollarteken is om het einde van de URL aan te geven.

Onbeperkte informatie

Robotbestanden zijn altijd openbaar, dus het is belangrijk om te weten dat iedereen een robotbestand kan bekijken dat aan een webpagina is gekoppeld. Het is ook toegankelijke informatie waar de Webmaster de engines van blokkeert op de server. Deze openbare bestanden laten toegang toe tot privé-gegevens van gebruikers die privé-gegevens van individuen kunnen bevatten. Het is mogelijk om wachtwoordbeveiliging toe te voegen om te voorkomen dat bezoekers en anderen geheime pagina's bekijken die niet geïndexeerd mogen worden.

Aanvullende Regels

Eenvoudige meta robot parameters zoals index en follow command zouden alleen gebruikt moeten worden om te voorkomen dat pagina's geïndexeerd en gecrawld worden.
Gevaarlijke bots zullen deze commando's zeer zeker negeren en zijn als zodanig een nutteloos veiligheidsplan.
Elke URL mag maar één "disallow" regel hebben.
Aparte robots bestanden zijn nodig op elk subdomein
Filenamen voor de bots zijn hoofdlettergevoelig
Spaties scheiden de zoek parameters niet

Top SEO Tactiek: Robot.txt

Blokkeren van pagina's - er zijn verschillende manieren om te voorkomen dat een zoekmachine een webpagina of domein indexeert en benadert.

Robots gebruiken om pagina's te blokkeren

Deze uitsluiting vertelt de zoekmachine om de pagina niet te crawlen, maar het kan nog steeds de pagina indexeren om het in SERP lijsten te tonen.

Geen Index Pagina Blokkering

Deze methode van uitsluiting vertelt zoekmachines dat ze de pagina wel mogen bezoeken, maar dat ze de URL niet mogen tonen of de pagina voor hun index mogen opslaan. Dit is de voorkeursmethode van uitsluiting.

Geen volgende link om pagina's te blokkeren

Dit is geen ondersteunde tactiek. Zoekmachines kunnen met deze opdracht nog steeds pagina's benaderen. Zelfs als de zoekmachine de pagina niet direct kan volgen, kan het de inhoud benaderen via de browser analytics of andere gelinkte pagina's.

Meta Robots vs. Robots.txt

Een voorbeeld van een robots.txt bestand van een website kan helpen het proces van het programma te verduidelijken. In het voorbeeld blokkeert het robotbestand de directory. Wanneer de betreffende URL wordt opgezocht in Google, blijkt dat 2760 pagina's uit de directory zijn geweerd. In het voorbeeld heeft de engine de URL's niet gecrawld, dus ze zullen niet verschijnen als traditionele vermeldingen. Deze pagina's zullen link juice vergaren zodra er links aan gekoppeld zijn. In aanvulling op hun ranking kracht, zullen ze ook beginnen aan populariteit en vertrouwen te winnen door te verschijnen in zoekopdrachten. Aangezien de pagina's geen voordeel voor de site kunnen zijn omdat ze niet worden gecrawled. De beste manier om dit probleem op te lossen en geen verspilde ranking kracht op een pagina te hebben, is het verstandig om een andere methode van uitsluiting te gebruiken om de individuele pagina's te verwijderen. De codering zou verschijnen als: meta tag deze methode zou betere prestaties vertonen dan de vorige methode.

Wat zijn HTTP Status Codes

Intro

Robot spiekbriefje

Om web crawlers volledig te blokkeren

Om specifieke web crawlers van een doelmap te blokkeren

Om specifieke web crawlers van een doel web pagina te blokkeren

Uitsluiting Specifieke Robot Protocol Tags

Microformats

Pattern Matching

Onbeperkte informatie

Aanvullende Regels

Top SEO Tactiek: Robot.txt

Robots gebruiken om pagina's te blokkeren

Geen Index Pagina Blokkering

Geen volgende link om pagina's te blokkeren

Meta Robots vs. Robots.txt

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Wat zijn HTTP Status Codes

Intro

Robot spiekbriefje

Om web crawlers volledig te blokkeren

Om specifieke web crawlers van een doelmap te blokkeren

Om specifieke web crawlers van een doel web pagina te blokkeren

Uitsluiting Specifieke Robot Protocol Tags

Microformats

Pattern Matching

Onbeperkte informatie

Aanvullende Regels

Top SEO Tactiek: Robot.txt

Robots gebruiken om pagina's te blokkeren

Geen Index Pagina Blokkering

Geen volgende link om pagina's te blokkeren

Meta Robots vs. Robots.txt

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Begin Ranktracker te gebruiken... Gratis!