Mikä on ryömijä?
Crawler on Internet-ohjelma, joka on suunniteltu selaamaan Internetiä järjestelmällisesti. Mönkijöitä käytetään yleisimmin hakukoneiden keinona löytää ja käsitellä sivuja, jotta ne voidaan indeksoida ja näyttää hakutuloksissa.
HTML:ää käsittelevien indeksoijien lisäksi joitakin erityisiä indeksoijia käytetään myös kuvien ja videoiden indeksointiin.
Todellisessa maailmassa tärkeimpiä tunnettavia verkkomiehittäjiä ovat maailman parhaiden hakukoneiden käyttämät: Googlebot, Bingbot, Yandex Bot ja Baidu Spider.
Hyvät vs. pahat ryömijät
Ajattele, että hyvä indeksointiohjelma on robotti, joka voi auttaa sivustoasi ensisijaisesti lisäämällä sisältösi hakuindeksiin tai auttamalla sinua verkkosivustosi tarkastamisessa. Hyvän indeksoijan tunnusmerkkejä ovat myös se, että se tunnistaa itsensä, noudattaa ohjeitasi ja säätää indeksointinopeuttaan siten, ettei se kuormita palvelintasi liikaa.
Huono crawler on robotti, joka ei tuo lisäarvoa verkkosivuston omistajalle ja jolla voi olla pahansuopia aikeita. Huonot indeksoijat eivät välttäm ättä tunnista itseään, kiertävät ohjeitasi, kuormittavat palvelimia tarpeettomasti ja jopa varastavat sisältöä ja tietoja.
Telaketjutyypit
Mönkijöitä on kahta päätyyppiä:
- Jatkuvasti ryömivät botit: Nämä botsit (esim. Googlebot) tekevät indeksointia 24/7 löytääkseen uusia sivuja ja indeksoidakseen uudelleen vanhoja sivuja.
- Tilausrobotit: Esimerkiksi Ranktracker Site Audit -robotti.
Miksi verkkosivuston indeksointi on tärkeää?
Hakukoneen indeksoijan ensisijainen tarkoitus on selvittää, mitä sivustollasi on, ja lisätä nämä tiedot hakuindeksiin. Jos sivustoasi ei indeksoida, sisältösi ei näy hakutuloksissa.
Verkkosivujen indeksointi ei ole vain kertaluonteinen tapahtuma - se on jatkuva käytäntö aktiivisille verkkosivustoille. Botit selaavat sivustoja säännöllisesti uudelleen löytääkseen ja lisätäkseen uusia sivuja hakuindeksiin ja päivittääkseen samalla tietojaan olemassa olevista sivuista.
Vaikka useimmat indeksoijat liittyvät hakukoneisiin, on olemassa myös muunlaisia indeksoijia. Esimerkiksi Ranktracker Site Audit -robotti voi auttaa sinua näkemään, mikä sivustossasi on vialla SEO:n kannalta.
Miten indeksoijat toimivat?
Lyhyesti sanottuna Googlebotin kaltainen indeksoiva ohjelma löytää verkkosivustosi URL-osoitteet sitemapien, linkkien ja manuaalisten lähetysten avulla Google Search Console -palvelun kautta. Sitten se seuraa näillä sivuilla olevia "sallittuja" linkkejä.
Se tekee tämän kunnioittaen robots.txt-sääntöjä sekä linkkien ja yksittäisten sivujen "nofollow"-attribuutteja.
Joillakin verkkosivustoilla - sellaisilla, joilla on yli miljoona sivua, joita päivitetään säännöllisesti, tai sellaisilla, joilla on 10 000 sivua sisältöä, joka muuttuu päivittäin - voi olla rajallinen "indeksointibudjetti". Tällä tarkoitetaan aikaa ja resursseja, jotka robotti voi käytt ää verkkosivustoon yhden istunnon aikana.
Ryömimisen prioriteetit
Koska indeksointibudjettien kapasiteetti on rajallinen, indeksoijat toimivat indeksointiprioriteettien mukaan. Esimerkiksi Googlebot ottaa huomioon seuraavat seikat:
- URL-osoitteen PageRank
- Kuinka usein sivu(t) päivitetään
- Onko sivu uusi vai ei
Tällä tavoin indeksoiva ohjelma voi keskittyä indeksoimaan ensin sivustosi tärkeimmät sivut.
Mobiili vs. työpöydän indeksointiversiot
Googlebotilla on kaksi pääversiota: Googlebot Desktop ja Googlebot Smartphone. Nykyään Google käyttää mobile-first-indeksointia, mikä tarkoittaa, että sen älypuhelinagentti on ensisijainen Googlebot, jota käytetään sivujen indeksointiin ja indeksointiin.
Näille erityyppisille indeksoijille voidaan esittää erilaisia versioita verkkosivustosta. Teknisesti ottaen robotti tunnistaa itsensä verkkopalvelimelle HTTP-pyynnön User-Agent-otsikon ja yksilöllisen tunnisteen avulla.
Parhaat käytännöt indeksointiystävällistä verkkosivustoa varten
Jotta verkkosivustosi olisi valmis indeksointia varten, suosittelemme useita vaiheita. Noudata niitä, jotta keskeiset sivusi saavat parhaat mahdollisuudet indeksointiin ja sijoittumiseen.
1. Tarkista Robots.txt-tiedosto
Robots.txt-tiedosto on verkkosivustollasi oleva tiedosto, joka kommunikoi näiden bottien kanssa käyttämällä useita indeksointiohjeita. Varmista, että se ei estä hyviä botteja pääsemästä sivuille tai osioihin, jotka haluat indeksoida. Tarkista virheet Googlen robots.txt-testausohjelman kaltaisilla työkaluilla.
2. Sitemappien lähettäminen
Sivukartan lähettäminen on kriittinen vaihe. Sivukartassa luetellaan kaikki verkkosivustosi sivut, jotka haluat indeksoida. Google Search Consolessa voit lähettää sivukartan kohdassa Indeksi > Sivukartat. Prosessi on samanlainen myös muissa hakukoneissa, kuten Bing Webmaster Toolsissa.
3. Käytä indeksoijan direktiivejä viisaasti
Robots.txt-tiedosto kertoo indeksoijille direktiivien avulla, mitä sivuja saa tai ei saa indeksoida. On tärkeää sallia sivustosi navigoinnin tärkeiden sivujen indeksointi. Sivutason direktiivit eivät näy, jos sisällön indeksointi on kielletty robots.txt-tiedostossa.
4. Sisäisten linkkien tarjoaminen sivujen välillä
Sisäinen linkitys auttaa hakukoneita ymmärtämään, mistä kukin sivu kertoo, ja auttaa indeksoijia löytämään sivut ensiksi. Sisäiset linkit auttavat myös muokkaamaan PageRank-arvon kulkua sivustossasi.
5. Vähennä 4xx:ien ja tarpeettomien uudelleenohjausten määrää.
4xx-virheet ilmoittavat indeksoijalle, että kyseisen URL-osoitteen sisältöä ei ole olemassa. Käytä työkaluja, kuten Ranktracker Site Audit, korjataksesi nämä sivut tai määritä uudelleenohjaus elävälle sivulle. Poista myös tarpeettomat uudelleenohjaukset ja uudelleenohjausketjut, jotta indeksointi sujuu ongelmitta.
6. Käytä Ranktracker Site Audit löytää indeksoitavuuden ja indeksoitavuuden kysymyksiä
Ranktracker Site Audit -työkalu voi auttaa tarkistamalla kaikki sivustosi indeksoimattomat sivut ja seuraamattomat linkit. Se voi paljastaa kaikki rikkinäiset sivut tai liialliset uudelleenohjaukset, mukaan lukien uudelleenohjausketjut tai -silmukat, ja osoittaa kaikki orvot sivut.
UKK
Onko indeksointi ja indeksointi sama asia?
Ei. Ryömintä tarkoittaa prosessia, jossa löydetään julkisesti saatavilla olevia verkkosivuja ja muuta sisältöä. Hakukoneiden indeksointi tarkoittaa näiden sivujen analysointia ja niiden tallentamista hakuindeksiin.
Mitkä ovat aktiivisimmat indeksoijat?
Suosituimpia hakukoneiden indeksoijia ovat Googlebot, Bingbot, Yandex Bot ja Baidu Spider. Lisätietoja saat tästä Impervan Bot Traffic -tutkimuksesta. Mielenkiintoista on, että AhrefsBot, joka pyörittää koko linkkitietokantaa, todettiin toiseksi aktiivisimmaksi indeksoijaksi Googlebotin jälkeen.
Haittaavatko indeksoijat verkkosivustoani?
Vaikka useimmat indeksoijat eivät aiheuta haittaa verkkosivustollesi, on olemassa huonoja indeksoijia, jotka voivat. Haitalliset indeksoijat voivat käyttää kaistanleveyttäsi, jolloin sivut hidastuvat, ja ne voivat yrittää varastaa tietoja tai kaapia sisältöä sivustoltasi.