• Tehnologija

Iz podjetja Yandex je pricurljala koda, ki vsebuje 1922 dejavnikov razvrščanja v iskanju Ranktracker pojasnjuje vse dejavnike razvrščanja

  • Felix Rose-Collins
  • 7 min read
Iz podjetja Yandex je pricurljala koda, ki vsebuje 1922 dejavnikov razvrščanja v iskanju Ranktracker pojasnjuje vse dejavnike razvrščanja

Uvod

Verjetno ste že slišali za Yandex, ki je po tržnem deležu četrti največji iskalnik na svetu. Včeraj je prišlo do uhajanja lastniške izvorne kode Yandexa.

Najbolj zanimiv del za skupnost SEO je: seznam vseh 1922 dejavnikov razvrščanja, ki se uporabljajo v iskalnem algoritmu.

Prenesli smo kodo, jo analizirali in jo predstavili na koristen način.

Yandex leak

Incident ne bi smel biti presenečenje, saj so Yandex ali njegovi izdelki pogosto tarča kibernetskih napadov. Leta 2016 je portal Hackread.com ekskluzivno poročal o tem, kako je prodajalec na temnem spletu prodajal podatke o 6,3 milijona uporabniških računov podjetja Yandex.

Septembra 2021 je ruskega velikana na področju iskalnikov prizadel eden največjih napadov DDoS, ki ga je poganjalo 200.000 kompromitiranih naprav IoT.

Spoznajte Ranktracker

Platforma "vse v enem" za učinkovito SEO

Za vsakim uspešnim podjetjem stoji močna kampanja SEO. Vendar je ob neštetih orodjih in tehnikah optimizacije težko vedeti, kje začeti. Ne bojte se več, ker imam za vas prav to, kar vam lahko pomaga. Predstavljam platformo Ranktracker vse-v-enem za učinkovito SEO

Končno smo odprli registracijo za Ranktracker popolnoma brezplačno!

Ustvarite brezplačen račun

Ali se prijavite s svojimi poverilnicami

Yandex git sources

Zakaj je to veliko?

Yandex je eno največjih podjetij IT v Rusiji. V državi ponuja širši nabor storitev kot Google. Predstavljajte si podjetje, ki bi nadomestilo Googla, Uber, Amazon, Netflix in Spotify.

Ali je to uhajanje resnično?

Osebno nikoli nisem delal pri Yandexu, poznam pa več ljudi, ki so v različnih obdobjih delali ali še vedno delajo tam. Preveril sem, da vsaj nekateri arhivi zagotovo vsebujejo sodobno izvorno kodo za storitve podjetja in dokumentacijo, ki kaže na prave intranetne naslove URL.

Kaj je v notranjosti

Prodajalec je delil magnetno povezavo, ki vsebuje 44,7 GB datotek, povezanih z viri git podjetja Yandex. Datoteke naj bi bile ukradene iz družbe Yandex julija 2022. Poleg tega, da vsebujejo smernice za preprečevanje neželene elektronske pošte, naj bi skladišča vsebovala tudi izvorno kodo družbe Yandex.

Razkritje je razkrilo približno 1 922 dejavnikov razvrščanja, ki jih iskalnik uporablja v svojem iskalnem algoritmu. Koda je bila razkrita v obliki torrenta. Po analizi, ki jo je objavil uporabnik Twitterja Alex Buraks, razkriti podatki vključujejo številne dejavnike razvrščanja, vključno z ustreznostjo besedila, PageRankom, starostjo vsebine, svežino itd.

Poleg tega obstaja več dejavnikov vedenja končnega uporabnika, dejavnikov, povezanih s povezavami, in zanesljivosti gostitelja. SEO najdejo nekaj nenavadnih dejavnikov razvrščanja, kot so število edinstvenih obiskovalcev, povprečna uvrstitev domene v poizvedbah in odstotek organskega prometa.

Zdi se, da je bila razkrita vsaj izvorna koda za vse glavne storitve podjetja Yandex:

  • Iskalnik in indeksirni bot
  • Zemljevidi - kot sta Google Maps in Street View
  • Alice - pomočnik z umetno inteligenco, kot je Siri / Alexa
  • Taxi - Uberju podobna taksi služba
  • Neposredno - Storitev oglasov, kot je Google Ads / Adwords
  • Mail - poštna storitev, kot je GMail
  • Disk - storitev shranjevanja datotek, kot je Google drive
  • Market - Trg, kot je Amazon
  • Potovanja - kot Booking.com ter letalske, vlakovne in avtobusne vozovnice
  • Yandex360 - Podobno kot Googlova delovna okolja za storitve v lastni domeni
  • Oblak - Verjetno ni bila razkrita vsa infrastrukturna koda.
  • Plačilo - Obdelava plačil kot Stripe, vendar z omejenim naborom funkcij
  • Metrika - Kot Google Analytics
  • Vsaj zaledni del večine drugih storitev podjetja je na voljo. Največji arhiv, imenovan "frontend", še ni raziskan.

Šestakov je opazil tudi nekaj ključev API, ki so bili najverjetneje uporabljeni za testno uvajanje.

Podrobnosti o tem uhajanju najdete tukaj:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex zanika poskus vdora

Družba Yandex trdi, da je seznanjena z uhajanjem in da je že začela preiskavo, da bi preverila, kako so bili "fragmenti" izvorne kode izpostavljeni javnosti. Omeniti velja, da uhajanje ne vključuje osebnih podatkov uporabnikov ali zaposlenih.

Glede na pomen podjetja Yandex v ruski informacijski infrastrukturi in odtekle podatke pa bi lahko domnevali, da je bil napad motiviran z invazijo te države na Ukrajino. Torej bi lahko bili v napad vpleteni proukrajinski hekerji.

Spoznajte Ranktracker

Platforma "vse v enem" za učinkovito SEO

Za vsakim uspešnim podjetjem stoji močna kampanja SEO. Vendar je ob neštetih orodjih in tehnikah optimizacije težko vedeti, kje začeti. Ne bojte se več, ker imam za vas prav to, kar vam lahko pomaga. Predstavljam platformo Ranktracker vse-v-enem za učinkovito SEO

Končno smo odprli registracijo za Ranktracker popolnoma brezplačno!

Ustvarite brezplačen račun

Ali se prijavite s svojimi poverilnicami

Yandex je v svoji uradni izjavi pojasnil, da podjetje ni bilo napadeno in da bi lahko bil nekdanji zaposleni vpleten v uhajanje izvorne kode v javnost. Vodilno rusko podjetje IT je opozorilo, da puščeni arhiv vsebuje delčke kode, ki so del notranjega skladišča, katerega podatki se razlikujejo od tistih, ki se uporabljajo v najnovejši različici skladišča.

"Yandex ni bil vdrt. Naša varnostna služba je našla delčke kode iz notranjega repozitorija v javni domeni, vendar se vsebina razlikuje od trenutne različice repozitorija, ki se uporablja v storitvah Yandexa," so zapisali v izjavi podjetja.

Kljub temu je uhajanje izvorne kode nevarno, saj predstavlja resno varnostno težavo za organizacije, saj lahko akterji groženj opazujejo intelektualno lastnino podjetja in sistemske podatke. Puščanje izvorne kode bi napadalcem pomagalo ustvariti ciljno usmerjene varnostne zlorabe.

Kakšna je teoretična razlika med algoritmi, ki jih uporabljata Google in Yandex?

So si precej podobni:

Yandex vs Google

Seveda obstaja veliko razlik, vendar se zdi, da so pristop in večina dejavnikov razvrščanja podobni.

V praksi: če primerjamo rezultate iskanja v Googlu in Yandexu, se ujemajo v ~ 70 %.

Po podatkih Statcounterja je Yandex po tržnem deležu blizu Yahooja in Binga:

search engine market share worldwide

Datoteka z dejavniki razvrščanja: https: //dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Struktura za vsak dejavnik:

  1. ime
  2. povezava do notranjega wikija (omejeno)
  3. AntiSeoUpperBound (haha)
  4. opis (je v ruščini, prevedel sem ga za vas)
  5. itd.

1. Prvi dejavnik na seznamu - PageRank.

First factor in the list - PageRank

Glavne ugotovitve po analizi tega seznama: Starost povezav je dejavnik razvrščanja.

Age of links is a ranking factor.

2. Promet in % organskega prometa sta dejavnika razvrščanja.

Nakup PPC vpliva na uvrstitve.

Traffic and % of organic traffic are ranking factors

3. Številke v URL-jih škodijo uvrstitvam

Numbers in URLs is bad for rankings

4. Preveč šumnikov v URL-jih škodi razvrščanju

Too many slashes in URLs is bad for ranking

5. Trda pesimizacija enaka PR=0

Hard pessimization equal PR=0

6. Zanesljivost gostitelja je dejavnik razvrščanja

Čim manj napak 40x/50x imate, tem bolje za vaš organski promet

Host reliability is a ranking factor

7. Obstaja ločen dejavnik razvrščanja za dvigovanje Wikipedije

there is a separate ranking factor for uplifting Wikipedia

8. Veliko dejavnikov razvrščanja, povezanih z vedenjem uporabnikov - CTR, zadnji klik, čas na spletnem mestu, stopnja odboja

Opomba: Skoraj prepričani smo, da imajo ti dejavniki v Yandexu veliko večji vpliv kot v Googlu.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. Starost dokumenta in zadnja posodobitev sta dejavnika razvrščanja

Document age and last update both are ranking factors

10. Povprečni položaj domene v vseh poizvedbah je dejavnik razvrščanja

Average domain position across all queries is a ranking factor

11. Globina pregledovanja je dejavnik razvrščanja

Pomembne strani naj bodo bližje glavni strani:

  • zgornje strani: 1 klik z glavne strani
  • pomembne strani: <3 kliki

Crawl depth is a ranking factor

12. Dodatno: dejavnik razvrščanja za osirotele strani

To lahko ugotovite z našim orodjem za revizijo spletnega mesta.

Additionally: ranking factor for orphan pages

13. Povratne povezave z glavnih strani so pomembnejše kot z notranjih strani

Backlinks from main pages are more important than from internal pages

14. Število iskalnih poizvedb vašega spletnega mesta/url je dejavnik razvrščanja

Čim več, tem bolje

Number of search queries of your site/url is a ranking factor

15. Promet iz Wikipedije je dejavnik razvrščanja

Traffic from Wikipedia is a ranking factor

16. Če bi bil vaš url zadnji za sejo iskanja (uporabnik bo našel, kar potrebuje) - to bi vplivalo na uvrstitev

Za to obstajajo strogi dejavniki in tudi predvidljivi dejavniki.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Dejavnik razvrstitve zaznamkov

Čim več uporabnikov doda url v zaznamke, tem večjo faktorsko vrednost ima.

Bookmarks ranking factor

18. Posebni dejavniki razvrščanja za kratke videoposnetke (tiktok, kratki posnetki, kolute)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Zemljevidi js-api na strani (na primer Google Maps) so dejavnik razvrščanja

Tudi v Googlu (na primer v potovalni niši) je dodajanje zemljevidov z uporabnimi informacijami/funkcionalnostjo uspešno.

Maps js-api on page (for example Google Maps) is a ranking factor

20. Ključne besede v URL-ju so dejavniki razvrščanja

Kot je razvidno iz opisa, bi optimalno vključevalo do 3 besede iz iskalne poizvedbe.

Keywords in URL are ranking factors

21. Vračanje uporabnikov je dejavnik razvrščanja

Ustvarite izdelke z dobrim zadrževanjem in to bo koristilo vašemu SEO (obstaja veliko dejavnikov razvrščanja za merjenje tega).

Returning users is a ranking factor

22. Delež velikih tiskanih črk v <title> je dejavnik razvrščanja

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. Delež neposrednega prometa je dejavnik razvrščanja

Aka. Če je ves vaš promet prišel iz organskega iskanja, je to sumljivo + slabo za uvrstitev.

Percentage of direct traffic is a ranking factor

24. Še en dejavnik razvrščanja za kakovost vsebine - pokvarjen vdelani videoposnetek na strani

  • Vstavljanje videoposnetkov - dobro za uvrstitev.
  • Pokvarjeni vstavljeni videoposnetki - slabo.

One more ranking factor for content quality - broken embedded video on the page

25. Preverjeni računi v družabnih omrežjih se uvrščajo drugače kot drugi urni naslovi

Pomembno za iskanja blagovne znamke - v idealnem primeru bi morale biti pri iskanju vaše blagovne znamke v prvih 10 mestih samo vaše domene + preverjena družbena omrežja.

Verified accounts on social networks ranks differently as other urls

26. Če sidra vaših povratnih povezav vsebujejo vse besede iz ključnih besed, je to dobro za SEO.

Če je v eni povezavi, je to bolj koristno. Še posebej, če je vrstni red besed enak.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. Razmerje med "dobrimi" in "slabimi" povratnimi povezavami je dejavnik razvrščanja

![Razmerje med "dobrimi" in "slabimi" povratnimi povezavami je dejavnik razvrstitve](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Razmerje med "dobrimi" in "slabimi" povratnimi povezavami je dejavnik razvrstitve")

28. Rang kakovosti besedil na domeni je dejavnik razvrščanja

Strani z nizkokakovostno vsebino vplivajo na celotno domeno.

The quality rank of texts on the domain is a ranking factor

29. Količina oglasov na strani je dejavnik razvrščanja

Amount of advertisements on a page is a ranking factor

30. Obstaja naključnost kot ločen dejavnik razvrščanja

Če ne razumete, zakaj so nekatere strani na vrhu, je to lahko naključno (za testiranje vedenjskih dejavnikov).

There is a random as a separate ranking factor

31. JS iz storitve Google Analytics je dejavnik razvrščanja

Predvidljivo. Dobra spletna mesta uporabljajo GA / Google analytics pogosteje kot slaba spletna mesta.

JS from Google Analytics is a ranking factor

32. Vpliv povratnih povezav iz 100 najboljših spletnih strani po PageRanku na uvrstitev

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. URL nima številk

/100-best-credit-cards

/best-credit-cards

URL has no digits

34. Število šumnikov v naslovu URL

/finance/articles/2023/investment-advices

/investicijski nasveti

Number of slashes in URL

35. Število črk, ki niso črke, v naslovu URL

/pet-toys&all$currency=dollar#mobile

/pet-toys

Number of non-letters in URL

36. Simbol '?' v naslovu URL je dejavnik razvrščanja

/movies?genre=action

/action-movies

'?' symbol in the URL is a ranking factor

37. Iskalna poizvedba = URL, vključno s pikami in presledki (??)

Iskalna poizvedba je "Franklin D. Roosevelt":

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. Stari datum v naslovu URL

/2009/12/01/how-to-tie-a-tie

/kako zavezati kravato

Old date in the URL

39. Ključne besede so v naslovu URL in ne v besedilu strani

/videoigre & stran je o glasbi

/video-games & stran je o video igrah

Keywords is in URL, not in the text of the page

40. Pokritost URL s trigrami iz iskalne poizvedbe

/hotels-new-zealand

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • V naslov URL vključite 1-3 najpomembnejše besede;
  • Manj črk/številk/nečrk, če niso del ključne besede.

41. začetne uteži dejavnikov razvrščanja Yandex

Končne uteži izračuna AI(matrixnet), vendar so uporabne tudi začetne vrednosti.

initial weights of Yandex ranking factors

Zaključek

To je vse, kar za zdaj delimo. Pravkar smo začeli. To vam omogoča grob pregled nad tem, kaj je v njem.

S tem smo se le spustili na površje, saj je pred nami še veliko dragocenih spoznanj.

Vendar smo imeli v številnih predpostavkah in interpretacijah od zunaj glede delovanja tako obsežnega iskalnika precej prav, vsaj kar zadeva povezave.

Na splošno je uhajanje kode Yandexa zanimiv vpogled v notranje delovanje sodobnega iskalnika.

Spoznajte Ranktracker

Platforma "vse v enem" za učinkovito SEO

Za vsakim uspešnim podjetjem stoji močna kampanja SEO. Vendar je ob neštetih orodjih in tehnikah optimizacije težko vedeti, kje začeti. Ne bojte se več, ker imam za vas prav to, kar vam lahko pomaga. Predstavljam platformo Ranktracker vse-v-enem za učinkovito SEO

Končno smo odprli registracijo za Ranktracker popolnoma brezplačno!

Ustvarite brezplačen račun

Ali se prijavite s svojimi poverilnicami

Čeprav vseh ugotovitev ni mogoče neposredno uporabiti za Google, so se potrdile številne domneve o splošnem delovanju velikih spletnih iskalnikov, ki so bile v zadnjih letih postavljene.

Predvidevam, da je pred panogo SEO še nekaj zanimivih mesecev z novimi spoznanji iz tega uhajanja.

Spremljajte to stran, saj bomo v prihodnjih tednih in mesecih še naprej dodajali dejavnike razvrščanja.

Posebne zasluge za https://twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Začnite uporabljati Ranktracker... brezplačno!

Ugotovite, kaj preprečuje uvrstitev vašega spletnega mesta.

Ustvarite brezplačen račun

Ali se prijavite s svojimi poverilnicami

Different views of Ranktracker app