• Technologie

Unikl kód společnosti Yandex obsahující 1922 faktorů hodnocení vyhledávání Ranktracker vysvětluje všechny faktory hodnocení

  • Felix Rose-Collins
  • 7 min read
Unikl kód společnosti Yandex obsahující 1922 faktorů hodnocení vyhledávání Ranktracker vysvětluje všechny faktory hodnocení

Úvodní stránka

O Yandexu jste pravděpodobně slyšeli, je to čtvrtý největší vyhledávač na světě podle podílu na trhu. Včera unikl proprietární zdrojový kód Yandexu.

Nejzajímavější částí pro SEO komunitu je: seznam všech 1922 faktorů hodnocení používaných ve vyhledávacím algoritmu.

Stáhli jsme kód, analyzovali ho a zde je uveden v užitečné podobě.

Yandex leak

Incident by neměl být překvapením, protože společnost Yandex nebo její produkty jsou často terčem kybernetických útoků. V roce 2016 portál Hackread.com exkluzivně informoval o tom, jak prodejce z temného webu prodává údaje o 6,3 milionu uživatelských účtů společnosti Yandex.

Vzáří 2021 byl ruský vyhledávač zasažen jedním z největších útoků DDoS, který byl veden pomocí 200 000 napadených zařízení internetu věcí.

Seznamte se s nástrojem Ranktracker

Univerzální platforma pro efektivní SEO

Za každým úspěšným podnikem stojí silná kampaň SEO. Vzhledem k nesčetným optimalizačním nástrojům a technikám je však těžké zjistit, kde začít. No, už se nebojte, protože mám pro vás přesně to, co vám pomůže. Představuji vám komplexní platformu Ranktracker pro efektivní SEO.

Konečně jsme otevřeli registraci do nástroje Ranktracker zcela zdarma!

Vytvoření bezplatného účtu

Nebo se přihlaste pomocí svých přihlašovacích údajů

Yandex git sources

Proč je to tak velké?

Yandex je jednou z největších IT společností v Rusku. V rámci země poskytuje širší škálu služeb než Google. Představte si jednu společnost, která nahradí Google, Uber, Amazon, Netflix a Spotify.

Je tento únik skutečný?

Osobně jsem v Yandexu nikdy nepracoval, ale znám několik lidí, kteří tam v různých obdobích pracovali nebo stále pracují. Ověřil jsem si, že alespoň některé archivy určitě obsahují moderní zdrojové kódy firemních služeb a také dokumentaci odkazující na skutečné intranetové adresy URL.

Co je uvnitř

Únikář sdílel odkaz na magnet obsahující 44,7 GB souborů propojených se zdroji git společnosti Yandex. Soubory byly údajně odcizeny společnosti Yandex v červenci 2022. Kromě toho, že obsahují antispamové směrnice, obsahují údajně i zdrojový kód společnosti Yandex.

Únik informací odhalil přibližně 1 922 faktorů hodnocení, které vyhledávač používá ve svém vyhledávacím algoritmu. Kód unikl ve formě torrentu. Podle analýzy, kterou zveřejnil uživatel Twitteru Alex Buraks, obsahují uniklá data řadu faktorů řazení, včetně relevance textu, PageRanku, stáří obsahu, čerstvosti atd.

Kromě toho existuje několik faktorů chování koncového uživatele, faktorů souvisejících s propojením a spolehlivostí hostitele. SEO najdou některé neobvyklé faktory hodnocení, jako je počet unikátních návštěvníků, průměrné hodnocení domény napříč dotazy a procento organické návštěvnosti.

Vypadá to, že unikly přinejmenším zdrojové kódy všech hlavních služeb společnosti Yandex:

  • Vyhledávač a indexovací bot
  • Mapy - například Mapy Google a Street View
  • Alice - asistentka s umělou inteligencí jako Siri / Alexa
  • Taxi - taxislužba podobná Uberu
  • Přímá - reklamní služba jako Google Ads / Adwords
  • Mail - Poštovní služba jako GMail
  • Disk - Služba pro ukládání souborů, jako je Disk Google
  • Market - tržiště jako Amazon
  • Cestování - jako Booking.com plus letenky, vlakové a autobusové jízdenky
  • Yandex360 - Podobně jako Google Workspaces pro služby na vlastní doméně
  • Cloud - Pravděpodobně neunikl veškerý kód infrastruktury.
  • Pay - Zpracování plateb jako Stripe, ale s omezenou sadou funkcí.
  • Metrika - Stejně jako Google Analytics
  • A přinejmenším backendová část většiny ostatních firemních služeb je k dispozici. Největší archiv s názvem "frontend" je zatím neprozkoumaný.

Šestakov dále zaznamenal některé klíče API, které byly s největší pravděpodobností použity k testování nasazení.

Podrobnosti o tomto úniku: naleznete zde:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Společnost Yandex popírá pokus o hackerský útok

Společnost Yandex tvrdí, že si je úniku vědoma, a již zahájila vyšetřování, aby prověřila, jak se "fragmenty" zdrojového kódu dostaly na veřejnost. Stojí za zmínku, že únik neobsahuje osobní údaje uživatelů ani zaměstnanců.

Vzhledem k významu společnosti Yandex v ruské IT infrastruktuře a uniklým datům se však lze domnívat, že útok byl motivován invazí na Ukrajinu. Mohli se na něm tedy podílet proukrajinští hackeři.

Seznamte se s nástrojem Ranktracker

Univerzální platforma pro efektivní SEO

Za každým úspěšným podnikem stojí silná kampaň SEO. Vzhledem k nesčetným optimalizačním nástrojům a technikám je však těžké zjistit, kde začít. No, už se nebojte, protože mám pro vás přesně to, co vám pomůže. Představuji vám komplexní platformu Ranktracker pro efektivní SEO.

Konečně jsme otevřeli registraci do nástroje Ranktracker zcela zdarma!

Vytvoření bezplatného účtu

Nebo se přihlaste pomocí svých přihlašovacích údajů

Společnost Yandex ve svém oficiálním prohlášení upřesnila, že společnost nebyla napadena hackery a na úniku zdrojového kódu na veřejnost se mohl podílet její bývalý zaměstnanec. Přední ruská IT firma uvedla, že uniklý archiv obsahuje fragmenty kódu, které jsou součástí interního úložiště, jehož data se liší od těch, která jsou použita v nejnovější verzi úložiště.

"Společnost Yandex nebyla hacknuta. Naše bezpečnostní služba našla fragmenty kódu z interního úložiště ve veřejném prostoru, ale obsah se liší od aktuální verze úložiště používaného ve službách Yandexu," stojí v prohlášení společnosti.

Úniky zdrojových kódů jsou nicméně nebezpečné, protože představují pro organizace závažné bezpečnostní problémy, protože aktéři hrozeb mohou sledovat duševní vlastnictví společnosti a systémová data. Únik zdrojového kódu by útočníkům pomohl vytvořit cílené bezpečnostní exploity.

Jaký je teoretický rozdíl mezi algoritmy používanými ve společnosti Google a Yandex?

Jsou si dost podobné:

  • existuje obdoba RankBrain- MatrixNet
  • používají PageRank (téměř stejný jako v Googlu);
  • mnoho textových algoritmů je stejných.

Yandex vs Google

  • V Yandexu je spousta bývalých googlerů.
  • Yanex byl vytvořen jako klon společnosti Google;
  • SEO specialisté v Rusku používají téměř stejné taktiky white hat SEO pro Yandex a pro Google.

Samozřejmě existuje mnoho rozdílů, ale přístup a většina faktorů hodnocení se zdají být podobné.

V praxi: při porovnání výsledků vyhledávání Google a Yandex je jejich shoda ~ 70 %.

Podle Statcounteru se Yandex podílem na trhu blíží Yahoo a Bingu:

search engine market share worldwide

Soubor s faktory hodnocení: https: //dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Struktura pro každý faktor:

  1. název
  2. odkaz na interní wiki (omezeno)
  3. AntiSeoUpperBound (haha)
  4. popis (je v ruštině, přeložil jsem ho pro vás)
  5. atd.

1. První faktor v seznamu - PageRank.

First factor in the list - PageRank

Hlavní poznatky po analýze tohoto seznamu: Věk odkazů je faktorem hodnocení.

Age of links is a ranking factor.

2. Provoz a % organické návštěvnosti jsou faktory hodnocení.

Nákup PPC ovlivňuje hodnocení.

Traffic and % of organic traffic are ranking factors

3. Čísla v adresách URL jsou špatná pro hodnocení

Numbers in URLs is bad for rankings

4. Příliš mnoho lomítek v adresách URL škodí hodnocení

Too many slashes in URLs is bad for ranking

5. Tvrdá pesimizace rovná se PR=0

Hard pessimization equal PR=0

6. Spolehlivost hostitele je faktorem hodnocení

Čím méně chyb 40x/50x máte, tím lépe pro vaši organickou návštěvnost.

Host reliability is a ranking factor

7. Existuje samostatný faktor pro hodnocení povýšení Wikipedie.

there is a separate ranking factor for uplifting Wikipedia

8. Mnoho faktorů hodnocení souvisejících s chováním uživatelů - CTR, poslední kliknutí, čas na stránce, míra odskočení.

Poznámka: Jsme si téměř jisti, že v Yandexu mají tyto faktory mnohem větší vliv než v Googlu.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. Stáří dokumentu a poslední aktualizace jsou faktory hodnocení

Document age and last update both are ranking factors

10. Průměrná pozice domény ve všech dotazech je faktorem hodnocení

Average domain position across all queries is a ranking factor

11. Hloubka procházení je faktorem hodnocení

Udržujte důležité stránky blíže k hlavní stránce:

  • horní stránky: 1 kliknutí z hlavní stránky
  • důležité stránky: <3 kliknutí

Crawl depth is a ranking factor

12. Navíc: faktor hodnocení osiřelých stránek

To můžete zjistit pomocí našeho nástroje pro audit webových stránek

Additionally: ranking factor for orphan pages

13. Zpětné odkazy z hlavních stránek jsou důležitější než z interních stránek.

Backlinks from main pages are more important than from internal pages

14. Počet vyhledávacích dotazů na váš web/URL je hodnotícím faktorem.

Čím více, tím lépe

Number of search queries of your site/url is a ranking factor

15. Návštěvnost z Wikipedie je faktorem hodnocení

Traffic from Wikipedia is a ranking factor

16. Pokud by vaše url byla poslední pro relaci vyhledávání (uživatel najde to, co potřebuje) - mělo by to vliv na hodnocení.

Existují pro to přísné faktory a také předvídatelné faktory.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Faktor hodnocení záložek

Čím více uživatelů přidá url do záložek, tím větší hodnotu má faktor

Bookmarks ranking factor

18. Zvláštní faktory hodnocení krátkých videí (tiktok, kraťasy, reel)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Mapy js-api na stránce (například Mapy Google) jsou hodnotícím faktorem

V Googlu (například v oblasti cestování) funguje i přidávání map s užitečnými informacemi/funkcemi.

Maps js-api on page (for example Google Maps) is a ranking factor

20. Klíčová slova v URL jsou faktory hodnocení

Jak je vidět z popisu - optimální by bylo zahrnout až 3 slova z vyhledávacího dotazu.

Keywords in URL are ranking factors

21. Vracející se uživatelé jsou faktorem hodnocení

Vytvářejte produkty s dobrou retencí a prospěje to vašemu SEO (existuje mnoho faktorů pro jeho měření).

Returning users is a ranking factor

22. Podíl velkých písmen v <title> je hodnotícím faktorem

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. Procento přímé návštěvnosti je faktorem hodnocení

Aka. Pokud veškerá návštěvnost pochází z organického vyhledávání, je to podezřelé + špatné pro hodnocení.

Percentage of direct traffic is a ranking factor

24. Další faktor hodnocení kvality obsahu - nefunkční vložené video na stránce

  • Vkládání videí - dobré pro hodnocení.
  • Zlomené vkládání videí - špatné.

One more ranking factor for content quality - broken embedded video on the page

25. Ověřené účty na sociálních sítích se řadí jinak než ostatní url adresy

Důležité pro vyhledávání značky - v ideálním případě by se při vyhledávání vaší značky měly v první desítce objevit pouze vaše domény + ověřené sociální sítě.

Verified accounts on social networks ranks differently as other urls

26. Pokud kotvy vašich zpětných odkazů obsahují všechna slova z klíčových slov - je to dobré pro SEO.

Pokud je to v jednom odkazu - je to výhodnější. Zvláště pokud je pořadí slov stejné.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. Poměr "dobrých" a "špatných" zpětných odkazů je faktorem hodnocení

![Poměr "dobrých" a "špatných" zpětných odkazů je faktor hodnocení](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Poměr "dobrých" a "špatných" zpětných odkazů je faktor hodnocení")

28. Hodnocení kvality textů na doméně je hodnotícím faktorem.

Stránky s nekvalitním obsahem ovlivňují celou doménu.

The quality rank of texts on the domain is a ranking factor

29. Množství reklamy na stránce je hodnotícím faktorem

Amount of advertisements on a page is a ranking factor

30. Existuje náhodnost jako samostatný faktor hodnocení

Když nechápete, proč jsou některé stránky nahoře - může to být jen náhodné (testování faktorů chování).

There is a random as a separate ranking factor

31. JS z Google Analytics je hodnotícím faktorem

Předvídatelně. Dobré webové stránky používají GA / Google analytics častěji než špatné webové stránky.

JS from Google Analytics is a ranking factor

32. Dopady zpětných odkazů z prvních 100 nejlepších webových stránek podle PageRanku na hodnocení

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. Adresa URL nemá žádné číslice

/100-best-credit-cards

/best-credit-cards

URL has no digits

34. Počet lomítek v adrese URL

/finance/articles/2023/investice-porady

/investiční rady

Number of slashes in URL

35. Počet nepísmen v adrese URL

/pet-toys&all$currency=dollar#mobile

/pet-toys

Number of non-letters in URL

36. Symbol '?' v adrese URL je hodnotícím faktorem

/movies?genre=action

/akční filmy

'?' symbol in the URL is a ranking factor

37. Vyhledávací dotaz = adresa URL včetně teček a mezer (??)

Vyhledávací dotaz je "Franklin D. Roosevelt":

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. Staré datum v adrese URL

/2009/12/01/how-to-tie-a-tie

/how-to-tie-a-tie

Old date in the URL

39. Klíčová slova jsou v URL, ne v textu stránky.

/video-hry & stránka je o hudbě

/video-hry & stránka je o videohrách

Keywords is in URL, not in the text of the page

40. Pokrytí URL pomocí trigramů z vyhledávacího dotazu

/hotels-new-zealand

/nz

/levné hotely v-novém-zélandu-nejlepší nabídky

URL coverage with trigrams from the search query

  • Do adresy URL uveďte 1-3 nejdůležitější slova;
  • Méně lomítek/číslic/nepísmen, pokud nejsou součástí klíčového slova.

41. počáteční váhy faktorů hodnocení Yandexu

Konečné váhy vypočítá AI(matrixnet), ale užitečné jsou i počáteční hodnoty.

initial weights of Yandex ranking factors

Závěr

Tak to bychom měli, to je vše, co zatím sdílíme. Právě začínáme. To vám poskytuje hrubý přehled o tom, co v něm je.

Jsme teprve na začátku a čeká nás mnoho dalších cenných poznatků.

V mnoha předpokladech a interpretacích, jak by takový rozsáhlý vyhledávač fungoval, jsme však měli pravdu, alespoň pokud jde o odkazy.

Celkově lze říci, že únik kódu společnosti Yandex nabízí fascinující pohled do vnitřního fungování moderního vyhledávače.

Seznamte se s nástrojem Ranktracker

Univerzální platforma pro efektivní SEO

Za každým úspěšným podnikem stojí silná kampaň SEO. Vzhledem k nesčetným optimalizačním nástrojům a technikám je však těžké zjistit, kde začít. No, už se nebojte, protože mám pro vás přesně to, co vám pomůže. Představuji vám komplexní platformu Ranktracker pro efektivní SEO.

Konečně jsme otevřeli registraci do nástroje Ranktracker zcela zdarma!

Vytvoření bezplatného účtu

Nebo se přihlaste pomocí svých přihlašovacích údajů

Ačkoli ne všechna zjištění lze přímo aplikovat na společnost Google, potvrzují se mnohé předpoklady, které byly v posledních letech vysloveny o obecném fungování velkých internetových vyhledávačů.

Předpokládám, že obor SEO má před sebou ještě několik zajímavých měsíců, kdy se dozví nové informace z tohoto úniku.

Sledujte tuto stránku, protože v následujících týdnech a měsících budeme nadále přidávat faktory hodnocení.

Zvláštní zásluhy na https://twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Začněte používat Ranktracker... zdarma!

Zjistěte, co brání vašemu webu v umístění.

Vytvoření bezplatného účtu

Nebo se přihlaste pomocí svých přihlašovacích údajů

Different views of Ranktracker app