• Technologie

Yandex a divulgué un code contenant 1 922 facteurs de classement des recherches Ranktracker explique tous les facteurs de classement

  • Felix Rose-Collins
  • 9 min read
Yandex a divulgué un code contenant 1 922 facteurs de classement des recherches Ranktracker explique tous les facteurs de classement

Intro

Vous avez probablement entendu parler de Yandex, le quatrième moteur de recherche mondial en termes de parts de marché. Hier, le code source propriétaire de Yandex a été divulgué.

La partie la plus intéressante pour la communauté SEO est la liste des 1922 facteurs de classement utilisés dans l'algorithme de recherche.

Nous avons téléchargé le code, l'avons analysé et le présentons ici de manière utile.

Yandex leak

L'incident ne devrait pas être une surprise, puisque Yandex ou ses produits font souvent l'objet de cyberattaques. En 2016, Hackread.com a rapporté en exclusivité comment un vendeur du dark web vendait 6,3 millions de données de comptes d'utilisateurs de Yandex.

En septembre 2021, le géant russe des moteurs de recherche a été frappé par l'une des plus importantes attaques DDoS alimentées par 200 000 dispositifs IoT compromis.

Rencontre avec Ranktracker

La plateforme tout-en-un pour un référencement efficace

Derrière chaque entreprise prospère se cache une solide campagne de référencement. Mais avec d'innombrables outils et techniques d'optimisation parmi lesquels choisir, il peut être difficile de savoir par où commencer. Eh bien, n'ayez crainte, car j'ai ce qu'il vous faut pour vous aider. Voici la plateforme tout-en-un Ranktracker pour un référencement efficace.

Nous avons enfin ouvert l'inscription à Ranktracker de manière totalement gratuite !

Créer un compte gratuit

Ou connectez-vous en utilisant vos informations d'identification

Yandex git sources

Pourquoi est-ce si important ?

Yandex est l'une des plus grandes sociétés informatiques de Russie. À l'intérieur du pays, elle fournit une gamme de services plus large que Google. Imaginez une entreprise qui remplace Google, Uber, Amazon, Netflix et Spotify.

Cette fuite est-elle réelle ?

Je n'ai personnellement jamais travaillé chez Yandex, mais je connais plusieurs personnes qui y ont travaillé à différentes époques ou qui y travaillent encore. J'ai vérifié qu'au moins certaines des archives contiennent à coup sûr le code source moderne des services de l'entreprise ainsi que de la documentation pointant vers des URL intranet réels.

Ce qu'il y a dedans

Le divulgateur a partagé un lien magnétique contenant 44,7 Go de fichiers liés aux sources git de Yandex. Les fichiers auraient été volés à Yandex en juillet 2022. En plus de contenir des directives anti-spam, les dépôts de code contiendraient le code source de Yandex.

La fuite a révélé environ 1 922 facteurs de classement que le moteur de recherche utilise dans son algorithme de recherche. Le code a été divulgué sous la forme d'un torrent. Selon l'analyse publiée par Alex Buraks, utilisateur de Twitter, les données divulguées comprennent de nombreux facteurs de classement, notamment la pertinence du texte, le PageRank, l'âge du contenu, la fraîcheur, etc.

En outre, il existe plusieurs facteurs liés au comportement de l'utilisateur final, aux liens et à la fiabilité de l'hôte. Les spécialistes du référencement trouvent certains facteurs de classement inhabituels, tels que le nombre de visiteurs uniques, le classement moyen des domaines sur l'ensemble des requêtes et le pourcentage de trafic organique.

Il semble qu'au moins le code source de tous les principaux services de Yandex ait été divulgué :

  • Moteur de recherche et robot d'indexation
  • Cartes - Comme Google Maps et Street View
  • Alice - Assistant AI comme Siri / Alexa
  • Taxi - Service de taxi de type Uber
  • Direct - Service d'annonces comme Google Ads / Adwords
  • Mail - Service de messagerie comme GMail
  • Disque - Service de stockage de fichiers comme Google drive
  • Marché - Place de marché comme Amazon
  • Voyages - Comme un Booking.com plus billets d'avion, de train et de bus
  • Yandex360 - Comme Google Workspaces pour les services sur votre propre domaine
  • Cloud - Il est probable que tout le code de l'infrastructure n'a pas été divulgué.
  • Pay - Traitement des paiements comme Stripe, mais avec un ensemble limité de fonctionnalités.
  • Metrika - Comme Google Analytics
  • Et au moins la partie backend de la majorité des autres services de l'entreprise est là. La plus grande archive appelée "frontend" reste à explorer.

Shestakov a également noté quelques clés API, qui ont très probablement été utilisées pour tester le déploiement.

Les détails de cette fuite peuvent être trouvés ici :

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex nie toute tentative de piratage.

Yandex affirme être au courant de la fuite et a déjà ouvert une enquête pour vérifier comment des "fragments" de code source ont été exposés au public. Il convient de noter que la fuite ne concerne pas les données personnelles des utilisateurs ou des employés.

Toutefois, compte tenu de l'importance de Yandex dans l'infrastructure informatique de la Russie et des fuites de données, on peut supposer que l'attaque a été motivée par l'invasion de l'Ukraine par ce pays. Des hackers pro-Ukraine pourraient donc être impliqués.

Rencontre avec Ranktracker

La plateforme tout-en-un pour un référencement efficace

Derrière chaque entreprise prospère se cache une solide campagne de référencement. Mais avec d'innombrables outils et techniques d'optimisation parmi lesquels choisir, il peut être difficile de savoir par où commencer. Eh bien, n'ayez crainte, car j'ai ce qu'il vous faut pour vous aider. Voici la plateforme tout-en-un Ranktracker pour un référencement efficace.

Nous avons enfin ouvert l'inscription à Ranktracker de manière totalement gratuite !

Créer un compte gratuit

Ou connectez-vous en utilisant vos informations d'identification

Dans sa déclaration officielle, Yandex a précisé que l'entreprise n'a pas été piratée et qu'un ancien employé pourrait être impliqué dans la fuite de son code source dans le domaine public. La première entreprise informatique de Russie a noté que l'archive qui a fuité comprend des fragments de code qui font partie d'un référentiel interne, dont les données sont différentes de celles utilisées dans la dernière version du référentiel.

"Yandex n'a pas été piraté. Notre service de sécurité a trouvé des fragments de code provenant d'un référentiel interne dans le domaine public, mais le contenu diffère de la version actuelle du référentiel utilisé dans les services Yandex", peut-on lire dans la déclaration de la société.

Néanmoins, les fuites de code source sont dangereuses car elles posent de sérieux problèmes de sécurité aux organisations, puisque les acteurs de la menace peuvent observer la propriété intellectuelle et les données du système de l'entreprise. La fuite de code source aiderait les attaquants à créer des exploits de sécurité ciblés.

Théoriquement, quelle est la différence entre les algorithmes utilisés dans Google et dans Yandex ?

Ils sont assez semblables :

  • il existe un analogue de RankBrain- MatrixNet
  • ils utilisent le PageRank (presque le même que celui de Google) ;
  • beaucoup d'algorithmes de texte sont les mêmes.

Yandex vs Google

  • Il y a beaucoup d'ex-googlers chez Yandex.
  • Yanex a été construit comme un clone de Google ;
  • Les spécialistes du référencement en Russie utilisent presque les mêmes tactiques de référencement "white hat" pour Yandex et pour Google.

Bien sûr, il existe de nombreuses différences, mais l'approche et la majorité des facteurs de classement semblent être similaires.

En pratique, si l'on compare les résultats de recherche de Google et de Yandex, ils correspondent à environ 70 %.

Selon Statcounter, Yandex est proche de Yahoo et de Bing en termes de parts de marché :

search engine market share worldwide

Le fichier avec les facteurs de classement : https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Structure pour chaque facteur :

  1. nom
  2. lien vers le wiki interne (restreint)
  3. AntiSeoUpperBound (haha)
  4. description (c'est en russe, je l'ai traduit pour vous)
  5. etc.

1. Premier facteur de la liste - PageRank.

First factor in the list - PageRank

Principaux enseignements tirés de l'analyse de cette liste : L'âge des liens est un facteur de classement.

Age of links is a ranking factor.

2. Le trafic et le pourcentage de trafic organique sont des facteurs de classement.

L'achat de PPC affecte les classements.

Traffic and % of organic traffic are ranking factors

3. Les nombres dans les URL sont mauvais pour les classements

Numbers in URLs is bad for rankings

4. Trop de slashs dans les URLs est mauvais pour le classement

Too many slashes in URLs is bad for ranking

5. Pessimisation dure égale à PR=0

Hard pessimization equal PR=0

6. La fiabilité de l'hôte est un facteur de classement

Moins vous avez d'erreurs 40x/50x, mieux c'est pour votre trafic organique.

Host reliability is a ranking factor

7. Il existe un facteur de classement distinct pour l'élévation de Wikipédia.

there is a separate ranking factor for uplifting Wikipedia

8. De nombreux facteurs de classement liés au comportement de l'utilisateur - CTR, dernier clic, temps passé sur le site, taux de rebond.

Note : Nous sommes presque sûrs que ces facteurs ont un impact beaucoup plus important dans Yandex que dans Google.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. L'âge du document et la dernière mise à jour sont tous deux des facteurs de classement

Document age and last update both are ranking factors

10. La position moyenne du domaine sur l'ensemble des requêtes est un facteur de classement.

Average domain position across all queries is a ranking factor

11. La profondeur du crawl est un facteur de classement

Gardez vos pages importantes plus près de la page principale :

  • les pages principales : 1 clic depuis la page principale
  • pages importantes : <3 clics

Crawl depth is a ranking factor

12. En outre : facteur de classement pour les pages orphelines

Vous pouvez le découvrir grâce à notre outil d'audit du site web

Additionally: ranking factor for orphan pages

13. Les backlinks des pages principales sont plus importants que ceux des pages internes.

Backlinks from main pages are more important than from internal pages

14. Le nombre de requêtes de recherche de votre site/URL est un facteur de classement.

Plus il y en a, mieux c'est

Number of search queries of your site/url is a ranking factor

15. Le trafic de Wikipedia est un facteur de classement

Traffic from Wikipedia is a ranking factor

16. Si votre url est la dernière de la session de recherche (l'utilisateur trouvera ce dont il a besoin), cela aura un impact sur les classements.

Il existe des facteurs stricts à cet égard, mais aussi des facteurs prévisibles.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Facteur de classement des signets

Plus le nombre d'utilisateurs ajoutant une url aux signets est élevé, plus la valeur factorielle de cette url augmente

Bookmarks ranking factor

18. Facteurs de classement spéciaux pour les vidéos courtes (tiktok, shorts, reels)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Maps js-api sur la page (par exemple Google Maps) est un facteur de classement

Dans Google (par exemple dans le créneau des voyages), l'ajout de cartes avec des informations/fonctionnalités utiles fonctionne également.

Maps js-api on page (for example Google Maps) is a ranking factor

20. Les mots-clés dans l'URL sont des facteurs de classement

Comme nous pouvons le voir dans la description, l'optimal comprendrait jusqu'à 3 mots de la requête de recherche.

Keywords in URL are ranking factors

21. Le retour des utilisateurs est un facteur de classement

Construisez des produits avec une bonne rétention et cela bénéficiera à votre référencement (il y a beaucoup de facteurs de classement pour le mesurer).

Returning users is a ranking factor

22. Le pourcentage de MAJUSCULES dans <title> est un facteur de classement.

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. Le pourcentage de trafic direct est un facteur de classement

Autrement dit. Si tout votre trafic provient de la recherche organique, c'est suspect et mauvais pour le classement.

Percentage of direct traffic is a ranking factor

24. Un facteur de classement supplémentaire pour la qualité du contenu - une vidéo intégrée cassée sur la page

  • Incorporer des vidéos - bon pour le classement.
  • Vidéos intégrées cassées - mauvais.

One more ranking factor for content quality - broken embedded video on the page

25. Les comptes vérifiés sur les réseaux sociaux sont classés différemment des autres urls.

Important pour les recherches sur les marques - idéalement, si vous recherchez votre marque, seuls vos domaines et réseaux sociaux vérifiés devraient figurer dans le top 10.

Verified accounts on social networks ranks differently as other urls

26. Si les ancres de vos backlinks contiennent tous les mots clés, c'est bon pour le référencement.

Si c'est dans un seul lien, c'est plus avantageux. Surtout si l'ordre des mots est le même.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. Le rapport entre les "bons" et les "mauvais" backlinks est un facteur de classement

![Le ratio "bons" vs "mauvais" backlinks est un facteur de classement](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Le ratio "bons" vs "mauvais" backlinks est un facteur de classement")

28. Le rang de qualité des textes sur le domaine est un facteur de classement

Les pages dont le contenu est de mauvaise qualité affectent l'ensemble du domaine.

The quality rank of texts on the domain is a ranking factor

29. La quantité de publicités sur une page est un facteur de classement

Amount of advertisements on a page is a ranking factor

30. L'aléatoire est un facteur de classement distinct

Si vous ne comprenez pas pourquoi certaines pages sont en tête, il se peut que ce soit simplement aléatoire (pour tester les facteurs de comportement).

There is a random as a separate ranking factor

31. JS de Google Analytics est un facteur de classement

C'est prévisible. Les bons sites web utilisent GA / Google analytics plus souvent que les mauvais sites web.

JS from Google Analytics is a ranking factor

32. Impact des backlinks des 100 meilleurs sites web par PageRank sur les classements

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. L'URL n'a pas de chiffres

/100-best-credit-cards

/best-credit-cards

URL has no digits

34. Nombre de slashs dans l'URL

/finance/articles/2023/investment-advices

/conseils-en-investissement

Number of slashes in URL

35. Nombre de non-lettres dans l'URL

/pet-toys&all$currency=dollar#mobile

/pet-toys

Number of non-letters in URL

36. Le symbole '?' dans l'URL est un facteur de classement

/movies?genre=action

/action-movies

'?' symbol in the URL is a ranking factor

37. Requête de recherche = URL, y compris les points et les espaces ( ??)

La requête de recherche est "Franklin D. Roosevelt" :

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. Ancienne date dans l'URL

/2009/12/01/how-to-tie-a-tie

/how-to-tie-a-tie

Old date in the URL

39. Les mots-clés sont dans l'URL, pas dans le texte de la page.

/video-games & la page est sur la musique

/video-games & la page parle de jeux vidéo

Keywords is in URL, not in the text of the page

40. Couverture d'URL avec des trigrammes de la requête de recherche

/hotels-new-zealand

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • Incluez 1 à 3 des mots les plus importants dans l'URL ;
  • Moins de barres obliques/chiffres/non-lettres, si elles ne font pas partie de votre mot-clé.

41. poids initial des facteurs de classement Yandex

Les poids finaux sont calculés par AI(matrixnet), mais les valeurs initiales sont également utiles.

initial weights of Yandex ranking factors

Conclusion

Voilà, c'est tout ce que nous partageons pour l'instant. Nous ne faisons que commencer. Cela vous donne une idée générale de ce qu'il y a là-dedans.

Nous ne faisons qu'effleurer la surface du problème, et de nombreuses autres informations précieuses nous attendent.

Mais nous avions tout à fait raison dans de nombreuses hypothèses et interprétations de l'extérieur sur le fonctionnement d'un moteur de recherche aussi étendu, du moins en ce qui concerne les liens.

Dans l'ensemble, la fuite du code de Yandex offre un aperçu fascinant du fonctionnement interne d'un moteur de recherche moderne.

Rencontre avec Ranktracker

La plateforme tout-en-un pour un référencement efficace

Derrière chaque entreprise prospère se cache une solide campagne de référencement. Mais avec d'innombrables outils et techniques d'optimisation parmi lesquels choisir, il peut être difficile de savoir par où commencer. Eh bien, n'ayez crainte, car j'ai ce qu'il vous faut pour vous aider. Voici la plateforme tout-en-un Ranktracker pour un référencement efficace.

Nous avons enfin ouvert l'inscription à Ranktracker de manière totalement gratuite !

Créer un compte gratuit

Ou connectez-vous en utilisant vos informations d'identification

Bien que toutes les conclusions ne puissent pas être directement appliquées à Google, de nombreuses hypothèses formulées ces dernières années sur le fonctionnement général des grands moteurs de recherche sur Internet sont confirmées.

Je suppose que le secteur de l'optimisation des moteurs de recherche a encore quelques mois intéressants devant lui avec les nouvelles informations issues de cette fuite.

Gardez un œil sur cette page car nous continuerons à ajouter des facteurs de classement au cours des semaines et des mois à venir.

Crédits spéciaux à https://twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Commencez à utiliser Ranktracker... gratuitement !

Découvrez ce qui empêche votre site Web de se classer.

Créer un compte gratuit

Ou connectez-vous en utilisant vos informations d'identification

Different views of Ranktracker app