• Технологія

Яндекс виклав код, що містить 1 922 фактори ранжування Ranktracker пояснює всі фактори ранжування

  • Felix Rose-Collins
  • 7 min read
Яндекс виклав код, що містить 1 922 фактори ранжування Ranktracker пояснює всі фактори ранжування

Вступ

Ви, напевно, чули про Яндекс, це 4-та найбільша пошукова система за часткою ринку у світі. Вчора стався витік закритого вихідного коду Яндекса.

Найцікавіше для SEO-спільноти: список усіх 1922 факторів ранжування, що використовуються в пошуковому алгоритмі

Ми завантажили код, проаналізували його, і тут він представлений у зручній формі.

Yandex leak

Цей інцидент не повинен стати несподіванкою, оскільки Яндекс або його продукти часто піддаються кібератакам. У 2016 році Hackread.com ексклюзивно повідомляв про те, як продавець з темного інтернету продавав 6,3 мільйона даних облікових записів користувачів Яндекса.

У вересні 2021 року російський пошуковий гігант зазнав однієї з найбільших DDoS-атак, яка була здійснена за допомогою 200 000 скомпрометованих пристроїв Інтернету речей.

Зустрічайте Ranktracker

Універсальна платформа для ефективного SEO

За кожним успішним бізнесом стоїть потужна SEO-кампанія. Але з незліченною кількістю інструментів і методів оптимізації на вибір може бути важко зрозуміти, з чого почати. Що ж, не бійтеся, адже у мене є те, що вам допоможе. Представляємо вам універсальну платформу Ranktracker для ефективного SEO

Ми нарешті зробили реєстрацію на Ranktracker абсолютно безкоштовною!

Створіть безкоштовний обліковий запис

Або Увійдіть, використовуючи свої облікові дані

Yandex git sources

Чому це так важливо?

Яндекс - одна з найбільших ІТ-компаній в Росії. У межах країни вона надає ширший спектр послуг, ніж Google. Уявіть собі одну компанію, яка замінює Google, Uber, Amazon, Netflix і Spotify.

Чи є цей витік реальним?

Особисто я ніколи не працював у Яндексі, але знаю кількох людей, які працювали там у різний час або працюють досі. Я переконався, що принаймні деякі з архівів точно містять сучасний вихідний код сервісів компанії, а також документацію, що вказує на реальні внутрішні URL-адреси.

Що всередині

Витік поділився магнітним посиланням, що містить 44,7 ГБ файлів з посиланнями на git-джерела Яндекса. Файли нібито були викрадені з Яндекса в липні 2022 року. Вважається, що, окрім інструкцій з боротьби зі спамом, у сховищах коду міститься вихідний код Яндекса.

Витік розкрив близько 1 922 факторів ранжування, які пошукова система використовує у своєму алгоритмі пошуку. Код був викладений у вигляді торрента. Згідно з аналізом, опублікованим користувачем Twitter Алексом Бураксом (Alex Buraks), витік даних включає численні фактори ранжування, в тому числі релевантність тексту, PageRank, вік контенту, свіжість тощо.

Крім того, існує кілька факторів поведінки кінцевого користувача, факторів, пов'язаних з посиланнями, і надійності хоста. SEO-фахівці виявляють деякі незвичайні фактори ранжування, такі як кількість унікальних відвідувачів, середній рейтинг домену за запитами і відсоток органічного трафіку.

Схоже, що принаймні вихідні коди всіх основних сервісів Яндекса були злиті:

  • Пошукова система та бот для індексації
  • Карти - наприклад, Google Maps та Street View
  • Аліса - АІ-помічник на кшталт Siri / Alexa
  • Таксі - служба таксі, подібна до Uber
  • Direct - служба оголошень на кшталт Google Ads / Adwords
  • Пошта - Поштова служба на кшталт GMail
  • Диск - сервіс для зберігання файлів на кшталт Google Drive
  • Market - Маркетплейс на кшталт Amazon
  • Подорожі - як Booking.com плюс квитки на літаки, поїзди та автобуси
  • Яндекс360 - подібно до Google Workspaces для сервісів на власному домені
  • Хмара - ймовірно, не весь інфраструктурний код був витоком.
  • Pay - обробка платежів, як у Stripe, але з обмеженим набором функцій
  • Метрика - як Google Analytics
  • І принаймні бекенд-частина більшості інших сервісів компанії є там. Найбільший архів під назвою "фронтенд" ще належить дослідити.

Шестаков також зазначив деякі ключі API, які, швидше за все, були використані для тестування розгортання.

Детальніше про цей витік: можна прочитати тут:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Яндекс заперечує спробу хакерської атаки

Яндекс стверджує, що знає про витік і вже розпочав розслідування, щоб з'ясувати, яким чином "фрагменти" вихідного коду опинилися у відкритому доступі. Варто зазначити, що витік не містить персональних даних користувачів або співробітників компанії.

Однак, враховуючи важливість "Яндекса" в ІТ-інфраструктурі Росії та витік даних, можна припустити, що атака була мотивована вторгненням країни в Україну. Отже, до цього могли бути причетні проукраїнські хакери.

Зустрічайте Ranktracker

Універсальна платформа для ефективного SEO

За кожним успішним бізнесом стоїть потужна SEO-кампанія. Але з незліченною кількістю інструментів і методів оптимізації на вибір може бути важко зрозуміти, з чого почати. Що ж, не бійтеся, адже у мене є те, що вам допоможе. Представляємо вам універсальну платформу Ranktracker для ефективного SEO

Ми нарешті зробили реєстрацію на Ranktracker абсолютно безкоштовною!

Створіть безкоштовний обліковий запис

Або Увійдіть, використовуючи свої облікові дані

У своїй офіційній заяві"Яндекс" пояснив, що компанія не була зламана, а до витоку її вихідного коду у відкритий доступ міг бути причетний колишній співробітник. Провідна російська ІТ-компанія зазначила, що витік архіву включає фрагменти коду, які є частиною внутрішнього репозиторію, дані якого відрізняються від тих, що використовуються в останній версії репозиторію.

"Яндекс не був зламаний. Наша служба безпеки знайшла фрагменти коду з внутрішнього репозиторію у відкритому доступі, але вміст відрізняється від поточної версії репозиторію, що використовується в сервісах Яндекса", - йдеться в заяві компанії.

Тим не менш, витоки вихідного коду небезпечні тим, що створюють серйозні проблеми з безпекою організацій, оскільки зловмисники можуть спостерігати за інтелектуальною власністю та системними даними компанії. Витік вихідного коду може допомогти зловмисникам створити цільові вразливості в системі безпеки.

Теоретично, в чому різниця між алгоритмами, що використовуються в Google і в Яндексі?

Вони дуже схожі:

  • існує аналог RankBrain- MatrixNet
  • вони використовують PageRank (майже такий самий, як у Google);
  • багато текстових алгоритмів однакові.

Yandex vs Google

Звичайно, є багато відмінностей, але підхід і більшість факторів ранжування здаються схожими.

На практиці: якщо порівнювати результати пошуку Google та Яндекс, то вони збігаються на ~70%.

За даними Statcounter, за часткою ринку Яндекс наблизився до Yahoo та Bing:

search engine market share worldwide

Файл з факторами ранжування: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Структура для кожного фактора:

  1. ім'я
  2. посилання на внутрішню вікі (доступ обмежено)
  3. AntiSeoUpperBound (ха-ха)
  4. опис (він російською мовою, я переклав його для вас)
  5. і т.д.

1. Перший фактор у списку - PageRank.

First factor in the list - PageRank

Основні висновки після аналізу цього списку: Вік посилань є фактором ранжування.

Age of links is a ranking factor.

2. Трафік та % органічного трафіку є факторами ранжування.

Купівля PPC впливає на ранжування.

Traffic and % of organic traffic are ranking factors

3. Цифри в URL погано впливають на ранжування

Numbers in URLs is bad for rankings

4. Занадто багато косих рисок в URL-адресах погано впливає на ранжування

Too many slashes in URLs is bad for ranking

5. Жорстка песимізація дорівнює PR=0

Hard pessimization equal PR=0

6. Надійність хостингу - фактор ранжування

Менше 40x/50x помилок, тим краще для вашого органічного трафіку

Host reliability is a ranking factor

7. Існує окремий фактор ранжування для підняття Вікіпедії

there is a separate ranking factor for uplifting Wikipedia

8. Багато факторів ранжування пов'язані з поведінкою користувачів - CTR, останній клік, час перебування на сайті, показник відмов

Примітка: Ми майже впевнені, що в Яндексі ці фактори впливають набагато більше, ніж в Google.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. Вік документа та останнє оновлення є факторами ранжування

Document age and last update both are ranking factors

10. Середня позиція домену за всіма запитами є фактором ранжування

Average domain position across all queries is a ranking factor

11. Глибина проходження - фактор ранжування

Тримайте важливі сторінки ближче до головної:

  • головні сторінки: 1 клік з головної сторінки
  • важливі сторінки: <3 кліків

Crawl depth is a ranking factor

12. Додатково: фактор ранжування для "сирітських" сторінок

Ви можете знайти це за допомогою нашого інструменту аудиту веб-сайту

Additionally: ranking factor for orphan pages

13. Зворотні посилання з головних сторінок важливіші, ніж з внутрішніх сторінок

Backlinks from main pages are more important than from internal pages

14. Кількість пошукових запитів вашого сайту/адреси є фактором ранжування

Чим більше, тим краще

Number of search queries of your site/url is a ranking factor

15. Трафік з Вікіпедії - фактор ранжування

Traffic from Wikipedia is a ranking factor

16. Якщо ваш url буде останнім для пошукової сесії (користувач знайде те, що йому потрібно) - це вплине на ранжування

Існують жорсткі фактори для цього, а також передбачувані фактори.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Фактор ранжування закладок

Чим більше користувачів додають URL-адресу до закладок, тим більше значення фактору вона має

Bookmarks ranking factor

18. Спеціальні фактори ранжування для коротких відео (tiktok, шорти, ролики)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Карти js-api на сторінці (наприклад, Google Maps) є фактором ранжування

У Google (наприклад, у ніші подорожей) додавання карт з корисною інформацією/функціоналом також працює.

Maps js-api on page (for example Google Maps) is a ranking factor

20. Ключові слова в URL є факторами ранжування

Як ми бачимо з опису - оптимальним буде включення до 3 слів з пошукового запиту.

Keywords in URL are ranking factors

21. Повернення користувачів - фактор ранжування

Створюйте продукти з хорошим утриманням, і це піде на користь вашому SEO (існує багато факторів ранжування для вимірювання цього показника).

Returning users is a ranking factor

22. Відсоток ВЕЛИКИХ літер у <title> є фактором ранжування

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. Відсоток прямого трафіку є фактором ранжування

Також відомий як Якщо весь ваш трафік надходить з органічного пошуку - це підозріло + погано для ранжування.

Percentage of direct traffic is a ranking factor

24. Ще один фактор ранжування якості контенту - непрацююче вбудоване відео на сторінці

  • Вбудовуйте відео - це добре для рейтингу.
  • Пошкоджене відео для вбудовування - погано.

One more ranking factor for content quality - broken embedded video on the page

25. Підтверджені акаунти в соціальних мережах ранжуються інакше, ніж інші URL-адреси

Важливо для пошуку брендів - в ідеалі в пошуку вашого бренду повинні бути тільки ваші домени + перевірені соціальні мережі в топ-10

Verified accounts on social networks ranks differently as other urls

26. Якщо анкор ваших зворотних посилань містить всі слова з ключових слів - це добре для SEO

Якщо це в одному посиланні - це більш вигідно. Особливо, якщо порядок слів однаковий.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. Співвідношення "хороших" і "поганих" зворотних посилань є фактором ранжування

![Співвідношення "хороших" і "поганих" зворотних посилань є фактором ранжування](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Співвідношення "хороших" і "поганих" зворотних посилань є фактором ранжування")

28. Рейтинг якості текстів на домені є фактором ранжування

Сторінки з низькою якістю контенту впливають на весь домен.

The quality rank of texts on the domain is a ranking factor

29. Кількість реклами на сторінці є фактором ранжування

Amount of advertisements on a page is a ranking factor

30. Існує випадковість як окремий фактор ранжування

Коли ви не розумієте, чому деякі сторінки знаходяться вгорі - це може бути просто випадковість (для перевірки поведінкових факторів).

There is a random as a separate ranking factor

31. JS з Google Analytics - фактор ранжування

Передбачувано. Хороші сайти використовують GA / Google аналітику частіше, ніж погані.

JS from Google Analytics is a ranking factor

32. Зворотні посилання з топ-100 найкращих сайтів за PageRank впливають на ранжування

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. URL не містить цифр

/100-найкращих-кредитних-карток

/best-credit-cards

URL has no digits

34. Кількість слешів в URL-адресі

/finance/articles/2023/investment-advice

/investment-advices

Number of slashes in URL

35. Кількість небукв в URL-адресі

/pet-toys&all$currency=dollar#mobile

/іграшки для домашніх тварин

Number of non-letters in URL

36. Символ '?' в URL-адресі є фактором ранжування

/movies?genre=action

/action-movies

'?' symbol in the URL is a ranking factor

37. Пошуковий запит = URL, включаючи крапки та пробіли (??)

Пошуковий запит - "Франклін Д. Рузвельт":

Рузвельт.

/Франклін_Д._Рузвельт

Search query = URL, including dots and spaces (??)

38. Стара дата в URL-адресі

/2009/12/01/how-to-tie-a-tie

/як зав'язати краватку

Old date in the URL

39. Ключові слова в URL, а не в тексті сторінки

/video-games & сторінка про музику

/video-games & сторінка про відеоігри

Keywords is in URL, not in the text of the page

40. Покриття URL триграмами з пошукового запиту

/hotels-new-zealand

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • Включіть 1-3 найважливіші слова в URL-адресу;
  • Менше косих рисок/цифр/небукв, якщо вони не є частиною вашого ключового слова

41. початкові ваги факторів ранжування Яндекса

Кінцеві ваги розраховуються ШІ(матрична мережа), але початкові значення також корисні.

initial weights of Yandex ranking factors

Висновок

Що ж, це все, чим ми поки що ділимося. Ми тільки починаємо. Це дає вам приблизний огляд того, що тут є.

Ми лише подряпали поверхню, а попереду ще стільки цінних знань.

Але ми були цілком праві в багатьох припущеннях та інтерпретаціях ззовні щодо того, як працюватиме така розгалужена пошукова система, принаймні щодо посилань.

Загалом, витік коду Яндекса пропонує захоплююче уявлення про внутрішню роботу сучасної пошукової системи.

Зустрічайте Ranktracker

Універсальна платформа для ефективного SEO

За кожним успішним бізнесом стоїть потужна SEO-кампанія. Але з незліченною кількістю інструментів і методів оптимізації на вибір може бути важко зрозуміти, з чого почати. Що ж, не бійтеся, адже у мене є те, що вам допоможе. Представляємо вам універсальну платформу Ranktracker для ефективного SEO

Ми нарешті зробили реєстрацію на Ranktracker абсолютно безкоштовною!

Створіть безкоштовний обліковий запис

Або Увійдіть, використовуючи свої облікові дані

Хоча не всі висновки можна безпосередньо застосувати до Google, багато припущень, зроблених в останні роки щодо загального функціонування великих пошукових систем в Інтернеті, підтвердилися.

Я припускаю, що на SEO-індустрію ще чекає кілька цікавих місяців, коли вона отримає нові знання з цього витоку.

Слідкуйте за цією сторінкою, оскільки ми будемо продовжувати додавати фактори ранжування протягом наступних тижнів і місяців.

Спеціальна подяка за публікацію на https://twitter.com/alex_buraks

Почніть користуватися Ranktracker... Безкоштовно!

Дізнайтеся, що стримує ваш сайт від ранжування.

Створіть безкоштовний обліковий запис

Або Увійдіть, використовуючи свої облікові дані

Different views of Ranktracker app