• Технология

Изтичане на код на Yandex, съдържащ 1922 фактора за класиране при търсене Ranktracker обяснява всички фактори за класиране

  • Felix Rose-Collins
  • 8 min read
Изтичане на код на Yandex, съдържащ 1922 фактора за класиране при търсене Ranktracker обяснява всички фактори за класиране

Въведение

Вероятно сте чували за Yandex- това е четвъртата по големина търсачка по пазарен дял в света. Вчера изтече собственият изходен код на Yandex.

Най-интересната част за SEO общността е: списъкът с всички 1922 фактора за класиране, използвани в алгоритъма за търсене

Изтеглихме кода, анализирахме го и тук е представен по полезен начин.

Yandex leak

Инцидентът не би трябвало да е изненада, тъй като Yandex или нейните продукти често са обект на кибератаки. През 2016 г. Hackread.com съобщи ексклузивно за това как търговец от тъмната мрежа е продавал данни за 6,3 милиона потребителски акаунта на Yandex.

През септември 2021 г. руският гигант в областта на търсачките беше засегнат от една от най-големите DDoS атаки, задвижвана от 200 000 компрометирани устройства от интернет на нещата.

Запознайте се с Ranktracker

Универсалната платформа за ефективна SEO оптимизация

Зад всеки успешен бизнес стои силна SEO кампания. Но с безбройните инструменти и техники за оптимизация, от които можете да избирате, може да е трудно да разберете откъде да започнете. Е, не се страхувайте повече, защото имам точно това, което ще ви помогне. Представяме ви платформата Ranktracker "всичко в едно" за ефективна SEO оптимизация

Най-накрая отворихме регистрацията за Ranktracker напълно безплатно!

Създаване на безплатен акаунт

Или влезте в системата, като използвате данните си

Yandex git sources

Защо това е голямо?

Yandex е една от най-големите ИТ компании в Русия. В страната тя предоставя по-широк набор от услуги от Google. Представете си една компания, която замества Google, Uber, Amazon, Netflix и Spotify.

Истинско ли е това изтичане?

Лично аз никога не съм работил в Яндекс, но познавам няколко души, които са работили там по различно време или все още работят там. Проверих, че поне някои от архивите със сигурност съдържат съвременен изходен код за услугите на компанията, както и документация, насочваща към реални интранет адреси.

Какво има вътре

Лийкърът е споделил магнитна връзка, съдържаща 44,7 GB файлове, свързани с източниците на Yandex git. Предполага се, че файловете са били откраднати от Yandex през юли 2022 г. Смята се, че освен че съдържат насоки за борба със спама, хранилищата съдържат изходния код на Yandex.

Изтичането на информация разкрива около 1922 фактора за класиране, които търсачката използва в алгоритъма си за търсене. Кодът е изтекъл под формата на торент. Според анализа, публикуван от потребителя на Twitter Алекс Буракс, изтеклите данни включват множество фактори за класиране, включително релевантност на текста, PageRank, възраст на съдържанието, свежест и др.

Освен това съществуват няколко фактора, свързани с поведението на крайния потребител, с връзката и с надеждността на хоста. SEO оптимизаторите откриват някои необичайни фактори за класиране, като например броя на уникалните посетители, средното класиране на домейна в заявките и процента на органичния трафик.

Изглежда, че поне изходният код на всички основни услуги на Yandex е изтекъл:

  • Търсеща машина и индексиращ бот
  • Карти - като Google Maps и Street View
  • Alice - асистент с изкуствен интелект като Siri / Alexa
  • Такси - таксиметрова услуга, подобна на Uber
  • Директно - услуга за реклами като Google Ads / Adwords
  • Mail - Пощенска услуга като GMail
  • Диск - Услуга за съхранение на файлове като Google drive
  • Пазар - Пазар като Amazon
  • Пътуване - като Booking.com плюс билети за самолет, влак и автобус
  • Yandex360 - Подобно на работните пространства на Google за услуги в собствения ви домейн
  • Облак - Вероятно не целият код на инфраструктурата е изтекъл.
  • Pay - Обработка на плащания като Stripe, но с ограничен набор от функции
  • Metrika - Подобно на Google Analytics
  • И поне бекенд частта на повечето други услуги на компанията е налице. Най-големият архив, наречен "frontend", предстои да бъде проучен.

Освен това Шестаков отбеляза някои API ключове, които най-вероятно са били използвани за тестване на внедряването.

Подробности за това изтичане: можете да намерите тук:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex отрича опит за хакване

Yandex твърди, че е наясно с изтичането на информация и вече е започнала разследване, за да провери как "фрагменти" от изходния код са станали публично достояние. Струва си да се отбележи, че изтичането не включва лични данни на потребители или служители.

Въпреки това, като се има предвид значението на "Яндекс" в ИТ инфраструктурата на Русия и изтеклите данни, може да се предположи, че атаката е била мотивирана от нахлуването на страната в Украйна. Така че може да са замесени проукраински хакери.

Запознайте се с Ranktracker

Универсалната платформа за ефективна SEO оптимизация

Зад всеки успешен бизнес стои силна SEO кампания. Но с безбройните инструменти и техники за оптимизация, от които можете да избирате, може да е трудно да разберете откъде да започнете. Е, не се страхувайте повече, защото имам точно това, което ще ви помогне. Представяме ви платформата Ranktracker "всичко в едно" за ефективна SEO оптимизация

Най-накрая отворихме регистрацията за Ranktracker напълно безплатно!

Създаване на безплатен акаунт

Или влезте в системата, като използвате данните си

В официалното си изявление Yandex уточни, че компанията не е била хакната и че бивш служител може да е замесен в изтичането на изходния ѝ код в публичното пространство. Водещата руска ИТ фирма отбеляза, че изтеклият архив включва фрагменти от кода, които са част от вътрешно хранилище, чиито данни са различни от използваните в последната версия на хранилището.

"Яндекс не е бил хакнат. Нашата служба за сигурност откри фрагменти от код от вътрешно хранилище в публичното пространство, но съдържанието им се различава от текущата версия на хранилището, използвано в услугите на Яндекс", се казва в изявлението на компанията.

Въпреки това изтичането на изходен код е опасно, тъй като създава сериозни проблеми за сигурността на организациите, тъй като участниците в заплахите могат да наблюдават интелектуалната собственост и системните данни на компанията. Изтичането на изходен код би помогнало на нападателите да създадат целеви експлойти за сигурност.

Теоретично каква е разликата между алгоритмите, използвани в Google и в Yandex?

Те са доста сходни:

  • има аналог на RankBrain- MatrixNet
  • те използват PageRank (почти същия като в Google);
  • много от текстовите алгоритми са еднакви.

Yandex vs Google

  • В Yandex има много бивши гугълци
  • Yanex е създаден като клонинг на Google;
  • Специалистите по SEO в Русия използват почти еднакви тактики за SEO с бяла шапка за Yandex и за Google

Разбира се, има много разлики, но подходът и повечето фактори за класиране изглеждат сходни.

На практика: сравнявайки резултатите от търсенето в Google и Yandex, те съвпадат на ~70%.

Според Statcounter Yandex е близо до Yahoo и Bing по пазарен дял:

search engine market share worldwide

Файлът с фактори за класиране: https: //dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Структура за всеки фактор:

  1. име
  2. връзка към вътрешно уики (ограничено)
  3. AntiSeoUpperBound (haha)
  4. описание (на руски език, преведох го за вас)
  5. и т.н.

1. Първият фактор в списъка - PageRank.

First factor in the list - PageRank

Основни прозрения след анализа на този списък: Възрастта на връзките е фактор за класиране.

Age of links is a ranking factor.

2. Трафикът и % от органичния трафик са фактори за класиране.

Закупуването на PPC се отразява на класирането.

Traffic and % of organic traffic are ranking factors

3. Числата в URL адресите са вредни за класирането

Numbers in URLs is bad for rankings

4. Твърде много наклонени черти в URL адресите са вредни за класирането

Too many slashes in URLs is bad for ranking

5. Твърда песимизация, равна на PR=0

Hard pessimization equal PR=0

6. Надеждността на хоста е фактор за класиране

Колкото по-малко грешки 40x/50x имате, толкова по-добре за органичния ви трафик

Host reliability is a ranking factor

7. Има отделен фактор за класиране за издигане на Wikipedia

there is a separate ranking factor for uplifting Wikipedia

8. Много фактори за класиране, свързани с поведението на потребителите - CTR, последно кликване, време на сайта, процент на отпадане

Забележка: Почти сме сигурни, че в Yandex тези фактори влияят много повече, отколкото в Google.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. Възрастта на документа и последната актуализация са фактори за класиране

Document age and last update both are ranking factors

10. Средната позиция на домейна при всички заявки е фактор за класиране

Average domain position across all queries is a ranking factor

11. Дълбочината на обхождане е фактор за класиране

Дръжте важните си страници по-близо до главната страница:

  • най-горни страници: 1 кликване от главната страница
  • важни страници: <3 кликвания

Crawl depth is a ranking factor

12. Освен това: фактор за класиране на осиротели страници

Можете да откриете това чрез нашия инструмент за одит на уебсайтове

Additionally: ranking factor for orphan pages

13. Обратните връзки от основните страници са по-важни от тези от вътрешните страници

Backlinks from main pages are more important than from internal pages

14. Броят на заявките за търсене на вашия сайт/връзка е фактор за класиране

Колкото повече, толкова по-добре

Number of search queries of your site/url is a ranking factor

15. Трафикът от Wikipedia е фактор за класиране

Traffic from Wikipedia is a ranking factor

16. Ако URL адресът ви е последен за сесията на търсене (потребителят ще намери това, което му е необходимо) - това ще се отрази на класирането

За това има както строги фактори, така и предвидими фактори.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Фактор за класиране на отметките

Колкото повече потребители добавят даден URL адрес в отметките си, толкова по-голяма стойност има той като фактор

Bookmarks ranking factor

18. Специални фактори за класиране на кратки видеоклипове (tiktok, shorts, reels)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Maps js-api на страницата (например Google Maps) е фактор за класиране

Добавянето на карти с полезна информация/функционалност работи и в Google (например в нишата за пътувания).

Maps js-api on page (for example Google Maps) is a ranking factor

20. Ключовите думи в URL адреса са фактори за класиране

Както се вижда от описанието, оптималният вариант ще включва до 3 думи от заявката за търсене.

Keywords in URL are ranking factors

21. Връщащите се потребители са фактор за класиране

Създавайте продукти с добро задържане и това ще бъде от полза за вашата SEO оптимизация (има много фактори за измерване на това).

Returning users is a ranking factor

22. Процентът на главни букви в <title> е фактор за класиране

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. Процентът на директния трафик е фактор за класиране

Известен още като. Ако целият ви трафик идва от органично търсене - това е подозрително + лошо за класирането.

Percentage of direct traffic is a ranking factor

24. Още един фактор за класиране по отношение на качеството на съдържанието - счупено вградено видео на страницата

  • Вграждане на видеоклипове - полезно за класирането.
  • Счупени видеоклипове за вграждане - лошо.

One more ranking factor for content quality - broken embedded video on the page

25. Потвърдените акаунти в социалните мрежи се класират по различен начин от другите урни

Важно за търсенията на марката - в идеалния случай при търсене на вашата марка в първите 10 трябва да има само вашите домейни + проверени социални мрежи.

Verified accounts on social networks ranks differently as other urls

26. Ако котвите на обратните ви връзки съдържат всички думи от ключовите думи - това е добре за SEO

Ако е в една връзка - това е по-полезно. Особено ако редът на думите е един и същ.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. Съотношението "добри" и "лоши" обратни връзки е фактор за класиране

![Съотношението "добри" и "лоши" обратни връзки е фактор за класиране](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Съотношението "добри" и "лоши" обратни връзки е фактор за класиране")

28. Рангът на качеството на текстовете в домейна е фактор за класиране

Страниците с нискокачествено съдържание влияят на целия домейн.

The quality rank of texts on the domain is a ranking factor

29. Количеството на рекламите на дадена страница е фактор за класиране

Amount of advertisements on a page is a ranking factor

30. Съществува случайност като отделен фактор за класиране

Когато не разбирате защо някои от страниците са на първо място - това може да е просто случайно (за тестване на фактори на поведение).

There is a random as a separate ranking factor

31. JS от Google Analytics е фактор за класиране

Предсказуемо. Добрите уебсайтове използват GA / Google Analytics по-често от лошите уебсайтове.

JS from Google Analytics is a ranking factor

32. Влияние на обратните връзки от първите 100 най-добри уебсайта по PageRank върху класирането

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. URL няма цифри

/100-best-credit-cards

/best-credit-cards

URL has no digits

34. Брой наклонени черти в URL адреса

/finance/articles/2023/investment-advice

/investment-advice

Number of slashes in URL

35. Брой на буквите, които не се съдържат в URL адреса

/pet-toys&all$currency=dollar#mobile

/pet-toys

Number of non-letters in URL

36. Символът '?' в URL адреса е фактор за класиране

/movies?genre=action

/action-movies

'?' symbol in the URL is a ranking factor

37. Заявка за търсене = URL, включително точки и интервали (??)

Запитването за търсене е "Franklin D. Roosevelt":

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. Стара дата в URL адреса

/2009/12/01/how-to-tie-a-tie

/как да си вържем вратовръзката

Old date in the URL

39. Ключовите думи са в URL адреса, а не в текста на страницата

/video-games & страницата е за музика

/video-games & страницата е за видеоигри

Keywords is in URL, not in the text of the page

40. Покриване на URL с триграми от заявката за търсене

/hotels-new-zealand

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • Включете 1-3 най-важни думи в URL адреса;
  • По-малко наклонени черти/цифри/небукви, ако те не са част от ключовата ви дума

41. първоначални тегла на факторите за класиране на Yandex

Окончателните тегла са изчислени от AI(matrixnet), но първоначалните стойности също са полезни.

initial weights of Yandex ranking factors

Заключение

Ето това е всичко, което споделяме за момента. Едва започваме. Това ви дава груб преглед на това, което има в него.

Тук само набраздяваме повърхността, а предстоят още много ценни прозрения.

Но ние бяхме съвсем прави в много предположения и тълкувания отвън за това как би работила такава обширна търсачка, поне по отношение на връзките.

Като цяло изтичането на кода на Yandex предлага интересен поглед към вътрешната работа на една модерна търсачка.

Запознайте се с Ranktracker

Универсалната платформа за ефективна SEO оптимизация

Зад всеки успешен бизнес стои силна SEO кампания. Но с безбройните инструменти и техники за оптимизация, от които можете да избирате, може да е трудно да разберете откъде да започнете. Е, не се страхувайте повече, защото имам точно това, което ще ви помогне. Представяме ви платформата Ranktracker "всичко в едно" за ефективна SEO оптимизация

Най-накрая отворихме регистрацията за Ranktracker напълно безплатно!

Създаване на безплатен акаунт

Или влезте в системата, като използвате данните си

Въпреки че не всички констатации могат да се приложат директно към Google, много от предположенията, направени през последните години за общото функциониране на големите интернет търсачки, се потвърждават.

Предполагам, че на SEO индустрията ѝ предстоят още няколко интересни месеца с новите прозрения от това изтичане.

Следете тази страница, тъй като през следващите седмици и месеци ще продължим да добавяме фактори за класиране.

Специални кредити за https://twitter.com/alex_buraks

Започнете да използвате Ranktracker... безплатно!

Разберете какво възпрепятства класирането на уебсайта ви.

Създаване на безплатен акаунт

Или влезте в системата, като използвате данните си

Different views of Ranktracker app