Факторы ранжирования Яндекс (Y-Factors Formula) от утечки кода поисковика

Yori Yori 31 Января 2023 (ред)

Яндекс, российский технологический гигант, недавно стал жертвой хакеров, опубликовавших более 40 ГБ исходного кода компании. Компания отрицает, что ее взломали.

Независимо от того, были ли они взломаны, у многих возникает интересный вопрос: «Что внутри?»

Утекшие источники упакованы в отдельные компоненты, такие как аналитика, облако, портал и так далее. Имея в виду, что компьютерные программы содержат только текстовые файлы, более 40 ГБ составляют довольно много строк кода (LoC). На самом деле я попросил ChatGPT ответить:

Сколько строк кода составляет 40 ГБ?

Трудно определить точное количество строк кода, составляющих 40 ГБ, без дополнительной информации о конкретных языках программирования и используемых методах кодирования. Однако стоит отметить, что количество строк кода напрямую не соответствует размеру программы или файла, поскольку на размер могут влиять такие факторы, как комментарии к коду, пробелы и объем хранилища данных. Кроме того, 1 Гб эквивалентен 1000 МБ, а 40 Гб — 40 000 МБ. Если мы предположим, что средняя строка кода составляет около 150 символов, 40 000 МБ составляют примерно 40 000 000 000 символов. Таким образом, 40 000 000 000/150 — это примерно 266 666 666 строк кода.

Это ~ 266 миллионов. Даже для технического гиганта это много кода. Для сравнения, операционная система Linux имеет около 15 миллионов LoC, Windows 11 — около 50 миллионов LoC, а кодовая база Google — около 2 миллиардов LoC, по данным Wired .

Меня заинтересовал алгоритм поиска Яндекс и вот что удалось найти.

Без авторизации запрещено просматривать этот скрытый текст...

Это файл с описанием различных правил ранжирования:

Factor {
    Index:              1921
    CppName:            "FI_HOST_VIDEO_DISTRIBUTOR_PROD"
    Name:               "HostVideoDistributorProd"
    Ticket:             "SEARCHSPAM-15473"
    Tags:               [TG_HOST, TG_STATIC, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE]
    Description:        "хост содержит видео защищаемых анти-пиратским меморандумом."
    Authors:            "burmisha"
    Responsibles:       ["burmisha", "bikulov"]
    ImplementationTime: "2020-08-06"
}

Содержащий более 23 253 строк. Есть и ещё файл по которым сегодня специалисты по SEO пытаются делать выводы.


Всегда трудно сказать, является ли утечка исходного кода реальным или нет. Все файлы в архивах имеют дату 24 февраля 2022 года. «Хакер» утверждает, что данные были скачаны ими в июле 2022 года, а ссылку на файлы они выложили 25 января 2023 года. сделать это публичным? Возможно, хакер сначала пытался продать данные в дарквебе или требовал выкуп от Яндекса — кто знает?

Изучив исходные коды, носители и файлы конфигурации различных модулей, мы должны предположить, что утечка содержит реальные данные. Немыслимо создавать такое количество вещей просто для удовольствия. Однако, поскольку явного источника бизнес-логики нет, можно сделать вывод, что утечка содержит урезанную версию репозиториев программного обеспечения Яндекса.

8 Ответов

  1. Evg Evg 31 Января 2023

    Яндекс уже сделал оф. заявление, что типа это не был взлом. Это кто-то внутри сделал. В общем, найдут и побьют жулика этого smile

    А по поводу алгоритмов, всегда говорит, там много параметров, как на кофейной гуще гадать. Лучше делать сайт (как советует сам Яндекс) для людей, чем заниматься ерундой и подгонять сайт под поисковые системы, надуманные представления, как работает Яндекс.

    Файл залил сюда, достаточно посмотреть небольшой кусок конфига этого. А там файлов много таких.

    Было интересно мне посмотреть на Инфраструктуру.

    Она содержит несколько сотен файлов «.yaml». Этот тип обычно используется для настройки. В случае с модулем такси (что смотрел) он используется для описания конечных точек API и их допустимых кодов возврата. Так что это снова может быть интересно для исследователей, потому что файлы yaml дают представление о конечных точках веб-службы.

  1. OleStep OleStep 31 Января 2023

    17 854 фактора ранжирования в поиске и начинается с PageRank. Есть факторы обнуляющие PageRank, — это занятно. Существует множество неожиданных факторов начального ранжирования.

    • FI_PAGE_RANK: +0,1828678331 — PageRank является 17-м по значимости фактором в Яндексе. Ранее они полностью удалили ссылки из своей системы ранжирования, так что неудивительно, насколько низко она находится в списке.
    • FI_SPAM_KARMA: +0.00842682963 — Спам-карма названа в честь «антиспамеров» и представляет собой вероятность того, что хост является спамом; на основе информации Whois
    • FI_SUBQUERY_THEME_MATCH_A: +0,1786465163 — насколько тесно тематически совпадают запрос и документ. Это 19-й самый взвешенный фактор.
    • FI_REG_HOST_RANK: +0.1567124399 — у Яндекса есть фактор ранжирования хоста (или домена).
    • FI_URL_LINK_PERCENT: +0.08940421124 — отношение ссылок, анкорный текст которых является URL-адресом (а не текстом), к общему количеству ссылок.
    • FI_PAGE_RANK_UKR: +0.08712279101 — существует конкретный украинский PageRank
    • FI_IS_NOT_RU: +0.08128946612 — хорошо, если домен не .RU. Судя по всему, российский поисковик не доверяет русским сайтам!
    • FI_YABAR_HOST_AVG_TIME2: +0,07417219313 — это среднее время пребывания, согласно данным YandexBar.
    • FI_LERF_LR_LOG_RELEV: +0.06059448504 — это релевантность ссылки, основанная на качестве каждой ссылки.
    • FI_NUM_SLASHES: +0.05057609417 — количество косых черт в URL является фактором ранжирования.

    • FI_ADV_PRONOUNS_PORTION: -0.001250755075 — доля местоимений на странице.
    • FI_TEXT_HEAD_SYN: -0.01291908335 — наличие [запросных] слов в заголовке с учетом синонимов
    • FI_PERCENT_FREQ_WORDS: -0.02021022114 — процент количества слов, которые являются 200 наиболее часто встречающимися словами языка, от количества всех слов текста.
    • FI_YANDEX_ADV: -0.09426121965 — уточняя неприязнь к рекламе, Яндекс наказывает страницы с рекламой Яндекса.
    • FI_AURA_DOC_LOG_SHARED: -0.09768630485 — логарифм количества областей текста в документе, которые не являются уникальными.
    • FI_AURA_DOC_LOG_AUTHOR: -0.09727752961 — логарифм количества гонтов, на которых данный владелец документа признан автором.
    • FI_CLASSIF_IS_SHOP: -0.1339319854 — судя по всему, Яндекс будет меньше любить вас, если ваша страница — магазин.

    Если смотреть всю базу кода, тут только 1 файл.

    1. Evg Evg 31 Января 2023

      Вот правильно по поводу рекламы и магазинов этих. Они в первые дни Интернета уже помню все достали. Всех наказать. smile

    1. yuran yuran 31 Января 2023

      А можно узнать что за форум на картинке выше?

  1. Evg Evg 31 Января 2023 (ред.)

    В общем пока читал некоторые элементы ранжирования, меня сподвигло чуток переделать SEO тут в блогах, темах. Понаблюдаем в течение месяца на этом сайте. У меня страницы в мониторинге, посмотрим изменения. А то забыл про SEO совсем что-то. smile

    1. yuran yuran 31 Января 2023 (ред.)

      Ага smile Поддался влиянию сеошников smile

    1. Dmitry Dmitry 31 Января 2023 (ред.)

      Не стоит, Яндекс, за сутки всё переделает тем более слив был за дамп полгода назад, только в АГС сайт загонишь. Проще всего делай СДЛ остальное не важно, у меня сайт с 2011 ггода с фото города есть, до сих пор его оплачиваю, сам не знаю зачем. Но хостов 10−15 сутки есть и ссылки на него