A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Index | CppName | Name | Wiki | AntiSeoUpperBound | Tags | Description | Authors | Responsibles | Group | Ticket | ImplementationTime | UseArtifact | MinValue | MaxValue | DependsOn | Countries | CanonicalValue | Comment |
2 | 0 | FI_PAGE_RANK | PR | https://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/factordev/web/factors/PageRank | 1 | TG_DOC, TG_LINK_GRAPH, TG_STATIC, TG_L2, TG_UNUSED | Page rank. Фактор ремапится. | aavdonkin | aavdonkin | ||||||||||
3 | 1 | FI_TEXT_RELEV | TR | 0,95 | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_NN_OVER_FEATURES_USE | Текстовая релевантность (maxfreq – частота самого частого слова, которая имеет смысл длины документа). | gulin, iseg, leo, maslov | gulin, leo, maslov | LegacyTR | ||||||||||
4 | 2 | FI_LINK_RELEV | LR | 1 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED | Линковая релевантность. Фактор ремапится. | aavdonkin, gulin, leshch, melkov | aavdonkin, gulin, melkov | Dynamic | ||||||||||
5 | 3 | FI_PAGE_RANK_BONUS | PrBonus | https://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/factordev/web/factors/PageRankBonus | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_BINARY, TG_OFTEN_ZERO, TG_NN_OVER_FEATURES_USE | Priority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум. | gulin, leo | pavelgur | Dynamic | ||||||||||
6 | 4 | FI_TEXT_RELEV_ALL_WORDS | TRp1 | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_NN_OVER_FEATURES_USE | Приоритет strict для TR - текстовый приоритет - есть все слова запроса где-то в документе (при этом они проходят контекстные ограничения запроса, например, оба слова д.б. в одном предложении). | denplusplus, gulin, leo | alsafr, gulin, leo | LegacyTR | |||||||||||
7 | 5 | FI_TEXT_RELEV_PHRASE | TRp2 | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_REARR_USE, TG_NN_OVER_FEATURES_USE | Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе. | denplusplus, gulin, leo | alsafr, gulin, leo | LegacyTR | |||||||||||
8 | 6 | FI_LINK_RELEV_ALL_WORDS | LRp1 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED | (strict) есть все слова запроса в одном линке. | gulin, leo | gulin, leo | Dynamic | |||||||||||
9 | 7 | FI_LINK_RELEV_PHRASE | LRp2 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | (phrase) есть все слова запроса подряд в одном линке. | gulin, leo | gulin, leo | Dynamic | |||||||||||
10 | 8 | FI_TEXT_RELEV_TITLE | TRtitle | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_BINARY, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_NN_OVER_FEATURES_USE | Наличие точной фразы (текста запроса) в заголовке (если точнее, в первом предложении документа). Контекстные ограничения и стоп слова учитываются в точности как в TRp2, т.е. factor[8] minors factor[5] | denplusplus, gulin, leo | alsafr, gulin, leo | LegacyTR | |||||||||||
11 | 9 | FI_TEXT_RELEV_WHOLE_HR_MATCHED | TRhr | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_NN_OVER_FEATURES_USE | Встретился участок, прошедший кворум, в котором все словопозиции обозначены как имеющие релевантность BEST_RELEV (заголовок или meta keywords). | gulin, leo | gulin, leo | LegacyTR | |||||||||||
12 | 10 | FI_REMOVED_10 | Removed_10 | TG_UNUSED | |||||||||||||||
13 | 11 | FI_NEWS | News | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-3 | TG_HOST, TG_STATIC, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Это новости (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-3 паттернам в url`е)) ). | gulin | gulin | |||||||||||
14 | 12 | FI_SHOP | Shop | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-4 | 1 | TG_HOST, TG_STATIC, TG_BINARY, TG_DEPRECATED, TG_OFTEN_ZERO | Это магазин предложение (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-4 паттернам в url`е)) ). Не используется (deprecated) | gulin | gulin | ||||||||||
15 | 13 | FI_CATALOG | Cat | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-2 | 1 | TG_HOST, TG_STATIC, TG_BINARY, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Это каталог (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-2 паттернам в url`е)) или по яндекс-каталогу). | gulin | gulin | ||||||||||
16 | 14 | FI_YA_BAR | YaBar | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YaBar | 1 | TG_BROWSER, TG_HOST, TG_STATIC, TG_USER, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE, TG_USERFEAT_VISITS_ACTIVITY_DOWNLOADS, TG_USERFEAT | Посещаемость из Бара - ((http://wiki.yandex-team.ru/AndrejjKostjagin/YaBarLog/HostStat Описание данных)). Фактор ремапится. | kostyagin, somov | tarum, niknik | ||||||||||
17 | 15 | FI_LONG | Long | TG_DOC, TG_DOC_TEXT, TG_STATIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Длинный документ (чем длиннее документ, тем больше значение фактора). | gulin | gulin | ||||||||||||
18 | 16 | FI_HIT_WEIGHT | TRhitw | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_REARR_USE, TG_NN_OVER_FEATURES_USE | Hitweigt - вариант текстовой релевантности, в которой веса всех хитов считаются равными (т.е. не учитывают надбавки за title и за близость слов). При этом соответствующие хиты должны пройти ограничения синтаксического колдунщика, т.е. можно считать, что фактор TRhitw равен 0 тогда и только тогда, когда SoftAndOk равен 0 | gulin, leo | gulin, leo | LegacyTR | |||||||||||
19 | 17 | FI_LONG_QUERY | LongQuery | TG_QUERY_ONLY, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_L3_OVERWRITE, TG_NN_OVER_FEATURES_USE | Сумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'. | gulin | gulin | Query | |||||||||||
20 | 18 | FI_PURE_TEXT | PureText | http://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/factordev/web/factors/LongText | TG_BINARY, TG_DOC, TG_DOC_TEXT, TG_STATIC, TG_REARR_USE, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Длинный текст без ссылок. | leo | tsimkha, leo | |||||||||||
21 | 19 | FI_ROOT | Root | http://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/factordev/web/factors/Root | 1 | TG_BINARY, TG_DOC, TG_STATIC, TG_REARR_USE, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Это морда. | gulin | gulin, tsimkha | ||||||||||
22 | 20 | FI_REMOVED_20 | Removed20 | TG_UNUSED | |||||||||||||||
23 | 21 | FI_REMOVED_21 | Removed21 | TG_UNUSED | |||||||||||||||
24 | 22 | FI_GEO | Geo | TG_DYNAMIC, TG_LOCALIZED_COUNTRY, TG_HOST, TG_BINARY, TG_DEPRECATED, TG_UNDOCUMENTED, TG_OFTEN_ZERO | Означает совпадение региона пользователя и сайта на уровне стран. Фактор бинарный: 1-совпадает, 0-нет. Основан на ((http://wiki.yandex-team.ru/ЯндексПоиск/КлассификацияСайтовИСтраниц/Географическая/ИспользованиеВПоиске геоклассификации сайтов)) | ark-kum, gulin, maslov | ark-kum, gulin, maslov | ||||||||||||
25 | 23 | FI_SUBQUERY_THEME_MATCH | SubqueryThMatch | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_THEME_CLASSIF, TG_UNDOCUMENTED, TG_L2, TG_DEPRECATED | Совпадение тематических спектров запроса и документа. Тематика запроса - результат работы ((http://wiki.yandex-team.ru/EvgenijjKroxalev/subquery правила колдунщика SubquerySearch )) Тематика документа берется из яндекс-каталога | abokov, ekrokhalev, gulin | gulin, lamo | ||||||||||||
26 | 24 | FI_SR | SR | TG_DOC, TG_STATIC, TG_TRANS, TG_UNDOCUMENTED, TG_UNUSED | Сложносоставной static rank, собирается из статических компонентов по отдельной формуле((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/#oftnd1 *)). | gulin, somov | gulin, somov | ||||||||||||
27 | 25 | FI_REFINES | TRref | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_NN_OVER_FEATURES_USE | Фактор про число refines. В языке запросов есть фича user refines ('слово, перед которым стоит знак процентика'). По задумке это означает что-то вроде 'хорошо бы, чтобы слово в документе было'. Единственное известное ((http://staff.yandex-team.ru/gulin Андрей Гулин)) ценное использование данной фичи - это запрос [%официальный %сайт НазваниеФирмы]. Пользователям данная фича неизвестна, т.к. не описана ни в какой документации. Планируется, что она исчезнет из языка запросов, но в колдунщике слова с приоритетом USER_REFINE останутся. Фактор говорит о том, сколько максимум USER_REFINE-слов одновременно встречалось в рамках единого попадания в кворум. Считается, что их от 0 до 3 (если >3, то считается, что 3). Это число мапится в полуинтервал [0,1) | gulin, leo | gulin, leo | LegacyTR | |||||||||||
28 | 26 | FI_TR_BOOST | TRboost | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_NN_OVER_FEATURES_USE | Число, на которое умножаются некоторые линковые факторы (именно, факторы номер 6, 7, 47, 66), если текстовая релевантность 0, и ссылок мало | gulin | gulin | Dynamic | |||||||||||
29 | 27 | FI_TRLR_LEMMA | TRLRlemma | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_SAMOHOD_UNIMPLEMENTED, TG_CALLISTO_UNIMPLEMENTED, TG_NN_OVER_FEATURES_USE | В текстовой релевантности произошло совпадение леммы. | gulin, leo | gulin, leo | Dynamic | |||||||||||
30 | 28 | FI_TRAFGRAPH_OUT_ALL_SHARE_D | TrafgraphOutAll_share_d | TG_OWNER, TG_STATIC, TG_OFTEN_ZERO, TG_COMMERCIAL, TG_NN_OVER_FEATURES_USE | Remapped mascot feature TrafgraphOutAll_share_d | bikulov | bikulov, sdormidontov | SEARCHSPAM-15531 | 30.09.2020 | ||||||||||
31 | 29 | FI_RELEV_SENTS_DSSM | RelevSentsDssm | TG_DYNAMIC, TG_DOC, TG_DOC_TEXT, TG_NEURAL, TG_NN_OVER_FEATURES_USE | Dssm модель, обучена на переформулировки, в документной части использует релевантные запросу предложения | padese | padese | FACTOR-2259 | 03.03.2020 | {Name: "DssmRelevSents"} | |||||||||
32 | 30 | FI_FRESH_NEWS_DETECTOR_PREDICT | FreshNewsDetectorPredict | TG_DYNAMIC, TG_QUERY_ONLY, TG_USER, TG_FRESHNESS_USE, TG_L2, TG_QUERY_DETECTOR_PREDICT, TG_UNUSED, TG_NOT_01 | Значение детектора новостей, рассчитываемого в бегемоте. Всегда 0 при значении детектора меньше порога. | alejes, hygge | alejes, hygge | WEBFRESH-478 | 27.09.2020 | -3,00E+38 | 3,00E+38 | ||||||||
33 | 31 | FI_HIT_NUM_100 | LRHitNum100 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED | Преобразованное количество слов запроса во всех линках url`а. | leshch | alsafr | LegacyLR | |||||||||||
34 | 32 | FI_HIT_NUM_GT_16 | LRHitNumGt16 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_UNDOCUMENTED, TG_DEPRECATED | У документа LR>20 количество вхождение слов запроса в линках > 16, фактор про LR. | leshch | alsafr | LegacyLR | |||||||||||
35 | 33 | FI_PCT_LINKS | PctLinks | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED | Для документов с высокой LR - нормированная линковая релевантность без учета близости, для документов с низкой LR 0 | leshch | alsafr | LegacyLR | |||||||||||
36 | 34 | FI_HAS_LR | HasLR | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | Url высокую LR. | denplusplus | alsafr | LegacyLR | |||||||||||
37 | 35 | FI_LINK_QUALITY | LinkQuality | TG_DOC, TG_LINK_TEXT, TG_STATIC, TG_DEPRECATED, TG_L2 | Качество входящих ссылок (классификатор Лещинера) - сломан, см [405] | leshch | alsafr | ||||||||||||
38 | 36 | FI_ALICE_MUSIC_TRACK_TITLE_COSINE_MATCH_MAX_PREDICTION | AliceMusicTrackTitleCosineMatchMaxPrediction | https://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/factordev/web/factors/lingboost | TG_UNUSED, TG_DYNAMIC, TG_DOC, TG_ALICE_MUSIC, TG_ANNOTATION_NOFILTER, TG_TEXT_MACHINE, TG_ALLOW_USE_FOR_ALICE | Значение фактора CosineMatchMaxPrediction для стрима AliceMusic | anrodigina | anrodigina, gotmanov, hommforever | BUKI-2932 | 11.03.2020 | |||||||||
39 | 37 | FI_NUM_LINKS | NumLinks | http://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/factordev/web/factors/NumLinks | TG_DOC, TG_LINK_GRAPH, TG_STATIC, TG_L2, TG_UNUSED | Число входящих ссылок. Ремапится. | tsimkha, alsafr | ||||||||||||
40 | 38 | FI_POPULAR_Q | PopularQ | http://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/factordev/web/factors/PopularQ | TG_DYNAMIC, TG_QUERY_ONLY, TG_USER, TG_USER_SEARCH, TG_USER_SEARCH_ONLY, TG_REARR_USE, TG_L2, TG_DEPRECATED | Популярность запроса | denplusplus | diver, akhropov | Query | [{Feature: ["PopularQ"], Slice: "begemot_query_factors"}] | |||||||||
41 | 39 | FI_TR_UNMAPPED | TRUnmapped | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_NN_OVER_FEATURES_USE | TR деленный на куб количества слов в запросе и преобразованный стандартным remapTR. | denplusplus, gulin | alsafr, gulin | LegacyTR | |||||||||||
42 | 40 | FI_RUS_LANG | RusLang | TG_DOC, TG_DOC_TEXT, TG_STATIC, TG_BINARY, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Язык документа - русский. | aalekseev, denplusplus | alsafr | ||||||||||||
43 | 41 | FI_ADD_TIME | AddTime | TG_DATE, TG_DOC, TG_STATIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | Время добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1. | aalekseev, denplusplus | alsafr | ||||||||||||
44 | 42 | FI_IS_MAIN_PAGE | IsMainPage | TG_DOC, TG_STATIC, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Если главная страница владельца (чаще всего домен второго уровня, например xxxx.ru), то фактор равен 1. Для бомжатников, хостингов, личных блогов и т.д. (например, лайфджорнал, народ.ру и пр.) - домены третьего уровня (типа xxxxx.narod.ru) так же будут иметь фактор равный 1. | aalekseev, denplusplus | alsafr | ||||||||||||
45 | 43 | FI_ADD_TIME_MP | AddTimeMP | 1 | TG_DATE, TG_HOST, TG_STATIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | Время добавления главной страницы владельца (хоста?), ремапится так же, как AddTime. | aalekseev, denplusplus | alsafr | |||||||||||
46 | 44 | FI_ALICE_MUSIC_TRACK_TITLE_ANNOTATION_MAX_VALUE_WEIGHTED | AliceMusicTrackTitleAnnotationMaxValueWeighted | https://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/factordev/web/factors/lingboost | TG_UNUSED, TG_DYNAMIC, TG_DOC, TG_ALICE_MUSIC, TG_ANNOTATION_NOFILTER, TG_TEXT_MACHINE, TG_ALLOW_USE_FOR_ALICE | Значение фактора AnnotationMaxValueWeighted для стрима AliceMusic | anrodigina | anrodigina, gotmanov, hommforever | BUKI-2932 | 11.03.2020 | |||||||||
47 | 45 | FI_URL_CLICKS_PCTR | QueryURLClicksPCTR | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/Клики#queryurldownerclickspctrfrccomboreg | 0,6 | TG_DYNAMIC, TG_DOC, TG_LOCALIZED_COUNTRY, TG_USER, TG_USER_SEARCH, TG_USER_SEARCH_ONLY, TG_USER_EXT_DATA, TG_REARR_USE, TG_OFTEN_ZERO, TG_L2, TG_SAMOHOD_UNIMPLEMENTED, TG_USERFEAT, TG_USERFEAT_90D, TG_NN_OVER_FEATURES_USE, TG_USERFEAT_CLICKS_SHOWS, TG_FORMULA_2245_DEP_3, TG_DEPRECATED | Насколько часто кликают в данный URL по данному запросу - CTR домноженный на поправочный коэффициент | akhropov, solar | tarum, niknik | CNT_RELEV | |||||||||
48 | 46 | FI_TEXT_BM25 | TextBM25 | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | Простой BM25 по тексту. | gulin | gulin | TextBM25 | |||||||||||
49 | 47 | FI_LINK_BM25 | LinkBM25 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_DEPRECATED | Простой BM25 по линкам, веса линков не учитываются. | gulin | gulin | LinkBM25, Dynamic | |||||||||||
50 | 48 | FI_TLBM25 | TLBM25 | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_L2, TG_DEPRECATED | Простой BM25 по тексту и линкам одновременно. | gulin | gulin | TextAndLinkBM25 | |||||||||||
51 | 49 | FI_TLP1 | TLp1 | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_UNDOCUMENTED, TG_L2, TG_DEPRECATED | Все слова запроса есть в тексте + линках. | gulin | gulin | TextAndLinkBM25 | |||||||||||
52 | 50 | FI_ADV | Adv | TG_OWNER, TG_STATIC, TG_BINARY, TG_DEPRECATED, TG_OFTEN_ZERO | На сайте есть реклама. | aalekseev, denplusplus | sisoid, alsafr | ||||||||||||
53 | 51 | FI_YANDEX_ADV | YandexAdv | 1 | TG_OWNER, TG_STATIC, TG_BINARY, TG_REARR_USE, TG_DEPRECATED, TG_OFTEN_ZERO | На сайте есть реклама Яндекса. | aalekseev, denplusplus | sisoid, alsafr | |||||||||||
54 | 52 | FI_NO_SPAM | NoSpam | 1 | TG_OWNER, TG_STATIC, TG_THEME_CLASSIF, TG_REARR_USE, TG_DEPRECATED | Классификатор спама по фичам из антиспама признал сайт НЕ(!) спамом. Т.е. 0=спам, 1=хороший. | aalekseev, denplusplus | alsafr | |||||||||||
55 | 53 | FI_TEXT_PAIR | TxtPair | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово | gulin | gulin | TextBM25 | |||||||||||
56 | 54 | FI_LINK_PAIR | LnkPair | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_L2, TG_DEPRECATED | То же, что TxtPair, но для линков; веса линков не учитываются. | gulin | gulin | LinkBM25 | |||||||||||
57 | 55 | FI_TEXT_BREAK | TxtBreak | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | BM25 от количества предложений в документе, в которых встречается. | gulin | gulin | TextBM25 | |||||||||||
58 | 56 | FI_TEXT_HEAD | TxtHead | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | BM25 по словам только в заголовке. | gulin | gulin | TextBM25 | |||||||||||
59 | 57 | FI_TEXT_HI_RELEV | TxtHiRel | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | BM25 по словам только с high rel-битиками ('значимым', с выделением (<b> итп)). | gulin | gulin | TextBM25 | |||||||||||
60 | 58 | FI_REMOVED_58 | Removed_58 | TG_UNUSED | |||||||||||||||
61 | 59 | FI_WORD_COUNT | WordCount | TG_QUERY_ONLY, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | Min(число слов запроса/10, 1.f) | denplusplus, gulin | alsafr, gulin | Query | |||||||||||
62 | 60 | FI_INV_WORD_COUNT | InvWordCount | TG_DYNAMIC, TG_QUERY_ONLY, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | 1 / количество_слов_в_запросе. | denplusplus, gulin | alsafr, gulin | Query | |||||||||||
63 | 61 | FI_HAS_NO_TR | HasNoTR | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_BINARY, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_NN_OVER_FEATURES_USE | У документа нет TR. | denplusplus, gulin | alsafr, gulin | LegacyTR | 1 | ||||||||||
64 | 62 | FI_HAS_NO_LR | HasNoLR | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | У документа нет LR. | denplusplus, gulin | gulin, alsafr | LegacyLR | 1 | ||||||||||
65 | 63 | FI_HAS_NO_QUERY_URL_SHOWS | HasNoQueryURLShows | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/Клики#hasnoqueryurldownershows | 1 | TG_DYNAMIC, TG_DOC, TG_LOCALIZED_COUNTRY, TG_USER, TG_USER_SEARCH, TG_USER_SEARCH_ONLY, TG_USER_EXT_DATA, TG_BINARY, TG_REARR_USE, TG_OFTEN_ZERO, TG_L2, TG_SAMOHOD_UNIMPLEMENTED, TG_USERFEAT, TG_USERFEAT_90D, TG_NN_OVER_FEATURES_USE, TG_USERFEAT_CLICKS_SHOWS, TG_FORMULA_2245_DEP_3, TG_DEPRECATED | Для данного урла для данного запроса нет информации о кликабельности 1 - запроса или запроса-urla нет в базе кликов, 0 - запрос-url есть в базе кликов | denplusplus, kostyagin | tarum, niknik | CNT_RELEV | 1 | ||||||||
66 | 64 | FI_HAS_NO_QUERY_SHOWS | HasNoQueryShows | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/Клики#hasnoqueryshows | TG_DYNAMIC, TG_QUERY_ONLY, TG_LOCALIZED_COUNTRY, TG_USER, TG_USER_SEARCH, TG_USER_SEARCH_ONLY, TG_USER_EXT_DATA, TG_USER_SEARCH_EXTERNAL, TG_BINARY, TG_REARR_USE, TG_OFTEN_ZERO, TG_L2, TG_SAMOHOD_UNIMPLEMENTED, TG_USERFEAT, TG_USERFEAT_90D, TG_NN_OVER_FEATURES_USE, TG_USERFEAT_CLICKS_SHOWS, TG_FORMULA_2245_DEP_3, TG_DEPRECATED | Для данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов. | denplusplus, kostyagin, akhropov | tarum, niknik | CNT_RELEV | 1 | |||||||||
67 | 65 | FI_HOPS | Hops | TG_DOC, TG_STATIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | Количество хопов урла в обходе (типа меньше - ближе к морде, тем меньше значение (0 - морда, 1 - с морды добраться нельзя, 0 < можно добраться с морды < 1). Нормальное значение для корня носта 0.0039). | denplusplus | alsafr | ||||||||||||
68 | 66 | FI_LOG_LR | LogLR | 0,85 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | Логарифм от LR, линейно отображенный в [0,1]. | denplusplus, karpik | alsafr | Dynamic | ||||||||||
69 | 67 | FI_TEXT_PAIR_EX | TxtPairEx | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | наличие пар слов по точной форме | alsafr | TextBM25 | ||||||||||||
70 | 68 | FI_TEXT_BREAK_EX | TxtBreakEx | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | количество предложений, в которых встречается много слов по точной форме | alsafr | TextBM25 | ||||||||||||
71 | 69 | FI_TEXT_HEAD_EX | TxtHeadEx | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | наличие слов в заголовке по точной форме | alsafr | TextBM25 | ||||||||||||
72 | 70 | FI_TEXT_HI_RELEV_EX | TxtHiRelEx | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | BM25 по точной форме | alsafr | TextBM25 | ||||||||||||
73 | 71 | FI_TEXT_BM25_EX | TxtBm25Ex | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | Простой BM25 по точной форме. | alsafr | TextBM25 | ||||||||||||
74 | 72 | FI_TEXT_PAIR_SYN | TxtPairSy | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | наличие пар слов c учетом синонимов (>=TxtPair) | alsafr | TextBM25 | ||||||||||||
75 | 73 | FI_TEXT_BRAEK_SYN | TxtBreakSy | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | количество предложений, в которых встречается много слов c учетом синонимов | alsafr | TextBM25 | ||||||||||||
76 | 74 | FI_TEXT_HEAD_SYN | TxtHeadSy | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_REARR_USE, TG_NN_OVER_FEATURES_USE | наличие слов в заголовке c учетом синонимов | alsafr | TextBM25 | ||||||||||||
77 | 75 | FI_TEXT_HI_RELEV_SYN | TxtHiRelSy | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | BM25 c учетом синонимов | alsafr | TextBM25 | ||||||||||||
78 | 76 | FI_TEXT_BM25_SYN | TxtBm25Sy | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_REARR_USE, TG_UNDOCUMENTED, TG_L2, TG_NN_OVER_FEATURES_USE | Простой BM25 c учетом синонимов. | alsafr | TextBM25 | ||||||||||||
79 | 77 | FI_QUERY_DOWNER_CLICKS_PCTR | QueryDOwnerClicksPCTR | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/Клики#queryurldownerclickspctrfrccomboreg | TG_DYNAMIC, TG_DOWNER, TG_LOCALIZED_COUNTRY, TG_USER, TG_USER_SEARCH, TG_USER_SEARCH_ONLY, TG_USER_EXT_DATA, TG_USER_SEARCH_EXTERNAL, TG_REARR_USE, TG_OFTEN_ZERO, TG_L2, TG_SAMOHOD_UNIMPLEMENTED, TG_USERFEAT, TG_USERFEAT_90D, TG_NN_OVER_FEATURES_USE, TG_USERFEAT_CLICKS_SHOWS, TG_FORMULA_2245_DEP_3, TG_DEPRECATED | Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент | akhropov, solar, denplusplus | tarum, niknik | CNT_RELEV | ||||||||||
80 | 78 | FI_HAS_NO_QUERY_DOWNER_SHOWS | HasNoQueryDOwnerShows | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/Клики#hasnoqueryurldownershows | TG_DYNAMIC, TG_DOWNER, TG_LOCALIZED_COUNTRY, TG_USER, TG_USER_SEARCH, TG_USER_SEARCH_ONLY, TG_USER_EXT_DATA, TG_USER_SEARCH_EXTERNAL, TG_BINARY, TG_OFTEN_ZERO, TG_L2, TG_SAMOHOD_UNIMPLEMENTED, TG_USERFEAT, TG_USERFEAT_90D, TG_NN_OVER_FEATURES_USE, TG_USERFEAT_CLICKS_SHOWS, TG_FORMULA_2245_DEP_3, TG_DEPRECATED | Для данного domainId для данного запроса нет информации о кликабельности 1 - запроса или запроса-владельца нет в базе кликов, 0 - запрос-владелец есть в базе кликов | denplusplus, kostyagin | tarum, niknik | CNT_RELEV | 1 | |||||||||
81 | 79 | FI_OWNER_CLICKS_PCTR | OwnerClicksPCTR | http://wiki.yandex-team.ru/ЯндексПоиск/КачествоПоиска/Клики#ownerclickspctrreg | TG_STATIC, TG_OWNER, TG_USER, TG_USER_SEARCH, TG_USER_SEARCH_ONLY, TG_USER_EXT_DATA, TG_OFTEN_ZERO, TG_L2, TG_USERFEAT, TG_USERFEAT_90D, TG_NN_OVER_FEATURES_USE, TG_USERFEAT_CLICKS_SHOWS, TG_FORMULA_2245_DEP_3, TG_DEPRECATED | Кликабельность владельца независимо от запроса | akhropov, maslov | tarum, niknik | |||||||||||
82 | 80 | FI_MEGAFON | Megafon | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_LINK_TEXT, TG_UNUSED | Относительная частота слов запроса в ссылках (1 - слова запроса часто встречаются в ссылках, 0.3 - редко); если точнее, значение этого фактора пессимизируется при условии: TR=0 && LR=0 && (нет ни одной ссылки со всеми словами запроса) && (не прошёл кворум) && (в тексте встречается хотя бы одна пара слов запроса) | alsafr | |||||||||||||
83 | 81 | FI_HAS_ALL_WORDS_MERGED | XLRp0 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | В ссылках есть все слова запроса | alsafr | Xref | ||||||||||||
84 | 82 | FI_HAS_ALL_WORDS_IN_LINK | XLRp1 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | В одной ссылке есть все слова запроса | alsafr | Xref | ||||||||||||
85 | 83 | FI_PHRASE | XLRp2 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | Есть ссылка, прошедшая кворум | alsafr | Xref | ||||||||||||
86 | 84 | FI_GOOD_RATIO | XLRgood | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_REARR_USE, TG_UNDOCUMENTED, TG_DEPRECATED | Какая доля ссылок “хорошая” | alsafr | Xref | ||||||||||||
87 | 85 | FI_MANY_BAD | XLRmanyBad | 1 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | Насколько много “плохих” ссылок (плохой = dpr = 0) | alsafr | Xref | |||||||||||
88 | 86 | FI_LR_MAX_DPR | XLRmaxDpr | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_DEPRECATED | Максимальный dpr ссылки | alsafr | Xref | ||||||||||||
89 | 87 | FI_LR_TF_IDF | XLRtfidf | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED | TfIdf обычный TF*IDF по ссылкам. Частота слова в ссылках умножается на обратную документную частоту и суммируется по всем словам, потом нормируется на длину документа. | alsafr | Xref | ||||||||||||
90 | 88 | FI_LR_RELEV | XLRrelev | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#h20931-2 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED | Линковая релевантность от Гулина | gulin | gulin | Xref | ||||||||||
91 | 89 | FI_LR_RELEV_200 | XLRrelev200 | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED | Линковая релевантность от Гулина | gulin | gulin | Xref | |||||||||||
92 | 90 | FI_LR_LOG_RELEV | XLRlogRelev | TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED | Линковая релевантность от Гулина | gulin | gulin | Xref | |||||||||||
93 | 91 | FI_BF_EXACT | BFexact | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_UNDOCUMENTED, TG_DEPRECATED | Есть точная форма всех слов запроса в тексте/линках | alsafr | BestForm | ||||||||||||
94 | 92 | FI_BF_LEMMA | BFlemma | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_LINK_TEXT, TG_BINARY, TG_UNDOCUMENTED, TG_DEPRECATED | Есть лемма всех слов запроса в тексте/линках | alsafr | BestForm | ||||||||||||
95 | 93 | FI_SOFT_AND_OK | SoftAndOk | TG_DOC, TG_DOC_TEXT, TG_DYNAMIC, TG_BINARY, TG_UNDOCUMENTED, TG_NN_OVER_FEATURES_USE | Документ прошел softand по ограничениям синтаксического колдунщика. Только для документов, имеющих текстовую релевантность. Для однословных запросов всегда 1. | alsafr | Dynamic | ||||||||||||
96 | 94 | FI_NEW_LINK_QUALITY | NewLinkQuality | TG_DOC, TG_LINK_GRAPH, TG_STATIC, TG_DEPRECATED | Классификатор качества входящих ссылок 2 - сломан, см [407] | alsafr | |||||||||||||
97 | 95 | FI_UKR | Ukrainian | TG_STATIC_REGINFO, TG_HOST, TG_STATIC, TG_BINARY, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | равен единице, если у сайта стоит украинский гео-атрибут(т.е 1 - украинский сайт) | alsafr | |||||||||||||
98 | 96 | FI_IS_BLOG | IsBlog | http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-5 | TG_HOST, TG_STATIC, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Страница с блогохостинга | burmisha, zudina | burmisha, zudina | |||||||||||
99 | 97 | FI_IS_LJ | IsLivejournal | TG_HOST, TG_STATIC, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE | Страница с livejournal.com | alsafr | |||||||||||||
100 | 98 | FI_REMOVED_98 | Removed_98 | TG_UNUSED |