ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
NameDescription
2
FI_TEXT_RELEV
Текстовая релевантность (maxfreq – частота самого частого слова, которая имеет смысл длины документа).
3
FI_PAGE_RANK_BONUS
Priority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум.
4
FI_TEXT_RELEV_ALL_WORDS
Приоритет strict для TR - текстовый приоритет - есть все слова запроса где-то в документе (при этом они проходят контекстные ограничения запроса, например, оба слова д.б. в одном предложении).
5
FI_TEXT_RELEV_PHRASE
Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе.
6
FI_TEXT_RELEV_TITLE
Наличие точной фразы (текста запроса) в заголовке (если точнее, в первом предложении документа). Контекстные ограничения и стоп слова учитываются в точности как в TRp2, т.е. factor[8] minors factor[5]
7
FI_TEXT_RELEV_WHOLE_HR_MATCHED
Встретился участок, прошедший кворум, в котором все словопозиции обозначены как имеющие релевантность BEST_RELEV (заголовок или meta keywords).
8
FI_NEWS
Это новости (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-3 паттернам в url`е)) ).
9
FI_CATALOG
Это каталог (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-2 паттернам в url`е)) или по яндекс-каталогу).
10
FI_YA_BAR
Посещаемость из Бара - ((http://wiki.yandex-team.ru/AndrejjKostjagin/YaBarLog/HostStat Описание данных)). Фактор ремапится.
11
FI_LONG
Длинный документ (чем длиннее документ, тем больше значение фактора).
12
FI_HIT_WEIGHT
Hitweigt - вариант текстовой релевантности, в которой веса всех хитов считаются равными (т.е. не учитывают надбавки за title и за близость слов). При этом соответствующие хиты должны пройти ограничения синтаксического колдунщика, т.е. можно считать, что фактор TRhitw равен 0 тогда и только тогда, когда SoftAndOk равен 0
13
FI_LONG_QUERY
Сумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'.
14
FI_PURE_TEXTДлинный текст без ссылок.
15
FI_ROOTЭто морда.
16
FI_REFINES
Фактор про число refines. В языке запросов есть фича user refines ('слово, перед которым стоит знак процентика'). По задумке это означает что-то вроде 'хорошо бы, чтобы слово в документе было'. Единственное известное ((http://staff.yandex-team.ru/gulin Андрей Гулин)) ценное использование данной фичи - это запрос [%официальный %сайт НазваниеФирмы]. Пользователям данная фича неизвестна, т.к. не описана ни в какой документации. Планируется, что она исчезнет из языка запросов, но в колдунщике слова с приоритетом USER_REFINE останутся. Фактор говорит о том, сколько максимум USER_REFINE-слов одновременно встречалось в рамках единого попадания в кворум. Считается, что их от 0 до 3 (если >3, то считается, что 3). Это число мапится в полуинтервал [0,1)
17
FI_TR_BOOST
Число, на которое умножаются некоторые линковые факторы (именно, факторы номер 6, 7, 47, 66), если текстовая релевантность 0, и ссылок мало
18
FI_TRLR_LEMMA
В текстовой релевантности произошло совпадение леммы.
19
FI_TRAFGRAPH_OUT_ALL_SHARE_DRemapped mascot feature TrafgraphOutAll_share_d
20
FI_RELEV_SENTS_DSSM
Dssm модель, обучена на переформулировки, в документной части использует релевантные запросу предложения
21
FI_TR_UNMAPPED
TR деленный на куб количества слов в запросе и преобразованный стандартным remapTR.
22
FI_RUS_LANGЯзык документа - русский.
23
FI_ADD_TIME
Время добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1.
24
FI_IS_MAIN_PAGE
Если главная страница владельца (чаще всего домен второго уровня, например xxxx.ru), то фактор равен 1. Для бомжатников, хостингов, личных блогов и т.д. (например, лайфджорнал, народ.ру и пр.) - домены третьего уровня (типа xxxxx.narod.ru) так же будут иметь фактор равный 1.
25
FI_ADD_TIME_MP
Время добавления главной страницы владельца (хоста?), ремапится так же, как AddTime.
26
FI_TEXT_BM25Простой BM25 по тексту.
27
FI_TEXT_PAIR
Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово
28
FI_TEXT_BREAK
BM25 от количества предложений в документе, в которых встречается.
29
FI_TEXT_HEADBM25 по словам только в заголовке.
30
FI_TEXT_HI_RELEV
BM25 по словам только с high rel-битиками ('значимым', с выделением (<b> итп)).
31
FI_WORD_COUNTMin(число слов запроса/10, 1.f)
32
FI_INV_WORD_COUNT1 / количество_слов_в_запросе.
33
FI_HAS_NO_TRУ документа нет TR.
34
FI_HOPS
Количество хопов урла в обходе (типа меньше - ближе к морде, тем меньше значение (0 - морда, 1 - с морды добраться нельзя, 0 < можно добраться с морды < 1). Нормальное значение для корня носта 0.0039).
35
FI_TEXT_PAIR_EXналичие пар слов по точной форме
36
FI_TEXT_BREAK_EX
количество предложений, в которых встречается много слов по точной форме
37
FI_TEXT_HEAD_EXналичие слов в заголовке по точной форме
38
FI_TEXT_HI_RELEV_EXBM25 по точной форме
39
FI_TEXT_BM25_EXПростой BM25 по точной форме.
40
FI_TEXT_PAIR_SYNналичие пар слов c учетом синонимов (>=TxtPair)
41
FI_TEXT_BRAEK_SYN
количество предложений, в которых встречается много слов c учетом синонимов
42
FI_TEXT_HEAD_SYNналичие слов в заголовке c учетом синонимов
43
FI_TEXT_HI_RELEV_SYNBM25 c учетом синонимов
44
FI_TEXT_BM25_SYNПростой BM25 c учетом синонимов.
45
FI_SOFT_AND_OK
Документ прошел softand по ограничениям синтаксического колдунщика. Только для документов, имеющих текстовую релевантность. Для однословных запросов всегда 1.
46
FI_UKR
равен единице, если у сайта стоит украинский гео-атрибут(т.е 1 - украинский сайт)
47
FI_IS_BLOGСтраница с блогохостинга
48
FI_IS_LJСтраница с livejournal.com
49
FI_TEXT_FEATURES
Качество текста. Считается по довольно сложной формуле
50
FI_TEXT_LIKEКачество текста (классификатор Алексеева)
51
FI_YABAR_CORE_OWNER
Ядро аудитории владельцев по данным Яндекс.Браузинга
52
FI_YABAR_CORE_HOST
Ядро аудитории хостов по данным Яндекс.Браузинга
53
FI_HAS_YA_BAR_COREИмеет ли хост ядро
54
FI_DOC_LENДлина документа в предложениях
55
FI_URL_LENДлина URL'а, делённая на 5
56
FI_HOST_SIZE
Размер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом)
57
FI_IS_HTMLТип документа - HTML
58
FI_GEO_CITY_PROXIM
Означает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет. Основан на ((http://wiki.yandex-team.ru/ЯндексПоиск/КлассификацияСайтовИСтраниц/Географическая/ИспользованиеВПоиске геоклассификации сайтов))
59
FI_IS_PORNOдокумент из порно-кишки
60
FI_IS_FAKEфэйковый документ
61
FI_IS_WIKIстраница из ru.wikipedia.org
62
FI_IS_ESHOPкоммерческая страница (классификатор Савина)
63
FI_GEO_REGION_PROXIM
64
FI_HAS_NO_ALL_WORDS_TR_SYN
в документе нет всех слов запроса (с точностью до синонима)
65
FI_NUM_WORDS_TR_SYN
процент слов запроса в документе (с точностью до синонима)
66
FI_HAS_ALL_WORDS_TR_SYN
в документе есть все слова запроса (с точностью до синонима)
67
FI_TEXT_INV_PAIRTR по парам слов запроса в обратном порядке
68
FI_TEXT_SKIP_PAIR
TR по парам слов запроса через одно слово в текстах
69
FI_NUM_WORDS_TRFM
процент всех слова запроса в тексте (с точностью до формы)
70
FI_HAS_ALL_WORDS_TRFM
в документе есть все слова запроса (с точностью до формы)
71
FI_TLEN
Длина текста страницы в словах TLen = Map(число слов, 1/400), где Map(x, y) = x*y / (1 + x*y)
72
FI_IS_UNREACHABLEСтраница недостижима по ссылкам с морды.
73
FI_EXACT_WORD_ORDER_LEN
Длина максимального совпадения форм в тексте и запросе
74
FI_EXACT_WORD_ORDER_WEIGHT
Вес максимального совпадения форм в тексте и запросе
75
FI_WORD_ORDER_LEN
Длина максимального совпадения по лемме в тексте и запросе
76
FI_WORD_ORDER_WEIGHT
Вес максимального совпадения по лемме в тексте и запросе
77
FI_TEXT_RELEV_ALL_WORDS_WITH_STOPS
Варианты соответствующих факторов с учетом стоп слов
78
FI_LINK_RELEV_ALL_WORDS_WITH_STOPS
Варианты соответствующих факторов с учетом стоп слов
79
FI_PASSAGE_LEGACY_TR
TR лучшего пассажа - насколько качественный сниппет может получиться
80
FI_TEXT_BM25_ATTEN_SYNTR с дисконтом за номер предложения
81
FI_IS_FORUMURL удовлетворяет регулярке FORUM_DETECTOR
82
FI_IS_OBSOLETE
В URL есть древняя дата. Распознаются древние новости. Фактор 1 если в урле есть год <=2007.
83
FI_TR_WITH_STOPS
Вес максимального совпадения форм в тексте и запросе
84
FI_HAS_PAYMENTSНа странице есть про 'оплату SMS'.
85
FI_ESHOP_VALUEМагазинность страницы
86
FI_PORNO_VALUEПорнографичность страницы
87
FI_TRAFGRAPH_OUT_ALL_SHARE_MRemapped mascot feature TrafgraphOutAll_share_m
88
FI_TRAFGRAPH_OUT_ALL_SE_SHARE_D
Remapped mascot feature TrafgraphOutAllSE_share_d
89
FI_ONLY_URL
Все совпадения только в URL'е, в тексте страницы совпадений нет
90
FI_GEO_RELEV_REGION_CITY
91
FI_GEO_RELEV_REGION_REGION
92
FI_GEO_RELEV_REGION_COUNTRY
Три уровня совпадения географии пользователя и страницы
93
FI_GEO_COUNTRY_PROXIMГеографическая близость
94
FI_PAGE_REGION_SIZE_INРазмер региона страницы
95
FI_PAGE_REGION_INV_SIZE_IN
Фактор обратно пропорционален размеру региона страницы
96
FI_QUERY_REGION_SIZEРазмер региона запроса
97
FI_QUERY_REGION_INV_SIZE
Фактор обратно пропорционален размеру региона запроса
98
FI_GEO_GEOMETRY_PROXIMГеографическая близость пользователя и сайта
99
FI_YABAR_HOST_VISITORS
кол-во уникальных посетителей, ремапится экспоненциально
100
FI_YABAR_HOST_SEARCH_TRAFFICДоля трафика с поисковых систем