| A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Name | Description | ||||||||||||||||||||||||
2 | FI_TEXT_RELEV | Текстовая релевантность (maxfreq – частота самого частого слова, которая имеет смысл длины документа). | ||||||||||||||||||||||||
3 | FI_PAGE_RANK_BONUS | Priority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум. | ||||||||||||||||||||||||
4 | FI_TEXT_RELEV_ALL_WORDS | Приоритет strict для TR - текстовый приоритет - есть все слова запроса где-то в документе (при этом они проходят контекстные ограничения запроса, например, оба слова д.б. в одном предложении). | ||||||||||||||||||||||||
5 | FI_TEXT_RELEV_PHRASE | Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе. | ||||||||||||||||||||||||
6 | FI_TEXT_RELEV_TITLE | Наличие точной фразы (текста запроса) в заголовке (если точнее, в первом предложении документа). Контекстные ограничения и стоп слова учитываются в точности как в TRp2, т.е. factor[8] minors factor[5] | ||||||||||||||||||||||||
7 | FI_TEXT_RELEV_WHOLE_HR_MATCHED | Встретился участок, прошедший кворум, в котором все словопозиции обозначены как имеющие релевантность BEST_RELEV (заголовок или meta keywords). | ||||||||||||||||||||||||
8 | FI_NEWS | Это новости (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-3 паттернам в url`е)) ). | ||||||||||||||||||||||||
9 | FI_CATALOG | Это каталог (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-2 паттернам в url`е)) или по яндекс-каталогу). | ||||||||||||||||||||||||
10 | FI_YA_BAR | Посещаемость из Бара - ((http://wiki.yandex-team.ru/AndrejjKostjagin/YaBarLog/HostStat Описание данных)). Фактор ремапится. | ||||||||||||||||||||||||
11 | FI_LONG | Длинный документ (чем длиннее документ, тем больше значение фактора). | ||||||||||||||||||||||||
12 | FI_HIT_WEIGHT | Hitweigt - вариант текстовой релевантности, в которой веса всех хитов считаются равными (т.е. не учитывают надбавки за title и за близость слов). При этом соответствующие хиты должны пройти ограничения синтаксического колдунщика, т.е. можно считать, что фактор TRhitw равен 0 тогда и только тогда, когда SoftAndOk равен 0 | ||||||||||||||||||||||||
13 | FI_LONG_QUERY | Сумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'. | ||||||||||||||||||||||||
14 | FI_PURE_TEXT | Длинный текст без ссылок. | ||||||||||||||||||||||||
15 | FI_ROOT | Это морда. | ||||||||||||||||||||||||
16 | FI_REFINES | Фактор про число refines. В языке запросов есть фича user refines ('слово, перед которым стоит знак процентика'). По задумке это означает что-то вроде 'хорошо бы, чтобы слово в документе было'. Единственное известное ((http://staff.yandex-team.ru/gulin Андрей Гулин)) ценное использование данной фичи - это запрос [%официальный %сайт НазваниеФирмы]. Пользователям данная фича неизвестна, т.к. не описана ни в какой документации. Планируется, что она исчезнет из языка запросов, но в колдунщике слова с приоритетом USER_REFINE останутся. Фактор говорит о том, сколько максимум USER_REFINE-слов одновременно встречалось в рамках единого попадания в кворум. Считается, что их от 0 до 3 (если >3, то считается, что 3). Это число мапится в полуинтервал [0,1) | ||||||||||||||||||||||||
17 | FI_TR_BOOST | Число, на которое умножаются некоторые линковые факторы (именно, факторы номер 6, 7, 47, 66), если текстовая релевантность 0, и ссылок мало | ||||||||||||||||||||||||
18 | FI_TRLR_LEMMA | В текстовой релевантности произошло совпадение леммы. | ||||||||||||||||||||||||
19 | FI_TRAFGRAPH_OUT_ALL_SHARE_D | Remapped mascot feature TrafgraphOutAll_share_d | ||||||||||||||||||||||||
20 | FI_RELEV_SENTS_DSSM | Dssm модель, обучена на переформулировки, в документной части использует релевантные запросу предложения | ||||||||||||||||||||||||
21 | FI_TR_UNMAPPED | TR деленный на куб количества слов в запросе и преобразованный стандартным remapTR. | ||||||||||||||||||||||||
22 | FI_RUS_LANG | Язык документа - русский. | ||||||||||||||||||||||||
23 | FI_ADD_TIME | Время добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1. | ||||||||||||||||||||||||
24 | FI_IS_MAIN_PAGE | Если главная страница владельца (чаще всего домен второго уровня, например xxxx.ru), то фактор равен 1. Для бомжатников, хостингов, личных блогов и т.д. (например, лайфджорнал, народ.ру и пр.) - домены третьего уровня (типа xxxxx.narod.ru) так же будут иметь фактор равный 1. | ||||||||||||||||||||||||
25 | FI_ADD_TIME_MP | Время добавления главной страницы владельца (хоста?), ремапится так же, как AddTime. | ||||||||||||||||||||||||
26 | FI_TEXT_BM25 | Простой BM25 по тексту. | ||||||||||||||||||||||||
27 | FI_TEXT_PAIR | Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово | ||||||||||||||||||||||||
28 | FI_TEXT_BREAK | BM25 от количества предложений в документе, в которых встречается. | ||||||||||||||||||||||||
29 | FI_TEXT_HEAD | BM25 по словам только в заголовке. | ||||||||||||||||||||||||
30 | FI_TEXT_HI_RELEV | BM25 по словам только с high rel-битиками ('значимым', с выделением (<b> итп)). | ||||||||||||||||||||||||
31 | FI_WORD_COUNT | Min(число слов запроса/10, 1.f) | ||||||||||||||||||||||||
32 | FI_INV_WORD_COUNT | 1 / количество_слов_в_запросе. | ||||||||||||||||||||||||
33 | FI_HAS_NO_TR | У документа нет TR. | ||||||||||||||||||||||||
34 | FI_HOPS | Количество хопов урла в обходе (типа меньше - ближе к морде, тем меньше значение (0 - морда, 1 - с морды добраться нельзя, 0 < можно добраться с морды < 1). Нормальное значение для корня носта 0.0039). | ||||||||||||||||||||||||
35 | FI_TEXT_PAIR_EX | наличие пар слов по точной форме | ||||||||||||||||||||||||
36 | FI_TEXT_BREAK_EX | количество предложений, в которых встречается много слов по точной форме | ||||||||||||||||||||||||
37 | FI_TEXT_HEAD_EX | наличие слов в заголовке по точной форме | ||||||||||||||||||||||||
38 | FI_TEXT_HI_RELEV_EX | BM25 по точной форме | ||||||||||||||||||||||||
39 | FI_TEXT_BM25_EX | Простой BM25 по точной форме. | ||||||||||||||||||||||||
40 | FI_TEXT_PAIR_SYN | наличие пар слов c учетом синонимов (>=TxtPair) | ||||||||||||||||||||||||
41 | FI_TEXT_BRAEK_SYN | количество предложений, в которых встречается много слов c учетом синонимов | ||||||||||||||||||||||||
42 | FI_TEXT_HEAD_SYN | наличие слов в заголовке c учетом синонимов | ||||||||||||||||||||||||
43 | FI_TEXT_HI_RELEV_SYN | BM25 c учетом синонимов | ||||||||||||||||||||||||
44 | FI_TEXT_BM25_SYN | Простой BM25 c учетом синонимов. | ||||||||||||||||||||||||
45 | FI_SOFT_AND_OK | Документ прошел softand по ограничениям синтаксического колдунщика. Только для документов, имеющих текстовую релевантность. Для однословных запросов всегда 1. | ||||||||||||||||||||||||
46 | FI_UKR | равен единице, если у сайта стоит украинский гео-атрибут(т.е 1 - украинский сайт) | ||||||||||||||||||||||||
47 | FI_IS_BLOG | Страница с блогохостинга | ||||||||||||||||||||||||
48 | FI_IS_LJ | Страница с livejournal.com | ||||||||||||||||||||||||
49 | FI_TEXT_FEATURES | Качество текста. Считается по довольно сложной формуле | ||||||||||||||||||||||||
50 | FI_TEXT_LIKE | Качество текста (классификатор Алексеева) | ||||||||||||||||||||||||
51 | FI_YABAR_CORE_OWNER | Ядро аудитории владельцев по данным Яндекс.Браузинга | ||||||||||||||||||||||||
52 | FI_YABAR_CORE_HOST | Ядро аудитории хостов по данным Яндекс.Браузинга | ||||||||||||||||||||||||
53 | FI_HAS_YA_BAR_CORE | Имеет ли хост ядро | ||||||||||||||||||||||||
54 | FI_DOC_LEN | Длина документа в предложениях | ||||||||||||||||||||||||
55 | FI_URL_LEN | Длина URL'а, делённая на 5 | ||||||||||||||||||||||||
56 | FI_HOST_SIZE | Размер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом) | ||||||||||||||||||||||||
57 | FI_IS_HTML | Тип документа - HTML | ||||||||||||||||||||||||
58 | FI_GEO_CITY_PROXIM | Означает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет. Основан на ((http://wiki.yandex-team.ru/ЯндексПоиск/КлассификацияСайтовИСтраниц/Географическая/ИспользованиеВПоиске геоклассификации сайтов)) | ||||||||||||||||||||||||
59 | FI_IS_PORNO | документ из порно-кишки | ||||||||||||||||||||||||
60 | FI_IS_FAKE | фэйковый документ | ||||||||||||||||||||||||
61 | FI_IS_WIKI | страница из ru.wikipedia.org | ||||||||||||||||||||||||
62 | FI_IS_ESHOP | коммерческая страница (классификатор Савина) | ||||||||||||||||||||||||
63 | FI_GEO_REGION_PROXIM | |||||||||||||||||||||||||
64 | FI_HAS_NO_ALL_WORDS_TR_SYN | в документе нет всех слов запроса (с точностью до синонима) | ||||||||||||||||||||||||
65 | FI_NUM_WORDS_TR_SYN | процент слов запроса в документе (с точностью до синонима) | ||||||||||||||||||||||||
66 | FI_HAS_ALL_WORDS_TR_SYN | в документе есть все слова запроса (с точностью до синонима) | ||||||||||||||||||||||||
67 | FI_TEXT_INV_PAIR | TR по парам слов запроса в обратном порядке | ||||||||||||||||||||||||
68 | FI_TEXT_SKIP_PAIR | TR по парам слов запроса через одно слово в текстах | ||||||||||||||||||||||||
69 | FI_NUM_WORDS_TRFM | процент всех слова запроса в тексте (с точностью до формы) | ||||||||||||||||||||||||
70 | FI_HAS_ALL_WORDS_TRFM | в документе есть все слова запроса (с точностью до формы) | ||||||||||||||||||||||||
71 | FI_TLEN | Длина текста страницы в словах TLen = Map(число слов, 1/400), где Map(x, y) = x*y / (1 + x*y) | ||||||||||||||||||||||||
72 | FI_IS_UNREACHABLE | Страница недостижима по ссылкам с морды. | ||||||||||||||||||||||||
73 | FI_EXACT_WORD_ORDER_LEN | Длина максимального совпадения форм в тексте и запросе | ||||||||||||||||||||||||
74 | FI_EXACT_WORD_ORDER_WEIGHT | Вес максимального совпадения форм в тексте и запросе | ||||||||||||||||||||||||
75 | FI_WORD_ORDER_LEN | Длина максимального совпадения по лемме в тексте и запросе | ||||||||||||||||||||||||
76 | FI_WORD_ORDER_WEIGHT | Вес максимального совпадения по лемме в тексте и запросе | ||||||||||||||||||||||||
77 | FI_TEXT_RELEV_ALL_WORDS_WITH_STOPS | Варианты соответствующих факторов с учетом стоп слов | ||||||||||||||||||||||||
78 | FI_LINK_RELEV_ALL_WORDS_WITH_STOPS | Варианты соответствующих факторов с учетом стоп слов | ||||||||||||||||||||||||
79 | FI_PASSAGE_LEGACY_TR | TR лучшего пассажа - насколько качественный сниппет может получиться | ||||||||||||||||||||||||
80 | FI_TEXT_BM25_ATTEN_SYN | TR с дисконтом за номер предложения | ||||||||||||||||||||||||
81 | FI_IS_FORUM | URL удовлетворяет регулярке FORUM_DETECTOR | ||||||||||||||||||||||||
82 | FI_IS_OBSOLETE | В URL есть древняя дата. Распознаются древние новости. Фактор 1 если в урле есть год <=2007. | ||||||||||||||||||||||||
83 | FI_TR_WITH_STOPS | Вес максимального совпадения форм в тексте и запросе | ||||||||||||||||||||||||
84 | FI_HAS_PAYMENTS | На странице есть про 'оплату SMS'. | ||||||||||||||||||||||||
85 | FI_ESHOP_VALUE | Магазинность страницы | ||||||||||||||||||||||||
86 | FI_PORNO_VALUE | Порнографичность страницы | ||||||||||||||||||||||||
87 | FI_TRAFGRAPH_OUT_ALL_SHARE_M | Remapped mascot feature TrafgraphOutAll_share_m | ||||||||||||||||||||||||
88 | FI_TRAFGRAPH_OUT_ALL_SE_SHARE_D | Remapped mascot feature TrafgraphOutAllSE_share_d | ||||||||||||||||||||||||
89 | FI_ONLY_URL | Все совпадения только в URL'е, в тексте страницы совпадений нет | ||||||||||||||||||||||||
90 | FI_GEO_RELEV_REGION_CITY | |||||||||||||||||||||||||
91 | FI_GEO_RELEV_REGION_REGION | |||||||||||||||||||||||||
92 | FI_GEO_RELEV_REGION_COUNTRY | Три уровня совпадения географии пользователя и страницы | ||||||||||||||||||||||||
93 | FI_GEO_COUNTRY_PROXIM | Географическая близость | ||||||||||||||||||||||||
94 | FI_PAGE_REGION_SIZE_IN | Размер региона страницы | ||||||||||||||||||||||||
95 | FI_PAGE_REGION_INV_SIZE_IN | Фактор обратно пропорционален размеру региона страницы | ||||||||||||||||||||||||
96 | FI_QUERY_REGION_SIZE | Размер региона запроса | ||||||||||||||||||||||||
97 | FI_QUERY_REGION_INV_SIZE | Фактор обратно пропорционален размеру региона запроса | ||||||||||||||||||||||||
98 | FI_GEO_GEOMETRY_PROXIM | Географическая близость пользователя и сайта | ||||||||||||||||||||||||
99 | FI_YABAR_HOST_VISITORS | кол-во уникальных посетителей, ремапится экспоненциально | ||||||||||||||||||||||||
100 | FI_YABAR_HOST_SEARCH_TRAFFIC | Доля трафика с поисковых систем |