Оценка релевантности поисковой выдачи для разных методов (статьи 21-24)
Sign in to Google to save your progress. Learn more
Email *
Зачем нужна эта форма?

В рамках нашего проекта изучаются различные программные методы подбора рекомендованных научных статей. Все эти статьи взяты с сайтов российских конференций по компьютерной лингвистике. Для оценки качества используемых методов необходима участие людей, которые могли бы оценить, действительно ли получаемые результаты соответствуют нашей задаче – показать статьи схожей тематики.
Требования к аннотатору.

Заполняющий эту форму должен иметь некоторые базовые знания, чтобы понимать научные статьи по компьютерной лингвистике. Поэтому есть 2 обязательных требования:
1) Владеть английским и русским языками
2) Соответствовать хотя бы одному из следующих критериев:
- быть студентом бакалавриата (3-4 курс)/магистратуры по компьютерной лингвистике и смежным направлениям
 - получить диплом бакалавра /магистра в данной области
- работать в сфере, связанной с Natural Language Processing
Как проходить форму?

На каждой странице формы будет дана ссылка на статью (статья запроса). Необходимо перейти по этой ссылке и внимательно ознакомиться со статьей. Помимо оглавления, аннотации и основного текста, важно также обращать внимание на авторов и библиографию.  Рекомендуем оставить вкладку открытой, т.к. дальше вы будете сравнивать эту статью с остальными. Затем будут приведены результаты выдачи 4-х поисковиков (по 5 статей). Надо будет перейти по каждой из этих ссылок и оценить релевантность данной рекомендации по отношению к статье запроса.  Каждый поисковик оценивается по шкале от 0 до 5, где 0 – ни одна статья не подходит, 5 – все статьи релевантны.
Что такое релевантность поисковой выдачи?

Мы считаем релевантной тематически схожую статью. Тематическая область должна быть достаточно узкой, т. е. если обе статьи про лингвистику, компьютерные методы или французский язык, то это не означает, что они похожи. Однако не стоит впадать и в другую крайность, помечая нерелевантными те статьи, в которых говорится о применении одного и того же метода при решении одной и той же проблемы, но в документах разных областей (например, медицина и право). Основная задача – отсеять «бракованные» статьи, которые не имеют никакого отношения к статье запроса.
Пример полностью релевантной выдачи.
Статья запроса: «Применение дистрибутивных методов для оценки семантического сдвига глаголов русского языка»

Предлагаемые поисковиком статьи: «Слепые пятна дистрибутивной семантики», «How to Measure Semantic Change?», «Могут ли векторные представления слов отслеживать их коннотации?»…
Пример абсолютно нерелевантной выдачи:
Статья запроса: «Проблемы автоматического извлечения ключевых слов в русском языке»

Предлагаемые поисковиком статьи: «Применение нейросетей в автоматическом переводе с русского на английский», «Автоматическое распознавание рукописей старорусского периода», «Text Generation System for Three Slavic Languages»…
На что обратить внимание?

- Не стоит тратить на одну статью более 5 минут! Заполнение формы должно занять около часа
- Поисковик может рекомендовать статьи на 2 языках, т. к. мы используем методы кросс-языкового поиска
- Некоторые ссылки будут вести к сборнику статей. Для поиска нужной статьи мы предоставляем первые 3 слова её заголовка
- Ряд статей размещен на сайте https://link.springer.com. Если у вас нет подписки на полные тексты статей, то рекомендуем ознакомиться с общедоступной информацией (аннотация, ключевые слова, литература)
Next
Clear form
This content is neither created nor endorsed by Google. Report Abuse - Terms of Service - Privacy Policy