Основы обработки текстов 2018
 Share
The version of the browser you are using is no longer supported. Please upgrade to a supported browser.Dismiss

View only
 
ABCDEFGHIJKLMNOPQRSTUVWXYZAAAB
1
Задание 1Задание 2ЗачетЭкзамен
2
ГруппаФамилияОценкаКомментарийОценкаКомментарийЛекцииЗаданияОценка
3
4
аспирантАпишев01При чтении данных для тренировки теряется последний
документ из каждого файла с исходными данными.
3
5
аспирантПростов0Очень много copy-paste кода0Много copy-paste кода.
Неэффективная реализация сбора частых n-gram.
Не закрываются файлы после чтения.
3
6
аспирантТихомиров0.250.5неэффективная реализация:
многократный одинаковый препроцессинг данных (потери по времени);
неэффективное использование DataFrame:
* конвертация разреженного DataFrame в плотный (необоснованное использование памяти (359Mb -> 5.1Gb));
* итеративная конкатенация DataFrame приводит к лишнему копированию (потери как по памяти, так и по времени).
0.54
7
8
427Аветисян0Заявленный результат не подтвержден (примеры полученных результатов: 0.8481, 0.8554, 0.8563). Хакнута кодировка для падежей;
в качестве признаков для объектов при обучении могут использоваться метки (org/person) из других документов; большое количество copy-paste кода;
неверное предположение о совпаднии порядка итерирования в словаре file_objects и в списке из util.loadAllStandard()
145
9
427Ахмадеев0baseline не побит (результаты 5 запусков: 0.9074, 0.9071; 0.9074; 0.9071; 0.9068). Ошибка при определении текста упоминания, содержащего кавычки
0Решение прислано с опозданием3
10
427Болотников0.5оценка снижена за неверно определяемый контекст упоминаний, большое количество copy-paste кода, неэффективное использование n-граммной модели.0.75В описании указано, что используется нейросеть - а на
самом деле SGDClassifier (линейный SVM).
Правильная версия кода была прислана с третьего раза
(отсутствовал код для разметки тестовых данных).
4
11
427Веретенова00Решение прислано c опозданием.3
12
427Винокуров0Результат debug функции оценщика разбирается регуляркой0Решение прислано c опозданием.3
13
427Горемыкин0.250.75Не закрываются файлы после чтения.
Неэффективная предобработка входных строк
4
14
427Кравченко0Для побития baseline подобрано начальное значение для случайной инициализации нейронной сети: MLPCLassifier(..., random_state=17, ...). При других значениях baseline не побит.0.75Дублирующийся код. Длительное обучение - 20 минут.
Огромное количество лишнего кода,
закомментированного кода.
Нет описания решения.
4
15
427Малоян0.5оценка снижена за неверное определение контекста упоминания. Контекст считается вокруг последнего слова упоминания, в результате для длинных упоминаний контекстом является часть этого упоминания. Контекст слова вычисляется по id токена (контекст может выходить за границы документа)154
16
427Миронов11515
17
427Ниськов10.75Не закрываются файлы с данными после чтения.
Неадекватные имена переменных.
Скорость работы: батч размера 1 в режиме предсказаний.
50.5
18
427Раснюк11515
19
427Тимофеев0Решение прислано с опозданием.0Решение прислано с опозданием.
3
20
427Трифонов1150.55
21
22
428Василькин0Присутствуют странные признаки "prev_tokens_0" и "prev_tokens_1", которые вычисляются при использовании span. При отключении этих признаков baseline не побивается (0.9075)0.5Неэффективный код в плане скорости, работы с памятью,
объема дополнительного места на диске.
Неадекватный выбор используемых структур данных.
По заявлению автора, полное время работы около 15 часов.
Тривиальная оптимизация позволила сократить это время
более чем в 30 раз (и это не предел).
Ошибка при работе с пустыми строками.
4
23
428Володькин0попытка №3
в качестве признака используется полный текст упоминания
0Решение прислано c опозданием.3
24
428Кечко010 запусков показали, что baseline не побивается (результаты запусков: 0.9075, 0.9057, 0.9087, 0.9099, 0.9096, 0.9011, 0.9037, 0.9079, 0.9059, 0.9036; среднее значение 0.90636)140.5
25
428Лаврентьев0Решение прислано c опозданием.0Решение прислано c опозданием.3
26
428Николаева1155
27
428
Петропавловских
104
28
428
Подосинникова
0.5оценка снижена за многочисленные ошибки в коде извлечения признаков. суффиксы слов извлекаются до предпоследнего символа; код извлечения векторного представления упоминания написан из предположения, что в упоминании одно слово. При нормализации текста упоминания обрезается последний символ слова ("восточного" обрезается до "восточног" после лемматизации превращается в "восточночь"). Вектор признаков дублируется 300 раз155
29
428Степанова0.5оценка снижена за многочисленные ошибки: поиск первого токена объекта; case2num() выбирает случайный падеж; ошибка при copy-paste в posneighbours2num(); некорректное сравнение строчек по is044
30
428Хохлов0Решение прислано c опозданием.0Решение прислано c опозданием.3
31
428Яцко0Запутанный и некорректный код извлечения признаков14
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
Loading...