Классификация архивных документов по политическому признаку с помощью BERT
Галушко И.Н.,
Магистрант 2 года обучения
Научный руководитель:
Ивченко А. В.
Курс «Нейронные сети и их применение в научных исследованиях»
Цель работы
Классификация архивных документов по политическому признаку с помощью BERT
Материалы фондов могут содержать сотни тысяч листов делопроизводственной документации. Ограниченность физических возможностей одного человека не позволяет даже на уровне беглого чтения охватить все имеющееся документы.
Данную проблему хотя бы частично могло решить качественное аннотирование, но для этого опять же требуются невероятные человеческие ресурсы десятков сотрудников архива, - и на данный момент в большинстве крупных архивов такая работа не ведется.
Цель работы
Классификация архивных документов по политическому признаку с помощью BERT
Данную проблему хотя бы частично могло решить применение LLM для аннотирования или оптимизации текстового поиска. Однако на текущем этапе развития архивного дела специалисты только начинают работать с методами обработки естественного языка. И основной запрос профессионального сообщества состоит в изучении специфики работы моделей искусственного интеллекта и машинного обучения с текстами исторического домена. Данная работа представляет собой предварительное исследование взаимодействия современных LLM с историческими текстами. Для анализа была выбрана одна из наиболее популярных моделей – BERT – и одна из наиболее распространённых NLP задач – классификация.
Данные для обучения
Электронная библиотека исторических документов от РИО
Было принято решение сосредоточиться на документах периода Революции 1917 года и Гражданской войны.
Данная хронологическая специализация позволяет создать, обладающей существенной политической дифференциацией
Всего отобранная коллекция содержит 10020 документов (42 публикации)
Классификация архивных документов по политическому признаку с помощью BERT
Некоторые из использованных публикаций (всего – 42)
Архив новейшей истории России. Серия «Публикации». Т. XI. Журналы заседаний, приказы и материалы Комитета членов Всероссийского Учредительного собрания, июнь-октябрь 1918 года. М. : РОССПЭН, 2011. – 631 с.
Журналы заседаний Особого совещания при Главнокомандующем Вооруженными Силами на Юге России А. И. Деникине. Сентябрь 1918-го — декабрь 1919 года. М.: Российская политическая энциклопедия (РОССПЭН), 2008. — 1003 с
Письма во власть. 1917-1927: Заявления, жалобы, доносы, письма в государственные структуры и большевистским вождям. М.: «Российская политическая энциклопедия» (РОССПЭН), 1998.— (Серия «Документы советской истории»). — 664 с.
Партия левых социалистов-революционеров. Документы и материалы. 1917—1925 гг. В 3 т. Т. 1. Июль 1917 г.—май 1918 г. М.: «Российская политическая энциклопедия» (РОССПЭН). 2000. — 864 с.
Классификация архивных документов по политическому признаку с помощью BERT
Тематическая коллекция «Революционный 1917»
Классификация архивных документов по политическому признаку с помощью BERT
Данные для обучения
Мне удалось договориться с РИО, но ответили мне слишком поздно.
Для выгрузки всей коллекции я написал код на Selenium.
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Классификация документов по политической принадлежности
Политическая категория | Label | Количество |
Большевики | 0 | 163 |
Меньшевики | 1 | 226 |
Левые эсеры | 2 | 276 |
Кадеты | 3 | 184 |
Монархисты | 4 | 249 |
Белая армия | 5 | 264 |
Рабочая оппозиция большевикам | 6 | 234 |
Дворянское собрание | 7 | 211 |
| Всего | 1807 |
Классификация архивных документов по политическому признаку с помощью BERT
Параметры модели
Model: DeepPavlov/rubert-base-cased
Tokenizer: padding='max_length', max_length = 512, truncation=True
TrainingArguments:
learning_rate=2e-5,
per_device_train_batch_size=4,
per_device_eval_batch_size=4,
num_train_epochs=2,
weight_decay=0.01,
evaluation_strategy="epoch",
save_strategy="epoch",
load_best_model_at_end=True,
report_to='none'
Eval metric: accuracy
Классификация архивных документов по политическому признаку с помощью BERT
Параметры модели
Train: dataset[:70%] Val: dataset[70%:90%] Test: dataset[90%:]
Train_test_Split
Классификация архивных документов по политическому признаку с помощью BERT
Classification report: test
| precision | recall | f1-score | support |
Bolsheviks | 1.00 | 1.00 | 1.00 | 14 |
Mensheviks | 0.92 | 0.92 | 0.92 | 25 |
Left_SRs | 0.97 | 0.97 | 0.97 | 38 |
Kadets | 1.00 | 1.00 | 1.00 | 15 |
Rights | 0.96 | 1.00 | 0.98 | 23 |
White_army | 1.00 | 0.96 | 0.98 | 24 |
Work_oppose | 0.90 | 0.86 | 0.88 | 22 |
Nobles | 0.90 | 0.95 | 0.93 | 20 |
| | | | |
accuracy | | | 0.96 | 181 |
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Text | Label | Score |
Ю.О. Мартов. Небывалая хозяйственная разруха, катастрофическое положение продовольственного дела в атмосфере непрекращающейся гражданской войны порождает в отсталых слоях населения угрожающее погромное настроение. При наличности веками слагавшихся национальных предрассудков настроение это под влиянием явно черносотенных, а подчас и примазавшихся к советской власти темных элементов выливается по преимуществу в форму антиеврейских погромов. Все враги революции, все сторонники прежнего режима прибегают к старому, испытанному оружию антисемитской травле, науськиванию масс на евреев. А ныне стоящая у власти большевистская партия, своей демагогической агитацией развращавшая и развращающая массы, а всей своей правительственной политикой порождающая условия, систематически питающие погромные настроения, абсолютно не в состоянии, каковы бы ни были субъективные настроения ее руководителей, вести хоть сколько-нибудь успешную борьбу с погромной опасностью. | Mensheviks | 0.968 |
Классификация архивных документов по политическому признаку с помощью BERT
Text | Label | Score |
В дополнение утвержденного Главнокомандующим 18 мая 1919 года постановления Особого совещания о предоставлении учреждениям гражданского ведомства права перевозок по железным дорогам чинов, командируемых по службе, и грузов для надобностей Вооруженных Сил на Юге России по воинским предложениям предоставить указанным учреждениям право перевозок по воинским предложениям тех чинов и грузов по водным путям с соблюдением правил, установленных означенным постановлением для перевозок по железным дорогам, с тем чтобы перевозки водой за счет казны по воинским предложениям производились лишь в тех случаях, когда эти перевозки будут обходиться дешевле, чем перевозки между теми же пунктами по железным дорогам, или когда между соответствующими пунктами вовсе нет железных дорог. | White_army | 0.985 |
Классификация архивных документов по политическому признаку с помощью BERT
Text | Label | Score |
Передайте VIII съезду уполномоченных 31 дворянских обществ Мою сердечную благодарность за их молитвы, благопожелания и выраженные Государыням Императрицам, Мне и Наследнику Цесаревичу чувства; уверен, что верное заветам старины Русское дворянство и впредь всегда будет служить опорой Престола в деле мирного развития великой нашей России. | Nobles | 0.984 |
Тестирование отобранных моделей
# rugpt3medium_sum_gazeta
Каждый гражданин Российской Федерации имеет право на свободу совести и вероисповедания.
# mbart_ru_sum_gazeta
В связи с тем, что малолетние, не достигшие девятилетнего возраста, не могут быть переведены в другое вероисповедание без согласия родителей, постановил президент России Владимир Путин.
Классификация архивных документов по политическому признаку с помощью BERT
Тестирование отобранных моделей
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Классификация архивных документов по политическому признаку с помощью BERT
Дальнейшие планы
Детально изучить механизм классификации на уровне формуляров использованных документов.
Изучить возможности моделей с большим размером текстового инпута (Longformer, FredT5).
Использовать оставшуюся часть коллекции для обучения на задачи суммаризации.
Изучить возможности использования pre-train моделей для оптимизации тематического моделирования (BertTopic).
Изучить потенциал LLM для автоматической индексации архивных документов.
Классификация архивных документов по политическому признаку с помощью BERT
Благодарю за внимание!
Классификация архивных документов по политическому признаку с помощью BERT