1 of 26

Классификация архивных документов по политическому признаку с помощью BERT

Галушко И.Н.,

Магистрант 2 года обучения

Научный руководитель:

Ивченко А. В.

Курс «Нейронные сети и их применение в научных исследованиях»

2 of 26

Цель работы

Классификация архивных документов по политическому признаку с помощью BERT

Материалы фондов могут содержать сотни тысяч листов делопроизводственной документации. Ограниченность физических возможностей одного человека не позволяет даже на уровне беглого чтения охватить все имеющееся документы.

Данную проблему хотя бы частично могло решить качественное аннотирование, но для этого опять же требуются невероятные человеческие ресурсы десятков сотрудников архива, - и на данный момент в большинстве крупных архивов такая работа не ведется.

3 of 26

Цель работы

Классификация архивных документов по политическому признаку с помощью BERT

Данную проблему хотя бы частично могло решить применение LLM для аннотирования или оптимизации текстового поиска. Однако на текущем этапе развития архивного дела специалисты только начинают работать с методами обработки естественного языка. И основной запрос профессионального сообщества состоит в изучении специфики работы моделей искусственного интеллекта и машинного обучения с текстами исторического домена. Данная работа представляет собой предварительное исследование взаимодействия современных LLM с историческими текстами. Для анализа была выбрана одна из наиболее популярных моделей – BERT – и одна из наиболее распространённых NLP задач – классификация.

4 of 26

Данные для обучения

Электронная библиотека исторических документов от РИО

Было принято решение сосредоточиться на документах периода Революции 1917 года и Гражданской войны.

Данная хронологическая специализация позволяет создать, обладающей существенной политической дифференциацией

Всего отобранная коллекция содержит 10020 документов (42 публикации)

Классификация архивных документов по политическому признаку с помощью BERT

5 of 26

Некоторые из использованных публикаций (всего – 42)

Архив новейшей истории России. Серия «Публикации». Т. XI. Журналы заседаний, приказы и материалы Комитета членов Всероссийского Учредительного собрания, июнь-октябрь 1918 года. М. : РОССПЭН, 2011. – 631 с.

Журналы заседаний Особого совещания при Главнокомандующем Вооруженными Силами на Юге России А. И. Деникине. Сентябрь 1918-го — декабрь 1919 года. М.: Российская политическая энциклопедия (РОССПЭН), 2008. — 1003 с

Письма во власть. 1917-1927: Заявления, жалобы, доносы, письма в государственные структуры и большевистским вождям. М.: «Российская политическая энциклопедия» (РОССПЭН), 1998.— (Серия «Документы советской истории»). — 664 с.

Партия левых социалистов-революционеров. Документы и материалы. 1917—1925 гг. В 3 т. Т. 1. Июль 1917 г.—май 1918 г. М.: «Российская политическая энциклопедия» (РОССПЭН). 2000. — 864 с.

Классификация архивных документов по политическому признаку с помощью BERT

6 of 26

Тематическая коллекция «Революционный 1917»

Классификация архивных документов по политическому признаку с помощью BERT

7 of 26

Данные для обучения

Мне удалось договориться с РИО, но ответили мне слишком поздно.

Для выгрузки всей коллекции я написал код на Selenium.

Классификация архивных документов по политическому признаку с помощью BERT

8 of 26

Классификация архивных документов по политическому признаку с помощью BERT

9 of 26

Классификация архивных документов по политическому признаку с помощью BERT

10 of 26

Классификация документов по политической принадлежности

Политическая категория

Label

Количество

Большевики

0

163

Меньшевики

1

226

Левые эсеры

2

276

Кадеты

3

184

Монархисты

4

249

Белая армия

5

264

Рабочая оппозиция большевикам

6

234

Дворянское собрание

7

211

Всего

1807

Классификация архивных документов по политическому признаку с помощью BERT

11 of 26

Параметры модели

Model: DeepPavlov/rubert-base-cased

Tokenizer: padding='max_length', max_length = 512, truncation=True

TrainingArguments:

learning_rate=2e-5,

per_device_train_batch_size=4,

per_device_eval_batch_size=4,

num_train_epochs=2,

weight_decay=0.01,

evaluation_strategy="epoch",

save_strategy="epoch",

load_best_model_at_end=True,

report_to='none'

Eval metric: accuracy

Классификация архивных документов по политическому признаку с помощью BERT

12 of 26

Параметры модели

Train: dataset[:70%] Val: dataset[70%:90%] Test: dataset[90%:]

Train_test_Split

Классификация архивных документов по политическому признаку с помощью BERT

13 of 26

Classification report: test

precision

recall

f1-score

support

Bolsheviks

1.00

1.00

1.00

14

Mensheviks

0.92

0.92

0.92

25

Left_SRs

0.97

0.97

0.97

38

Kadets

1.00

1.00

1.00

15

Rights

0.96

1.00

0.98

23

White_army

1.00

0.96

0.98

24

Work_oppose

0.90

0.86

0.88

22

Nobles

0.90

0.95

0.93

20

accuracy

0.96

181

Классификация архивных документов по политическому признаку с помощью BERT

14 of 26

Классификация архивных документов по политическому признаку с помощью BERT

15 of 26

Классификация архивных документов по политическому признаку с помощью BERT

Text

Label

Score

Ю.О. Мартов. Небывалая хозяйственная разруха, катастрофическое положение продовольственного дела в атмосфере непрекращающейся гражданской войны порождает в отсталых слоях населения угрожающее погромное настроение. При наличности веками слагавшихся национальных предрассудков настроение это под влиянием явно черносотенных, а подчас и примазавшихся к советской власти темных элементов выливается по преимуществу в форму антиеврейских погромов. Все враги революции, все сторонники прежнего режима прибегают к старому, испытанному оружию антисемитской травле, науськиванию масс на евреев. А ныне стоящая у власти большевистская партия, своей демагогической агитацией развращавшая и развращающая массы, а всей своей правительственной политикой порождающая условия, систематически питающие погромные настроения, абсолютно не в состоянии, каковы бы ни были субъективные настроения ее руководителей, вести хоть сколько-нибудь успешную борьбу с погромной опасностью.

Mensheviks

0.968

16 of 26

Классификация архивных документов по политическому признаку с помощью BERT

Text

Label

Score

В дополнение утвержденного Главнокомандующим 18 мая 1919 года постановления Особого совещания о предоставлении учреждениям гражданского ведомства права перевозок по железным дорогам чинов, командируемых по службе, и грузов для надобностей Вооруженных Сил на Юге России по воинским предложениям предоставить указанным учреждениям право перевозок по воинским предложениям тех чинов и грузов по водным путям с соблюдением правил, установленных означенным постановлением для перевозок по железным дорогам, с тем чтобы перевозки водой за счет казны по воинским предложениям производились лишь в тех случаях, когда эти перевозки будут обходиться дешевле, чем перевозки между теми же пунктами по железным дорогам, или когда между соответствующими пунктами вовсе нет железных дорог.

White_army

0.985

17 of 26

Классификация архивных документов по политическому признаку с помощью BERT

Text

Label

Score

Передайте VIII съезду уполномоченных 31 дворянских обществ Мою сердечную благодарность за их молитвы, благопожелания и выраженные Государыням Императрицам, Мне и Наследнику Цесаревичу чувства; уверен, что верное заветам старины Русское дворянство и впредь всегда будет служить опорой Престола в деле мирного развития великой нашей России.

Nobles

0.984

18 of 26

Тестирование отобранных моделей

# rugpt3medium_sum_gazeta

Каждый гражданин Российской Федерации имеет право на свободу совести и вероисповедания.

# mbart_ru_sum_gazeta

В связи с тем, что малолетние, не достигшие девятилетнего возраста, не могут быть переведены в другое вероисповедание без согласия родителей, постановил президент России Владимир Путин.

Классификация архивных документов по политическому признаку с помощью BERT

19 of 26

Тестирование отобранных моделей

Классификация архивных документов по политическому признаку с помощью BERT

20 of 26

Классификация архивных документов по политическому признаку с помощью BERT

21 of 26

Классификация архивных документов по политическому признаку с помощью BERT

22 of 26

Классификация архивных документов по политическому признаку с помощью BERT

23 of 26

Классификация архивных документов по политическому признаку с помощью BERT

24 of 26

Классификация архивных документов по политическому признаку с помощью BERT

25 of 26

Дальнейшие планы

Детально изучить механизм классификации на уровне формуляров использованных документов.

Изучить возможности моделей с большим размером текстового инпута (Longformer, FredT5).

Использовать оставшуюся часть коллекции для обучения на задачи суммаризации.

Изучить возможности использования pre-train моделей для оптимизации тематического моделирования (BertTopic).

Изучить потенциал LLM для автоматической индексации архивных документов.

Классификация архивных документов по политическому признаку с помощью BERT

26 of 26

Благодарю за внимание!

Классификация архивных документов по политическому признаку с помощью BERT