1 of 54

Београд�Филолошки факултет�Универзитет у Београду�09.04.2024.�Увод у дигиталну хуманистику

2 of 54

САДРЖАЈ

  • Да ли дигитална хуманистика и у којој мери може утицати на формирање и/или деконструкцију канона?

  • Контекст COST акције Distant Reading

  • SrpELTeC колекција и подржани пројекти у оквиру ње

3 of 54

Бренд конотација: Canon EOS series

4 of 54

Војна конотација: „Tsar Cannon“, Moscow, 1586

5 of 54

Религијска конотација

6 of 54

Музичка конотација

7 of 54

КАНОН(ИЗАЦИЈА) ДАНАС

  • Религија
  • Култура (Уметност)

8 of 54

КАНОН(ИЗАЦИЈА) У РЕЛИГИЈИ

  • Корпус „светих“ текстова одобрених за употребу
  • Инструкције за религиозни ритуал/Службу
  • Правни систем Цркве: Канонско право
  • Процедуре за канонизацију свеца

9 of 54

КАНОН(ИЗАЦИЈА) У КУЛТУРИ (УМЕТНОСТИ)

  • Корпус егземпларних културних артефаката/уметничких дела(music, literature, painting …);
  • Концепт антологија / одабира итд.

10 of 54

КАНОН(ИЗАЦИЈА) У КУЛТУРИ (УМЕТНОСТИ)

  • Селекција егземпларних уметника

Giorgio Vasari: „Животи славних италијанских архитекти, сликара и вајара“, 1550

11 of 54

Penguin, „Black Classics“ (1961-)

12 of 54

ДЕСЕТ ВЕКОВА СРПСКЕ КЊИЖЕВНОСТИ

13 of 54

МОДЕРНО ДОБА: традиција је жива!

T. S. Eliot, „What is a Classic“?, 1944/1957

„You will have anticipated the conclusion towards which I have been drawing: that those qualities of the classic which I have so far mentioned – maturity of mind, maturity of manners, maturity of language and perfection of the common style – are most nearly to be illustrated, in English literature, in the eighteenth century; and, in poetry, most in the poetry of Pope.“

14 of 54

Harold Bloom, The Western Canon, 1994

  • „Изоловати квалитете“ који чине (26) аутора канонским
  • Због „aesthetic value“ / против „anarchy“

15 of 54

Jay Stevenson, The Complete Idiot's Guide to English Literature, 2007

  • [In] the postmodern period […] [t]raditional literature has been found to have been written by "dead white males" to serve the ideological aims of a conservative and repressive Anglo hegemony […] In an array of reactions against the race, gender, and class biases found to be woven into the tradition of Anglo lit, multicultural writers and political literary theorists have sought to expose, resist, and redress injustices and prejudices.

16 of 54

David Damrosch, „Frames for World Literature“, 2009

17 of 54

David Damrosch, „Frames for World Literature“, 2009

  • (Традиционални) канон светске књижевности

Главни канонски аутори

Секундарни канонски аутори

  • Канон у „постканонско“ доба

Хиперканон (главни аутори који су прошли тест времена)

Контра-канон (корективни фактори канона, авангарда, женско писмо, мањине …)

Канон сенки (аутори који временом „бледе“)

18 of 54

Где је ту Дигитална Хуманистика?

19 of 54

Увод у дигиталну хуманистику

  • Дигиталне хуманистичке науке су интердисциплинарни скуп области које се првенствено баве коришћењем дигиталних технологија, извора и метода у оквиру истраживања у хуманистичким наукама.

  • Diskurzivni preokret iz humanističkog računarstva u digitalnu humanistiku je obilježen diskurzom vizionarstva i dalekovidnosti, a digitalna humanistika je postala neka vrsta labaratorije i sredstva za promišljanje budućnosti ne samo tog polja nego humanistike uopšte.                                                                                                                                                                                                                                                                                                                              Swensson, 2012.

20 of 54

УБСМ – Београд; ФИЛУМ - Крагујевац

21 of 54

Школа Дигиталне хуманистике у Тршићу

22 of 54

Увод у дигиталну хуманистику

  • Distant Reading – Franco Moretti
  • односе се на процес „разумевања литературе

не проучавањем одређених текстова, већ

прикупљањем и анализом огромних количина

података“. Концепт је био у центру разговора

о подацима у хуманистичким наукама.

Distant Reading Paradigm - коришћење машинских (рачунарских) метода за анализу великих збирки књижевних текстова

23 of 54

Distant Reading Paradigm

24 of 54

Значај језичких технологија

  • Језичке технологије имају централну улогу у даљем развоју дигиталне хуманистике

  • Очекује нас узбудљива будућност, нарочито у вези са ВИ

  • Наш задатак је да наш језик (нашу културу) прилагодимо новом времену

25 of 54

Значај језичких технологија

  • Данас су доступни различити модели због напретка

у машинском и дубоком учењу, који боље могу да

обрађују и трансформишу текст на природном језику.

  • За „велике језике“ доступни су моћни алати и апликације (аутоматско превођење, анализа ставова и осећања, генерисање текста и одговарање на питања, мерење задовољства корисника, класификација и карактеризација текста итд).
  • Српски језик, упркос заостатку, прати – у недовољно подржаном обиму – развој ресурса и алата.

26 of 54

Значај језичких технологија

  • Захваљујући интернету, постале су доступне огромне количине језичких ресурса и алата, као и корпуса који се могу користити за обучавање језичких модела.

  • Чланову Друштва ЈеРТех већ деценијама изграђују различите ресурсе и технологије за српски језик.

  • Ресурси (једнојезични и вишејезични корпуси, ел. Речници, терминолошке базе), апликације (паралелни текстови, веб сервиси за анотације или проширење упита...), модели за анотацију, ресурси семантичког веба итд...

27 of 54

Значај језичких технологија - примери

  • Једнојезични и вишејезични корпуси (No Sketch Engine https://noske.jerteh.rs/, Библиша https://biblisha.jerteh.rs/, Текстометрија TXM)
  • електронски речници (Unitex, Leximirka)
  • Корпуси општег језика: СрпКор2013, Срп Кор2021, ВикиКорпус, SrpELTeC (постоје и доменски корпуси – рударски, геолошки, математички, библиотекарски..., двојезични корпуси – енг,фра, нем, ита – српски, српско-српски)
  • Највећи генеративни модел за српски језик ГПТ2 – ОРАО и мањи модел ГПТ2 – ВРАБАЦ (модели обучавани на Националној платформи за вештачку интелигенцију Србије)
  • Практична примена: лексикографија, настава језика и књижевности, превођење итд...

28 of 54

Отворена наука

  • Екосистем
  • Укупни приходи индустрије су огромни. Пре короне, годишњи приходи су износили 19.000 милиона УСД. Тржиштем доминира 5 великих издавача: Elsevier, Black & Wiley, Taylor & Francis, Springer Nature и SAGE. Elsevier је највећи са 16% маркет шера: око 3000 часописа, са профитном маржом 40%
  • У 2010-14, такозвани предаторске издавачи су узели око 75 милиона УСД и објавили скоро пола милиона чланака у око 8000 часописа
  • Стога је у току процес трансформације Open Access у Open Science

29 of 54

Отворена наука

  • Зато је тренутно на сцени једна врста удаљавања од профитних пословних модела који погоршавају неједнакост и који су у супротности са Унесковим принципима и вредностима ОС, који се у својој основи заснивају на:

- квалитету и интегритету

- колективном бенефиту

- праведности и правичности

- разноврсности и инклузивности

30 of 54

But the big corporations and governments need to make the significant changes!!!�

31 of 54

Youth Power for Social Change

32 of 54

COST Акција

  • COST Action: CA16204 – Distant Reading for European Literary History

  • Општи циљ: стварање динамичне и разнолике мреже истраживача који заједнички развијају ресурсе и методе неопходне за промену начина на који се пише европска књижевна историја.

  • Утемељење: Distant Reading Paradigm - коришћење машинских (рачунарских) метода за анализу великих збирки књижевних текстова

33 of 54

РЕЗУЛТАТ

  • Заједнички теоријски и практични оквир који омогућава иновативне, софистициране, рачунарске методе анализе књижевног текста на (иницијално) најмање 10 европских језика, са богатом књижевном традицијом.

  • Принцип COST Акције омогућио је и другим језицима који нису били предвиђени у иницијалном предлогу пројекта да се придруже овој активности, па су српски језик у акцији представљали Универзитет у Београду и његове чланице: Универзитетска библиотека „Светозар Марковић“ и Филолошки факултет, као и Друштво за језичке ресурсе и технологије.

34 of 54

Конкретни циљеви

  • Изградити вишејезичну збирку европских књижевних текстова (ELTeC) која садржи око 2.500 романа у пуном тексту на најмање 10 различитих језика, што омогућава тестирање метода и упоређивање резултата у различитим националним традицијама.
  • Успоставити и поделити најбоље праксе и развити иновативне рачунарске методе анализе текста прилагођене европским вишејезичним књижевним традицијама.
  • Размотрите последице таквих ресурса и метода за поновно промишљање основних појмова у теорији и историји књижевности.

35 of 54

САДРЖАЈ

  • Интегрални текстови романа (новела) од најмање 10.000 речи чије прво издање датира из 1840-1920 (како би се осигурало да нема ограничења ауторским правима). Кад год је то могуће, прва издања одабраних дела се скенирају.
  • Специфичност српске књижевности – новеле (нпр. Лаза Лазаревић)
  • Корпус обухвата 120 романа (5.263.071 речи, 22.700 страница, 2557 поглавља, 158.317 пасуса, 567 песама, 2972 стиха)

36 of 54

КАНОН?

  • Да би се постигла репрезентативност

корпуса:

  • романи који су део корпуса обухватају читав одабрани период,
  • рад су различитих аутора (узимајући у обзир заступљеност женског писања)
  • различит степен каноничности (укључујући и заборављене романе који нису у књижевном канону).

37 of 54

КАНОН?

  • Лаза Лазаревић „Швабица“
  • Борисав Станковић „Нечиста крв“
  • Стеван Сремац „Зона Замфирова“

али и:

  • Пера Радуловић „Без оца и мајке“ (1875)
  • Коста Барунчић „Пастир краљ или Ослобођење Србије“ (1879)
  • Живојин Јовичић „Робињица Злата“ (1893)

38 of 54

Женски аутори

  • Драга Гавриловић „Из учитељичког живота“ (1884)
  • Драга Гавриловић „Бабадевојка“ (1887)
  • Драга Гавриловић „Девојачки роман“ (1889)

  • Јелена Димитријевић „Ђул-Марикина прикажња“ (1901)
  • Јелена Димитријевић „Фати-султан“ (1903)
  • Јелена Димитријевић „Нове“ (1912)

  • Милица Јанковић „Пре среће“ (1918)

  • Исидора Секулић „Ђакон Богородичине цркве“ (1919)

39 of 54

ДОДАТНА ВРЕДНОСТ

  • Сви текстови у дигиталној верзији опремљени су:

  • Метаподацима
  • XML ознакама које описују логички и графички изглед текста
  • Појединачним структурираним елементима текста у складу са препорукама TEI (Text Encoding Initiative) пројекта.
  • Наслови, пасуси, фусноте и делови текста који су на посебан начин истакнути (нпр. делови на страном језику – 803 сегмента) експлицитно означени, као и пагинација оригиналног издања текста.

40 of 54

Линк до Узајамног каталога

41 of 54

Чланак ка српској Википедији

42 of 54

ГДЕ СЕ МОЖЕ ПРОНАЋИ САДРЖАЈ

  • Сајт УБСМ: Удаљено читање https://udaljenocitanje.unilib.rs/

(паралелан преглед сканиране слике дела и ишчитаног текста, веза аутора и дела са различитим референтним базама: COBISS, VIAF (Virtual International Authority File), Википодаци, Википедија).

  • Друштво за језичке ресурсе и технологије (JеРТех) http://aurora.jerteh.rs/

(пружа увид у интегрални текст дела, речник облика свих речи употребљених у њему са фреквенцијом и комплетне конкорданце (списак употребљених речи са левим и десним контекстом) текста, веза аутора и дела са различитим референтним базама, објављивање текстова обрађених дела у ЕПУБ формату, што би омогућило комфорно читање на преносним уређајима).

43 of 54

УДАЉЕНО ЧИТАЊЕ

  • Пројекат подржан од стране Министарства културе и информација Републике Србије, као подршка српском учешћу у COST акцији (2019).

  • Захваљујући пројекту Удаљено читање из 2019. године, српски језик је један од девет језика укључених у прву верзију ELTeC корпуса: немачки, енглески, француски, италијански, норвешки, португалски, румунски, словеначки и српски. У овој верзији српски језик је заступљен са 30 романа.

44 of 54

Почетни екран на сајту пројекта

45 of 54

ЧИТАЊЕ НА ДАЉИНУ

  • Пројекат подржан од стране Министарства културе и информисања Републике Србије (2022)

  • У склопу одрживости резултата COST Акције

Циљ:

  • Наставак обраде српских романа
  • Укључивање других књижевних жанрова – пре свега путописа

46 of 54

ПУТОПИСИ

  • Чедомиљ Мијатовић „Цариградске слике и прилике"

  • Љубомир Ненадовић „Писма из Италије“ (Немачке,

Швајцарске)

  • Јелена Димитријевић „Седам мора и три океана“ („Писма“)
  • Евлија Челебија

47 of 54

ПРОЦЕС

  • Прибављање дела
  • Њихова дигитализација
  • Трансформација тако добијене слике у текст (OCR)
  • Обављање аутоматске корекције текста
  • Додатна коректура текста
  • Његово снабдевање анотацијама у виду XML-етикета и метаподацима

48 of 54

ПРОЦЕС

  • У оквиру претходног пројекта извршени су успешни експерименти са аутоматским обележавањем текстова корпуса специфичним језичким објектима: именима људи, локација, организација и сл.

  • У потпуности усклађено са препорукама COST акције D-Reading.

49 of 54

Домаћи ГУТЕНБЕРГ

  • Роман 19. и 20. века изабран као адекватан почетак
  • Портал је замишљен тако да касније може у себе инкорпорирати и остале књижевне материјале из 19. и 20, али и других векова српске културе, који су ослобођени ауторских права.
  • Својеврсни културни мост у синхронијској и дијахронијској равни српске културе, на њеном репрезентативном књижевном узорку, па би се овај портал могао посматрати као нека врста домаћег пандана сајту Гутенберг
  • Пројекат се у будућности може потенцијално гранати ка лексикографији, лингвистици, али и изради речника појединих писаца који драматично недостају српској културној сцени.

50 of 54

Може ли дигитална хуманистика угрозити/изменити КАНОН?

51 of 54

Да ли је КАНОН само теорија?

52 of 54

����Critical Thinkink in the Age of AI Revolution�

53 of 54

Don’t ever wait to ask permission to lead, you just lead!�

54 of 54

ХВАЛА!