1 of 26

ПАРАЛЕЛЬНИЙ КОРПУС ТЕКСТІВ: �СТРУКТУРА, АСПЕКТИ ПАРАМЕТРИЗАЦІЇ� ТА ТЕХНОЛОГІЇ УКЛАДАННЯ

Зубань Оксана

Київський національний університет

імені Тараса Шевченка

2 of 26

Корпус паралельних текстів ˗ це новий проект лабораторії комп'ютерної лінгвістики �КНУ імені Т. Шевченка, розпочатий у 2017 р.

  • Учасники проекту:

Дарчук Наталія Петрівна

Лангенбах Маргарита Олександрівна

Зубань Оксана Миколаївна

Сорокін Віктор Михайлович

Студенти КНУ імені Тараса Шевченка

бакалаврської ОПП «Прикладна (комп’ютерна) лінгвістика та англійська мова»

магістерської ОНП «Прикладна лінгвістика: редакторсько-перекладацька та експертна діяльність»

3 of 26

Корпус паралельных текстів

це сукупність параметризованих текстів однієї мови і їх переклад іншою мовою або переклад декількома мовами, зіставлених паралельно за реченнями та абзацами.

4 of 26

Функції паралельного корпусу

  1. ілюстративно-перекладацька: використання корпусу як текстоорієнтованого перекладного словника;
  2. дослідницька: використання корпусу для вирішення дослідницьких завдань у різних галузях порівняльного мовознавства та літературознавства;
  3. навчальна: використання корпусу у вивченні іноземної мови, а також автоматичне укладання лексичних мінімумів різних навчальних дисциплін;
  4. автоматичного перекладу: використання корпусу у системах машинного перекладу із перекладацькою пам’яттю.

5 of 26

Перший етап параметризації – вирівнювання тексту

Вирівнювання паралельних текстів – зіставлення текстових сегментів оригінального та перекладного тесту за змістовою відповідністю речень та абзаців.

6 of 26

7 of 26

Чи можливе автоматичне вирівнювання текстів паралельного корпусу?

Маркери автоматичного вирівнювання текстів

  • абзац -
  • крапка - ".";
  • знак питання - "?“.
  • знак оклику - "!".

Чинники, що впливають результат автоматичного вирівнювання:

  1. Пунктуаційна багатозначність "."; "?", "!" у цифрових записах, прямій мові, заголовках та ін.;
  2. нееквівалентне структурування на абзаци і речення оригінального і перекладного тексту.

8 of 26

Варіанти відповідностей між перекладними моделями:

На рівні абзаців:

1) кількість абзаців у двох варіантах текстів однакова;

2) кількість абзаців у двох варіантах текстів різна;

3) кількість абзаців у двох варіантах текстів однакова, але речення розподілені за абзацами по-різному;

4) рядок поетичного тексту є абзацом;

5) абзац оригінального тексту не має перекладу у паралельному тексті;

6) абзац перекладного тексту не має еквівалента в оригінальному тексті;

На рівні речень:

1) одне речення перекладається одним реченням;

2) два речення перекладаються одним реченням;

3) одне речення перекладається двома або декількома реченнями;

4) два речення перекладаються двома реченнями, але їхні межі не збігаються;

5) речення оригінального тексту не перекладене;

6) речення перекладного тексту не має еквівалента в оригіналі.

9 of 26

10 of 26

Уведення текстів здійснюється у такій послідовності завдань:

1. Попереднє редагування тексту.

2. Перекодування тексту в код UTF-8.

3. Запис метатекстової інформації за параметрами картки і вибір жанрово-стильової ознаки тексту.

4. Уведення і збереження українського тексту.

5. Уведення і збереження паралельного тексту.

6. Автоматична початкова обробка текстів.

7. Автоматичне // автоматизоване вирівнювання абзаців.

8. Автоматичне // автоматизоване вирівнювання речень.

9. Після вирівнювання речень тексти вважаються введеними.

11 of 26

12 of 26

13 of 26

14 of 26

Тестовий етап укладання

Корпусу паралельних текстів

  • Програмне забезпечення, розроблене Сорокіним В.М.
  • Робота проводиться в on-line режимі за реєстрацією учасників проекту.
  • Корпус не виставлений для інтернет-користувача.
  • Розбудова структури корпусу і вдосконалення технічних можливостей.
  • Обсяг текстової БД (українсько-англійської): 11449 речень, 128 текстів.

15 of 26

Інтерактивна робота з корпусом

http://www.mova.info/pcorpus_list.aspx

http://www.mova.info/pcorpus_UA.aspx

Комп'ютерна система укладання паралельного корпусу, яка працює в режимі оn-linе і передбачає одночасне введення текстів різними укладачами. Ця система автоматично формує БД паралельних текстів за двома параметрами вирівнювання:

  1. абзацами;
  2. реченнями.

Інтерфейс паралельного корпусу як готового лінгвістичного інформаційного продукту. Ця система здійснює різні пошукові класифікації за запитом користувача, враховуючи морфологічну параметризацію українських текстів.

16 of 26

17 of 26

Ілюстративно-перекладацька функція

  • визначає паралельний корпус як довідкову перекладацьку систему для пересічного користувача. Така система допоможе знайти правильний переклад слова чи якоїсь синтагми за записаним пошуковим запитом.

18 of 26

19 of 26

Навчальна функція

Передбачає:

  • використання корпусу як довідкової перекладацької системи у вивченні іноземної мови,
  • автоматичне укладання різних навчальних словників на базі лексичних мінімумів різних навчальних дисциплін.

20 of 26

Дослідницька функція

перекладна лексикографія і порівняльна лексикології

порівняльна граматика та

лінгвістика тексту

  • автоматичне укладання найрізноманітніших перекладних словників
  • збагачення текстової ілюстрації в існуючих словниках,
  • збагачення словників стійкими словосполученнями, неологізмами
  • визначення текстово-актуалізованих значень слововживань,
  • визначення термінів і термінологічних словосполучень
  • автоматичне укладання різноманітних частотних двомовних морфемних та граматичних словників: словоформ певної граматичної категорії, типу словозміни, словосполучень, структур речень та ін.
  • автоматичне визначення стилю тестів за частотними ознаками
  • створення двомовних і багатомовних конкордансів
  • виявлення зв’язків між реченнями в абзацах та між абзацами у тексті

21 of 26

Конкорданс дієслів теперішнього часу, 3-ї особи однини із –ся на рівні речень.

22 of 26

Конкорданс дієслів теперішнього часу, 3-ї особи однини із –ся на рівні абзаців.

23 of 26

Функція автоматичного перекладу

Передбачає формування

  • конкордансів слів, які мають декілька перекладних еквівалентів,
  • перекладних БД термінологічних та стійких словосполучень за галузями перекладу,
  • використання БД перекладних відповідностей як електронних бібліотек в автоматичному перекладі у системах машинного перекладу із перекладацькою пам’яттю.

24 of 26

Фрагмент перекладного українсько-англійського словника лабораторної роботи із курсу “Основи автоматичного перекладу”

25 of 26

Послівний переклад за словником�словоформ.

  • import dictionary
  • dictionary = {'Ukrainian to English':dictionary.UkrtoEng}
  • def translateWord(word, dictionary):
  • if word in dictionary.keys():
  • return dictionary[word]
  • elif word != '':
  • return word
  • return word
  • def translate(phrase, dicts, direction):
  • letters = 'АаБбВвГ㥴ДдЕеЄєЖжЗзИиІіЇїЙйКкЛлМмНнОоПпРрСсТтУуФфХхЦцЧчШшЩщЬьЮюЯяABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'
  • dictionary = dicts[direction]
  • translation = ''
  • word = ''
  • for c in phrase:
  • if c in letters:
  • word = word + c
  • else:
  • translation = translation\
  • + translateWord(word, dictionary) + c
  • word = ''
  • return translation + ' ' + translateWord(word, dictionary)
  • ukr_text = open("lowercase_ukr_depeche_mode.txt","r").read()
  • output = open("output_final_translation.txt","w")
  • output.write(translate(ukr_text, dictionary,'Ukrainian to English')) output.close()

.У програму імпортується великий перекладний словник словоформ, укладений за паралельним корпусом вручну.

Функція програми, яка має�на вхід текст, перевіряє по черзі кожне слово у тексті. Якщо таке слово є у словнику - відбувається заміна на перекладний відповідник із�словника. Якщо не знаходить слово із тексту у словнику - залишає його без перекладу.�

26 of 26

Дякую за увагу