ПАРАЛЕЛЬНИЙ КОРПУС ТЕКСТІВ: �СТРУКТУРА, АСПЕКТИ ПАРАМЕТРИЗАЦІЇ� ТА ТЕХНОЛОГІЇ УКЛАДАННЯ
Зубань Оксана
Київський національний університет
імені Тараса Шевченка
Корпус паралельних текстів ˗ це новий проект лабораторії комп'ютерної лінгвістики �КНУ імені Т. Шевченка, розпочатий у 2017 р.
Дарчук Наталія Петрівна
Лангенбах Маргарита Олександрівна
Зубань Оксана Миколаївна
Сорокін Віктор Михайлович
Студенти КНУ імені Тараса Шевченка
бакалаврської ОПП «Прикладна (комп’ютерна) лінгвістика та англійська мова»
магістерської ОНП «Прикладна лінгвістика: редакторсько-перекладацька та експертна діяльність»
Корпус паралельных текстів –
це сукупність параметризованих текстів однієї мови і їх переклад іншою мовою або переклад декількома мовами, зіставлених паралельно за реченнями та абзацами.
Функції паралельного корпусу
Перший етап параметризації – вирівнювання тексту
Вирівнювання паралельних текстів – зіставлення текстових сегментів оригінального та перекладного тесту за змістовою відповідністю речень та абзаців.
Чи можливе автоматичне вирівнювання текстів паралельного корпусу?
Маркери автоматичного вирівнювання текстів
Чинники, що впливають результат автоматичного вирівнювання:
Варіанти відповідностей між перекладними моделями:�
На рівні абзаців:
1) кількість абзаців у двох варіантах текстів однакова;
2) кількість абзаців у двох варіантах текстів різна;
3) кількість абзаців у двох варіантах текстів однакова, але речення розподілені за абзацами по-різному;
4) рядок поетичного тексту є абзацом;
5) абзац оригінального тексту не має перекладу у паралельному тексті;
6) абзац перекладного тексту не має еквівалента в оригінальному тексті;
На рівні речень:
1) одне речення перекладається одним реченням;
2) два речення перекладаються одним реченням;
3) одне речення перекладається двома або декількома реченнями;
4) два речення перекладаються двома реченнями, але їхні межі не збігаються;
5) речення оригінального тексту не перекладене;
6) речення перекладного тексту не має еквівалента в оригіналі.
Уведення текстів здійснюється у такій послідовності завдань:
1. Попереднє редагування тексту.
2. Перекодування тексту в код UTF-8.
3. Запис метатекстової інформації за параметрами картки і вибір жанрово-стильової ознаки тексту.
4. Уведення і збереження українського тексту.
5. Уведення і збереження паралельного тексту.
6. Автоматична початкова обробка текстів.
7. Автоматичне // автоматизоване вирівнювання абзаців.
8. Автоматичне // автоматизоване вирівнювання речень.
9. Після вирівнювання речень тексти вважаються введеними.
Тестовий етап укладання
Корпусу паралельних текстів
Інтерактивна робота з корпусом
http://www.mova.info/pcorpus_list.aspx
http://www.mova.info/pcorpus_UA.aspx
Комп'ютерна система укладання паралельного корпусу, яка працює в режимі оn-linе і передбачає одночасне введення текстів різними укладачами. Ця система автоматично формує БД паралельних текстів за двома параметрами вирівнювання:
Інтерфейс паралельного корпусу як готового лінгвістичного інформаційного продукту. Ця система здійснює різні пошукові класифікації за запитом користувача, враховуючи морфологічну параметризацію українських текстів.
Ілюстративно-перекладацька функція
Навчальна функція
Передбачає:
Дослідницька функція
перекладна лексикографія і порівняльна лексикології
порівняльна граматика та
лінгвістика тексту
Конкорданс дієслів теперішнього часу, 3-ї особи однини із –ся на рівні речень.
Конкорданс дієслів теперішнього часу, 3-ї особи однини із –ся на рівні абзаців.
Функція автоматичного перекладу
Передбачає формування
Фрагмент перекладного українсько-англійського словника лабораторної роботи із курсу “Основи автоматичного перекладу”
Послівний переклад за словником�словоформ.
.У програму імпортується великий перекладний словник словоформ, укладений за паралельним корпусом вручну.
Функція програми, яка має�на вхід текст, перевіряє по черзі кожне слово у тексті. Якщо таке слово є у словнику - відбувається заміна на перекладний відповідник із�словника. Якщо не знаходить слово із тексту у словнику - залишає його без перекладу.�
Дякую за увагу