© Лаб. № 221 АІПІ НАН Беларусі: Ю.С. Гецэвіч, А.М. Скопінава, Г.Р. Станіславенка

Рэкамендацыі, як правяраць свае тэксты (артыкулы, справаздачы, пераклады і т.д.) на арфаграфічную правільнасьць  беларускай мовы

Спасылка на гэты док:

https://docs.google.com/document/d/1tlFeT3K-gWmbz8-jW7cFebNcWNnR_yagut9Ic_5z1FM/pub

 

Можна скарыстацца любым з трох спосабаў:

Спосаб 1

Актыўная спасылка - Вычытка тэкстаў праз сэрвісы www.Corpus.by (кароткае (і ўжо не поўнае) апісанне ў выглядзе прэзентацыі на нашым сайце)

Для поўнай вычыткі тэкстаў патрэбна прайсці 5 этапаў вычыткі тэкстаў праз сэрвісы www.Corpus.by.

Мал1.png

Мал.1. Галоўная старонка Інтэрнэт-платформы для апрацоўкі натуральнага маўлення www.Corpus.by 

У якасці першага этапу вычыткі мы прапаноўваем выкарыстаць сэрвіс “Інфармацыя аб сімвалах”, які прааналізуе тэкст і пакажа ўсе сімвалы, выкарастаныя пры яго напісанні. Гэта дазволіць выявіць і выправіць памылковае выкарыстанне тых ці іншых сімвалаў, што палепшыць далейшую працу з тэкстам і яго апрацоўку праз іншыя сэрвісы, якія працуюць толькі з абмежаваным наборам сімвалаў. Напрыклад, калі ў цалкам кірылічным беларускамоўным тэксце з’явяцца лацінскія літары (“а”, “і”, “с” і г.д.), то падчас далейшай вычытцы могуць узнікнуць праблемы з правільным “чытаннем” сэрвісам гэтага тэксту. Варта адзначыць важнасць гэтага сэрвісу для праверкі пунктуацыйных памылак, так як ён паказвае колькасць выкарастаных, напрыклад, дужак, і калі колькасць левых і правых дужак не супадае, то хутчэй за ўсё ў тэксце ёсць пунктуацыйныя памылкі, якія могуць паўплываць на правільнасць разумення тэксту. Таксама праз сэрвіс можна праверыць выкарыстанне кароткіх і доўгіх працяжнікаў і дэфісаў, слэшаў, розных відаў двукоссяў.

Мал 2.png

Мал. 2. Вынікі працы сэрвісу “Інфармацыя аб сімвалах

У гэтым жа этапе патрэбна праверыць тэкст на правільнае выкарыстаньне ўсіх лацінскіх сімвалаў. Часта можа быць так, што ў тэксьце замест кірылічных сімвалаў некалькі разоў паўтараюцца візуальна аднолькавыя сімвалы. Напрыклад, у тэксце “Грушa цвiлa апoшнi гoд. Усе галіны яе, усе вялікія расохі, да апошняга пруціка, былі ўсыпаны буйным бела-ружовым цветам.” У некаторых словах выкарыстаныя лацінскія сімвалы “і”, “о”, “а”. Каб іх хутка знасьці, патрэбна выкарыстаць сэрвіс сэрвіс “Падлік частотнасці слоў. У ім у полі “Сімвалы, з якіх можа складацца слова:” патрэбна пакінуць толькі сімвалы лацінскага алафавіта. Таксама для зручнасьці прагляду вынікаў працы сэрвіса рэкамендуецца адключыць гачак “Выводзіць асобна левыя і правыя кантэксты”.

Мал. 3. Настройка працы сэрвіса Падлік частотнасці слоўдля пошуку няправільна выкарыстаных лацінскіх сімвалаў.

Разгледзім вынікі працы сэрвіса:

Мы бачым, што вынікі адсартаваныя па частаце. Найбольшая частата 3. А першапачаткова было пазначана, выводзіць толькі 2 кантэксты. Варта атрымаць вынікі працы сэрвіса, але ўжо з пазнакай “Каолькасьць кантэкстаў” - 3. (У Вашым тэксьце павінна быць выстаўленая найбольшая частата.).

Разгледзім абноўленыя вынікі:

Цяпер сэрвіс адназначна паказвае сапраўдныя колькасьці прыкладаў з кантэкстамі. У словах пазначаныя тыя сімвалы, якія ёсьць у лацінскім алфавіце. Іх трэба правіць. Аналагічна можна правяраць правільнасьць ужываньня лікаў (пакідаем за ўваходны алфавіт толькі лічбы 01 … 9). Аналагічна можна правяраць правільнасьць ужываньня кірылічных сімвалаў (пакідаем за ўваходны алфавіт толькі кірыліцу АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдежзийклмнопрстуфхцчшщъыьэюяЂЃѓЉЊЌЋЏђљњќћџЎўЈҐЁЄЇІіґёєјЅѕї).

Другім этапам будзе праверка правапісу “Ў” праз сэрвіс  “Праверка правапісу "у" і "ў". Алгарытм сэрвісу дзейнічае наступным чынам: шукае “у” ці “ў”, глядзіць на папярэднюю літару ці знакі прыпынку, таксама шукае вялікую Ў. Гэта значыць, што ў сэрвіс убудаваныя не правілы, а аўтаматычны пошук пэўных літар і сімвалаў. Таксама алгарытм шукае словы, якія сканчваюцца на “ум” ці “ус”, але ўспрымае толькі пачатковую форму. Праз такую аўтаматычнасць працы сэрвісу праверка вынікаў апрацоўкі тэкстаў застаецца за чалавекам.

Мал3.png

Мал. 3. Вынікі працы сэрвісу “Праверка правапісу "у" і "ў"

Трэцім этапам з’яўляецца паслоўная апрацоўка тэксту. З дапамогай сэрвісу “SpellChecker” тэкст правяраецца на словы, якія адсутнічаюць у слоўніку. Гэтыя словы выводзяцца ў выглядзе спісу з магчымасцю адзначыць правільнасць таго ці іншага слова і пабачыць кантэкст яго выкарыстання.  Таксама сэрвіс дае магчымасць ігнараваць пэўныя словы. Аднак гэты слоўнік не дасканалы, яго патрэбна папаўняць новымі словамі, адсутнымі ў слоўніку.

Мал4.png

Мал. 4. Вынікі працы сэрвісу “SpellChecker

                    Чацвёртым этапам вычыткі тэстаў праз сэрвісы www.corpus.by ёсць выяўленне амографаў і расстаноўка націскаў у шматзначных словах. Для гэтага трэба скарыстацца сэрвісам “Ідэнтыфікатар амографаў. Сэрвіс паказвае карыстальніку, якія словы могуць мець рознае прачытанне. Асабліва “небяспечнымі” з’яўляюцца амографы адной парадыгмы ці адной часціны мовы. Праглядзеўшы табліцу з амографамі, дзе таксама пададзены кантэксты слоў, карэктар прыймае рашэнне, у якім слове і на які склад трэба паставіць націск.

амографы.png

Мал. 5. Вынікі працы сэрвісу “Ідэнтыфікатар амографаў

Апошнім этапам можа быць складанне слоўніка-частотніка з кантэкстамі праз сэрвіс “Частотнасць слоў. Пасля апрацоўкі тэксту карыстальнік можа пабачыць усе ўжытыя ў тэксце словы з падлічанай частатою з’яўлення ў тэксце разам з кантэкстамі (колькасць кантэкстаў можна абраць самастойна). Гэты сэрвіс дапаможа паскорыць стылістычную вычытку, так як карэктар будзе бачыць ці ў адным значэнні выкарыстоўваецца тое ці іншае слова. Карыстальнік можа таксама скарыстацца полем “Шукаць толькі наступныя словы”. Сэрвіс “Частотнасць слоў” накіраваны на вырашэнне многіх лінгвістычных задач і можа працаваць з любой мовай, дакладней з любой сістэмай сімвалаў.

Мал5.png

Мал. 6. Вынікі працы сэрвісу “Частотнасць слоў

Спосаб 2

Праверце тэкст на УЎ. Спасылка на сэрвіс (http://corpus.by/u_check/).

Выпраўце памылкі, якія Вы не заўважылі. Паўтарайце праверкі і праўкі столькі разоў, пакуль Вам не прыйдзецца хоць нешта правіць у Вашым тэксьце, бо часта новыя абдрукоўкі ўзьнікаюць пасьля правак абдруковак.

1. Адкрыць Нудж

(Спачатку ставіце бясплатную праграму Нудж  http://nooj4nlp.net/pages/download.html)

2. Адкрыць Наладкі

 

3. Выбраць рэсурсы для беларускай мовы

4. Калі іх у вас няма, то спампуйце модуль Belarusian па спасылцы: http://www.nooj4nlp.net/pages/resources.html 

Разархівіруйце спампаваную тэчку і пакладзіце яе ў тэчку My Documents на вашым камп’ютэры.

Шлях будзе прыкладна такі:

C:\Users\User\Documents\NooJ\be 

А распакаваныя рэсурсы будуць выглядаць так:

c:\Users\Admin\Documents\NooJ\be\Lexical Analysis\

c:\Users\Admin\Documents\NooJ\be\Projects\

c:\Users\Admin\Documents\NooJ\be\Syntactic Analysis\

c:\Users\Admin\Documents\NooJ\be\README.rtf

У выпадку праблем карыстайціся інструкцыяй да праграмы NooJ http://www.nooj4nlp.net/NooJManual.pdf

5. Вяртаемся да пункта 3, націска́ем на ўкладку лексічнага аналізу і падключаем тыя слоўнікі, на якіх як на прынтскрыне ніжэй стаіць птушка.

! У марфаралічным і сінтаксічным аналізе лепш адключы́ць усе граматыкі, каб толькі асноўны слоўнік быў прыменены да Вашага тэксту.

Націска́ем Эплай (Apply).

! Пры кожным запуску Нуджа правяраем, ці падключаныя слоўнікі. Каб гэта 100500 разоў не рабіць, можна націснуць на ўкладках і выбару мовы рэсурсаў, і ўкладцы лексічнага аналізу кнопку Save… .

6. Адкрываем Ваш тэкст праз каманду File - Open - Text і праз выбар Import text замест NooJ-formated Text:

Выбіраем правільную мову для Вашага тэксту be, і фармат doc. Націска́ем OK.

Адкрываецца Ваш тэкст:

7. Робім лінгвістычны аналіз (клік правай кнопкай па тэксце), выбар Linguistic Analysis

8. Шукаем (пры дапамозе скрола ) укладку Unknowns:

 

9. Націска́ем Unknowns:

10. Тэарэтычна ў высыпаных словах ёсць памылкі:

11. Правяраем спіс:

Напрыклад, слова абмежаваньнем - умоўна памылка для правапісу, калі Вы не карыстаеціся зараз спецыяльна тарашкевіцай.

Калі памылак на Вашую думку ў сьпісе няма, то крок 17, інакш - крок 13.

13. Уносім праўкі ў Ваш зыходны файл з тэкстам (не ў акне NooJ).

! Увага: слова з памылкай можа паўтарацца ў Вашым тэксьце некалькі разоў.

Пэўнае слова з памылкай у Вордзе шукаецца праз каманду Ctrl+F

Зноў уносім праўкі, калі патрэбна.

Так працягваем з кожным словам са спісу Unknown. Калі памылкі скончыліся, то крок 14.

14. Закрываем NooJ.

15. Захоўваем Ваш зыходны файл.

16. І праходзім яшчэ раз крокі 6-11. (Гэта дазволіць Вам пазьбегнуць памылак, якія Вы маглі зрабіць пры ўнясеньні правак знойдзеных памылак. Спыняем працэс толькі тады, калі пасьля крока 11 Вам не патрэбна пераходзіць на крок 13.)

17. Гладзім сябе па галоўцы.:)

Спосаб 3. 

0. Усталюйце сабе праграму VocEditor. Праграму для папаўненьня слоўніка сінтэзатара маўленьня Multiphone. Для гэтага скарыстайціся кантактаваньнем з распаўсюднікам - http://new.ssrlab.by/kantakty )

1. Адкрываем Пуск, шукаем VocEditor

 -------->

2. Запускаем:

3. Выбіраем мову рэсурсаў беларускую

4. У акенца, дзе напісана слова “шляхта”  

копіпасцім свой тэкст:

5. Націска́ем Process LP справа

6. Апускаем вочы яшчэ правей і ўніз. У акенцы, дзе раней было напісана клу+мп_ASBNM

  

зараз высыпаны спіс невядомых слоў (тэарэтычных памылак):

7. Правяраем спіс:

Напрыклад, слова абмежаваньнем - умоўна памылка для правапісу, калі Вы не карыстаеціся зараз спецыяльна тарашкевіцай.

Калі памылак на Вашую думку ў сьпісе няма, то крок 12, інакш - крок 8.

8. Уносім праўкі ў Ваш зыходны файл з тэкстам (не ў акне VocEditor).

! Увага: слова з памылкай можа паўтарацца ў Вашым тэксьце некалькі разоў.

Пэўнае слова з памылкай у Вордзе шукаецца праз каманду Ctrl+F

Зноў уносім праўкі, калі патрэбна.

Так працягваем з кожным словам са спісу невядомых слоў. Калі памылкі скончыліся, то крок 9.

9. Закрываем VocEditor.

10. Захоўваем Ваш зыходны файл.

11. І праходзім яшчэ раз крокі 1-7. (Гэта дазволіць Вам пазьбегнуць памылак, якія Вы маглі зрабіць пры ўнясеньні правак знойдзеных памылак. Спыняем працэс толькі тады, калі пасьля крока 7 Вам не патрэбна пераходзіць на крок 8.)

12. Гладзім сябе па галоўцы.:),