“ОCR-технології для розпізнавання паперових документів”
Урок 14
МОДУЛЬ “ЕЛЕКТРОННИЙ ДОКУМЕНТООБІГ”
Оптичне розпізнавання тексту (англ. optical character recognition, OCR) — це механічне або електронне переведення збереженого
рукописного, машинописного або друкованого тексту в послідовність кодів, що використовують для представлення в текстовому редакторі
Оптичне розпізнавання тексту дозволяє:
редагувати текст;
здійснювати пошук по словах або фразах;
зберігати його в компактнішій формі;
демонструвати або роздруковувати матеріал, не втрачаючи якості;
аналізувати інформацію;
застосовувати до тексту електронний переклад, форматування або перетворення в мовлення.
З точки зору дій над зображеннями, OCR-система повинна розбити сторінку на блоки, що являють собою:
Найскладніший та трудомісткий процес розпізнання пов’язаний з текстом, оскільки при його ідентифікації потрібно враховувати особливості вирівнювання тексту, наявності декількох колонок та інші елементи форматування.
текстовий зміст
графіку
таблиці та інші елементи
Методи розпізнавання тексту
Шаблонний метод
Структурний метод
Ознаковий метод
Сучасні програми з OCR вміють:
Етапи розпізнавання тексту:
Сканування
Розпізнавання
Збереження
Пристрої для сканування паперових документів сканери поділяються на:
Планшетні
З протяжним механізмом
Ручні
Скан-камери
Основними властивостями сканерів є:
розмір області сканування;
роздільна здатність (від 600 до більш ніж 6400 точок на дюйм);
швидкість сканування (5-20 с).
Програмне забезпечення для розпізнавання документів:
ABBYY FineReader
Freemore OCR
Readiris
Онлайнові сервіси для розпізнавання документів:
Онлайнові сервіси для розпізнавання документів:
Онлайнові сервіси для розпізнавання документів:
Додатки для смартфонів:
Завдання
Завантажити один із запропонованих додатків для розпізнавання тексту.
Розпізнати текст будь-якого підручника (1 сторінка).
Результат розпізнавання оцінити на наявність посилань.
Зробити скріншоти етапів розпізнавання.
Визначити переваги та недоліки.
Результат оформити в колективну презентацію Google (на слайді повинна бути назва додатку, скріншоти етапів розпізнавання, переваги та недоліки додатку).