1 of 15

“ОCR-технології для розпізнавання паперових документів”

Урок 14

МОДУЛЬ “ЕЛЕКТРОННИЙ ДОКУМЕНТООБІГ”

2 of 15

Оптичне розпізнавання тексту (англ. optical character recognition, OCR) — це механічне або електронне переведення збереженого

рукописного, машинописного або друкованого тексту в послідовність кодів, що використовують для представлення в текстовому редакторі

3 of 15

Оптичне розпізнавання тексту дозволяє:

редагувати текст;

здійснювати пошук по словах або фразах;

зберігати його в компактнішій формі;

демонструвати або роздруковувати матеріал, не втрачаючи якості;

аналізувати інформацію;

застосовувати до тексту електронний переклад, форматування або перетворення в мовлення.

4 of 15

З точки зору дій над зображеннями, OCR-система повинна розбити сторінку на блоки, що являють собою:

Найскладніший та трудомісткий процес розпізнання пов’язаний з текстом, оскільки при його ідентифікації потрібно враховувати особливості вирівнювання тексту, наявності декількох колонок та інші елементи форматування.

текстовий зміст

графіку

таблиці та інші елементи

5 of 15

Методи розпізнавання тексту

Шаблонний метод

Структурний метод

Ознаковий метод

6 of 15

Сучасні програми з OCR вміють:

  • розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними
  • коректно працювати з текстами, які містять слова на декількох мовах
  • розпізнавати таблиці
  • розпізнавати нечітко набрані чи написані тексти

7 of 15

Етапи розпізнавання тексту:

Сканування

Розпізнавання

Збереження

8 of 15

Пристрої для сканування паперових документів сканери поділяються на:

Планшетні

З протяжним механізмом

Ручні

Скан-камери

9 of 15

Основними властивостями сканерів є:

розмір області сканування;

роздільна здатність (від 600 до більш ніж 6400 точок на дюйм);

швидкість сканування (5-20 с).

10 of 15

Програмне забезпечення для розпізнавання документів:

ABBYY FineReader

Freemore OCR

Readiris

11 of 15

Онлайнові сервіси для розпізнавання документів:

  • FineReader Online (finereaderonline.com)

12 of 15

Онлайнові сервіси для розпізнавання документів:

  • Img2txt (img2txt.com/uk)

13 of 15

Онлайнові сервіси для розпізнавання документів:

  • SODA PDF OCR (sodapdf.com/ocr-pdf/)

14 of 15

Додатки для смартфонів:

15 of 15

Завдання

Завантажити один із запропонованих додатків для розпізнавання тексту.

Розпізнати текст будь-якого підручника (1 сторінка).

Результат розпізнавання оцінити на наявність посилань.

Зробити скріншоти етапів розпізнавання.

Визначити переваги та недоліки.

Результат оформити в колективну презентацію Google (на слайді повинна бути назва додатку, скріншоти етапів розпізнавання, переваги та недоліки додатку).