1 of 12

ОЦЕНКА КОЛИЧЕСТВЕННЫХ ПАРАМЕТРОВ ТЕКСТОВЫХ ДОКУМЕНТОВ

ОБРАБОТКА ТЕКСТОВОЙ ИНФОРМАЦИИ

2 of 12

Ключевые слова

  • кодовая таблица
  • восьмиразрядный двоичный код
  • информационный объём текста

3 of 12

Представление текстовой информации в памяти компьютера

Текст состоит из символов - букв, цифр, знаков препинания и т. д., которые компьютер различает по их двоичному коду.

Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц.

Кодовая таблица

0 – 32 - управляющие символы

33 – 127 латинские буквы, знаки препинания, цифры, знаки арифметических операций

128 – 256 буквы национального

алфавита

ASCII

4 of 12

Представление текстовой информации в памяти компьютера

Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц.

Фрагмент кодовой таблицы ASCII

Символ

Десятичный код

Двоичный код

Символ

Десятичный код

Двоичный код

Пробел

32

00100000

0

48

00110000

!

33

00100001

1

49

00110001

#

35

00100011

2

50

00110010

$

36

00100100

3

51

00110011

*

42

00101010

4

52

00110100

=

43

00101011

5

53

00110101

,

44

00101100

6

54

00110110

-

45

00101101

7

55

00110111

_

46

00101110

8

56

00111000

/

47

00101111

9

57

00111001

A

65

010000001

N

78

01001110

B

66

01000010

O

79

010001111

C

67

01000011

P

80

01010000

Коды русских букв в разных кодировках

Символ

Кодировка

Windows

КОИ-8

десятичный код

двоичный код

десятичный код

двоичный код

А

192

11000000

225

11100001

Б

193

11000001

226

11100010

В

194

11000010

247

11110111

Стандарт кодирования символов Unicode позволяет пользоваться более чем двумя языками.

В Unicode каждый символ кодируется шестнадцатиразрядным двоичным кодом. Такое количество разрядов позволяет закодировать 65 536 различных символов: 216 = 65 536.

5 of 12

Информационный объём фрагмента текста

I = K×i

I - информационный объём сообщения

Kколичество символов

iинформационный вес символа

В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:

  • 8 битов (1 байт) - восьмиразрядная кодировка;
  • 6 битов (2 байта) - шестнадцатиразрядная кодировка.

Информационный объём фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговорённым способом кодирования.

6 of 12

Информационный объём фрагмента текста

Задача 1. Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Жан-Жака Руссо:

Тысячи путей ведут к заблуждению, к истине - только один.

Решение

В данном тексте 57 символов (с учётом знаков препинания и пробелов). Каждый символ кодируется одним байтом. Следовательно, информационный объём всего текста - 57 байтов.

Ответ: 57 байтов.

7 of 12

Информационный объём фрагмента текста

Задача 2. В кодировке Unicode на каждый символ отводится два байта. Определите информационный объём слова из 24 символов в этой кодировке.

Решение.

I = 24 × 2 = 48 (байтов).

Ответ: 48 байтов.

8 of 12

Информационный объём фрагмента текста

Задача 3. Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в 8-битовом коде, в 16-битовую кодировку Unicode. При этом информационное сообщение увеличилось на 2048 байтов. Каков был информационный объём сообщения до перекодировки?

Решение

Информационный вес каждого символа в 16-битовой кодировке в два раза больше информационного веса символа в 8-битовой кодировке. Поэтому при перекодировании исходного блока информации из 8-битовой кодировки в 16-битовую его информационный объём должен был увеличиться вдвое, другими словами, на величину, равную исходному информационному объёму. Следовательно, информационный объём сообщения до перекодировки составлял 2048 байтов = 2 Кб.

Ответ: 2 Кбайта.

9 of 12

Информационный объём фрагмента текста

Ответ: 3,39 Мбайт.

K = 740 × 80 × 60

N = 256

I - ?

256 = 2i = 28, i = 8

К = 740 × 80 × 60 × 8 = 28 416 000 бит = 3 552 000 байтов =

= 3 468,75 Кбайт 3,39 Мбайт.

I = K × i

N = 2i

Решение

Задача 4. Выразите в мегабайтах объём текстовой информации в «Современном словаре иностранных слов» из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы). Считайте, что при записи использовался алфавит мощностью 256 символов.

10 of 12

Текст состоит из символов - букв, цифр, знаков препинания и т. д., которые человек различает по начертанию. Компьютер различает вводимые символы по их двоичному коду. Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.

В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:

  • 8 битов (1 байт) - восьмиразрядная кодировка;
  • 6 битов (2 байта) - шестнадцатиразрядная кодировка.

Информационный объём фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговорённым способом кодирования.

Самое главное

11 of 12

Вопросы и задания

Почему кодировки, в которых каждый символ кодируется цепочкой из восьми нулей и единиц, называются иначе однобайтовыми?

С какой целью была введена кодировка Unicode?

Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Алексея Толстого:

Не ошибается тот, кто ничего не делает, хотя это и есть его основная ошибка.

  1. 512 битов
  2. 608 битов
  3. 8 Кбайт
  4. 123 байта

Считая, что каждый символ кодируется 16 битами, оцените информационный объем следующей фразы А. С. Пушкина в кодировке Unicode:

Привычка свыше нам дана: Замена счастию она.

  1. 44 бита
  2. 704 бита
  3. 44 байта
  4. 704 байта

В текстовом режиме экран монитора компьютера обычно разбивается на 25 строк по 80 символов в строке. Определите объём текста, занимающего весь экран монитора, в кодировке Unicode.

Сообщение занимает 6 страниц по 40 строк, в каждой строке записано по 60 символов. Информационный объём всего сообщения равен 28800 байтам. Сколько двоичных разрядов было использовано на кодирование одного символа?

Сообщение, информационный объём которого равен 5 Кбайт, занимает 4 страницы по 32 строки, в каждой из которых записано по 40 символов. Сколько символов в алфавите языка, на котором записано это сообщение?

В кодировке ASCII каждый символ кодируется 8 битами. Определите информационный объём сообщения в этой кодировке:

Длина данного текста 32 символа.

  1. 32 бита
  2. 320 битов
  3. 32 байта
  4. 256 байтов

В какой кодировочной таблице можно закодировать 65 536 различных символов?

  1. ASCII
  2. Windows
  3. КОИ-8
  4. Unicode

12 of 12

8 битов

16 битов

Опорный конспект

Компьютер различает вводимые символы по их двоичному коду. Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.

I = K x i

Информационный вес символа

Windows

Unicode

I - информационный объём сообщения

Kколичество символов

iинформационный вес символа

ASCII

КОИ-8