1 of 41

Основи статистичного аналізу даних. Ряди даних

Урок 9

10

2 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Вам уже відомо з курсу алгебри 9-го класу, що в багатьох:

дослідженнях для аналізу даних

установлення певних закономірностей

формулювання висновку

надання рекомендацій

прогнозування тощо

потрібно використати багато даних. Ви знаєте, що методи отримання, опрацювання й аналізу даних, які характеризують масові явища, вивчає наука статистика.

10

3 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Так, наприклад,

для аналізу тенденцій змінення маси учнів 10-х класів України за останні роки

ризику серцевих захворювань людей певного віку на планеті

популярності продуктів харчування серед населення певного регіону

Потрібно проаналізувати сотні тисяч або навіть мільйони даних.

10

4 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Зрозуміло, що,

провести зважування

вивчити історії хвороб

провести анкетування

Сотень тисяч або навіть мільйонів людей практично неможливо. Тому для аналізу створюють певну вибірку об'єктів дослідження, тобто з усієї множини об'єктів дослідження відбирають певну кількість і на ній проводять дослідження. Що більше така вибірка, то точніше буде проведено аналіз і зроблено відповідні висновки. Тобто вибірка повинна бути масовою.

10

5 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Але не тільки кількість даних у вибірці визначає рівень точності аналізу і висновків. Так,

у першому і другому з наведених вище прикладів доцільно вибирати

у третьому доцільно вибирати

людей різних регіонів і різної статі

людей різного віку

Кажуть, що вибірка даних має бути репрезентативною (франц. Representatif — показовий, характерний, типовий).

10

6 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Дані, отримані з дослідженої вибірки, найчастіше заносять у таблицю.

Така форма подання даних з вибірки зручна для їх аналізу та прогнозів. Дані з кожного рядка і стовпця такої таблиці утворюють ряди даних.

10

7 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Наведемо кілька прикладів вибірок і рядів даних.

У таблиці подано результати виступів команди учнівства України на міжнародних олімпіадах з інформатики з 2005 по 2017 рік.

Тут вибіркою є вказані в таблиці роки, а рядами даних — загальна кількість медалей у ці роки, а також кількість золотих, срібних і бронзових медалей у вказані роки.

Вибірка

Ряди даних

10

8 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Зауважимо, що Україна бере участь у таких олімпіадах починаючи з 1992 року. Команда кожної країни складається із чотирьох учнів. У 2016 році команда України не брала участі у такій олімпіаді.

За цими рядами даних або за деякими з них можна побудувати графіки або діаграми і візуалізувати їх, використовуючи, наприклад, табличний процесор.

10

9 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

На малюнку подано діаграму динаміки посівних площ соняшнику в Україні в 1998—2015 роках і графік врожайності соняшнику в Україні за ці роки. Тут вибіркою є 1998—2015 роки, а рядами даних — посівні площі та врожайність соняшнику в ці роки.

Динаміка посівних площ та врожайності соняшнику в Україні

10

10 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

За цими діаграмами і графіками ряди даних або частини рядів даних можна, за потреби, занести в таблицю.

Таблиця даних про врожайність соняшнику і посівну площу в Україні в 2006-2015 роках

10

11 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Як приклад розглянемо роботу синоптичної служби. Синоптична служба збирає і зберігає дані про температуру, опади, атмосферний тиск та інші показники вже понад 160 років.

10

12 of 41

Вибірка і ряди даних

Розділ 2 § 2.2

Для прогнозування температури та ймовірності опадів у Львові в першій декаді червня наступного року для проведення екскурсії потрібно вибрати відповідні дані, наприклад за останні 10—15 років саме про Львів і саме про першу декаду червня, проаналізувати отримані два ряди даних:

Зробити відповідний прогноз погоди.

про температуру

кількість опадів

10

13 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Розглянемо деякі статистичні характеристики ряду даних:

середнє арифметичне

AVERAGE

стандартне відхилення

STDEV.P

мода

MODE.SNGL (MODE.MULT)

медіана

MEDIAN

10

14 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Так, можна знайти середнє арифметичне врожайності соняшнику в Україні за 2006—2015 роки, використовуючи, наприклад, табличний процесор.

На малюнку наведено приклад обчислення середньої врожайності соняшнику за 2006—2015 роки і формулу для її обчислення

=AVERAGE (C3:C12)

10

15 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Для обчислення середнього арифметичного в табличному процесорі можна використати відому вам функцію AVERAGE (англ. average — середній). Нагадаємо, що аргументами цієї функції може бути:

діапазон клітинок

список клітинок

їх комбінації

наприклад

AVERAGE (B2:D5; F4; Е7)

10

16 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Обчислене в наведеному прикладі середнє арифметичне визначає, яка б була врожайність кожного року (1,67 т/га), якщо вона щороку була б однаковою.

Аналогічно середнє арифметичне будь-якого ряду даних визначає, які б були значення у цьому ряді, якщо б вони всі були однакові.

10

17 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Зазначимо, що не для всіх рядів даних середнє арифметичне є показовою характеристикою самого цього ряду. Наприклад, для ряду даних:

2,5; 2,8; 2,3; 2,55; 2,47

У якому дані незначно відрізняються одне від одного, середнє арифметичне дорівнює:

Що незначно відрізняється від усіх членів цього ряду, а значить, достатньо показово характеризує весь цей ряд даних.

2,524

10

18 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

А для ряду:

4,7; 6,2; 5,1; 12,4; 14,1

У якому дані значно відрізняються одне від одного, середнє арифметичне дорівнює:

8,5

Шо значно відрізняється від усіх членів цього ряду, а значить, недостатньо показово характеризує весь цей ряд даних.

10

19 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Для визначення, наскільки показово середнє арифметичне ряду даних характеризує весь ряд даних,

можна використати таку характеристику ряду даних, як стандартне відхилення. Стандартне відхилення характеризує, наскільки широко розташовані значення ряду даних відносно їх середнього арифметичного.

10

20 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Стандартне відхилення обчислюється за формулою:

Де,

 

x1, x2 , ... , xn

середнє арифметичне цього ряду даних

x0

члени ряду даних

10

21 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Для першого з вищенаведених двох прикладів рядів даних стандартне відхилення дорівнює:

 

А для другого:

 

10

22 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Очевидно,

що середнє арифметичне першого ряду даних менше відрізняється від усіх членів ряду даних, а значить,

А середнє арифметичне другого ряду даних більше відрізняється від усіх членів ряду даних, а значить,

більш показово характеризує весь цей ряд даних.

менш показово характеризує весь цей ряд даних.

10

23 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Автоматизувати обчислення стандартного відхилення в табличному процесорі можна, використавши функцію:

STDEV.P (англ. standard deviation — стандартне відхилення)

(Для версії нижче 2010 — STDEVP).

10

24 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Ще однією характеристикою ряду даних є мода.

Мода — це значення в ряді даних, яке повторюється найчастіше. Таке значення є показовим, наприклад,

під час дослідження цін на ринку

під час дослідження попиту взуття, одягу

ціна, яка

трапляється

найчастіше

розміри, які

купують

найбільше

10

25 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

У розглянутому вище прикладі, «Результати виступу команди учнівства України на міжнародних олімпіадах з інформатики за 2005—2017 роки».

мода кількостей медалей

мода кількостей золотих медалей

мода кількостей срібних медалей

мода кількостей бронзових медалей

дорівнює 4

0

1

2

Тому що найчастіше в ці роки команда нашої країни завойовувала 4 медалі.

10

26 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Якщо в ряді даних два або більше значень повторюються найбільшу кількість разів, то кожне з них вважається модою ряда даних.

Так, наприклад, у ряді даних

2, 3, 3, 2, 1

Модою є:

і число 2

число 3

10

27 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

У табличному процесорі є спеціальна функція для обчислення моди ряду даних, якщо вона одна — MODE.SNGL (англ. mode single — мода одинарна).

діапазон клітинок

список клітинок

їх комбінації

Наприклад,

MODE.SNGL (B2:D5; F4; Е7)

Аргументами цієї функції може бути:

10

28 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

На малюнку наведено приклад обчислення моди для кількостей завойованих медалей і формула для її обчислення:

=MODE.SNGL(C3:C14)

10

29 of 41

Для тих, хто хоче знати більше

Розділ 2 § 2.2

Якщо в ряді даних два або більше значень можуть повторюватися однакову найбільшу кількість разів,

то в Excel потрібно використати функцію MODE.MULT (англ. mode multiple — мода багаторазова), результатом якої будуть усі значення з ряду, які повторюються найбільшу кількість разів.

10

30 of 41

Для тих, хто хоче знати більше

Розділ 2 § 2.2

На малюнку наведено приклад обчислення моди, якщо їх у ряді даних кілька.

{=MODE.MULT(D3:D10)}

10

31 of 41

Для тих, хто хоче знати більше

Розділ 2 § 2.2

Оскільки в загальному випадку невідомо, скільки мод буде в ряді даних, потрібно:

  1. Виділити для мод певний діапазон клітинок. У прикладі було виділено діапазон клітинок D11:D14.
  1. Увести формулу в першу клітинку виділеного діапазону.
  1. Натиснути Ctrl+Shift+Enter.

Оскільки було виділено діапазон з чотирьох клітинок, а мод у наведеному ряді даних виявилося лише дві, то в двох інших клітинках виділеного діапазону відобразилося #N/A.

10

32 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Розглянемо ще одну характеристику ряду даних — медіану.

Медіаною впорядкованого ряду даних називається значення, яке поділяє ряд даних на дві рівні частини, тобто зліва і справа від цього значення знаходиться однакова кількість членів упорядкованого ряду даних.

10

33 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Якщо у впорядкованому ряді даних:

непарна кількість членів

парна кількість членів

то медіана такого ряду даних дорівнює значенню його середнього члена

то його медіана обчислюється як середнє арифметичне значень двох середніх членів

10

34 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Наприклад, для ряду даних,

2; 3; 5; 6; 7

медіана дорівнює

5

2; 3; 5; 6: 7; 9

медіана дорівнює

(5 + 6): 2 = 5,5

2; 2; 4; 4; 4; 5; 6

медіана дорівнює

4

10

35 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Медіана використовується, наприклад, для визначення місця побудови шкіл, дитячих садочків, магазинів, підприємств побуту тощо.

Потрібно визначити ряд відстаней, які слід подолати мешканцям певної місцевості до цього закладу, і побудувати його в точці, яка визначається медіаною цього ряду.

10

36 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

У табличному процесорі є спеціальна функція для обчислення медіани ряду даних — MEDIAN (англ. median — середній).

діапазон клітинок

список клітинок

їх комбінації

Наприклад,

MEDIAN(B2:D5; F4; Е7)

Аргументами цієї функції може бути:

10

37 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

На малюнку наведено приклад обчислення медіани ряду даних урожайності соняшнику з використанням табличного процесора за формулою:

=MEDIAN(СЗ:С12)

10

38 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Звертаємо вашу увагу, що в електронній таблиці для знаходження медіани ряд даних не обов'язково має бути впорядкований. Табличний процесор:

спочатку впорядковує ряд даних

а потім визначає його медіану

10

39 of 41

Деякі статистичні�характеристики ряду даних

Розділ 2 § 2.2

Зазначимо, що коли члени ряду даних незначно відрізняються одне від одного, то і середнє

арифметичне, і медіана більш показово характеризують весь цей ряд. А якщо члени ряду даних значно відрізняються одне від одного, то медіана більш показово характеризує весь цей ряд даних, ніж середнє арифметичне.

10

40 of 41

Домашнє завдання

Проаналізувати

§ 2.2, ст. 42-48

Розділ 2 § 2.2

10

41 of 41

Дякую за увагу!

Урок 9

10