Основи статистичного аналізу даних. Ряди даних
2-ге видання, оновлене
Урок 8
Інформатика
teach-inf.com.ua
за підручником
Ривкінд Й.Я. та ін.
Рівень стандарту 10(11)
Запитання
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Вам уже відомо з курсу алгебри 9-го класу, що в багатьох:
дослідженнях для аналізу даних
установлення певних закономірностей
формулювання висновку
надання рекомендацій
прогнозування тощо
потрібно використати багато даних. Ви знаєте, що методи отримання, опрацювання й аналізу даних, які характеризують масові явища, вивчає наука статистика.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Так, наприклад,
для аналізу тенденцій змінення маси учнів 10-х класів України за останні роки
ризику серцевих захворювань людей певного віку на планеті
популярності продуктів харчування серед населення певного регіону
Потрібно проаналізувати сотні тисяч або навіть мільйони даних.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Зрозуміло, що,
провести зважування
вивчити історії хвороб
провести анкетування
Сотень тисяч або навіть мільйонів людей практично неможливо. Тому для аналізу створюють певну вибірку об'єктів дослідження, тобто з усієї множини об'єктів дослідження відбирають певну кількість і на ній проводять дослідження. Що більше така вибірка, то точніше буде проведено аналіз і зроблено відповідні висновки. Тобто вибірка повинна бути масовою.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Але не тільки кількість даних у вибірці визначає рівень точності аналізу і висновків. Так,
у першому і другому з наведених вище прикладів доцільно вибирати
у третьому доцільно вибирати
людей різних регіонів і різної статі
людей різного віку
Кажуть, що вибірка даних має бути репрезентативною (франц. Representatif — показовий, характерний, типовий).
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Дані, отримані з дослідженої вибірки, найчастіше заносять у таблицю.
Така форма подання даних з вибірки зручна для їх аналізу та прогнозів. Дані з кожного рядка і стовпця такої таблиці утворюють ряди даних.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Наведемо кілька прикладів вибірок і рядів даних.
У таблиці подано результати виступів команди учнівства України на міжнародних олімпіадах з інформатики з 2005 по 2017 рік.
Тут вибіркою є вказані в таблиці роки, а рядами даних — загальна кількість медалей у ці роки, а також кількість золотих, срібних і бронзових медалей у вказані роки.
Вибірка
Ряди даних
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Зауважимо, що Україна бере участь у таких олімпіадах починаючи з 1992 року. Команда кожної країни складається із чотирьох учнів. У 2016 році команда України не брала участі у такій олімпіаді.
За цими рядами даних або за деякими з них можна побудувати графіки або діаграми і візуалізувати їх, використовуючи, наприклад, табличний процесор.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
На малюнку подано діаграму динаміки посівних площ соняшнику в Україні в 1998—2015 роках і графік врожайності соняшнику в Україні за ці роки. Тут вибіркою є 1998—2015 роки, а рядами даних — посівні площі та врожайність соняшнику в ці роки.
Динаміка посівних площ та врожайності соняшнику в Україні
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
За цими діаграмами і графіками ряди даних або частини рядів даних можна, за потреби, занести в таблицю.
Таблиця даних про врожайність соняшнику і посівну площу в Україні в 2006-2015 роках
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Як приклад розглянемо роботу синоптичної служби. Синоптична служба збирає і зберігає дані про температуру, опади, атмосферний тиск та інші показники вже понад 160 років.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Вибірка і ряди даних
Для прогнозування температури та ймовірності опадів у Львові в першій декаді червня наступного року для проведення екскурсії потрібно вибрати відповідні дані, наприклад за останні 10—15 років саме про Львів і саме про першу декаду червня, проаналізувати отримані два ряди даних:
Зробити відповідний прогноз погоди.
про температуру
кількість опадів
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Розглянемо деякі статистичні характеристики ряду даних:
середнє арифметичне
AVERAGE
стандартне відхилення
STDEV.P
мода
MODE.SNGL (MODE.MULT)
медіана
MEDIAN
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Так, можна знайти середнє арифметичне врожайності соняшнику в Україні за 2006—2015 роки, використовуючи, наприклад, табличний процесор.
На малюнку наведено приклад обчислення середньої врожайності соняшнику за 2006—2015 роки і формулу для її обчислення
=AVERAGE (C3:C12)
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Для обчислення середнього арифметичного в табличному процесорі можна використати відому вам функцію AVERAGE (англ. average — середній). Нагадаємо, що аргументами цієї функції може бути:
діапазон клітинок
список клітинок
їх комбінації
наприклад
AVERAGE (B2:D5; F4; Е7)
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Обчислене в наведеному прикладі середнє арифметичне визначає, яка б була врожайність кожного року (1,67 т/га), якщо вона щороку була б однаковою.
Аналогічно
середнє арифметичне будь-якого ряду даних визначає, які б були значення у цьому ряді, якщо б вони всі були однакові.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Зазначимо, що не для всіх рядів даних середнє арифметичне є показовою характеристикою самого цього ряду. Наприклад, для ряду даних:
2,5; 2,8; 2,3; 2,55; 2,47
У якому дані незначно відрізняються одне від одного, середнє арифметичне дорівнює:
Що незначно відрізняється від усіх членів цього ряду, а значить, достатньо показово характеризує весь цей ряд даних.
2,524
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
А для ряду:
4,7; 6,2; 5,1; 12,4; 14,1
У якому дані значно відрізняються одне від одного, середнє арифметичне дорівнює:
8,5
Шо значно відрізняється від усіх членів цього ряду, а значить, недостатньо показово характеризує весь цей ряд даних.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Для визначення, наскільки показово середнє арифметичне ряду даних характеризує весь ряд даних,
можна використати таку характеристику ряду даних, як стандартне відхилення. Стандартне відхилення характеризує, наскільки широко розташовані значення ряду даних відносно їх середнього арифметичного.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Стандартне відхилення обчислюється за формулою:
Де,
x1, x2 , ... , xn
середнє арифметичне цього ряду даних
x0
члени ряду даних
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Для першого з вищенаведених двох прикладів рядів даних стандартне відхилення дорівнює:
А для другого:
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Очевидно,
що середнє арифметичне першого ряду даних менше відрізняється від усіх членів ряду даних, а значить,
А середнє арифметичне другого ряду даних більше відрізняється від усіх членів ряду даних, а значить,
більш показово характеризує весь цей ряд даних.
менш показово характеризує весь цей ряд даних.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Автоматизувати обчислення стандартного відхилення в табличному процесорі можна, використавши функцію:
STDEV.P (англ. standard deviation — стандартне відхилення)
(Для версії нижче 2010 — STDEVP).
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Ще однією характеристикою ряду даних є мода.
Мода — це значення в ряді даних, яке повторюється найчастіше. Таке значення є показовим, наприклад,
під час дослідження цін на ринку
під час дослідження попиту взуття, одягу
ціна, яка
трапляється
найчастіше
розміри, які
купують
найбільше
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
У розглянутому вище прикладі, «Результати виступу команди учнівства України на міжнародних олімпіадах з інформатики за 2005—2017 роки».
мода кількостей медалей
мода кількостей золотих медалей
мода кількостей срібних медалей
мода кількостей бронзових медалей
дорівнює 4
0
1
2
Тому що найчастіше в ці роки команда нашої країни завойовувала 4 медалі.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Якщо в ряді даних два або більше значень повторюються найбільшу кількість разів, то кожне з них вважається модою ряда даних.
Так, наприклад, у ряді даних
2, 3, 3, 2, 1
Модою є:
і число 2
число 3
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
У табличному процесорі є спеціальна функція для обчислення моди ряду даних, якщо вона одна — MODE.SNGL (англ. mode single — мода одинарна).
діапазон клітинок
список клітинок
їх комбінації
Наприклад,
MODE.SNGL (B2:D5; F4; Е7)
Аргументами цієї функції може бути:
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
На малюнку наведено приклад обчислення моди для кількостей завойованих медалей і формула для її обчислення:
=MODE.SNGL(C3:C14)
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Для тих, хто хоче знати більше
Якщо в ряді даних два або більше значень можуть повторюватися однакову найбільшу кількість разів,
то в Excel потрібно використати функцію MODE.MULT (англ. mode multiple — мода багаторазова), результатом якої будуть усі значення з ряду, які повторюються найбільшу кількість разів.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Для тих, хто хоче знати більше
На малюнку наведено приклад обчислення моди, якщо їх у ряді даних кілька.
{=MODE.MULT(D3:D10)}
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Для тих, хто хоче знати більше
Оскільки в загальному випадку невідомо, скільки мод буде в ряді даних, потрібно:
Оскільки було виділено діапазон з чотирьох клітинок, а мод у наведеному ряді даних виявилося лише дві, то в двох інших клітинках виділеного діапазону відобразилося #N/A.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Розглянемо ще одну характеристику ряду даних — медіану.
Медіаною впорядкованого ряду даних називається значення, яке поділяє ряд даних на дві рівні частини, тобто зліва і справа від цього значення знаходиться однакова кількість членів упорядкованого ряду даних.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Якщо у впорядкованому ряді даних:
непарна кількість членів
парна кількість членів
то медіана такого ряду даних дорівнює значенню його середнього члена
то його медіана обчислюється як середнє арифметичне значень двох середніх членів
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Наприклад, для ряду даних,
2; 3; 5; 6; 7
медіана дорівнює
5
2; 3; 5; 6: 7; 9
медіана дорівнює
(5 + 6): 2 = 5,5
2; 2; 4; 4; 4; 5; 6
медіана дорівнює
4
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Медіана використовується, наприклад, для визначення місця побудови шкіл, дитячих садочків, магазинів, підприємств побуту тощо.
Потрібно визначити ряд відстаней, які слід подолати мешканцям певної місцевості до цього закладу, і побудувати його в точці, яка визначається медіаною цього ряду.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
У табличному процесорі є спеціальна функція для обчислення медіани ряду даних — MEDIAN (англ. median — середній).
діапазон клітинок
список клітинок
їх комбінації
Наприклад,
MEDIAN(B2:D5; F4; Е7)
Аргументами цієї функції може бути:
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
На малюнку наведено приклад обчислення медіани ряду даних урожайності соняшнику з використанням табличного процесора за формулою:
=MEDIAN(СЗ:С12)
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
спочатку впорядковує ряд даних
а потім визначає його медіану
Звертаємо вашу увагу, що в електронній таблиці для знаходження медіани ряд даних не обов'язково має бути впорядкований. Табличний процесор:
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Деякі статистичні�характеристики ряду даних
Зазначимо, що коли члени ряду даних незначно відрізняються одне від одного, то і середнє
арифметичне, і медіана більш показово характеризують весь цей ряд. А якщо члени ряду даних значно відрізняються одне від одного, то медіана більш показово характеризує весь цей ряд даних, ніж середнє арифметичне.
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Дайте відповіді на запитання
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Дайте відповіді на запитання
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Домашнє завдання
Проаналізувати
§ 2.2, с. 42-48
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Працюємо за комп’ютером
Розділ 2 § 2.2
Сторінка
47-48
© Вивчаємо інформатику teach-inf.com.ua
Розділ 2
§ 2.2
Дякую за увагу!
2-ге видання, оновлене
Урок 8
Інформатика
teach-inf.com.ua
за підручником
Ривкінд Й.Я. та ін.
Рівень стандарту 10(11)