3 of 44

Математическая статистика

Математическая статистика - область науки, изучающая случайные явления, разрабатывающая математические методы систематизации, обработки и использования статистических данных для научных и практических выводов.

Составными частями математической статистики являются:

(1) описание данных,

(2) статистическое оценивание

(3) проверка статистических гипотез.

4 of 44

Замечания

Статистические методы основаны на логике.
Следует опасаться применения статистических методов без их глубокого понимания и без контекста, который может оказаться крайне важным.
Только после постижения внутренней логики каждого из методов можно с уверенностью говорить о способности исследователя без труда применять статистику для изучения явлений.

5 of 44

Статистические данные

Числовые → Числовая статистика
Числовые статистические данные – это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы.
Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы больших чисел и центральные предельные теоремы

6 of 44

Статистические данные

Нечисловые → Нечисловая статистика
Нечисловые статистические данные – это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств).
Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах.

7 of 44

Переменные

Данные (data) представляют собой результаты наблюдений, испытаний, накапливаемые с целью последующего изучения и анализа.
Переменная, признак (variable) - это некоторая общая для всех изучаемых объектов характеристика или свойство, конкретные проявления которого могут меняться от объекта к объекту.
Проявления признака называют значениями, показателями, альтернативами, градациями.
Распределение переменной (distribution of the variable) - совокупность различных значений, которые переменная принимает для различных изучаемых объектов.

8 of 44

Определения

Генеральная совокупность (population) - вся интересующая исследователя совокупность изучаемых объектов.

Выборка, выборочная совокупность (sample) - некоторая, обычно небольшая, часть генеральной совокупности, отбираемая специальным образом и исследуемая с целью получения выводов о свойствах генеральной совокупности.

Параметры (parameters) - числовые характеристики генеральной совокупности.

Статистики (statistics) - числовые характеристики выборки.

Гипотеза (hypothesis) - предположение относительно параметров генеральной совокупности, которое подлежит проверке на основе анализа выборки.

9 of 44

Роль статистики в проведении исследований

10 of 44

Измерение явлений

Измерение (measurement) означает присвоение чисел характеристикам изучаемых объектов, явлений согласно некоторому правилу.
Шкала (scale) есть правило или алгоритм, в соответствии с которым изучаемым объектам, явлениям присваиваются числа.

11 of 44

Типы данных

Дискретные данные (discrete data) представляют собой отдельные значения признака, общее число которых конечно либо если бесконечно, то является счетным, т.е. может быть подсчитано натуральными числами от одного до бесконечности.
Непрерывные данные (continuous data) могут принимать любое значение в некотором интервале.

12 of 44

Критерии измерений

Надежность измерения (reliability) означает возможность получить согласующиеся результаты при повторных
Достоверность измерения (validity) означает соответствие между результатами измерения и его целями, между выбранной шкалой и исследуемыми переменными. измерениях характеристик объекта.
Завершенность измерения (exhaustive) означает, что в результате измерения мы должны получить какой-либо результат.
Единственность измерения (mutually exclusive) означает, что в результате измерения мы�получим только одно значение переменной.

13 of 44

Шкала	Особенности	Пример
Номинальная	Содержит только категории, данные не могут упорядочиваться	Хобби студента. Только название.
Дихотомическая	Содержит две категории	Пол студента. Третьего не дано, если не рассматривать исключения.
Порядковая	Категории могут упорядочиваться, но разности не имеют смысла	Место на соревнованиях. Лучше результат - выше место.
Интервальная	Разности между значениями могут быть вычислены, но нет отношений	Температура студента. У больного выше на 1-2°С
Относительная	Имеется точка отсчета, возможны отношения между значениями	Рост студента. Один в 1,2 раза выше другого

14 of 44

Представление данных

Группировка
Табулирование
Ранжирование
Распределение частот
Интервальное распределения частот
Статистические ряды
Графическое представление данных

15 of 44

Меры центральной тенденции

Мода - значение во множестве наблюдений, которое встречается наиболее часто. (Мода = типичность.)

16 of 44

Меры центральной тенденции

Медиана - число, которое находится в середине этого набора, если его упорядочить по возрастанию.

медианой набора {11, 9, 3, 5, 5} является число 5, так как оно стоит в середине этого набора после его упорядочивания: {3, 5, 5, 9, 11}.

Рассмотрим финансовое состояние 19 малоимущих, у каждого из каких есть только 5 р, и одного миллионера, у которого буквально 1 млн р. Тогда в сумме у них получается 1 000 095 ₽. Если деньги равными долями разделить на 20 человек, получится 50 004,75 р. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.

Медиана же будет равна 5 ₽ (сумма «расстояния» от этой величины до состояния каждого из рассматриваемых людей минимальна). Это можно интерпретировать следующим образом: «разделив» всех рассматриваемых людей на две равные группы по 10 человек, мы получаем, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽.

17 of 44

Меры центральной тенденции

Среднее арифметическое значение - разновидность среднего значения. Определяется как число, равное сумме всех чисел множества, делённой на их количество. Является одной из наиболее распространённых мер центральной тенденции.

18 of 44

Генеральная совокупность

это теоретически бесконечно большая или приближающаяся к бесконечности совокупность всех элементов, которые могут быть к ней отнесены. Естественно, изучить все элементы генеральной совокупности не представляется возможным, поэтому для ее описания используют выборку.

19 of 44

Выборка

это случайно отобранные единицы генеральной совокупности, достаточные для того, чтобы в ней были выражены существенные черты изучаемого распределения.

20 of 44

Подбор выборки

Подобрать выборку, которая полностью повторяет все особенности генеральной совокупности, невозможно. Поэтому при организации исследования необходимо стремиться, чтобы выборка сохраняла наиболее существенные для данного исследования характеристики генеральной совокупности. Это приведет к наименьшей потере информации.

21 of 44

Ошибки

22 of 44

Ошибка выборки

отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности. Иными словами, всегда присутствует вероятность выхода средних значений исследуемого признака за пределы установленного доверительного интервала (в медико-биологических исследованиях — за пределы 95% доверительного интервала).

23 of 44

Минимальная выборка

Ошибка выборки является случайной и всегда связана с ее объемом — числом наблюдений n, которые образуют выборку. Как правило, объем выборки n значительно меньше объема всей генеральной совокупности. При этом чем больше объем выборки, тем ниже случайная ошибка выборки.

24 of 44

Минимальная выборка

Минимизировать случайную ошибку выборки возможно путем расчета минимального допустимого объема выборки.

25 of 44

Статистический метод определения объема безповторной выборки

где n – объем выборки,
σ – стандартное отклонение,
N – объем генеральной совокупности,
α – предельная ошибка репрезентативности, задается обычно в пределах от 0,01 до 0,10 с наиболее частым употреблением 0,05 (5%);
t – табулированная константа, табличные значения этой величины следующие: t=1,96, при α=0,05; t=2,58, при α=0,01.

26 of 44

Минимальная выборка

https://www.files.pimunn.ru/almanakh/help/%D0%91%D0%B0%D0%B2%D1%80%D0%B8%D0%BD%D0%B03.pdf

27 of 44

Средняя ошибка выборки, дисперсия, предел ошибки

28 of 44

Пример – среднее значение

Допустим, получены следующие результаты: 35, 33, 38, 34, 35, 36, 37, 35, 34, 33 (n = 10).
Рассчитаем среднее значение:

29 of 44

Пример - дисперсия

30 of 44

Пример – средняя ошибка

31 of 44

Пример – средняя ошибка

32 of 44

Определение t-критерия Стьюдента

t=2,3

33 of 44

Определение предельной ошибки

Доверительный интервал (95% ДИ) будет иметь следующий вид:

34 of 44

Классификация задач

Выявление различий в уровне исследуемого признака
Оценка сдвига значений исследуемого признака
Выявление различий в распределении признака.
Выявление степени согласованности изменений
Анализ изменений признака под влиянием контролируемых условий
Методы многомерного анализа

35 of 44

Пример методов

ϕ коэффициент корреляции Пирсона
τ - коэффициент корреляции Кендалла
R – бисериальный коэффициент корреляции
η - корреляционное отношение Пирсона
rS - коэффициент ранговой корреляции Спирмена
rxy - коэффициент линейной корреляции Пирсона
Множественная и частная корреляция
Линейная, криволинейная и множественная регрессия
Факторный и кластерный анализы

Пример методов для определения связи между переменными

36 of 44

Корреляционный анализ

37 of 44

Линейная отрицательная связь

Криволинейная связь

Линейная положительная связь

Случайная связь

38 of 44

Степень (сила или теснота) корреляционной связи определяется по величине коэффициента корреляции, обозначающегося часто как r.
-1 ≤ r ≤ +1.
Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции /r/.
Если коэффициент корреляции по модулю оказывается близким к 1, то это соответствует высокому уровню связи между переменными.

39 of 44

Тип шкалы		Мера связи
Переменная А	Переменная В	Мера связи
Интервальная или отношений	Интервальная или отношений	r_xy – коэффициент линейной корреляции Пирсона
Порядковая, интервальная или отношений	Порядковая, интервальная или отношений	r_S- коэффициент ранговой корреляции Спирмена
Порядковая	Порядковая	τ - коэффициент корреляции Кендалла
Дихотомическая	Дихотомическая	ϕ коэффициент корреляции Пирсона
Дихотомическая	Порядковая	R_rb – рангово-бисериальный коэффициент корреляции
Дихотомическая	Интервальная или отношений	R_бис – бисериальный коэффициент корреляции
Интервальная	Порядковая	Не разработан

40 of 44

Пример

r= 0,67
r= 0,12
r= 0,98
r= -0,67
r= -0,13
r= 0,79

сильная, или тесная средняя умеренная слабая очень слабая	при r > 0,70; при 0,50 < r < 0,69; при 0,30 < r < 0,49; при 0,20 < r < 0,29; при r < 0,19.

r0,05= 0,69
r0,01= 0,89

r0,01= 0,78

Общая классификация

Частная классификация

44 of 44

https://elib.bsu.by/bitstream/123456789/93367/1/%d0%a1%d1%82%d0%b0%d1%82.%d0%b0%d0%bd%d0%b0%d0%bb%d0%b8%d0%b7.pdf

https://elib.bsu.by/bitstream/123456789/231678/1/zhukova_minets.pdf

https://elib.bsu.by/bitstream/123456789/194100/1/%d0%9f%d0%be%d1%81%d0%be%d0%b1%d0%b8%d0%b5_%d0%a1%d1%8b%d1%81%d0%b0.pdf

https://elib.bsu.by/bitstream/123456789/93367/1/%D0%A1%D1%82%D0%B0%D1%82.%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7.pdf

1 of 44

2 of 44

3 of 44

4 of 44

5 of 44

6 of 44

7 of 44

8 of 44

9 of 44

10 of 44

11 of 44

12 of 44

13 of 44

14 of 44

15 of 44

16 of 44

17 of 44

18 of 44

19 of 44

20 of 44

21 of 44

22 of 44

23 of 44

24 of 44

25 of 44

26 of 44

27 of 44

28 of 44

29 of 44

30 of 44

31 of 44

32 of 44

33 of 44

34 of 44

35 of 44

36 of 44

37 of 44

38 of 44

39 of 44

40 of 44

41 of 44

42 of 44

43 of 44

44 of 44