ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
wishcommentmore_comments
2
Не могли бы Вы посоветовать ликбез по статистике для человека, не изучавшего ее в университете и имеющего о ней только поверхностное представление? Такой, чтобы можно было понимать ваши объяснения на следующих семинарах.сложно посоветовать один источник, статистика - это огромная зверюга :)
методы, которые мы будем использовать, изложены, например, в https://ranalytics.github.io/data-mining/index.html
есть прикольная книжка Владимира Савельева, https://nplus1.ru/blog/2017/06/24/enlightment2017-statistika-n-kotiki
3
Знакомство с переменной - посмотреть, какие значения и что они означают (лейблы), аналог codebook в стате. Таблицы сопряженности двух порядковых переменных, средние в разных группахвторой семинар именно про это :) про меченные данные импортированные из статы чуть позже
4
Нам нужно высылать домашки на проверку или нет? нет :) мы готовы ответить на вопросы по ним!
5
Почему-то не работает команда diamonds6 <- arrange(diamonds, price) %>% head(3) Error in loadNamespace(name) : нет пакета под названием ‘utf8’поставьте пакет utf8. Tools - Install packages
6
Можно ли с помощью R прежде чем анализировать наборы данных, эти наборы создавать? С декларациями госслужащих, конечно, сложно (они не только в разных местах, но и в разных форматах и разные по структуре данных), но вот есть, например, Избирком и однотипные по структуре результаты выборов по ТИКам и УИКам. Лежат они криво - общего полотна по всей выборке официальный источник не дает. Да, можно создавать и импортировать. Конечно, волшебной функции "импортировать бриллианты из свалки" не будет.
Если скинуть ссылку на образец данных, мы можем попробовать подсказать, как с ним бороться :)
7
Борис Борисович, Вы обещали повспоминать учебник по статистике без глубокой математики, но с основными практическими выкладками, что-то из биологической сферы, заранее спасибо!
Harvey Motulsky, Intuitive biostatistics :)
8
как делать карты смотрите 9ый семинар
9
как делать коррекцию остатков по кластерам в регрессионном анализе Если речь про кластерные стандартные ошибки у коэффициентов, то например, та же функция lm_robust
из пакета estimatr подойдёт :)
model <- lm_robust(data = mtcars, mpg ~ hp, cluster = am)
там используется более удачная корректировка, чем по умолчанию в stata, если нужно точно воспроизвести результаты
то подойтет
model <- lm_robust(data = mtcars, mpg ~ hp, cluster = am, se_type = 'stata')
10
Неужели нет какой-нибдь команды типа "подключить все библиотеки"? Очень сложно запомнить все названия, чтобы подключать их перед началом работыБиблиотек больше 30000, нет, памяти компьютера не хватит на все :)
Чтобы не запоминать, можно взять, например, заголовок любого нашего файла.
И можно смотреть на cran task view тематические подборки, https://cran.r-project.org/web/views/
11
Как лучше работать с очень большими массивами данных? Типа 50 тыс - 200 тыс. наблюдений? Что лучше избегать, а что использовать? В частности, интересует, как их проверять на согласие с каким-то распределением? Стандартные хи-квадрат и КС не всегда дают логичные результаты... Ничего нового в R не придумали?)По современным мерками 50-200 тысяч, это не много. Тот же набор данных diamonds, с которым мы работали,
содержит чуть больше 50 тысяч. Несколько рекомендаций:
1. вместо диаграммы рассеяния с 50 тысячами точек можно сделать подвыборку sample_n() и изобразить её
2. также вместо диаграммы рассеяния можно попробовать geom_hex()
3. для наборов данных около миллиона наблюдений и больше разумно попробовать пакет data.table
4. здесь скорее вопрос не к R, а к проверяемой гипотезе, действительно, на большом объёме данных
любое маленькое отличие фактического распределения от предполагаемого будет приводить к отвержению H0.
В этом случае разумно смотреть на максимальное отличие выборочной функции распределения от теоретической и понять, устраивает ли такое отличие, или оно слишком велико из содержательного смысла задачи.
спасибо!
12
В каком формате мы сдаем вторую часть домашки? Где все это должно быть - ответы на все вопорсы, комментарии, описание, интерпретация? Все в том же R-файле комменты с решеткой?В формате Rmd :) по структуре мы ожидаем увидеть что-то похожее на семинарские файлы: код – комментарий – код – комментраий...
Берите любой Rmd файл и изменяйте его под свой набор данных!
спасибо!
13
Как в R создать вектор в котором 7,2,1 повторяется 250 раз? то есть 721721721 и так далееrep(c(7, 2, 1), 250)
14
Можно ли отменить действие? Если я скажем ошиблась и удалила нужный столбец из важной таблицы. А кошке делала фотографию давно и не хочется перенабирать все остальноенет, но можно выполнить все действия от загрузки файла до ошибочного действия заново
в Rmd у каждого блока есть справа вверху три символа: шестеренка и два треугольничка.
треугольничек справа от шестеренки означает "выполнить все блоки от старта до этого"

хорошей практикой для новичка будет создание новой таблицы, а не сразу переписывание старой
new_table <- select(old_table, -unused_variable)
в этом случае мы не трогаем таблицу old_table и в ней будут жить исходные переменные
15
Как выборочно удалить таблицы из global environment, чтобы прошлые не мешалисьrm(old_table)
16
В консоли иногда вместо > появляется + и уходить никак не желает, что с ним сделатьсмена приглашения означает, что команда не была введена до конца. Скажем было нажато cos(5

соответственно, решений два:
1. отказаться от ввода команды клавишей Esc
2. доввести недостающие символы, для примера cos(5 надо закрыть скобкой )
17
Если нужна табличка, в которой написано сколько индивидов имеют миссинги по скольким переменным, например: 500 индивидов имеют миссинги по 6 переменным, 2000 по 4 переменным и так далее - мне кажется мы должны это уметь, но ни group_by ни summarise не срабатывают. И как задать одну из переменных пользователским миссингомнаверняка где-то в R есть пакет, который это сделает в одно строчку :) но я сходу не нашел, поэтому в две:
new_table <- mutate(old_table, number_of_na = rowSums(is.na(old_table))
table(new_table$number_of_na)

первая команда создаёт новую переменную number_of_na, в которой для каждого индивида считаем число переменных с пропусками (суммируем 1 вдоль строки, если стоит NA)
а далее — обычная таблица сопряженности
Код в одну строчку, не считая подключения библиотеки:

library(mice)
md.pattern(data)
18
В предварительной программе была тема "Тема 5. Иерархические модели
Модели со случайными регрессиями. При наличии свободного времени — Байесовский подход к оцениванию иерархических моделей. Визуализация оценивания иерархических моделей.
" - может, хоть часть ее успеем на последнем занятии?
мы прочитали все пожелания в начале курса и поняли, что байесовские иерархические модели интересны узкой группе лиц и решили отказаться от них
у пакета brms, который их оценивает, есть подробная документация:
https://cran.r-project.org/web/packages/brms/index.html
19
как сделать вращение главных компонент Varimax и потом их визуализироватьмы пока не нашли, как визуализировать с красивым factoextra, а с более простой графикой так:
library(psych)
prcomp_rotated <- principal(protein_no_country, nfactors = 2, rotate = "varimax")
biplot(prcomp_rotated)
20
1 семинар :) строка 157. Что такое с(1,5,6) в splom(df[1:1000, c(1, 5, 6)]) # строим диаграммы рассеяния для 1000 наблюдений ? Номера столбцов? Но мы до этого не строили данные и не видели номера столбцов.. (не была на 1 семинаре, разбираюсь :))да, верно, c(1, 5, 6) — это вектор из номеров столбцов, а 1:1000 — это номера строк с 1 по 1000
мы уже к тому моменту семинара знаем команду glimpse(df), которая показывает все переменные и они идут в нужном порядке в ней
А в целом номера столбцов можно не знать, вполне сработает
splom(df[1:1000, c("carat", "depth", "table")])
спасибо!
21
а как узнать, в каком пакете живут нужные функции? Ну, например, glimpse, head, tail и т.д. ?Набрать в консоли, например, ?head или в поиске по справке head. В открывшейся документации в правом верхнем углу появится "head {utils}". То, что написано в фигурных скобках, и есть название пакета :) спасибо!
22
Расшифруйте, пожалуйста, начало каждого семинара, что означает каждая строчка и являются ли они все необходимыми для любого кода в R:если выполнять команды по одной, то нужна лишь chunk_output_type
все остальные опции влияют на то, как будет выглядеть html или pdf после нажатия кнопки knit
23
keep_md: noне сохраняем вспомогательный файл в формате md
24
number_sections: yesкаждый раздел нумеруется
25
toc: yesдобавляем содержание вверху готового документа
26
lang: ru-RUобъявляем, что мы пишем на русском
27
editor_options:
28
chunk_output_type: consoleпросим выводить результаты выполнения команд в консоль, а не под чанком кодаспасибо! А что такое чанк?))
29
Семинар 1. Упражнение 5.
Добавьте в набор данных для каждого бриллианта стоимость одного карата.
- Чему равна медианная стоимость одного карата? Почему в ответах 2401? А не 3495.2?
Да, правильный ответ 3495.2 :) случайно скопировала не ту строчкуура:)
30
Экзаменационная работа Елены Вакуленко. rmd файл: https://github.com/ElenaVakulenko/r_course/blob/master/hw_vakulenko.Rmd. html файл: https://elenavakulenko.github.io/r_course/hw_vakulenkoСупер! 6/6. Мелочи: setwd() с абсолютным путем не нужен :) R при компиляции Rmd файла всегда
(в каждом куске кода) начинает плясать от той папки, где лежит сам Rmd. Поэтому дальше можно указать
относительный путь в команде import и радоваться рабочей компиляции на любом компе, куда скопирована папка :)
Спасибо!!! ОЧЕНЬ интересный и полезный курс!!! Огромная благодарность!
31
HW_010. 8. Отсортируйте исходные данные `df` по рейтингу покупателей с помощью функции `arrange`, сохраните результат в переменной `sorted` и посмотрите на её содержимое. Показывает только первые 58 строк и пишет: [ reached getOption("max.print") -- omitted 19 rows ]. У Вас в ответах такого нет. Что надо делать, чтобы показывал весь файл?Можно добавить строчку options(max.print=9999) – в этом случае в консоли появится максимум 9999 строк результата. Разумеется, можно любое своё число использовать :)
32
33
Скажите, пожалуйста, а скрипичный график (ggplot(data = mtcars2) + geom_violin(aes(x = cyl) +... нельзя построить для одной переменной - чтобы это был действительно аналог "ларя с усами" - он то строится для одной , а мы строили по двум минимум... по оси У была еще другая переменная Неожиданно, я и сам думал, что можно для одной строить. Оказалось, что у geom_violin и x и y — обязательные эстетики. В качестве одинокой скрипки можно использовать geom_density. Например, https://rstudio-pubs-static.s3.amazonaws.com/228019_f0c39e05758a4a51b435b19dbd321c23.html#12_density_plotsСпасибо!))
34
Финальное д/з Моисеевой Марии: https://github.com/MariaMoise/final_hwОтлично получилось! Единственная помарка – в ROC-кривой. Понимаю, что вы правильно хотели указать параметру m значение положительного класса, но он её воспринял как константу. Думаю, что m = "1" сработало бы, в levels для целевой переменной значения указаны в кавычках.
6/6
35
Финальное д/з Дурягина Павла: https://github.com/pduryagin/Rfolder/blob/master/control/control.htmlВау! Очень познавательно :)
6/6
36
Финальное д/з Никифоровой Дарьи https://github.com/NikiforovaDI/NikiforovaRepКлассные данные :) То, что сделано, – хорошо!
3/6
37
Финальное дз Ирина Щеглова https://github.com/Arkontus/FinalTask- or file:///C:/R/New.html + online course from Datacamp 4 units2/6
38
Финальное задание Е.Дьяченко https://github.com/KatyaLD/Dyachenko_exam4/6
39
Final task _ Inga Ivanova https://github.com/Inga25/Final-task_Inga-IvanovaКогда вы второй раз разбиваете данные на обучение и тест, вы используется не только что созданный набор mydata_fct_rel, а старый mydata_fct. То есть вы делаете то же саое, что и в первом разбиении, но в другой пропорции. Из-за того, что старый и новый набор у вас перепутались, ничего кроме самих моделей в последней части работы не запускается.
+ в задании 4.2 имелся в виду тест Вальда
5/6
Учту, спасибо за пояснение и за курс!
40
Мязина https://github.com/Myelyu/Msc-2016в репозитории ничего нет :( Присылайте тогда Rmd и html файл на почту.
41
Миронкина https://mironkina.github.io/Exam/Exam_work_Mironkina_Yuliya.html и rmd: https://github.com/mironkina/r_course/blob/master/Exam_work_Mironkina_Yuliya.Rmd Получилось очень интересно! Спасибо, что сделали html страничку, было очень удобно читать :)
5/6
Спасибо! А какая общая оценка?))
42
Финальное дз Капуза https://github.com/akapuza/Test_R.gitв репозитории ничего нет :( Присылайте тогда Rmd и html файл на почту.
43
При выполнении wald.test не работает и пишет, что models were not all fitted to the same size of dataset - абсолютно не знаю, что с этим делать(По умолчанию R пытается использовать все возможные наблюдения. Например, при наличии пропусков в переменной z
модель y~x и модель y~x+z будут оцениваться по разному количеству наблюдений. И в этом случае wald.test не сработает.
Чтобы решить эту проблему нужно оценивать обе модели на общем наборе данных. Например, поступить так
data_subset <- data %>% select(x, y, z) %>% na.omit()
А далее оценивать обе модели после того, как пропущенные наблюдения выкинуты.
44
При выполнении confusionMatrix пишет, что all arguments must have the same length - не понимаю его, ведь я сделала одну и ту же модель ((Хороший подход такой:
1. На исходном массиве данных создаются новые переменные (индикаторы чего-нибудь там, квадраты, логарифмы)
2. Удаляются пропуски, если алгоритм не умеет работать с пропусками.
3. Делится выборка на тестовую и обучающую части.
4. Обучаем на обучающей
5. Тестируем на, неожиданно, тестовой :)

Если же создавать переменные прямо в момент оценивания модели на обучающей части выборки, то придется дублировать это действие на тестовой. Да и с пропусками придется возиться :)
45
подскажите, пожалуйста, хороший способ считать предельные эффекты для multinomial logit
46
47
Финальное задание Уваровой Ольги https://github.com/uvolga/uvarova-homework
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100