A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | wish | comment | more_comments | |||||||||||||||||||||||
2 | Не могли бы Вы посоветовать ликбез по статистике для человека, не изучавшего ее в университете и имеющего о ней только поверхностное представление? Такой, чтобы можно было понимать ваши объяснения на следующих семинарах. | сложно посоветовать один источник, статистика - это огромная зверюга :) методы, которые мы будем использовать, изложены, например, в https://ranalytics.github.io/data-mining/index.html есть прикольная книжка Владимира Савельева, https://nplus1.ru/blog/2017/06/24/enlightment2017-statistika-n-kotiki | ||||||||||||||||||||||||
3 | Знакомство с переменной - посмотреть, какие значения и что они означают (лейблы), аналог codebook в стате. Таблицы сопряженности двух порядковых переменных, средние в разных группах | второй семинар именно про это :) про меченные данные импортированные из статы чуть позже | ||||||||||||||||||||||||
4 | Нам нужно высылать домашки на проверку или нет? | нет :) мы готовы ответить на вопросы по ним! | ||||||||||||||||||||||||
5 | Почему-то не работает команда diamonds6 <- arrange(diamonds, price) %>% head(3) Error in loadNamespace(name) : нет пакета под названием ‘utf8’ | поставьте пакет utf8. Tools - Install packages | ||||||||||||||||||||||||
6 | Можно ли с помощью R прежде чем анализировать наборы данных, эти наборы создавать? С декларациями госслужащих, конечно, сложно (они не только в разных местах, но и в разных форматах и разные по структуре данных), но вот есть, например, Избирком и однотипные по структуре результаты выборов по ТИКам и УИКам. Лежат они криво - общего полотна по всей выборке официальный источник не дает. | Да, можно создавать и импортировать. Конечно, волшебной функции "импортировать бриллианты из свалки" не будет. Если скинуть ссылку на образец данных, мы можем попробовать подсказать, как с ним бороться :) | ||||||||||||||||||||||||
7 | Борис Борисович, Вы обещали повспоминать учебник по статистике без глубокой математики, но с основными практическими выкладками, что-то из биологической сферы, заранее спасибо! | Harvey Motulsky, Intuitive biostatistics :) | ||||||||||||||||||||||||
8 | как делать карты | смотрите 9ый семинар | ||||||||||||||||||||||||
9 | как делать коррекцию остатков по кластерам в регрессионном анализе | Если речь про кластерные стандартные ошибки у коэффициентов, то например, та же функция lm_robust из пакета estimatr подойдёт :) model <- lm_robust(data = mtcars, mpg ~ hp, cluster = am) там используется более удачная корректировка, чем по умолчанию в stata, если нужно точно воспроизвести результаты то подойтет model <- lm_robust(data = mtcars, mpg ~ hp, cluster = am, se_type = 'stata') | ||||||||||||||||||||||||
10 | Неужели нет какой-нибдь команды типа "подключить все библиотеки"? Очень сложно запомнить все названия, чтобы подключать их перед началом работы | Библиотек больше 30000, нет, памяти компьютера не хватит на все :) Чтобы не запоминать, можно взять, например, заголовок любого нашего файла. И можно смотреть на cran task view тематические подборки, https://cran.r-project.org/web/views/ | ||||||||||||||||||||||||
11 | Как лучше работать с очень большими массивами данных? Типа 50 тыс - 200 тыс. наблюдений? Что лучше избегать, а что использовать? В частности, интересует, как их проверять на согласие с каким-то распределением? Стандартные хи-квадрат и КС не всегда дают логичные результаты... Ничего нового в R не придумали?) | По современным мерками 50-200 тысяч, это не много. Тот же набор данных diamonds, с которым мы работали, содержит чуть больше 50 тысяч. Несколько рекомендаций: 1. вместо диаграммы рассеяния с 50 тысячами точек можно сделать подвыборку sample_n() и изобразить её 2. также вместо диаграммы рассеяния можно попробовать geom_hex() 3. для наборов данных около миллиона наблюдений и больше разумно попробовать пакет data.table 4. здесь скорее вопрос не к R, а к проверяемой гипотезе, действительно, на большом объёме данных любое маленькое отличие фактического распределения от предполагаемого будет приводить к отвержению H0. В этом случае разумно смотреть на максимальное отличие выборочной функции распределения от теоретической и понять, устраивает ли такое отличие, или оно слишком велико из содержательного смысла задачи. | спасибо! | |||||||||||||||||||||||
12 | В каком формате мы сдаем вторую часть домашки? Где все это должно быть - ответы на все вопорсы, комментарии, описание, интерпретация? Все в том же R-файле комменты с решеткой? | В формате Rmd :) по структуре мы ожидаем увидеть что-то похожее на семинарские файлы: код – комментарий – код – комментраий... Берите любой Rmd файл и изменяйте его под свой набор данных! | спасибо! | |||||||||||||||||||||||
13 | Как в R создать вектор в котором 7,2,1 повторяется 250 раз? то есть 721721721 и так далее | rep(c(7, 2, 1), 250) | ||||||||||||||||||||||||
14 | Можно ли отменить действие? Если я скажем ошиблась и удалила нужный столбец из важной таблицы. А кошке делала фотографию давно и не хочется перенабирать все остальное | нет, но можно выполнить все действия от загрузки файла до ошибочного действия заново в Rmd у каждого блока есть справа вверху три символа: шестеренка и два треугольничка. треугольничек справа от шестеренки означает "выполнить все блоки от старта до этого" хорошей практикой для новичка будет создание новой таблицы, а не сразу переписывание старой new_table <- select(old_table, -unused_variable) в этом случае мы не трогаем таблицу old_table и в ней будут жить исходные переменные | ||||||||||||||||||||||||
15 | Как выборочно удалить таблицы из global environment, чтобы прошлые не мешались | rm(old_table) | ||||||||||||||||||||||||
16 | В консоли иногда вместо > появляется + и уходить никак не желает, что с ним сделать | смена приглашения означает, что команда не была введена до конца. Скажем было нажато cos(5 соответственно, решений два: 1. отказаться от ввода команды клавишей Esc 2. доввести недостающие символы, для примера cos(5 надо закрыть скобкой ) | ||||||||||||||||||||||||
17 | Если нужна табличка, в которой написано сколько индивидов имеют миссинги по скольким переменным, например: 500 индивидов имеют миссинги по 6 переменным, 2000 по 4 переменным и так далее - мне кажется мы должны это уметь, но ни group_by ни summarise не срабатывают. И как задать одну из переменных пользователским миссингом | наверняка где-то в R есть пакет, который это сделает в одно строчку :) но я сходу не нашел, поэтому в две: new_table <- mutate(old_table, number_of_na = rowSums(is.na(old_table)) table(new_table$number_of_na) первая команда создаёт новую переменную number_of_na, в которой для каждого индивида считаем число переменных с пропусками (суммируем 1 вдоль строки, если стоит NA) а далее — обычная таблица сопряженности | Код в одну строчку, не считая подключения библиотеки: library(mice) md.pattern(data) | |||||||||||||||||||||||
18 | В предварительной программе была тема "Тема 5. Иерархические модели Модели со случайными регрессиями. При наличии свободного времени — Байесовский подход к оцениванию иерархических моделей. Визуализация оценивания иерархических моделей. " - может, хоть часть ее успеем на последнем занятии? | мы прочитали все пожелания в начале курса и поняли, что байесовские иерархические модели интересны узкой группе лиц и решили отказаться от них у пакета brms, который их оценивает, есть подробная документация: https://cran.r-project.org/web/packages/brms/index.html | ||||||||||||||||||||||||
19 | как сделать вращение главных компонент Varimax и потом их визуализировать | мы пока не нашли, как визуализировать с красивым factoextra, а с более простой графикой так: library(psych) prcomp_rotated <- principal(protein_no_country, nfactors = 2, rotate = "varimax") biplot(prcomp_rotated) | ||||||||||||||||||||||||
20 | 1 семинар :) строка 157. Что такое с(1,5,6) в splom(df[1:1000, c(1, 5, 6)]) # строим диаграммы рассеяния для 1000 наблюдений ? Номера столбцов? Но мы до этого не строили данные и не видели номера столбцов.. (не была на 1 семинаре, разбираюсь :)) | да, верно, c(1, 5, 6) — это вектор из номеров столбцов, а 1:1000 — это номера строк с 1 по 1000 мы уже к тому моменту семинара знаем команду glimpse(df), которая показывает все переменные и они идут в нужном порядке в ней А в целом номера столбцов можно не знать, вполне сработает splom(df[1:1000, c("carat", "depth", "table")]) | спасибо! | |||||||||||||||||||||||
21 | а как узнать, в каком пакете живут нужные функции? Ну, например, glimpse, head, tail и т.д. ? | Набрать в консоли, например, ?head или в поиске по справке head. В открывшейся документации в правом верхнем углу появится "head {utils}". То, что написано в фигурных скобках, и есть название пакета :) | спасибо! | |||||||||||||||||||||||
22 | Расшифруйте, пожалуйста, начало каждого семинара, что означает каждая строчка и являются ли они все необходимыми для любого кода в R: | если выполнять команды по одной, то нужна лишь chunk_output_type все остальные опции влияют на то, как будет выглядеть html или pdf после нажатия кнопки knit | ||||||||||||||||||||||||
23 | keep_md: no | не сохраняем вспомогательный файл в формате md | ||||||||||||||||||||||||
24 | number_sections: yes | каждый раздел нумеруется | ||||||||||||||||||||||||
25 | toc: yes | добавляем содержание вверху готового документа | ||||||||||||||||||||||||
26 | lang: ru-RU | объявляем, что мы пишем на русском | ||||||||||||||||||||||||
27 | editor_options: | |||||||||||||||||||||||||
28 | chunk_output_type: console | просим выводить результаты выполнения команд в консоль, а не под чанком кода | спасибо! А что такое чанк?)) | |||||||||||||||||||||||
29 | Семинар 1. Упражнение 5. Добавьте в набор данных для каждого бриллианта стоимость одного карата. - Чему равна медианная стоимость одного карата? Почему в ответах 2401? А не 3495.2? | Да, правильный ответ 3495.2 :) случайно скопировала не ту строчку | ура:) | |||||||||||||||||||||||
30 | Экзаменационная работа Елены Вакуленко. rmd файл: https://github.com/ElenaVakulenko/r_course/blob/master/hw_vakulenko.Rmd. html файл: https://elenavakulenko.github.io/r_course/hw_vakulenko | Супер! 6/6. Мелочи: setwd() с абсолютным путем не нужен :) R при компиляции Rmd файла всегда (в каждом куске кода) начинает плясать от той папки, где лежит сам Rmd. Поэтому дальше можно указать относительный путь в команде import и радоваться рабочей компиляции на любом компе, куда скопирована папка :) | Спасибо!!! ОЧЕНЬ интересный и полезный курс!!! Огромная благодарность! | |||||||||||||||||||||||
31 | HW_010. 8. Отсортируйте исходные данные `df` по рейтингу покупателей с помощью функции `arrange`, сохраните результат в переменной `sorted` и посмотрите на её содержимое. Показывает только первые 58 строк и пишет: [ reached getOption("max.print") -- omitted 19 rows ]. У Вас в ответах такого нет. Что надо делать, чтобы показывал весь файл? | Можно добавить строчку options(max.print=9999) – в этом случае в консоли появится максимум 9999 строк результата. Разумеется, можно любое своё число использовать :) | ||||||||||||||||||||||||
32 | ||||||||||||||||||||||||||
33 | Скажите, пожалуйста, а скрипичный график (ggplot(data = mtcars2) + geom_violin(aes(x = cyl) +... нельзя построить для одной переменной - чтобы это был действительно аналог "ларя с усами" - он то строится для одной , а мы строили по двум минимум... по оси У была еще другая переменная | Неожиданно, я и сам думал, что можно для одной строить. Оказалось, что у geom_violin и x и y — обязательные эстетики. В качестве одинокой скрипки можно использовать geom_density. Например, https://rstudio-pubs-static.s3.amazonaws.com/228019_f0c39e05758a4a51b435b19dbd321c23.html#12_density_plots | Спасибо!)) | |||||||||||||||||||||||
34 | Финальное д/з Моисеевой Марии: https://github.com/MariaMoise/final_hw | Отлично получилось! Единственная помарка – в ROC-кривой. Понимаю, что вы правильно хотели указать параметру m значение положительного класса, но он её воспринял как константу. Думаю, что m = "1" сработало бы, в levels для целевой переменной значения указаны в кавычках. 6/6 | ||||||||||||||||||||||||
35 | Финальное д/з Дурягина Павла: https://github.com/pduryagin/Rfolder/blob/master/control/control.html | Вау! Очень познавательно :) 6/6 | ||||||||||||||||||||||||
36 | Финальное д/з Никифоровой Дарьи https://github.com/NikiforovaDI/NikiforovaRep | Классные данные :) То, что сделано, – хорошо! 3/6 | ||||||||||||||||||||||||
37 | Финальное дз Ирина Щеглова https://github.com/Arkontus/FinalTask- or file:///C:/R/New.html + online course from Datacamp 4 units | 2/6 | ||||||||||||||||||||||||
38 | Финальное задание Е.Дьяченко https://github.com/KatyaLD/Dyachenko_exam | 4/6 | ||||||||||||||||||||||||
39 | Final task _ Inga Ivanova https://github.com/Inga25/Final-task_Inga-Ivanova | Когда вы второй раз разбиваете данные на обучение и тест, вы используется не только что созданный набор mydata_fct_rel, а старый mydata_fct. То есть вы делаете то же саое, что и в первом разбиении, но в другой пропорции. Из-за того, что старый и новый набор у вас перепутались, ничего кроме самих моделей в последней части работы не запускается. + в задании 4.2 имелся в виду тест Вальда 5/6 | Учту, спасибо за пояснение и за курс! | |||||||||||||||||||||||
40 | Мязина https://github.com/Myelyu/Msc-2016 | в репозитории ничего нет :( Присылайте тогда Rmd и html файл на почту. | ||||||||||||||||||||||||
41 | Миронкина https://mironkina.github.io/Exam/Exam_work_Mironkina_Yuliya.html и rmd: https://github.com/mironkina/r_course/blob/master/Exam_work_Mironkina_Yuliya.Rmd | Получилось очень интересно! Спасибо, что сделали html страничку, было очень удобно читать :) 5/6 | Спасибо! А какая общая оценка?)) | |||||||||||||||||||||||
42 | Финальное дз Капуза https://github.com/akapuza/Test_R.git | в репозитории ничего нет :( Присылайте тогда Rmd и html файл на почту. | ||||||||||||||||||||||||
43 | При выполнении wald.test не работает и пишет, что models were not all fitted to the same size of dataset - абсолютно не знаю, что с этим делать( | По умолчанию R пытается использовать все возможные наблюдения. Например, при наличии пропусков в переменной z модель y~x и модель y~x+z будут оцениваться по разному количеству наблюдений. И в этом случае wald.test не сработает. Чтобы решить эту проблему нужно оценивать обе модели на общем наборе данных. Например, поступить так data_subset <- data %>% select(x, y, z) %>% na.omit() А далее оценивать обе модели после того, как пропущенные наблюдения выкинуты. | ||||||||||||||||||||||||
44 | При выполнении confusionMatrix пишет, что all arguments must have the same length - не понимаю его, ведь я сделала одну и ту же модель (( | Хороший подход такой: 1. На исходном массиве данных создаются новые переменные (индикаторы чего-нибудь там, квадраты, логарифмы) 2. Удаляются пропуски, если алгоритм не умеет работать с пропусками. 3. Делится выборка на тестовую и обучающую части. 4. Обучаем на обучающей 5. Тестируем на, неожиданно, тестовой :) Если же создавать переменные прямо в момент оценивания модели на обучающей части выборки, то придется дублировать это действие на тестовой. Да и с пропусками придется возиться :) | ||||||||||||||||||||||||
45 | подскажите, пожалуйста, хороший способ считать предельные эффекты для multinomial logit | |||||||||||||||||||||||||
46 | ||||||||||||||||||||||||||
47 | Финальное задание Уваровой Ольги https://github.com/uvolga/uvarova-homework | |||||||||||||||||||||||||
48 | ||||||||||||||||||||||||||
49 | ||||||||||||||||||||||||||
50 | ||||||||||||||||||||||||||
51 | ||||||||||||||||||||||||||
52 | ||||||||||||||||||||||||||
53 | ||||||||||||||||||||||||||
54 | ||||||||||||||||||||||||||
55 | ||||||||||||||||||||||||||
56 | ||||||||||||||||||||||||||
57 | ||||||||||||||||||||||||||
58 | ||||||||||||||||||||||||||
59 | ||||||||||||||||||||||||||
60 | ||||||||||||||||||||||||||
61 | ||||||||||||||||||||||||||
62 | ||||||||||||||||||||||||||
63 | ||||||||||||||||||||||||||
64 | ||||||||||||||||||||||||||
65 | ||||||||||||||||||||||||||
66 | ||||||||||||||||||||||||||
67 | ||||||||||||||||||||||||||
68 | ||||||||||||||||||||||||||
69 | ||||||||||||||||||||||||||
70 | ||||||||||||||||||||||||||
71 | ||||||||||||||||||||||||||
72 | ||||||||||||||||||||||||||
73 | ||||||||||||||||||||||||||
74 | ||||||||||||||||||||||||||
75 | ||||||||||||||||||||||||||
76 | ||||||||||||||||||||||||||
77 | ||||||||||||||||||||||||||
78 | ||||||||||||||||||||||||||
79 | ||||||||||||||||||||||||||
80 | ||||||||||||||||||||||||||
81 | ||||||||||||||||||||||||||
82 | ||||||||||||||||||||||||||
83 | ||||||||||||||||||||||||||
84 | ||||||||||||||||||||||||||
85 | ||||||||||||||||||||||||||
86 | ||||||||||||||||||||||||||
87 | ||||||||||||||||||||||||||
88 | ||||||||||||||||||||||||||
89 | ||||||||||||||||||||||||||
90 | ||||||||||||||||||||||||||
91 | ||||||||||||||||||||||||||
92 | ||||||||||||||||||||||||||
93 | ||||||||||||||||||||||||||
94 | ||||||||||||||||||||||||||
95 | ||||||||||||||||||||||||||
96 | ||||||||||||||||||||||||||
97 | ||||||||||||||||||||||||||
98 | ||||||||||||||||||||||||||
99 | ||||||||||||||||||||||||||
100 |