Skip to content
This repository has been archived by the owner on Oct 7, 2022. It is now read-only.

Лабораторные работы выполненные в рамках изучения дисциплины «Анализ данных в R».

Notifications You must be signed in to change notification settings

maxim5858mru/lessons-r-utmn

Repository files navigation

Лабораторные работы по предмету «Анализ данных в R»

Лабораторная работа №1

Задание выполнять в Microsoft Office Excel.

Задание №1

По 45 сельскохозяйственным предприятиям имеются данные о средних значениях урожайности зерновых в условных единицах. Построить дискретный вариационный ряд, кумуляту, полигон и эмпирическую функцию распределения. Вычислить выборочное математическое ожидание и дисперсию.

20   25    32   20   45   37   43   39   35
35   43    35   20   37   39   37   44   20 
32   43    35   45   37   25   32   35   20
25   35    37   25   45   32   25   39   25
45   37    45   25   32   35   45   43   25

Задание №2

По результатам измерений получена выборка. Постройте интервальный статистический ряд. Построить гистограмму, нанесите варианты.

3,5     9,0     3,3     5,5       9,5    10,7     8,5     10,3      10,5     5,7
9,5     9,2     8,2     8,1       7,1     8,1     8,9      7,1      9,1     10,2
8,5     9,3     7,0     5,2       5,2     8,1	  8,7	   9,7	    8,1     10,1
9,7     9,9     5,2     7,9      10,3     9,1    10,2	   5,5	    3,9      5,0
5,2     9,0     8,5     9,3       8,5     8,2     8,7      8,5      7,5      9,2

Лабораторная работа №3 Корреляционный анализ

Задания:

  1. Построить диаграмму рассеяния
  2. Вычислить линейный коэффициент парной корреляции r_xy
  3. Определить направление и вид связи в рядах данных
  4. Оценить степень тесноты связи между переменными
  5. Проверить значимость коэффициента корреляции r_xy при заданном уровне значимости α
  6. Построить доверительный интервал для значимого линейного коэффициента корреляции r_xy
  7. Определить коэффициент детерминации

Контрольные вопросы:

  1. В чём заключается основное отличие между функциональной и статистической связью между переменными?
    • Функциональные связи описываются определёнными (только один на одной связи) физическими законами. Статистические связи описываются несколькими факторными признаками.
  2. Основные задачи корреляционного анализа данных
    • Определение и выражение формы аналитической зависимости результативного признака y от факторных признаков x.
  3. Как определяется и что характеризует коэффициент детерминации?
    • Коэффициент детерминации определятся с помощью коэффициента корреляции, как его квадрат в процентах. Он показывает на сколько дисперсия значений y определяются влиянием фактора x.
  4. Как вычисляется линейный коэффициент парной корреляции r_xy?
    • Линейный коэффициент корреляции равен сумме, по количеству наблюдений, произведения отклонения x и y от моды, делённое на произведение среднеквадратичных отклонений x и y.
  5. Как осуществляется оценка статистической значимости линейного коэффициента парной корреляции r_xy?
    • С помощью проверки нулевой гипотезы, об отсутствии связи между факторными и результативным признаками. Данная теорема проверяется с помощью критерия Стьюдента. Если t критерий Стьюдента больше табличного, то нулевая гипотеза ложна и коэффициент корреляции r_xy статистически значим.
  6. Что называется уровнем значимости?
    • Это вероятность ложности выдвинутой гипотезы. Обозначается как α.
  7. Как строится доверительный интервал для линейного коэффициента парной корреляции?
    • Доверительный интервал в данном случае формируется путём вычитания и сложения произведения t критерия Стьюдента на дробь: 1 - r_xy^2, делённое на корень от числа наблюдений.

Лабораторная работа №4 Регрессионный анализ

Задания:

  1. С использованием метода наименьших квадратов получить уравнение линейной парной регрессии.
  2. Определить среднюю квадратичную ошибку уравнения регрессии.
  3. Определить среднюю ошибку аппроксимации.
  4. Найти коэффициент детерминации.
  5. Проверить значимость уравнения регрессии при уровне значимости α = 0,05.
  6. Проверить значимость коэффициентов линейной регрессии и построить доверительный интервалы для точных значений параметров a и b уравнения линейной регрессии с уровнем значимости 0,05.
  7. Построить точечный и интервальный прогноз для значения x_пр = 0,7 * x_max по уравнению линейной регрессии с уровнем значимости 0,05.
  8. Предоставить результаты моделирования в графическом виде.

Контрольные вопросы:

  1. Каково назначение регрессионного анализа?
    • Регрессионный анализ позволяет установить вид зависимости между параметрами. А также определить общий вид уровня регрессии, оценить неизвестные параметры в уравнении регрессии и проверить статистические гипотезы.
  2. Что такое уравнение регрессии?
    • Это числовое соотношение между величинами, выраженное виде тенденции возрастания или убывания, при изменении другой величины. Уравнение линейной парной регрессии: ~(y) = a +bx
  3. Какие виды регрессии различают?
    • Линейная или нелинейная. Парная или множественная.
  4. В чём заключается задача построения регрессионной зависимости?
    • В начале определяется вид аналитической зависимости, а после происходит оценка параметров выбранной модели. Для линейной парной регрессии необходимо определить значение двух коэффициентов, согласно известным формулам.
  5. Для чего применяется F-критерий Фишера, как он вычисляется?
    • Критерий Фишера применяется для оценки статистической значимости уравнения регрессии. При его вычислении используются следующие значения: коэффициент детерминации, количество наблюдений, и число параметров.
  6. Как вычисляется и что показывает коэффициент детерминации?
    • Коэффициент детерминации показывает на сколько в процентах согласуется полученное уравнение регрессии с данными наблюдения.
  7. Как проверяется значимость уравнения регрессии?
    • С помощью F-критерия Фишера. Он должен быть больше или равен, чем указанный в таблице при заданном уровне значимости. Тогда можно говорить, что нулевая гипотеза выступающая антигипотезой, гипотезе об значимости уравнения регрессии, есть лож. Тем самым будет доказана значимость уравнения регрессии.
  8. Как проверяется значимость коэффициентов уравнения регрессии?
    • С помощью t-критерий Стьюдента. Для парной линейной регрессии вычисляется три критерия: t_a, t_b, t_r. Для их вычисления необходимо знать случайные ошибки параметров и коэффициента корреляции. Доказав с их помощью ложность нулевой антигипотезы, подтверждаем значимость параметров.
  9. Понятие доверительного интервала для коэффициентов регрессии?
    • Доверительный интервал для параметров уравнения регрессии получается путём вычитания и сложения параметра с произведением табличного t-критерия Стьюдента на случайную ошибку данного параметра.
  10. Понятие точечного и интервального прогноза по уравнению линейной регрессии.
    • Точечный прогноз позволяет получить значение y, которое определяется путём подстановки в уравнение регрессии прогнозируемого значения x. Интервальный прогноз учитывает стандартную ошибку, тем самым он представляет из себя доверительный интервал для точечного прогнозируемого значения.

Лабораторная работа № 5 Регрессионный анализ

Задание:

  1. Создайте новый лист с названием «Регрессионный анализ»
  2. Произвести математическую формулировку задачи в виде таблицы исходных данных, согласно номеру варианта.
  3. Запустить пакет регрессионного анализа через меню «Сервис → Пакет анализа → Регрессия»
  4. В окне «Регрессия» задать интервалы, содержащие Y и X. Результаты обработки расположить на листе «Регрессионный анализ».
  5. Проанализировать значения t-статистики для каждого коэффициента модели.
  6. Построить график остатков уравнения регрессии.
  7. Провести анализ полученных результатов моделирования.

Контрольные вопросы:

  1. Что понимается под регрессией в теории вероятностей и математической статистике?
    • Односторонняя стохастическая (случайная) зависимость, устанавливающая соответствие между случайными переменными, при этом зависимость должна иметь статистическую значимость.
  2. Какие функции используются для построения уравнения парной регрессии в MS Excel?
    • Коэффициент множественной корреляции, коэффициент детерминации, скорректированный коэффициент детерминации, стандартная ошибка регрессии, количество наблюдений, степени свободы, среднеквадратическое отклонение и отношение дисперсий.
  3. Какие задачи решаются при построении уравнения регрессии?
    • Позволяет оценить влияние каждой независимой переменной на прогнозируемых значениях, а также оценить коэффициент регрессии.
  4. Что означает уровень значимости при проверке статистических гипотез?
    • Уровень значимости представляет из себя пороговую вероятность ошибки, то есть не принятия гипотезы H_0.
  5. Как вычисляется коэффициент детерминации и что он характеризует?
    • Коэффициент детерминации характеризует долю общей дисперсии y, объясняется уровнем регрессии.
  6. Как проверяется значимость уравнения регрессии?
    • С помощью F-критерия Фишера. Он должен быть больше или равен, чем указанный в таблице при заданном уровне значимости. Тогда можно говорить, что нулевая гипотеза выступающая антигипотезой, гипотезе об значимости уравнения регрессии, есть лож. Тем самым будет доказана значимость уравнения регрессии.
  7. Как проверяется значимость коэффициентов уравнения регрессии?
    • С помощью t-критерий Стьюдента. Для парной линейной регрессии вычисляется три критерия: t_a, t_b, t_r. Для их вычисления необходимо знать случайные ошибки параметров и коэффициента корреляции. Доказав с их помощью ложность нулевой антигипотезы, подтверждаем значимость параметров.
  8. По какой формуле вычисляется коэффициент парной корреляции r_xy?
  9. Как строится доверительный интервал для линейного коэффициента парной корреляции?

Лабораторная работа №6 Векторы, матрицы и списки

Задание на векторы

  1. Напишите R-программу для сложения двух векторов целого типа и заданной длины.
  2. Напишите R-программу, чтобы найти сумму, среднее значение и произведение вектора, игнорируйте такие значения, как NA или NaN.
  3. Напишите R-программу для сортировки вектора по возрастанию и убыванию.
  4. Напишите программу на R, чтобы найти n-наибольшее значение в данном векторе.

Задание на матрицы

  1. Напишите программу для создания матрицы из заданного вектора чисел, и задайте имена столбцов и строк. Показать матрицу.
  2. Напишите программу нахождения индексов строки и столбца максимального значения в данной матрице.
  3. Напишите программу для преобразования матрицы в одномерный массив.
  4. Напишите программу для создания матрицы из заданного вектора чисел.
  5. Напишите программу для создания двух матриц 3x4 и сложения, вычитания, умножения и деления матриц.

Задание на списки

  1. Напишите программу создания списка, содержащего строки, числа, векторы и логические значения.
  2. Напишите программу для списка, содержащего вектор, матрицу и список, и присвойте имена элементам в списке.
  3. Напишите программу для объединения двух заданных списков в один.
  4. Напишите программу для подсчёта количества объектов в заданном списке.
  5. Напишите программу нахождения всех элементов данного списка, которых нет в другом списке.

Лабораторная работа №7 Факторы и датафреймы

  1. Напишите программу для создания упорядоченного фактора из данных, состоящих из названий месяцев.
  2. Напишите программу для объединения двух данных факторов в один фактор.
  3. Напишите программу для создания фрейма данных из четырёх заданных векторов.
  4. Напишите программу для извлечения определённого столбца из фрейма данных с использованием имени столбца.
  5. Напишите программу, чтобы выбрать несколько случайных строк из данного фрейма данных.

Практические задания из лекционной презентации

Cлайд №17

  1. Загрузите данные из файла Input Data 1.txt.
  2. Просмотрите всю полученную таблицу.
  3. Получите статистику для всей таблицы.
  4. Получите статистику только для зёрен сорта Rose.
  5. Сохраните данные в файл в формате CSV. Из сохраняемых данных исключите два последних столбца и имена столбцов и строк.

Cлайд №25

  1. Загрузите данные из файла Input Data 1.txt.
  2. Отфильтруйте данные по одному из сортов зёрен.
  3. Постройте гистограмму для одного из параметров, например, Area.
  4. Используйте дополнительный параметр freq = FALSE.

Cлайд №29

  1. Загрузите данные из файла Input Data 1.txt.
  2. Отфильтруйте данные по одному из сортов зёрен.
  3. Вычислите меры центральной тенденции для одного из параметров используя summary(object, ...) или fivenum(x, na.rm = TRUE).
  4. Постройте для этого параметра Boxplot.
  5. Постройте Boxplot для исходных данных по трём сортам зёрен.

Cлайд №34

  1. Загрузите данные из файла Input Data 1.txt.
  2. Отфильтруйте данные по одному из сортов зёрен.
  3. Постройте диаграмму рассеяния для различных пар параметров используя функцию plot(x, y, ...).
  4. Вычислите коэффициенты корреляции для этих пар параметров используя функцию cor(x, y, use = "everything", method = c("pearson", "kendall", "spearman")) или cor.test(x, ...).
  5. Получите уравнение линейной регрессии для выбранной пары параметров используя функцию lm(formula, data, ...). Сохраните результат в объекте model.
  6. Отобразите полученный результат выполнив команду: abline(model, col = "red").

Cлайд №38

  1. Загрузите данные из файла Input Data 2.txt.
  2. что можно сказать о влиянии ветра, температуры и солнечной радиации на содержимое озона в атмосфере?
  3. Строим диаграммы рассеяния для всех пар параметров. Подсказка: используйте pairs(x, ...).
  4. Для более тонкого анализа используйте код:
library("mgcv")
model <- gam(ozone ~ s(rad) + s(temp) + s(wind))
plot(model)

library("tree")
model <- tree(ozone ~ ., data = input)
plot(model)
text(model)
  1. Предложите регрессионную модель.
  2. Уберите наименее значимый параметр из модели. Для этого использовать update(model, . ~ . - param).
  3. Оцените качество полученной модели.
  4. Измените регрессионную модель: model <- lm(log(ozone) ~ ., data = input).
  5. Уберите наименее значимый параметр из модели. Для этого использовать update(model, . ~ . - param).
  6. Используйте полученную модель для предсказаний содержания озона: predict(model) или predict(model, newdata = list).

Слайд №43

  1. Загрузите данные из файла Input Data 1.txt.
  2. Сделать выборку объёмом 15 элементов из сорта Kama и выборку объёмом 20 элементов из сорта Rosa.
  3. Вычислить среднее для параметра площадь зерна.
  4. Является ли значимым отличие или нет?

About

Лабораторные работы выполненные в рамках изучения дисциплины «Анализ данных в R».

Topics

Resources

Stars

Watchers

Forks

Languages