Построить уравнение парной регрессии. Уравнение регрессии
Парная линейная регрессия
ПРАКТИКУМ
Парная линейная регрессия: Практикум. –
Изучение эконометрики предполагает приобретение студентами опыта построения эконометрических моделей, принятия решений о спецификации и идентификации модели, выбора метода оценки параметров модели, оценки ее качества, интерпретации результатов, получения прогнозных оценок и пр. Практикум поможет студентам приобрести практические навыки в этих вопросах.
Утверждено редакционно-издательским советом
Составитель: М.Б. Перова, д.э.н., профессор
Общие положения
Эконометрическое исследование начинается с теории, устанавливающей связь между явлениями. Из всего круга факторов, влияющих на результативный признак, выделяются наиболее существенные факторы. После того, как было выявлено наличие взаимосвязи между изучаемыми признаками, определяется точный вид этой зависимости с помощью регрессионного анализа.
Регрессионный анализ заключается в определении аналитического выражения (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции.
Базисной регрессионной моделью является модель парной (однофакторной) регрессии. Парная регрессия – уравнение связи двух переменных у и х :
где – зависимая переменная (результативный признак);
–независимая, объясняющая переменная (факторный признак).
В зависимости от характера изменения у с изменением х различают линейные и нелинейные регрессии.
Линейная
регрессия
Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов.
Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели, ошибками измерения, следовательно, появлениеслучайной ошибки уравнения регрессии может быть обусловлено следующими объективными причинами :
1) нерепрезентативность выборки. В модель парной регрессии включается фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию многих других факторов (пропущенных переменных) в гораздо большей степени. Наприем, заработная плата может зависеть, кроме квалификации, от уровня образования, стажа работы, пола и пр.;
2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.
На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии ):
,
где
– оценки
параметров уравнения регрессии (
).
Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов :
На основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности. Например, если изучается зависимость между доходами населения и размером вкладов населения в банки, то очевидно, что связь прямая.
Графический метод , когда характер связи оценивается визуально.
Эту зависимость можно наглядно увидеть, если построить график, отложив на оси абсцисс значения признака х , а на оси ординат – значения признака у . Нанеся на график точки, соответствующие значениям х и у , получим корреляционное поле :
а) если точки беспорядочно разбросаны по всему полю – это говорит об отсутствии зависимости между этими признаками;
б) если точки концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый – то имеется прямая зависимость между признаками;
в) если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый – то обратная зависимость между признаками.
Если на корреляционном поле соединим точки отрезками прямой, то получим ломаную линию с некоторой тенденцией к росту. Это будет эмпирическая линия связи или эмпирическая линия регрессии . По ее виду можно судить не только о наличии, но и о форме зависимости между изучаемыми признаками.
Построение уравнения парной регрессии
Построение уравнения регрессии сводится к оценке ее параметров. Эти оценки параметров могут быть найдены различными способами. Одним их них является метод наименьших квадратов (МНК). Суть метода состоит в следующем. Каждому значению соответствует эмпирическое (наблюдаемое) значение. Построив уравнение регрессии, например уравнение прямой линии, каждому значениюбудет соответствовать теоретическое (расчетное) значение. Наблюдаемые значенияне лежат в точности на линии регрессии, т.е. не совпадают с. Разность между фактическим и расчетным значениями зависимой переменной называетсяостатком :
МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических , т.е. сумма квадратов остатков, минимальна:
Для линейных уравнений и нелинейных, приводимых к линейным, решается следующая система относительно а и b :
где n – численность выборки.
Решив систему уравнений, получим значения а и b , что позволяет записать уравнение регрессии (регрессионное уравнение):
где – объясняющая (независимая) переменная;
–объясняемая (зависимая) переменная;
Линия регрессии проходит через точку (,) и выполняются равенства:
Можно воспользоваться готовыми формулами, которые вытекают из этой системы уравнений:
где – среднее значение зависимого признака;
–среднее значение независимого признака;
–среднее арифметическое значение произведения зависимого и независимого признаков;
–дисперсия независимого признака;
–ковариация между зависимым и независимым признаками.
Выборочной ковариацией двух переменных х , у называется средняя величина произведения отклонений этих переменных от своих средних
Параметр b при х имеет большое практическое значение и носит название коэффициента регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется величина у х на 1 единицу своего измерения.
Знак параметра b в уравнении парной регрессии указывает на направление связи:
если
,
то связь между изучаемыми показателями
прямая, т.е. с увеличением факторного
признаках
увеличивается и результативный признак
у
,
и наоборот;
если
,
то связь между изучаемыми показателями
обратная, т.е. с увеличением факторного
признаках
результативный признак у
уменьшается, и наоборот.
Значение параметра
а
в уравнении парной регрессии в ряде
случаев можно трактовать как начальное
значение результативного признака у
.
Такая трактовка параметра а
возможна только в том случае, если
значение
имеет смысл.
После построения уравнения регрессии, наблюдаемые значения y можно представить как:
Остатки , как и ошибки, являются случайными величинами, однако они, в отличие от ошибок, наблюдаемы. Остаток есть та часть зависимой переменнойy , которую невозможно объяснить с помощью уравнения регрессии.
На основании уравнения регрессии могут быть вычислены теоретические значения у х для любых значений х .
В
экономическом анализе часто используется
понятие эластичности функции. Эластичность
функции
рассчитывается как относительное
изменениеy
к относительному изменению x
.
Эластичность показывает, на сколько
процентов изменяется функция
при
изменении независимой переменной на
1%.
Поскольку
эластичность линейной функции
не является постоянной величиной, а
зависит отх
,
то обычно рассчитывается коэффициент
эластичности как средний показатель
эластичности.
Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится величина результативного признака у при изменении факторного признака х на 1% от своего среднего значения:
где
– средние
значения переменныхх
и у
в выборке.
Оценка качества построенной модели регрессии
Качество модели регрессии – адекватность построенной модели исходным (наблюдаемым) данным.
Чтобы измерить тесноту связи, т.е. измерить, насколько она близка к функциональной, нужно определить дисперсию, измеряющую отклонения у от у х и характеризующую остаточную вариацию, обусловленную прочими факторами. Они лежат в основе показателей, характеризующих качество модели регрессии.
Качество парной регрессии определяется с помощью коэффициентов, характеризующих
1) тесноту связи – индекса корреляции, парного линейного коэффициента корреляции;
2) ошибку аппроксимации;
3) качество уравнения регрессии и отдельных его параметров – средние квадратические ошибки уравнения регрессии в целом и отдельных его параметров.
Для уравнений регрессии любого вида определяется индекс корреляции , который характеризует только тесноту корреляционной зависимости, т.е. степень ее приближения к функциональной связи:
,
где – факторная (теоретическая) дисперсия;
–общая дисперсия.
Индекс корреляции
принимает значения
,
при этом,
если
если
– то
связь между признакамих
и у
является функциональной, Чем ближе
к 1, тем более тесной считается связь
между изучаемыми признаками. Если
,
то связь можно считать тесной
Дисперсии, необходимые для вычисления показателей тесноты связи вычисляются:
Общая дисперсия , измеряющая общую вариацию за счет действия всех факторов:
Факторная (теоретическая) дисперсия, измеряющая вариацию результативного признака у за счет действия факторного признака х :
Остаточная дисперсия , характеризующая вариацию признака у за счет всех факторов, кроме х (т.е. при исключенном х ):
Тогда по правилу
сложения дисперсий:
Качество парной линейной регрессии может быть определено также с помощью парного линейного коэффициента корреляции :
,
где
– ковариация
переменныхх
и у
;
–среднеквадратическое отклонение независимого признака;
–среднеквадратическое отклонение зависимого признака.
Линейный коэффициент корреляции характеризует тесноту и направление связи между изучаемыми признаками. Он измеряется в пределах [-1; +1]:
если
– то
связь между признаками прямая;
если
– то
связь между признаками обратная;
если
– то
связь между признаками отсутствует;
если
или
– то
связь между признаками является
функциональной, т.е. характеризуется
полным соответствием междух
и у
.
Чем ближе
к 1, тем более тесной считается связь
между изучаемыми признаками.
Если индекс корреляции (парный линейный коэффициент корреляции) возвести в квадрат, то получим коэффициент детерминации.
Коэффициент детерминации – представляет собой долю факторной дисперсии в общей и показывает, на сколько процентов вариация результативного признака у объясняется вариацией факторного признака х :
Он характеризует не всю вариацию у от факторного признака х , а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т.е. показывает удельный вес вариации результативного признака, линейно связанной с вариацией факторного признака.
Величина
– доля
вариации результативного признака,
которую модель регрессии учесть не
смогла.
Рассеяние точек корреляционного поля может быть очень велико, и вычисленное уравнение регрессии может давать большую погрешность в оценке анализируемого показателя.
Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических:
Максимально допустимое значение 12–15%.
Мерой разброса зависимой переменной вокруг линии регрессии служит стандартная ошибка.Для всей совокупности наблюдаемых значений рассчитывается стандартная (среднеквадратическая) ошибка уравнения регрессии , которая представляет собой среднее квадратическое отклонение фактических значений у относительно теоретических значений, рассчитанных по уравнению регрессии у х .
,
где
– число
степеней свободы;
m – число параметров уравнения регрессии (для уравнения прямой m =2).
Оценить величину средней квадратической ошибки можно сопоставив ее
а) со средним значение результативного признака у ;
б) со средним квадратическим отклонением признака у :
если
,
то использование данного уравнения
регрессии является целесообразным.
Отдельно оцениваются стандартные (среднеквадратические) ошибки параметров уравнения и индекса корреляции :
;
;
.
х – среднее квадратическое отклонение х .
Проверка значимости уравнения регрессии и показателей тесноты связи
Чтобы построенную модель можно было использовать для дальнейших экономических расчетов, проверки качества построенной модели недостаточно. Необходимо также проверить значимость (существенность) полученных с помощью метода наименьших квадратов оценок уравнения регрессии и показателя тесноты связи, т.е. необходимо проверить их на соответствие истинным параметрам взаимосвязи.
Это связано с тем, что исчисленные по ограниченной совокупности показатели сохраняют элемент случайности, свойственный индивидуальным значениям признака. Поэтому они являются лишь оценками определенной статистической закономерности. Необходима оценка степени точности и значимости (надежности, существенности) параметров регрессии. Под значимостью понимают вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.
Проверка значимости – проверка предположения того, что параметры отличаются от нуля.
Оценка значимости парного уравнения регрессии сводится к проверке гипотез о значимости уравнения регрессии в целом и отдельных его параметров (a , b ), парного коэффициента детерминации или индекса корреляции.
В этом случае могут быть выдвинуты следующие основные гипотезы H 0 :
1)
– коэффициенты регрессии являются
незначимыми и уравнение регрессии также
является незначимым;
2)
– парный
коэффициент детерминации незначим и
уравнение регрессии также является
незначимым.
Альтернативной (или обратной) выступают следующие гипотезы:
1)
– коэффициенты
регрессии значимо отличаются от нуля,
и построенное уравнение регрессии
является значимым;
2)
– парный
коэффициент детерминации значимо
отличаются от нуля и построенное
уравнение регрессии является значимым.
Проверка гипотезы о значимости уравнения парной регрессии
Для проверки гипотезы о статистической незначимости уравнения регрессии в целом и коэффициента детерминации используется F -критерий (критерий Фишера ):
или
где k 1 = m –1 ; k 2 = n – m – число степеней свободы;
n – число единиц совокупности;
m – число параметров уравнения регрессии;
–факторная дисперсия;
–остаточная дисперсия.
Гипотеза проверяется следующим образом:
1) если фактическое
(наблюдаемое) значение F
-критерия
больше критического (табличного) значения
данного критерия
,
то с вероятностью
основная гипотеза о незначимости
уравнения регрессии или парного
коэффициента детерминации отвергается,
и уравнение регрессии признается
значимым;
2) если фактическое
(наблюдаемое) значение F-критерия
меньше критического значения данного
критерия
,
то с вероятностью (
)
основная гипотеза о незначимости
уравнения регрессии или парного
коэффициента детерминации принимается,
и построенное уравнение регрессии
признается незначимым.
Критическое
значение F
-критерия
находится по соответствующим таблицам
в зависимости от уровня значимости
и числа степеней свободы
.
Число степеней
свободы
–
показатель, который определяется как
разность между объемом выборки (n
)
и числом оцениваемых параметров по
данной выборке (m
).
Для модели парной
регрессии
число степеней свободы рассчитывается
как
,
так как по выборке оцениваются два
параметра (
).
Уровень значимости
– величина,
определяемая
,
где – доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Обычно принимается 0,95. Таким образом– это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равная 0,05 (5%) .
Тогда в случае
оценки значимости
уравнения парной
регрессии
критическое значение F-критерия
вычисляется как
:
.
Проверка гипотезы о значимости параметров уравнения парной регрессии и индекса корреляции
При проверке
значимости параметров уравнения
(предположения того, что параметры
отличаются от нуля) выдвигается основная
гипотеза о незначимости полученных
оценок (
.
В качестве альтернативной (обратной)
выдвигается гипотеза о значимости
параметров уравнения (
).
Для проверки
выдвинутых гипотез используется
t
-критерий
(t
-статистика)
Стьюдента
.
Наблюдаемое значение t
-критерия
сравнивается со значением
t
-критерия,
определяемого по таблице распределения
Стьюдента (критическим значением).
Критическое значение t
-критерия
зависит от двух параметров: уровня
значимостии числа степеней свободы
.
Выдвинутые гипотезы проверяются следующим образом:
1) если модуль
наблюдаемого значения t
-критерия
больше критического значения t
-критерия,
т.е.
,
то с вероятностью
основную гипотезу о незначимости
параметров регрессии отвергают, т.е.
параметры регрессии не равны 0;
2) если модуль
наблюдаемого значения t
-критерия
меньше или равен критическому значению
t
-критерия,
т.е.
,
то с вероятностью
основная гипотеза о незначимости
параметров регрессии принимается, т.е.
параметры регрессии почти не отличаются
от 0 или равны 0.
Оценка значимости коэффициентов регрессии с помощью критерия Стьюдента проводится путем сопоставления их оценок с величиной стандартной ошибки:
;
Для оценки статистической значимости индекса (линейного коэффициента) корреляции применяется также t -критерий Стьюдента.
Уравнение парной регрессии .
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Система нормальных уравнений.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для наших данных система уравнений имеет вид
12a + 1042 b = 1709
1042 a + 91556 b = 149367
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = 0.9, a = 64.21
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 0.9 x + 64.21
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов β i , а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.
Для расчета параметров линейной регрессии построим расчетную таблицу (табл. 1)
1. Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
1.1. Коэффициент корреляции
Ковариация .
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
1.2. Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 0.9 x + 64.21
1.3. Коэффициент эластичности .
Коэффициент эластичности находится по формуле:
1.4. Ошибка аппроксимации .
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
1.5. Эмпирическое корреляционное отношение.
Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах .
Индекс корреляции .
Для линейной регрессии индекс корреляции равен коэфииценту корреляции r xy = 0.79.
Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции :
1.6. Коэффициент детерминации.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.79 2 = 0.62
Для оценки качества параметров линейной регрессии построим расчетную таблицу (табл. 2)
2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции .
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H 1 ≠ 0, надо вычислить наблюдаемое значение критерия
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку t крит двусторонней критической области. Если t набл < t крит оснований отвергнуть нулевую гипотезу. Если |t набл | > t крит - нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим t крит:
где m = 1 - количество объясняющих переменных.
2.2. Интервальная оценка для коэффициента корреляции (доверительный интервал).
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S 2 y = 53.63 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S y = 7.32 - стандартная ошибка оценки (стандартная ошибка регрессии).
S a - стандартное отклонение случайной величины a.
S b - стандартное отклонение случайной величины b.
2.4. Доверительные интервалы для зависимой переменной.
(a + bx p ± ε)
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 107
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bx i ± ε)
t крит (n-m-1;α/2) = (10;0.025) = 2.228
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
t крит (n-m-1;α/2) = (10;0.025) = 2.228
Доверительный интервал для коэффициентов уравнения регрессии .
(b - t крит S b ; b + t крит S b)
(a - t крит S a ; a + t крит S a)
2) F-статистика. Критерий Фишера.
Табличное значение критерия со степенями свободы k 1 =1 и k 2 =10, F табл = 4.96
Назначение сервиса . С помощью сервиса в онлайн режиме можно найти:- параметры уравнения линейной регрессии y=a+bx , линейный коэффициент корреляции с проверкой его значимости;
- тесноту связи с помощью показателей корреляции и детерминации, МНК-оценку, статическую надежность регрессионного моделирования с помощью F-критерия Фишера и с помощью t-критерия Стьюдента , доверительный интервал прогноза для уровня значимости α
Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии .
Пример
. Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение
будем проводить на основе процесса эконометрического моделирования
.
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели - определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия
представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:
Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:
Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Графически покажем регрессионную зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации.
3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор.
4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли.
5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным.
Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
x | y | x 2 | y 2 | x y |
10 | 6 | 100 | 36 | 60 |
12 | 6 | 144 | 36 | 72 |
15 | 7 | 225 | 49 | 105 |
17 | 7 | 289 | 49 | 119 |
18 | 7 | 324 | 49 | 126 |
19 | 8 | 361 | 64 | 152 |
19 | 8 | 361 | 64 | 152 |
20 | 9 | 400 | 81 | 180 |
20 | 9 | 400 | 81 | 180 |
21 | 10 | 441 | 100 | 210 |
171 | 77 | 3045 | 609 | 1356 |
Данные берем из таблицы 1 (последняя строка), в итоге имеем:
10a + 171 b = 77
171 a + 3045 b = 1356
Эту СЛАУ решаем методом Крамера или методом обратной матрицы .
Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414
Эмпирическое уравнение регрессии имеет вид:
y = 0.3251 x + 2.1414
6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
Анализ проводим с помощью
Линейная парная регрессия находит широкое применение в эконометрике в виде четкой экономической интерпретации ее параметров. Линейная регрессия сводится к нахождению уравнения вида
или . (3.6)
Уравнение вида позволяет по заданным значениям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора x .
Построение парной линейной регрессии сводится к оценке ее параметров и . Оценки параметров линейной регрессии могут быть найдены разными методами. Например, методом наименьших квадратов (МНК).
Согласно метода наименьших квадратов оценки параметров и выбираются таким образом, чтобы сумма квадратов отклонений фактических значений результативного признака (у) от расчетных (теоретических, модельных) была минимальна.Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной (рис. 3.2):
, (3.7)
Рис. 3.2. Линия регрессии с минимальной суммой квадратов расстояний по вертикали между точками и этой линией
Для дальнейших выводов в выражении (3.7) подставим модельное значение, т. е. и получим:
Чтобы найти минимум функции (3.8), надо вычислить частные производные по каждому из параметров и и приравнять их к нулю:
Преобразуя эту систему, получим следующую систему нормальных уравнений для оценки параметров и :
. (3.9)
Матричная форма записи этой системы имеет вид:
. (3.10)
Решая систему нормальных уравнений (3.10) в матричной форме получим:
Алгебраическая форма решения системы (3.11) можно записать следующим образам:
После несложных преобразовании формулу (3.12) можно записать в удобной форме:
Необходимо заметить, что оценки параметров уравнения регрессии можно получить и по другим формулам, например:
(3.14)
Здесь выборочный парный линейный коэффициент корреляции.
После вычисления параметров регрессии мы можем записать уравнение математической модели регрессии :
Необходим заметить, что параметр показывает среднее изменение результата с изменением фактора на одну единицу. Так, если в функции издержек (у - издержки (тыс. руб.), х - количество единиц продукции). То, следовательно, с увеличением объема продукции (х) на 1 ед. издержки производства возрастают в среднем на 2 тыс. руб., т. е. дополнительный прирост продукции на 1 ед. потребует увеличения затрат в среднем на 2 тыс. руб.
Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в эконометрических исследованиях.
Формально - значение у при х = 0. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка свободного члена не имеет смысла. Параметр может не иметь экономического содержания. Попытки экономически интерпретировать параметр могут привести к абсурду, особенно при < 0.
Пример 3.2 . Предположим по группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек: . Информация, необходимая для расчета оценок параметров и , представлена в табл. 3.1.
Таблица 3.1
Расчетная таблица
№ предприятия |
Выпуск продукции, тыс. ед. () |
Затраты на производство, млн руб. () | ||||
Система нормальных уравнений будет иметь вид:
.
Решение этой системы по формуле (4.13) дает результат:
Запишем модель уравнения регрессии (4.16):
Подставив в уравнение значения x , найдем теоретические (модельные) значения у, (см. последнюю графу табл. 3.1).
В данном случае величина параметра не имеет экономического смысла.
В рассматриваемом примере имеем:
Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции . Существуют разные модификации формулы линейного коэффициента корреляции. Некоторые из них приведены ниже:
Как известно, линейный коэффициент корреляции находится в границах: .
Если коэффициент регрессии , то, и, наоборот, при, .
По данным табл. 4.1 величина линейного коэффициента корреляции составила 0,993, что достаточно близко к 1 и означает наличие очень тесной зависимости затрат на производство от величины объема выпущенной продукции.
Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.
Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака у, объяснимуюрегрессией, в общей дисперсии результативного признака.
Соответственно величина характеризует долю дисперсии вызванную влиянием остальных не учтенных в модели факторов.
В нашем примере . Следовательно, уравнением регрессии объясняется 98,6% дисперсии результативного признака,а на долюпрочих факторов приходится лишь 1,4% ее дисперсии (т. е. остаточная дисперсия). Величина коэффициента детерминации служитодним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньшероль прочих факторов, и, следовательно, линейная модельхорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака. Так, полагая, что объем продукции предприятия может составить 6 тыс. ед., прогнозное значение для издержек производства окажется 221,01 тыс. руб.
И корреляция
1.1. Понятие регрессии
Парной регрессией называется уравнение связи двух переменных у и х
вида y = f (x ),
где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор).
Различают линейные и нелинейные регрессии.
Линейная регрессия описывается уравнением: y = a + b × x +e .
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Примеры регрессий, нелинейных по объясняющим переменным, но ли-
нейных по оцениваемым параметрам:
· полиномы разных степеней
· равносторонняя гипербола:
Примеры регрессий, нелинейных по оцениваемым параметрам:
· степенная
· показательная
· экспоненциальная
Наиболее часто применяются следующие модели регрессий:
– прямой
– гиперболы
– параболы
– степенная функция
1.2. Построение уравнения регрессии
Постановка задачи. По имеющимся данным n наблюдений за совместным
изменением двух параметров x и y {(xi ,yi ), i=1,2,...,n} необходимо определить
аналитическую зависимость ŷ=f(x) , наилучшим образом описывающую данные наблюдений.
Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):
– спецификация модели (определение вида аналитической зависимости
ŷ=f(x) );
– оценка параметров выбранной модели.
1.2.1. Спецификация модели
Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.
Применяется три основных метода выбора вида аналитической зависимости:
– графический (на основе анализа поля корреляций);
– аналитический, т. е. исходя из теории изучаемой взаимосвязи;
– экспериментальный, т. е. путем сравнения величины остаточной дисперсии D ост или средней ошибки аппроксимации , рассчитанных для различных
моделей регрессии (метод перебора).
1.2.2. Оценка параметров модели
Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна, т. е.
В случае линейной регрессии параметры а и b находятся из следующей
системы нормальных уравнений метода МНК:
(1.1)
Можно воспользоваться готовыми формулами, которые вытекают из этой
(1.2)
Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x , y ) → (x’ , y’ ), система нормальных уравнений имеет
вид (1.1) в преобразованных переменных x’ , y’ .
Коэффициент b при факторной переменной x имеет следующую интерпретацию: он показывает, на сколько изменится в среднем величина y при изменении фактора x на 1 единицу измерения .
Гиперболическая регрессия :
x’ = 1/x ; y’ = y .
Уравнения (1.1) и формулы (1.2) принимают вид
Экспоненциальная регрессия:
Линеаризующее преобразование: x’ = x ; y’ = lny .
Модифицированная экспонента : , (0 < a 1 < 1).
Линеаризующее преобразование: x’ = x ; y’ = ln │y – К│.
Величина предела роста K выбирается предварительно на основе анализа
поля корреляций либо из качественных соображений. Параметр a 0 берется со
знаком «+», если y х > K и со знаком «–» в противном случае.
Степенная функция:
Линеаризующее преобразование: x’ = ln x ; y’ = ln y .
Показательная функция:
Линеаризующее преобразование: x’ = x ; y’ = lny .
https://pandia.ru/text/78/146/images/image026_7.jpg" width="459" height="64 src=">
Парабола второго порядка :
Парабола второго порядка имеет 3 параметра a 0, a 1, a 2, которые определяются из системы трех уравнений
1.3. Оценка тесноты связи
Тесноту связи изучаемых явлений оценивает линейный коэффициент
парной корреляции rxy для линейной регрессии (–1 ≤ r xy ≤ 1)
и индекс корреляции ρxy для нелинейной регрессии
Имеет место соотношение
Долю дисперсии, объясняемую регрессией , в общей дисперсии результативного признака у характеризует коэффициент детерминации r2xy (для линейной регрессии) или индекс детерминации (для нелинейной регрессии).
Коэффициент детерминации – квадрат коэффициента или индекса корреляции.
Для оценки качества построенной модели регрессии можно использовать
показатель (коэффициент, индекс) детерминации R 2 либо среднюю ошибку аппроксимации.
Чем выше показатель детерминации или чем ниже средняя ошибка аппроксимации, тем лучше модель описывает исходные данные.
Средняя ошибка аппроксимации – среднее относительное отклонение
расчетных значений от фактических
Построенное уравнение регрессии считается удовлетворительным, если
значение не превышает 10–12 %.
1.4. Оценка значимости уравнения регрессии, его коэффициентов,
коэффициента детерминации
Оценка значимости всего уравнения регрессии в целом осуществляется с
помощью F -критерия Фишера.
F- критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение
фактического F факт и критического (табличного) F табл значений F- критерия
Фишера.
F факт определяется из соотношения значений факторной и остаточной
дисперсий, рассчитанных на одну степень свободы
где n – число единиц совокупности; m – число параметров при переменных.
Для линейной регрессии m = 1 .
Для нелинейной регрессии вместо r 2 xy используется R 2.
F табл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m , k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.
Уровень значимости α – вероятность отвергнуть правильную гипотезу
при условии, что она верна. Обычно величина α принимается равной 0,05 или
Если F табл < F факт, то Н0 -гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Но не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов линейной регрессии и линейного коэффициента парной корреляции применяется
t- критерий Стьюдента и рассчитываются доверительные интервалы каждого
из показателей.
Согласно t- критерию выдвигается гипотеза Н0 о случайной природе показателей, т. е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия t факт для оцениваемых коэффициентов регрессии и коэффициента корреляции путем сопоставления их значений с величиной стандартной ошибки
Стандартные ошибки параметров линейной регрессии и коэффициента
корреляции определяются по формулам
Сравнивая фактическое и критическое (табличное) значения t- статистики
t табл и t факт принимают или отвергают гипотезу Но.
t табл – максимально возможное значение критерия под влиянием случайных факторов при данной степени свободы k = n– 2 и уровне значимости α.
Связь между F- критерием Фишера (при k 1 = 1; m =1) и t- критерием Стьюдента выражается равенством
Если t табл < t факт, то Но отклоняется, т. е. a, b и не случайно отличаются
от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт, то гипотеза Но не отклоняется и признается случайная природа формирования а, b или https://pandia.ru/text/78/146/images/image041_2.jpg" width="574" height="59">
F табл определяется из таблицы при степенях свободы k 1 = 1, k 2 = n –2 и при
заданном уровне значимости α. Если F табл < F факт, то признается статистическая значимость коэффициента детерминации. В формуле (1.6) величина m означает число параметров при переменных в соответствующем уравнении регрессии.
1.5. Расчет доверительных интервалов
Рассчитанные значения показателей (коэффициенты a , b , ) являются
приближенными, полученными на основе имеющихся выборочных данных.
Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов.
Доверительные интервалы определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью уверенности, соответствующей заданному уровню значимости α.
Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку Δ для каждого показателя:
Величина t табл представляет собой табличное значение t- критерия Стьюдента под влиянием случайных факторов при степени свободы k = n –2 и заданном уровне значимости α.
Формулы для расчета доверительных интервалов имеют следующий вид:
https://pandia.ru/text/78/146/images/image045_3.jpg" width="188" height="62">
где t γ – значение случайной величины, подчиняющейся стандартному нормальному распределению, соответствующее вероятности γ = 1 – α/2 (α – уровень значимости);
z’ = Z (rxy) – значение Z- распределения Фишера, соответствующее полученному значению линейного коэффициента корреляции rxy .
Граничные значения доверительного интервала (r– , r+ ) для rxy получаются
из граничных значений доверительного интервала (z– , z+ ) для z с помощью
функции, обратной Z- распределению Фишера
1.6. Точечный и интервальный прогноз по уравнению линейной
регрессии
Точечный прогноз заключается в получении прогнозного значения уp , которое определяется путем подстановки в уравнение регрессии
соответствующего (прогнозного
) значения x
p
Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin, уpmax интервала, содержащего точную величину для прогнозного значения https://pandia.ru/text/78/146/images/image050_2.jpg" width="37" height="44 src=">
и затем строится доверительный интервал прогноза , т. е. определяются нижняя и верхняя границы интервала прогноза
Контрольные вопросы:
1. Что понимается под парной регрессией?
2. Какие задачи решаются при построении уравнения регрессии?
3. Какие методы применяются для выбора вида модели регрессии?
4. Какие функции чаще всего используются для построения уравнения парной регрессии?
5. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае линейной регрессии?
6. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае гиперболической, показательной регрессии?
7. По какой формуле вычисляется линейный коэффициент парной корреляции r xy ?
8. Как строится доверительный интервал для линейного коэффициента парной корреляции?
9. Как вычисляется индекс корреляции?
10. Как вычисляется и что показывает индекс детерминации?
11. Как проверяется значимость уравнения регрессии и отдельных коэффициентов?
12. Как строится доверительный интервал прогноза в случае линейной регрессии?
Лабораторная работа № 1
Задание.1 На основании данных табл. П1 для соответствующего варианта (табл. 1.1):
1. Вычислить линейный коэффициент парной корреляции.
2. Проверить значимость коэффициента парной корреляции.
3. Построить доверительный интервал для линейного коэффициента парной корреляции.
Задание. 2 На основании данных табл. П1 для соответствующего варианта (табл. 1.1):
1. Построить предложенные уравнения регрессии, включая линейную регрессию.
2. Вычислить индексы парной корреляции для каждого уравнения.
3. Проверить значимость уравнений регрессии и отдельных коэффициентов линейного уравнения.
4. Определить лучшее уравнение регрессии на основе средней ошибки аппроксимации.
5. Построить интервальный прогноз для значения x = x max для линейного
уравнения регрессии.
Требования к оформлению результатов
Отчет о лабораторной работе должен содержать разделы:
1. Описание задания;
2. Описание решения лабораторной работы (по этапам);
3. Изложение полученных результатов.
Таблица П1
Исходные данные к лабораторным работам № 1, 2
Наличие предметов длительного пользования в домашних хозяйствах по регионам Российской Федерации (европейская часть территории без республик Северного Кавказа) (по материалам выборочного обследования бюджетов домашних хозяйств; на 100 домохозяйств; штук)