Наиболее часто на практике наблюдаемый процесс описывается линейной многофакторной моделью:
Y = a + b>1x>1 + b>2 х>2 +… + b>kx>k, (1.37)
гдеx>1x>2… x>k – значения факторов; a, b>1, b>2, b>k – параметры модели.
Что же такое модель? Как ее объяснить? Обычно стараются для наглядности все процессы интерпретировать геометрически. Попробуем подойти к многофакторной модели именно с такой позиции.
Совершенно очевидно, что однофакторный процесс я вляется частным случаем многофакторного уравнения. Модели Y = f (?) представляют собой множество кривых различного рода на плоскости. Если рассматривать модель вида Y = a + bx, то это будет множество прямых на плоскости. Внося в рассмотрение еще один фактор, мы получаем уравнение вида Y = f (x>1, x>2) или для линейной модели: Y = a + b>1x>1 + b>2x>2. Это уже будет множество положений плоскости в трехмерном пространстве. Для трех факторов мы уже не можем дать геометрического толкования модели. Однако в целях обобщения можно считать, что линейная модель Y = a + b>1 x>1 + b>2x>2 +...b>kx>k представляет собой «гиперплоскость» в (k + 1) – мерном пространстве.
Рекомендуется всегда предварительно изучить форму и степень связи между результативным и всеми выбранными факторами попарно. Если все попарные связи линейны или близки к линейным, то есть все основания полагать, что и множественная связь будет линейной.
Схема корреляционно-регрессионного анализа подразумевает следующие шаги:
1) определение связи между изучаемыми признаками;
2) формирование уравнения регрессии;
3) расчет показателей связи.
Чтобы отобрать факторы, оказывающие существенное влияние на результативный признак, необходимо произвести группировку по нему. Из всех факторов необходимо отобрать те, которые наиболее связаны с результативным признаком.
Так, например, при изучении влияния основных экономических факторов на себестоимость молока необходимо произвести группировку хозяйств по себестоимости 1 ц молока, взяв в качестве факторных признаков:
а) уровень кормления;
б) стоимость 1 ц кормовых единиц (корм. ед.);
в) уровень оплаты труда;
г) уровень специализации хозяйств на производстве молока и т. п.
Для установления формы связи необходимо построить графики попарной зависимости выбранных факторов с результативным признаком (в нашем случае это себестоимость). В случае прямолинейной зависимости или близкой к таковой между всеми факторами и результатом следует использовать уравнение регрессии линейного типа:
Y=a+b>1x>1 + b>2 x>2 + „. + b>kx>k,
где x>1 x>2… x>k – выбранные факторы; b>1 b>2 … b>k – коэффициенты регрессии, определяющие степень среднего изменения значений зависимой переменной Y при изменении фактора на единицу, но при условии, что остальные факторы, включенные в уравнение, остаются постоянными.
В основе определения параметров уравнений регрессии лежит метод наименьших квадратов, сущность которого заключается в отыскании таких параметров уравнения связи, при которых сумма квадратов отклонений переменной от ее значений, исчисленных по уравнению:
будет минимальной.
Известный из дифференциального исчисления способ нахождения максимума и минимума функций при помощи производных приводит к системе нормальных уравнений. Количество уравнений, составляющих систему, соответствует числу параметров, подлежащих определению. Так, для двух факторов, а значит, для трех переменных необходимо решить систему из трех уравнений:
А для трех факторов, а значит, четырех неизвестных параметров система нормальных уравнений будет иметь следующий вид:
Число подлежащих решению уравнений можно уменьшить на одно, если все коэффициенты при неизвестных выразить в отклонениях от средней и разделить обе части каждого уравнения на число наблюдений. В этом случае получим: