1.2. Регрессионные модели и математические модели
Термин «регрессия» был предложен Ф. Гальтоном в конце XIX в. Он обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост, и назвал этот феномен «регрессия к посредственности». Сначала этот термин использовался исключительно в биологическом смысле. После работ К. Пирсона его стали использовать и в статистике. Регрессионный анализ – метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и одной или нескольких независимых переменных (объясняющей переменной). Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных.
Регрессионная модель f(w, x) – это семейство математических функций, задающее отображение f: W × X → Y,
где: w ϵ W – пространство параметров;
x ϵ X – пространство независимых переменных;
Y – пространство зависимых переменных.
С точки зрения возможности формализации закономерностей, в том числе и в психологии, необходимо различать математические модели и регрессионные модели.
Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую известную закономерность. Математическая модель является интерпретируемой – объясняемой в рамках исследуемой закономерности. При построении математической модели сначала создается параметрическое семейство функций, затем с помощью измеряемых данных выполняется идентификация модели – нахождение ее параметров. Известная функциональная зависимость объясняющей переменной и переменной отклика – основное отличие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекватную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных факторов4.
Регрессионное моделирование – активно развивающийся класс методов. Они находятся на стыке анализа данных и моделирования явлений. Корень регрессионного моделирования – нахождение уравнения регрессии.
Уравнение регрессии – математическая функция, которая выражает связь между усредненными значениями одной зависимой переменной и одной или несколькими независимыми переменными.
Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто малоинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели.
Нахождение параметров регрессионной модели называется обучением модели.
Недостатки регрессионного анализа по сравнению с математическим моделированием:
– модели, имеющие слишком малую сложность, могут оказаться неточными;
– модели, имеющие избыточную сложность, могут оказаться переобученными.
Примерами регрессионных моделей являются: линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи (например, однослойный персептрон Розенблатта), радиальные базисные функции и т. д.
Примерами математических моделей являются: математические модели на основе теории игр, модель «хищник – жертва», модель маятника и т. д.
1.3. Зависимая и независимая переменные и регрессионный анализ