Линейная регрессия представляет собой замечательный инструмент: гибкий, масштабируемый и легкий в применении (вы просто нажимаете соответствующую кнопку электронной таблицы). Этот инструмент можно применять к двум наборам данных с участием двух переменных, как в приведенном выше примере, но он работает не менее эффективно и в случае трех или даже тысячи переменных. Каждый раз, когда вам нужно понять, как одни переменные меняют другие переменные и в каком направлении, линейная регрессия – это первое, что следует использовать. Этот инструмент применим буквально к любому набору данных.

Однако в этом заключается не только сильная, но и слабая сторона линейной регрессии. Вы можете применить этот метод, не задумываясь, действительно ли феномен, который вы пытаетесь моделировать, близок к линейному. Но вы не должны так делать. Я сказал, что линейная регрессия подобна отвертке – что действительно так; однако в другом смысле она скорее напоминает циркулярную пилу. Если вы примените этот инструмент без тщательного анализа того, что вы делаете, результаты могут оказаться плачевными.

Возьмем в качестве примера ракету, которую мы с вами запустили в предыдущей главе. Возможно, вы не имеете никакого отношения к ее запуску. А может быть, напротив, представляете собой ту цель, на которую эта ракета направлена. В последнем случае вы особенно заинтересованы в как можно более точном анализе траектории движения ракеты.

Вы могли бы нанести на график положение ракеты по вертикали в пяти точках по времени. Такой график выглядит следующим образом.



Теперь вы в состоянии быстро выполнить линейную регрессию, получив замечательный результат: линию, которая проходит почти через все точки на графике.



(В этот момент ваша рука начинает приближаться к острому полотнищу циркулярной пилы.)

Построенная вами линия представляет собой весьма точную модель движения ракеты: за каждую минуту ракета поднимается на определенное фиксированное расстояние, скажем на 400 метров. Через час ракета окажется в 24 километрах над поверхностью земли. Когда же она опустится на поверхность? Никогда! Направленная вверх наклонная прямая линия по-прежнему стремится вверх. Именно так ведут себя прямые.

(Кровь, травмы, вопли.)

Однако не каждая линия является прямой. А траектория полета ракеты несомненно представляет собой не прямую, а параболу. Подобно окружности Архимеда, вблизи она действительно похожа на прямую, поэтому линейная регрессия сослужит вам большую службу, позволив определить местоположение ракеты через пять секунд после запуска. Но через час? Даже не думайте об этом. Ваша модель говорит о том, что через час ракета находится в нижних слоях стратосферы, хотя на самом деле она, возможно, уже приближается к вашему дому.

Возможно, самое образное предостережение в отношении бездумной линейной экстраполяции сформулировал не статистик, а Марк Твен в романе Life on the Mississippi («Жизнь на Миссисипи»):

…Длина Миссисипи между Каиром и Новым Орлеаном сто семьдесят шесть лет тому назад была тысяча двести пятнадцать миль. После прорыва русла в 1722 году длина стала тысяча сто восемьдесят миль. Когда образовался рукав у Американской излучины, длина стала тысяча сорок миль. С тех пор этот участок реки укоротился еще на шестьдесят семь миль. Следовательно, сейчас ее длина между Каиром и Новым Орлеаном всего девятьсот семьдесят три мили.

…За сто семьдесят шесть лет Нижняя Миссисипи укоротилась на двести сорок две мили, то есть в среднем примерно на милю и одну треть в год. Отсюда всякий спокойно рассуждающий человек, если только он не слепой и не совсем идиот, сможет усмотреть, что в древнюю силурийскую эпоху, – а ей в ноябре будущего года минет ровно миллион лет – Нижняя Миссисипи имела свыше миллиона трехсот тысяч миль в длину и висела над Мексиканским заливом наподобие удочки. Исходя из тех же данных, каждый легко поймет, что через семьсот сорок два года Нижняя Миссисипи будет иметь только одну и три четверти мили в длину, а улицы Каира и Нового Орлеана сольются, и будут эти два города жить да поживать, управляемые одним мэром и выбирая общий городской совет. Все-таки в науке есть что-то захватывающее. Вложишь какое-то пустяковое количество фактов, а берешь колоссальный дивиденд в виде умозаключений. Да еще с процентами