Первое, что логично напрашивается – это минимальное и максимальное значения, а также размах. Если с минимумом и максимумом все понятно, то размах – это разница между максимумом и минимумом. То есть размах – это диапазон значений, полученных для данной выборки.

Следующая характеристика выборки – это выборочное среднее. Зачастую слово «выборочное» опускают и говорят просто о «среднем». Вообще говоря, существует довольно большое количество средних, однако чаще всего при упоминании «среднего» имеют в виду среднее арифметическое. Среднее (арифметическое) – это величина, которая рассчитывается по формуле, хорошо знакомой еще из школьного курса.


Формула расчета среднего


Например, среднее из 4, 10 и 19 равняется 11. То есть среднее – величина, промежуточная для реальных значений. Если рассматривать числа как точки на числовой прямой, то среднее – это точка «посередине» точек, соответствующих выборочным данным.

Среднее обладает некоторыми свойствами, также позволяющими лучше понять его смысл:

– если средней величиной заменить все значения выборки, то сумма значений выборки не изменится;

– если среднее значение вычесть из каждого значения выборки, то сумма этих разностей будет равна 0.

Необходимо отметить, что среднее (арифметическое) дает неплохое представление о выборке «симметричной», т. е. такой, в которой высоких и низких значений «примерно поровну». В том же случае, когда явно преобладают высокие или низкие значения, среднее дает смещенную оценку. Также на оценку среднего серьезное влияние оказывают значения, резко выделяющиеся из общей массы (причем неважно – в большую или меньшую сторону). В качестве примера можно рассмотреть коллектив небольшой организации, в которой 20 человек получают по 30 т. р., а генеральный директор – 2 млн. р. Очевидно, что среднее, равное для описанного случая, ~695 т. р., вряд ли корректно отражает ситуацию с уровнем доходов сотрудников организации – причем это справедливо как в отношении рядовых сотрудников, так и в отношении директора. Ну или можно рассмотреть известную шутку о том, что все посетители бара, куда заходит Билл Гейтс, мгновенно в среднем становятся миллионерами (правда, счастье длится ровно до того момента, пока этот уважаемый человек не покинет бар). Вопрос о методах выявления и компенсации аномальных значений в выборке – не самый простой и будет относительно подробно рассмотрен в главе, посвященной урезке ураганных содержаний.

Кроме фактора симметричности и наличия/отсутствия аномальных значений, на оценку среднего может повлиять и разница в других свойствах предметов (явлений), которые приводят к смещению оценки среднего. Одним из подобных факторов является свойство, которое принято называть весом.

Представим себе ситуацию смешивания двух объемов руды: одна смешиваемая руда характеризуется содержанием золота (почему бы и не золота?) 5 г/т, вторая – 10 г/т. Обычное среднее арифметическое, очевидно, в данном случае составит 7.5 г/т. То есть, если мы очень хорошо перемешаем рудный материал, то ожидаем увидеть в получившейся смеси эти самые 7.5 г/т. Но что будет, если масса «пятиграммовой» руды составит 10 т, а «десятиграммовой» – 1 т? Очевидно, что в результате смешивания мы получим 11 т руды. При этом из первой порции «придет» 50 г драгоценного металла, а из второй – 10 г. То есть в смеси всего будет содержаться 60 г. И среднее в этом случае составит 60/11 ≈ 5.45 г/т. Очевидно, цифра несколько отличается от ранее полученных 7.5 г/т (что, безусловно, обидно, зато позволило не впасть в ошибку при ожидании).