§ Задание 1.1

Для выборки значений содержаний проб:

0, 0.2, 0.6, 0.9, 0.9, 1.4, 1.6, 3

рассчитайте:

– Среднее.

– Мода.

– Медиана.

– Дисперсия (несмещенная).

– Стандартное отклонение.

– Коэффициент вариации.

Ответы округлите до двух знаков после запятой.

§ Задание 1.2

Скачайте8 выборку значений содержаний проб и рассчитайте:

– Среднее.

– Мода.

– Медиана.

– Дисперсия (несмещенная).

– Стандартное отклонение.

– Коэффициент вариации.

Ответы округлите до двух знаков после запятой.

Диаграмма накопленной частоты

Кроме гистограммы, классическим вариантом диаграммы, характеризующей выборку, считается также диаграмма накопленной частоты. Диаграмма накопленной частоты может быть построена как на сгруппированных данных, так и на не сгруппированных.

При построении диаграммы накопленных частот по сгруппированным данным выполняется разбиение всего диапазоны на классы (аналогично тому, как это делается для гистограммы), классы ранжируются по возрастанию, затем для каждого класса суммируется количество данных, попавших в этот класс с количеством данных, попавших во все классы, «ниже» данного. То есть частота данных в каждом классе накапливается от «низов» выборки до ее «верха». В качестве примера рассмотрим некоторую величину, распределенную следующим образом:


Пример распределения


В табличном виде это распределение можно представить следующим образом:



Выполним расчет накопленной частоты для приведенного примера:



И теперь – построение графика:


Диаграмма накопленных частот


При построении диаграммы накопленных частот по не сгруппированным данным последовательность действий чуть другая:

– Данные ранжируются по возрастанию.

– Составляется ранжированный ряд уникальных значений.

– Для каждого уникального значения подсчитывается частота встречаемости.

– Для каждого уникального значения подсчитывается накопленная частота: частота встречаемости этого значения плюс частоты всех значений более низкой величины. То есть в данном случае в качестве классов значений (как в варианте со сгруппированными данными) выступают уникальные значения исследуемой величины.

График накопленных частот для того же распределения, что и выше по не сгруппированным данным, представлен на рисунке ниже.


График накопленных частот по не сгруппированным данным

Коэффициент асимметрии

При построении гистограмм можно получить график как симметричный, в котором больших и малых значений «примерно поровну», так и асимметричный – с преобладанием высоких или низких значений. Для условий данных опробования цветных или драгоценных металлов асимметричный график встречается намного чаще симметричного. Логично, что нужна некая точная характеристика асимметрии, которая позволила бы избежать волюнтаризма в определении степени асимметричности выборки. Так давайте же сконструируем такую характеристику.

Итак, у нас есть набор выборочных значений, основная масса которых группируется «слева» или «справа». Логично задать себе вопрос: слева или справа от чего? Видимо, от среднего арифметического. То есть, если мы попытаемся рассчитать разность (X>i – X>среднее), то среднее подобных разностей должно бы нам показать направление и величину отклонений выборочных данных от среднего. Возможно, должно, но не будет: сумма подобных разностей всегда будет нулевой – по механизму расчета среднего. Казалось бы, можно возвести в квадрат – как это делалось для расчета дисперсии. Но проблема в том, что знак разности (X>i – X>среднее) нужен (мы ж хотим понимать – значение ушло «влево» или «вправо» от среднего), а при возведении в квадрат знак «потеряется». Логично тогда использовать нечетную степень – она позволит избежать обнуления суммы разностей, с одной стороны, и «не потеряет знак» разностей – с другой. Первая нечетная степень – 3. То есть логично рассчитать среднее арифметическое кубов разностей. Также хотелось бы, чтобы конструируемая величина допускала сравнение асимметрии распределений разнородных данных, возможно, даже измеренных в разных единицах. То есть эта величина должна быть безразмерной – как сконструированный ранее коэффициент вариации. И кажется вполне логичным, что наше среднее должно быть нормировано на стандартное отклонение – т. е. показывать, во сколько раз асимметрия выборки больше, чем характеристика ее размаха. Ну, а учитывая то, что: