Введение в машинное обучение - Едилхан Амиргалиев читать книгу онлайн бесплатно без сокращений (страница 6)

Едилхан Амиргалиев Введение в машинное обучение читать онлайн страница 6

4 5 6 7 8

Вперед

а в задаче регрессии

J(A(ob), y(ob)) = | A(ob) – y(ob) |

или

J(A(ob), y(ob)) = (A(ob) – y(ob))2.

Возникает закономерный вопрос: что же такое объект? В задачах машинного обучения объект – это некоторое множество параметров (признаков). Если некоторую сущность можно описать конечным набором параметров, то она может рассматриваться как объект в машинном обучении, причем ее физическая природа не имеет значения. Параметры могут задаваться исследователем, исходя из его представлений о наилучшем описании объекта, так, как это делается в «классических» задачах машинного обучения, или, с другой стороны, формироваться путем выполнения некоторой процедуры так, как это делается в глубоком обучении.

Таким образом, каждый объект ob описывается конечным набором (входных) параметров или свойств (input values or features) x_>1,x_>2,….x_>n, одинаковым для каждого ob_>i∈ Ob , а y называется целевой переменной (целевым параметром) (target value) в задаче регрессии или классом в задаче классификации.

Алгоритм А может описываться конечным набором параметров θ_>i∈ θ или, как часто говорится при описании нейронных сетей, весов (weights) w_>i∈ W.

Задача обучения по примерам рассматривается как задача оптимизации, которую решают путем настройки множества параметров θ алгоритма А так, чтобы минимизировать значение функции стоимости J(θ) по всем примерам m.

В задаче регрессии алгоритм A часто называется функцией гипотезы, а функция стоимости определяется как сумма квадратов разности «предсказываемого» алгоритмом (функцией гипотезы) значения и реального значения у по множеству примеров m. При этом подбирается такая функция гипотезы h_>θ(x), которая при некотором наборе параметров θ_>i∈ θ обеспечивает минимальное значение J(θ).

где m – множество обучающих примеров или объектов; x^>(i) – значение параметров или свойств для i-го объекта; y^>(i) – фактическое значение объясняемой или целевой переменной для i-го примера; h_>θ– функция гипотезы, которая может быть линейной (h_>θ = θ_>0 + θ_>1x) или нелинейной (например, квадратичная функция гипотезы одной переменной – (h_>θ = θ_>0 + θ_>1x + θ_>2x^>2).

Например, если мы рассматриваем задачу прогнозирования стоимости автомобиля, исходя из года его производства, то год производства будет являться входной переменной или свойством (x), а стоимость – целевой переменной (y) (рисунок 2.1).

Рисунок 2.1. Зависимость стоимости автомобиля от года выпуска

В таком случае мы решаем задачу регрессии одной переменной. Случай регрессии многих переменных возникает тогда, когда мы будем учитывать кроме года выпуска объем двигателя, количество посадочных мест, марку и т.п. Перечисленные параметры образуют множество свойств или входных параметров, которые определяют единственную целевую переменную – стоимость.

Забегая вперед, можно сказать, что для подбора параметров θ_>iнеобходимо, чтобы параметры x_>j∈X (в многомерном случае), описывающие объекты, были выражены единицами одинаковой размерности и примерно одинаковой величины. Чаще всего путем нормализации стремятся представить все параметры в виде чисел в диапазоне 0≤x≤1 или –1≤x≤1. Вообще говоря, выбор функции нормализации зависит от класса задачи. Кроме того, в процессе предварительной обработки данных могут быть использованы методы, обеспечивающие исключение аномальных значений, исключение шумов (например, высокочастотных) путем сглаживания и т.п. Выбор этих методов также зависит от класса задачи. После того как параметры нормализованы и очищены от аномальных значений, а также исключены объекты, которые определены не полностью (то есть объекты, для которых часть свойств неизвестна), выполняется поиск функции гипотезы

Вперед