Полусупервизорные методы являются промежуточным решением между супервизорным и несупервизорным обучением. В ситуациях, когда есть большое количество неразмеченных данных и небольшое количество размеченных, полусупервизорные подходы позволяют эффективно использовать все данные, улучшая результаты модели с меньшими затратами на разметку.
В этой главе мы углубимся в эти методы, разберем их принципы, области применения и примеры реализации, что позволит понять, как и когда можно применить их для решения реальных задач.
Обучение с подкреплением (reinforcement learning, RL) – это подход в машинном обучении, при котором агент учится принимать решения, взаимодействуя с окружающей средой и получая за свои действия обратную связь в виде награды или наказания. Этот процесс напоминает обучение через опыт: агент предпринимает действия в определённой среде, получает результаты этих действий и на основе этих результатов корректирует свои дальнейшие действия.
Основной идеей в обучении с подкреплением является то, что агент должен максимизировать свою долгосрочную награду. Агент не получает четких указаний о том, какие действия он должен выполнять, а лишь получает информацию о том, насколько успешными были его действия на основе полученной награды. Это делает обучение с подкреплением схожим с процессом обучения живых существ: они учат свои действия через опыт, получая позитивные или негативные последствия в зависимости от того, насколько правильными были их выборы.
Процесс обучения с подкреплением можно описать через несколько ключевых компонентов. Агент – это существо или система, которая принимает решения и взаимодействует с окружающей средой. Среда, в свою очередь, представляет собой всё, с чем агент взаимодействует, включая её состояние. Каждое состояние среды – это описание текущего положения дел, и агент на основе этого состояния решает, какое действие он должен предпринять.
Когда агент выбирает действие, среда реагирует, изменяя своё состояние, и агент получает награду или наказание в зависимости от того, как полезным было это действие для достижения цели. Награда – это числовая величина, которая отражает степень успеха действия агента, а цель агента заключается в том, чтобы в долгосрочной перспективе накопить как можно больше награды. Это позволяет агенту научиться, какие действия в каких ситуациях приводят к наибольшей выгоде.
Одной из важнейших проблем обучения с подкреплением является баланс между исследованием (exploration) и эксплуатацией (exploitation). Исследование заключается в том, чтобы пробовать новые действия, которые могут привести к более высоким наградам, даже если они не гарантируют немедленного успеха. Эксплуатация – это использование уже известных и успешных действий, которые обеспечивают более предсказуемый результат. Баланс между этими двумя подходами критичен, так как слишком большое количество исследования может привести к неэффективности, а слишком много эксплуатации – к застою и пропущенным возможностям для улучшения.
Для того чтобы агент мог учиться, ему нужно понимать, какие действия в каком состоянии среды приводят к наибольшей награде. Это связано с понятием "политики" (policy), которая представляет собой стратегию поведения агента: она определяет, какое действие должен выполнить агент в каждом возможном состоянии. Политика может быть детерминированной, когда для каждого состояния есть однозначное действие, или стохастической, когда агент с определённой вероятностью выбирает одно из нескольких возможных действий.