Все эти задачи требуют точного и эффективного понимания происходящего на каждой конкретной видеозаписи. Но распознавание видео (в отличие от распознавания статичных изображений) требует временного моделирования – способности понимать и предугадывать последовательность действий. Как и другие разновидности искусственного интеллекта, основанные на глубоком обучении, видеоприложения обычно нуждаются в огромных и дорогих вычислительных мощностях, без которых просто не работают.
Однако недавно в лаборатории MIT-IBM Watson AI Lab разработали новую методику обучения систем распознавания видео, обеспечивающую высокую точность при сокращении вычислительных затрат[34]. Исследователям удалось обучить систему выдавать результат втрое быстрее, чем если бы они использовали другие современные методики.