Оптимизация стратегии в алгоритмах обучения с подкреплением в логистических системах принятия решений

В обзорной статье ставится задача анализа и систематизации современных исследований в области оптимизации стратегий алгоритмов обучения с подкреплением, применяемых в логистических системах принятия решений. В ходе работы над обзором были рассмотрены научные публикации за последние 5 лет, индексируемые в ведущих базах данных, посвященные применению методов обучения с подкреплением в логистике. Особое внимание уделено работам, описывающим алгоритмы Policy Gradient и Proximal Policy Optimization (PPO). Методология обзора включает сравнительный анализ, классификацию подходов и оценку их эффективности. Выявлены основные тенденции в развитии методов оптимизации стратегий для логистических систем. Определены ключевые преимущества и ограничения различных подходов. Установлено, что методы на основе PPO демонстрируют наибольшую эффективность в сложных динамических средах. Обнаружен растущий интерес к гибридным подходам, сочетающим обучение с подкреплением и классические методы оптимизации. Выделены перспективные направления дальнейших исследований, включая адаптацию алгоритмов к специфическим задачам логистики и повышение их интерпретируемости. Полученные результаты могут служить основой для разработки новых алгоритмов и их практического применения в различных секторах логистики и управления цепями поставок.

Авторы: А. Р. Салиева, Н. А. Верзун, М. О. Колбанев

Направление: Информатика, вычислительная техника и управление

Ключевые слова: логистические системы принятия решений, обучение с подкреплением, оптимизация стратегии, Policy Gradient методы, Proximal Policy Optimization

Открыть полный текст статьи