Оптимизация стратегии в алгоритмах обучения с подкреплением в логистических системах принятия решений
В обзорной статье ставится задача анализа и систематизации современных исследований в области оптимизации стратегий алгоритмов обучения с подкреплением, применяемых в логистических системах принятия решений. В ходе работы над обзором были рассмотрены научные публикации за последние 5 лет, индексируемые в ведущих базах данных, посвященные применению методов обучения с подкреплением в логистике. Особое внимание уделено работам, описывающим алгоритмы Policy Gradient и Proximal Policy Optimization (PPO). Методология обзора включает сравнительный анализ, классификацию подходов и оценку их эффективности. Выявлены основные тенденции в развитии методов оптимизации стратегий для логистических систем. Определены ключевые преимущества и ограничения различных подходов. Установлено, что методы на основе PPO демонстрируют наибольшую эффективность в сложных динамических средах. Обнаружен растущий интерес к гибридным подходам, сочетающим обучение с подкреплением и классические методы оптимизации. Выделены перспективные направления дальнейших исследований, включая адаптацию алгоритмов к специфическим задачам логистики и повышение их интерпретируемости. Полученные результаты могут служить основой для разработки новых алгоритмов и их практического применения в различных секторах логистики и управления цепями поставок.
Авторы: А. Р. Салиева, Н. А. Верзун, М. О. Колбанев
Направление: Информатика, вычислительная техника и управление
Ключевые слова: логистические системы принятия решений, обучение с подкреплением, оптимизация стратегии, Policy Gradient методы, Proximal Policy Optimization
Открыть полный текст статьи