Анализ перспектив обучения умных автономных логистических систем на основе оптимизации функции ценности
Цель статьи состоит во всестороннем анализе и классификации методов обучения с подкреплением по различным критериям для выявления их преимуществ, недостатков и областей эффективного применения. Особое внимание уделяется анализу методов с оптимизацией ценности: Q-Learning, SARSA и Deep Q-Network. Описаны преимущества и недостатки каждого метода в контексте их использования в умных автономных логистических системах. Рассмотрены примеры успешного использования методов обучения с подкреплением с оптимизацией ценности в сфере логистики; выявляются наиболее перспективные направления их применения; формулируются рекомендации по выбору того или иного метода для решения задач в автономных логистических системах.
Авторы: Н. А. Верзун, М. О. Колбанев, А. Р. Салиева
Направление: Информатика, вычислительная техника и управление
Ключевые слова: автономные логистические системы, обучение с подкреплением, оптимизация функции ценности, Q-Learning, SARSA, Deep Q-Network
Открыть полный текст статьи