-
基于Deep Q-Network算法和highway-env仿真环境的车道变更策略
Deep Q-Network 强化学习中的策略可以按照目标策略和行为策略进行分类: Q-learning 是一种off-policy TD方法. 所谓off-policy就是指行为策略和目标策略不是同一个策略, 智能体可…
Deep Q-Network 强化学习中的策略可以按照目标策略和行为策略进行分类: Q-learning 是一种off-policy TD方法. 所谓off-policy就是指行为策略和目标策略不是同一个策略, 智能体可…