自动驾驶 – 神造AI

AI

基于Deep Q-Network算法和highway-env仿真环境的车道变更策略

2025 年 4 月 15 日 /

Deep Q-Network 强化学习中的策略可以按照目标策略和行为策略进行分类: Q-learning 是一种off-policy TD方法. 所谓off-policy就是指行为策略和目标策略不是同一个策略, 智能体可…

阅读更多

 黑贝 0评论