Loading... > 如果训练完成度的缺陷和reward的曲线**高度差一致**且单调递增,就说明算法正在每次迭代而学习和改进。至于训练完成度是否要高于reward或者低于reward其实并没多少影响 evalution 趋近于100的话就相对稳定  横轴:时间 纵轴:左边reward, 右边完成度 蓝色:**训练**完成度training completion, 训练过程中的完成度,应该也会越来越高, 一般蓝色会低于红色,蓝色是不断尝试,看下这样或者那样跑好不好  红色:评估完成度evaluating completion, 校验过程中的完成度, 最后能达到100% ,会找一个目前了解过的最好的策略,所以完成度会比较高。如果评估的接近100%的话,就说明小车可以完整的在这一个赛道上行驶起来。  Note: 如果出现过度拟合的情况的话,最后这根线会出现回落 绿色:奖励值reward, reward function 随着完成度不断变高,如果奖励函数没问题的话,reward也会不断变高  下面这种曲线是比较好的结果:  如果蓝色和绿色的线是成正比的话且都是单调递增的话,就说明奖励和完成度有关,那么这个模型就比较好,我们可以让他继续训练,最终100 如果平均奖励和赛道完成度总是显示趋于收敛的趋势,那训练任务就进展的非常顺利。 特别是如果每个阶段,持续的进度都会达到接近100%并且奖励稳定,模型已经收敛,此时不需要进行训练,否则我们需要克隆模型,继续进行训练。 但是如果看评估图表会发现一直在20%到30%就说明没有过发夹弯 最后修改:2025 年 07 月 03 日 © 允许规范转载 打赏 赞赏作者 支付宝微信 赞 如果觉得我的文章对你有用,请随意赞赏