训练贪吃蛇ai的后续记录
发现可以结合遗传算法的思路,产生更好的效果。
即每训练一段时间,就停下来测试一下新模型的效果。如果效果优于记录中最好的,则继续导入该模型并训练。重复几次,效果可能更好。
例如,昨晚我便通过唯一一个在十次测试中通关一次的模型,得到了三个通过率为20%(每个都测试十次)的新模型。在其中选出平均分和平均奖励最高的,再次训练一晚上后,得到以下结果
通关分数为1410
最高通过率足足有50%!当时我都不太敢相信,还去看了看代码,确保没有把测试种子设为固定值。
作为小白,总感觉这通过率进步的有点离谱。