【16373】-唐宇迪 强化学习实战系列
01 强化学习简介及其应用
01 —张图通俗解释强化学习_ev.mp4
02 强化学习的指导依据_ev.mp4
03 强化学习AI游戏DEMO_ev.mp4
04 应用领域简介_ev.mp4
05 强化学习工作流程_ev.mp4
06 计算机眼中的状态与行为_ev.mp4
02 PPO算法与公式推导
01 基本情况介绍_ev.mp4
02与环境交互得到所需数据_ev.mp4
03要完成的目标分析_ev.mp4
04 策略梯度推导_ev.mp4
05 baseline方法_ev.mp4
06 OnPolicy与OffPolicy策略_ev.mp4
07 importance sampling的作用_ev.mp4
08 PPO算法整体思路解析_ev.mp4
03 PPO实战-月球登陆器训练实例
01 Critic的作用与效果_ev.mp4
02 PPO2版本公式解读_ev.mp4
03 参数与网络结构定义_ev.mp4
04 得到动作结果_ev.mp4
05 奖励获得与计算_ev.mp4
06 参数迭代与更新_ev.mp4
04 Q-learning与DQN算法
01整体任务流程演示_ev.mp4
02 探索与action获取_ev.mp4
03计算target值_ev.mp4
04 训练与更新_ev.mp4
05 算法原理通俗解读_ev.mp4
06 目标函数与公式解析_ev.mp4
07 Qlearning算法实例解读_ev.mp4
08 Q值迭代求解_ev.mp4
09 DQN简介_ev.mp4
05 DQN算法实例演示
01 整体任务流程演示_ev.mp4
02 探索与action获取_ev.mp4
03计算target值_ev.mp4
04 训练与更新_ev.mp4
06 DQN改进与应用技巧
01 DoubleDqn要解决的问题_ev.mp4
02 DuelingDqn改进方法_ev.mp4
03 Dueling整体网络架构分析_ev.mp4
04 MultiSetp策略_ev.mp4
05连续动作处理方法_ev.mp4
07 Actor-Critic算法分析(A3C)
01 AC算法回顾与知识点总结_ev.mp4
02 优势函数解读与分析_ev.mp4
03 计算流程实例_ev.mp4
04 A3C整体架构分析_ev.mp4
05 损失函数整理_ev.mp4
08 用A3C玩转超级马里奥
01 整体流程与环境配置_ev.mp4
02 启动游戏环境_ev.mp4
03要计算的指标回顾_ev.mp4
04初始化局部模型并加载参数_ev.mp4
05与环境交互得到训练数据_ev.mp4
06 训练网络模型_ev.mp4
配套资源返回列表