

【16373】-唐宇迪强化学习实战系列

01 强化学习简介及其应用

01 —张图通俗解释强化学习_ev.mp4

02 强化学习的指导依据_ev.mp4

03 强化学习AI游戏DEMO_ev.mp4

04 应用领域简介_ev.mp4

05 强化学习工作流程_ev.mp4

06 计算机眼中的状态与行为_ev.mp4

02 PPO算法与公式推导

01 基本情况介绍_ev.mp4

02与环境交互得到所需数据_ev.mp4

03要完成的目标分析_ev.mp4

04 策略梯度推导_ev.mp4

05 baseline方法_ev.mp4

06 OnPolicy与OffPolicy策略_ev.mp4

07 importance sampling的作用_ev.mp4

08 PPO算法整体思路解析_ev.mp4

03 PPO实战-月球登陆器训练实例

01 Critic的作用与效果_ev.mp4

02 PPO2版本公式解读_ev.mp4

03 参数与网络结构定义_ev.mp4

04 得到动作结果_ev.mp4

05 奖励获得与计算_ev.mp4

06 参数迭代与更新_ev.mp4

04 Q-learning与DQN算法

01整体任务流程演示_ev.mp4

02 探索与action获取_ev.mp4

03计算target值_ev.mp4

04 训练与更新_ev.mp4

05 算法原理通俗解读_ev.mp4

06 目标函数与公式解析_ev.mp4

07 Qlearning算法实例解读_ev.mp4

08 Q值迭代求解_ev.mp4

09 DQN简介_ev.mp4

05 DQN算法实例演示

01 整体任务流程演示_ev.mp4

02 探索与action获取_ev.mp4

03计算target值_ev.mp4

04 训练与更新_ev.mp4

06 DQN改进与应用技巧

01 DoubleDqn要解决的问题_ev.mp4

02 DuelingDqn改进方法_ev.mp4

03 Dueling整体网络架构分析_ev.mp4

04 MultiSetp策略_ev.mp4

05连续动作处理方法_ev.mp4

07 Actor-Critic算法分析（A3C）

01 AC算法回顾与知识点总结_ev.mp4

02 优势函数解读与分析_ev.mp4

03 计算流程实例_ev.mp4

04 A3C整体架构分析_ev.mp4

05 损失函数整理_ev.mp4

08 用A3C玩转超级马里奥

01 整体流程与环境配置_ev.mp4

02 启动游戏环境_ev.mp4

03要计算的指标回顾_ev.mp4

04初始化局部模型并加载参数_ev.mp4

05与环境交互得到训练数据_ev.mp4

06 训练网络模型_ev.mp4

配套资源

加QQ群共同学习共同进步

返回列表