Skip to content

基础概念

随机变量

1738982546473

概率密度函数

1738982597234

1738982619686

期望

1738982650136

状态、动作

1738982826185

策略

给定状态s做成动作a的概率

1738982863247

奖励

1738983145043

状态转移

在s和a的条件下s'发生的概率

1738983250615

Return回报

1738983683220

1738983786344

价值函数

1738984019089

动作价值函数

1738984096517

状态价值函数

1738984347449

2种方式学习

1738985437774

价值学习

DQN(Deep Q-Network )

简单说就是用神经网络近似Q*(s,a)函数

怎么训练DQN?方式1:TD算法

1738992451859

1738992727280

1738992850951

策略学习

Policy Network

1738993304893

1738994366329

1738994452549

1738994550073

1738995017636

Actor-Critic Methods

将价值学习和策略学习结合

1738995315552

1738995623377

1739001081756

AlphaGo

1739004544334

1739004582042

Behavior Cloning

1739004501261

1739004959821

1739005127084

1739005171013