reinforcement learning

1. approaches

Policy Gradient
- Trust Region Policy Optimization
- Proximal Policy Optimization
Actor Critic

1.1. related

policy iteration
value iteration

2. helpful links

too many typos, but useful list of sources
q learning vs policy gradient
lilian weng on policy gradients
daniel takeshi on policy gradients

Created: 2024-07-15 Mon 01:28