What is the difference between proximal policy optimization (PPO) and trust region policy optimization (TRPO)?

Question

Machine Learning — Hard

What is the difference between proximal policy optimization (PPO) and trust region policy optimization (TRPO)?

Accepted Answer

TRPO enforces a hard constraint on KL divergence using conjugate gradient, ensuring monotonic improvement but being computationally expensive. PPO approximates this constraint with a clipped surrogate objective, making it simpler and computationally efficient.