强化学习基础五：策略梯度数据效率和更新稳定性|TRPO & PPO

TRPO 策略梯度公式为：可以看到，这里是对当前策略求期望，理论上要求每采集一批数据，更新之后，使用新策略跟环境交互，重新采集数据进行更新。但实践中，出于效率和成本考量，通常一个版本策略跑一段时间数据后，才进行采样，在这批数据上进行多次梯度更新。这样采样数据和数据下不断更新的策略有差异。导致分布偏移，数据和目标策略不一致，引入重要性采样只能修正动作分布差异，不能修正状态分布带来的差...

Nov 1, 2025 强化学习

强化学习基础四：策略梯度|REINFORCE & QAC & A2C & DPG & DDPG

策略梯度原理前面的方法都是基于贝尔曼方程，贝尔曼方程定义了状态及动作价值，前述算法通过经验数据来估计动作值，或者通过RM算法来求解贝尔曼最优方程，进而发展出时间差分的算法，然后在此基础上，引入神经网络，经验回放的技术，来解决规模更大更复杂的问题。这些方法的本质是通过状态动作值估计和优化，间接的优化策略，进而逼近最优策略。这些方法称作 value-based。 value-based 方...

Oct 16, 2025 强化学习

强化学习基础三：基于值函数的策略优化|Sarsa & Q-learning & DQN

Sarsa 时间差分提供了给定策略下，状态价值函数评估的方法，是后续TD算法的基础。由于无模型环境中，并不知道在状态 s 选择动作 a 后转移到不同状态的概率，以及获取奖励的概率，也就无法根据 state-value 来选择动作，所以估计的状态价值无法直接用于策略提升。需要估计各个状态-动作对的动作价值，拟合动作值函数，然后结合 policy-impovement 方法来进行策略优化。 ...

Oct 14, 2025 强化学习

强化学习基础二：无模型的状态价值估计|MC & TD

前文介绍的迭代法中使用到了 p(r\s,a)，这是关于环境的信息，包含了完备的状态转移和动作-奖励的概率分布，是基于模型的算法（model-based），但实际问题中，很多时候并不能拿到完备的概率分布，对于这个问题，发展出两种方式，一种是先用环境相关的数据估计状态-动作和奖励间的概率分布，在基于这个模型来迭代策略，一种是 model-free 的算法，model-free 相对更加实用，蒙特...

Oct 5, 2025 强化学习

强化学习基础一：基于模型的状态价值估计| 迭代法求解贝尔曼方程

强化学习基础系列博客从强化学习最基本的概念说起，梳理强化学习是怎么从最简单的q-table演变到近年来常用的ddpg、ppo等算法，描绘出各个算法之间的脉络和内在关联，展现各个算法面临的问题，以及在基础上延伸出的新算法，希望能让读者看到强化学习面临的问题，算法演进的全貌和动力。这些文章避开强化学习诸多概念定义，只介绍少量必要概念，更多的集中于核心算法的演变思路。强化学习基本概念强化学...

Oct 3, 2025 强化学习

从决策树到XGBoost

决策树相关算法从 1980 年代到 2010 年代经历了从单棵树到集成学习、再到工业化优化的漫长发展过程。CART 是集成学习的核心基础，而 GBDT 系列（包括 XGBoost 和 LightGBM）进一步优化了树的训练方式和效率，成为机器学习领域的重要基石。本文根据决策树相关算法发展历程，介绍从单棵决策树到XGBoost算法演变过程。决策树决策树是一种可以对数据进行分类和预测的算...

Jan 11, 2025 机器学习

算法与数据结构梳理

介绍算法题在公司面试比重为何逐渐提升？公司业务本身的需求：数据量越来越大，用户越来越多，程序上微小的改进，能帮公司省很多资源和钱。比如谷歌高薪聘请高水平人才，但他们也只是做很简单的业务，但这对公司来讲是最省钱的。最贵的才是最省的。糙快猛的年代过去了，市场瓜分完毕，各公司需要守好自己的领地，在上面精耕细作，需要很好的程序设计人才。 ...

Dec 27, 2024 算法与数据结构

测试

一级标题二级标题三级标题四级标题五级标题分割线普通内容粗体内容斜体内容引用引用嵌套引用嵌套引用嵌套引用嵌套引用无序列表无序列表无序列表无序列表有序列表有序列表有序列表行内代码整段代码 <d...

Dec 26, 2024