Note
Paper
- 【2026-04-27】【论文解读】Flash Attention
- 【2026-04-26】【论文解读】DeepSeek Engram
- 【2026-04-21】【论文解读】DeepSeek mHC
- 【2026-03-11】【论文解读】DPO
- 【2026-01-18】【论文解读】Transformers are RNNs
- 【2026-01-18】【论文解读】Gated Delta Network
- 【2026-01-18】【论文解读】Gated Attention
- 【2026-01-01】【论文解读】YaRN
- 【2026-01-01】【论文解读】DeepSeek-V3
- 【2026-01-01】【论文解读】DeepSeek-R1
- 【2026-01-01】【论文解读】Denoising Diffusion Probabilistic Models
RL
- 【2026-03-22】【强化学习】从策略梯度到PPO再到GRPO
- 【2026-03-22】【强化学习】10-Actor-Critic
- 【2026-03-22】【强化学习】9-策略梯度方法
- 【2026-03-22】【强化学习】8-值函数近似
- 【2026-03-22】【强化学习】7-时序差分方法
- 【2026-03-22】【强化学习】6-随机近似与随机梯度下降
- 【2026-03-22】【强化学习】5-基于蒙特卡洛的强化学习方法
- 【2026-03-22】【强化学习】4-值迭代与策略迭代
- 【2026-03-22】【强化学习】3-贝尔曼最优公式
- 【2026-03-22】【强化学习】2-贝尔曼公式
- 【2026-03-22】【强化学习】1-基本概念