Categories - WKQ

WKQ
About
Categories

Code 4
Note 1
Paper 12
RL 11

Code

【2026-02-06】【手撕系列】手撕Qwen3-Next
【2026-01-01】【手撕系列】手撕Transformer
【2026-01-01】【手撕系列】手撕Llama3
【2026-01-01】【手撕系列】手撕DeepSeek-V3

Note

【2026-01-01】【笔记】MLA矩阵吸收分析

Paper

【2026-05-21】【论文解读】DeepSeek-V4
【2026-04-27】【论文解读】Flash Attention
【2026-04-26】【论文解读】DeepSeek Engram
【2026-04-21】【论文解读】DeepSeek mHC
【2026-03-11】【论文解读】DPO
【2026-01-18】【论文解读】Transformers are RNNs
【2026-01-18】【论文解读】Gated Delta Network
【2026-01-18】【论文解读】Gated Attention
【2026-01-01】【论文解读】YaRN
【2026-01-01】【论文解读】DeepSeek-V3
【2026-01-01】【论文解读】DeepSeek-R1
【2026-01-01】【论文解读】Denoising Diffusion Probabilistic Models

RL

【2026-03-22】【强化学习】从策略梯度到PPO再到GRPO
【2026-03-22】【强化学习】10-Actor-Critic
【2026-03-22】【强化学习】9-策略梯度方法
【2026-03-22】【强化学习】8-值函数近似
【2026-03-22】【强化学习】7-时序差分方法
【2026-03-22】【强化学习】6-随机近似与随机梯度下降
【2026-03-22】【强化学习】5-基于蒙特卡洛的强化学习方法
【2026-03-22】【强化学习】4-值迭代与策略迭代
【2026-03-22】【强化学习】3-贝尔曼最优公式
【2026-03-22】【强化学习】2-贝尔曼公式
【2026-03-22】【强化学习】1-基本概念

2025~2026