WKQ

【论文解读】Flash Attention

【2026-04-27】本文提出 FlashAttention，一种 IO-aware 的精确 attention 算法。其核心思想是通过 tiling（分块计算）和 recomputation（反向传播时重计算）两个技术，避免将 N×N 的 attention 矩阵写入 GPU HBM（高带宽内存），从而大幅减少 HBM 读写次数。

【论文解读】DeepSeek Engram

【2026-04-26】本文引入了条件记忆作为对当前流行的条件计算范式（MoE）的互补稀疏性轴，旨在解决通过动态计算模拟知识检索的低效问题。通过 Engram 模块实例化了这一概念，该模块将经典的 N-gram 进行现代化改造，以实现静态模式的可扩展、常数时间查找。

【论文解读】DeepSeek mHC

【2026-04-21】本文提出了流形约束超连接（Manifold-Constrained Hyper-Connections, mHC），它将 HC 的残差连接空间投影到特定的流形上，以恢复恒等映射特性。实验表明，mHC 在大规模训练中是有效的，在性能提升的同时具有更优的可扩展性。

【强化学习】从策略梯度到PPO再到GRPO

【2026-03-22】从策略梯度（Policy Gradient，PG）到近端策略优化（Proximal Policy Optimization, PPO），再到群组相对策略优化（Group Relative Policy Optimization, GRPO）的逐步介绍。