【论文解读】Flash Attention 【2026-04-27】本文提出 FlashAttention,一种 IO-aware 的精确 attention 算法。其核心思想是通过 tiling(分块计算)和 recomputation(反向传播时重计算)两个技术,避免将 N×N 的 attention 矩阵写入 GPU HBM(高带宽内存),从而大幅减少 HBM 读写次数。
【论文解读】DeepSeek Engram 【2026-04-26】本文引入了条件记忆作为对当前流行的条件计算范式(MoE)的互补稀疏性轴,旨在解决通过动态计算模拟知识检索的低效问题。通过 Engram 模块实例化了这一概念,该模块将经典的 N-gram 进行现代化改造,以实现静态模式的可扩展、常数时间查找。
【论文解读】DeepSeek mHC 【2026-04-21】本文提出了流形约束超连接(Manifold-Constrained Hyper-Connections, mHC),它将 HC 的残差连接空间投影到特定的流形上,以恢复恒等映射特性。实验表明,mHC 在大规模训练中是有效的,在性能提升的同时具有更优的可扩展性。
【强化学习】从策略梯度到PPO再到GRPO 【2026-03-22】从策略梯度(Policy Gradient,PG)到近端策略优化(Proximal Policy Optimization, PPO),再到群组相对策略优化(Group Relative Policy Optimization, GRPO)的逐步介绍。