• WKQ
  • About
  • Categories
Deep Learning, Learning Deeply.

【论文解读】Flash Attention

【2026-04-27】本文提出 FlashAttention,一种 IO-aware 的精确 attention 算法。其核心思想是通过 tiling(分块计算)和 recomputation(反向传播时重计算)两个技术,避免将 N×N 的 attention 矩阵写入 GPU HBM(高带宽内存),从而大幅减少 HBM 读写次数。

【论文解读】DeepSeek Engram

【2026-04-26】本文引入了条件记忆作为对当前流行的条件计算范式(MoE)的互补稀疏性轴,旨在解决通过动态计算模拟知识检索的低效问题。通过 Engram 模块实例化了这一概念,该模块将经典的 N-gram 进行现代化改造,以实现静态模式的可扩展、常数时间查找。

【论文解读】DeepSeek mHC

【2026-04-21】本文提出了流形约束超连接(Manifold-Constrained Hyper-Connections, mHC),它将 HC 的残差连接空间投影到特定的流形上,以恢复恒等映射特性。实验表明,mHC 在大规模训练中是有效的,在性能提升的同时具有更优的可扩展性。

【强化学习】从策略梯度到PPO再到GRPO

【2026-03-22】从策略梯度(Policy Gradient,PG)到近端策略优化(Proximal Policy Optimization, PPO),再到群组相对策略优化(Group Relative Policy Optimization, GRPO)的逐步介绍。

【强化学习】10-Actor-Critic

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】9-策略梯度方法

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】8-值函数近似

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】7-时序差分方法

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】6-随机近似与随机梯度下降

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】5-基于蒙特卡洛的强化学习方法

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。
  • 1
  • 2
  • 3
  • >
2025~2026