• WKQ
  • About
  • Categories
Deep Learning, Learning Deeply.

【论文解读】DPO

【2026-03-11】DPO通过重参数化奖励模型,将复杂的基于强化学习的人类偏好对齐问题,转化为可以直接优化策略的简单分类损失,从而实现更稳定、高效的语言模型微调。

【手撕系列】手撕Qwen3-Next

【2026-02-06】从零手撕一个小参数量的Qwen3-Next模型,包括Gated DeltaNet、Gated Attention、MoE、负载均衡、Zero-Centered RMSNorm等实现,进行预训练和微调。

【论文解读】Transformers are RNNs

【2026-01-18】本文提出了经典的 Linear Attention,大幅降低原始 Transformer 的内存与计算成本,利用矩阵乘积结合律使自注意力的时间和内存随序列长度呈线性增长。

【论文解读】Gated Delta Network

【2026-01-18】本文提出的 Gated Delta Rule 结合了 Mamba2 和 DeltaNet 的优势,能够实现灵活的记忆控制。

【论文解读】Gated Attention

【2026-01-18】阿里 NeurIPS 2025 最佳论文,文通过实验系统研究了门控增强的 softmax 注意力变体,并发现:在缩放点积注意力(Scaled Dot-Product Attention, SDPA)后应用特定于头的 sigmoid 门控,能持续提升性能、增强训练稳定性、容忍更大学习率并提升 scaling 特性。

【论文解读】YaRN

【2026-01-01】YaRN(Yet another RoPE extensioN method)是一种高效扩展上下文长度的方法,旨在解决Transformer模型在处理超长序列时性能下降的问题。

【论文解读】DeepSeek-V3

【2026-01-01】解读DeepSeek-V3论文。

【论文解读】DeepSeek-R1

【2026-01-01】解读DeepSeek-R1论文。

【论文解读】Denoising Diffusion Probabilistic Models

【2026-01-01】解读Denoising Diffusion Probabilistic Models(DDPM)—— Diffusion模型奠基之作(内含大量推导)。

【笔记】从策略梯度到PPO再到GRPO

【2026-01-01】从策略梯度(Policy Gradient,PG)到近端策略优化(Proximal Policy Optimization, PPO),再到群组相对策略优化(Group Relative Policy Optimization, GRPO)的逐步介绍。
  • 1
  • 2
  • >
2025~2026