WKQ

【强化学习】5-基于蒙特卡洛的强化学习方法

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】4-值迭代与策略迭代

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】3-贝尔曼最优公式

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】2-贝尔曼公式

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【强化学习】1-基本概念

【2026-03-22】此系列是西湖大学赵世钰老师《强化学习的数学原理》笔记。

【论文解读】DPO

【2026-03-11】DPO通过重参数化奖励模型，将复杂的基于强化学习的人类偏好对齐问题，转化为可以直接优化策略的简单分类损失，从而实现更稳定、高效的语言模型微调。

【手撕系列】手撕Qwen3-Next

【2026-02-06】从零手撕一个小参数量的Qwen3-Next模型，包括Gated DeltaNet、Gated Attention、MoE、负载均衡、Zero-Centered RMSNorm等实现，进行预训练和微调。

【论文解读】Transformers are RNNs

【2026-01-18】本文提出了经典的 Linear Attention，大幅降低原始 Transformer 的内存与计算成本，利用矩阵乘积结合律使自注意力的时间和内存随序列长度呈线性增长。

【论文解读】Gated Delta Network

【2026-01-18】本文提出的 Gated Delta Rule 结合了 Mamba2 和 DeltaNet 的优势，能够实现灵活的记忆控制。

【论文解读】Gated Attention

【2026-01-18】阿里 NeurIPS 2025 最佳论文，文通过实验系统研究了门控增强的 softmax 注意力变体，并发现：在缩放点积注意力（Scaled Dot-Product Attention, SDPA）后应用特定于头的 sigmoid 门控，能持续提升性能、增强训练稳定性、容忍更大学习率并提升 scaling 特性。