WKQ

【论文解读】YaRN

【2026-01-01】YaRN（Yet another RoPE extensioN method）是一种高效扩展上下文长度的方法，旨在解决Transformer模型在处理超长序列时性能下降的问题。

【2026-01-01】解读DeepSeek-V3论文。

【2026-01-01】解读DeepSeek-R1论文。

【2026-01-01】解读Denoising Diffusion Probabilistic Models（DDPM）—— Diffusion模型奠基之作（内含大量推导）。

【2026-01-01】详细分析MLA中的矩阵吸收计算方式。

【2026-01-01】1.从零构建Transformer模型，并完成中英翻译demo；2.PyTorch封装的Transformer用法介绍，并完成中英翻译demo。

【2026-01-01】从零手撕一个小参数量的Llama3模型，进行预训练和微调。

【2026-01-01】从零手撕一个小参数量的DeepSeek-V3模型，包括MLA、MoE、负载均衡、MTP等实现，进行预训练和微调。