【论文解读】YaRN 【2026-01-01】YaRN(Yet another RoPE extensioN method)是一种高效扩展上下文长度的方法,旨在解决Transformer模型在处理超长序列时性能下降的问题。
【论文解读】Denoising Diffusion Probabilistic Models 【2026-01-01】解读Denoising Diffusion Probabilistic Models(DDPM)—— Diffusion模型奠基之作(内含大量推导)。
【手撕系列】手撕Transformer 【2026-01-01】1.从零构建Transformer模型,并完成中英翻译demo;2.PyTorch封装的Transformer用法介绍,并完成中英翻译demo。