• WKQ
  • About
  • Categories
Deep Learning, Learning Deeply.

【论文解读】YaRN

【2026-01-01】YaRN(Yet another RoPE extensioN method)是一种高效扩展上下文长度的方法,旨在解决Transformer模型在处理超长序列时性能下降的问题。

【论文解读】DeepSeek-V3

【2026-01-01】解读DeepSeek-V3论文。

【论文解读】DeepSeek-R1

【2026-01-01】解读DeepSeek-R1论文。

【论文解读】Denoising Diffusion Probabilistic Models

【2026-01-01】解读Denoising Diffusion Probabilistic Models(DDPM)—— Diffusion模型奠基之作(内含大量推导)。

【笔记】MLA矩阵吸收分析

【2026-01-01】详细分析MLA中的矩阵吸收计算方式。

【手撕系列】手撕Transformer

【2026-01-01】1.从零构建Transformer模型,并完成中英翻译demo;2.PyTorch封装的Transformer用法介绍,并完成中英翻译demo。

【手撕系列】手撕Llama3

【2026-01-01】从零手撕一个小参数量的Llama3模型,进行预训练和微调。

【手撕系列】手撕DeepSeek-V3

【2026-01-01】从零手撕一个小参数量的DeepSeek-V3模型,包括MLA、MoE、负载均衡、MTP等实现,进行预训练和微调。
  • <
  • 1
  • 2
  • 3
2025~2026