Code 【2026-02-06】【手撕系列】手撕Qwen3-Next 【2026-01-01】【手撕系列】手撕Transformer 【2026-01-01】【手撕系列】手撕Llama3 【2026-01-01】【手撕系列】手撕DeepSeek-V3
Paper 【2026-03-11】【论文解读】DPO 【2026-01-18】【论文解读】Transformers are RNNs 【2026-01-18】【论文解读】Gated Delta Network 【2026-01-18】【论文解读】Gated Attention 【2026-01-01】【论文解读】YaRN 【2026-01-01】【论文解读】DeepSeek-V3 【2026-01-01】【论文解读】DeepSeek-R1 【2026-01-01】【论文解读】Denoising Diffusion Probabilistic Models