• WKQ
  • About
  • Categories
Deep Learning, Learning Deeply.

【笔记】MLA矩阵吸收分析

【2026-01-01】详细分析MLA中的矩阵吸收计算方式。

【手撕系列】手撕Transformer

【2026-01-01】1.从零构建Transformer模型,并完成中英翻译demo;2.PyTorch封装的Transformer用法介绍,并完成中英翻译demo。

【手撕系列】手撕Llama3

【2026-01-01】从零手撕一个小参数量的Llama3模型,进行预训练和微调。

【手撕系列】手撕DeepSeek-V3

【2026-01-01】从零手撕一个小参数量的DeepSeek-V3模型,包括MLA、MoE、负载均衡、MTP等实现,进行预训练和微调。
  • <
  • 1
  • 2
2025~2026