跳到主要内容

🧮Tokenizer

大语言模型LLM基础之Tokenizer完全介绍_哔哩哔哩_bilibili

👾Transformer

手撕

Self Attention

手写self-attention的四重境界-part1 pure self-attention_哔哩哔哩_bilibili

MHA

PyTorch手写多头注意力（Multi-Head Self-Attention）-- Self Attention 四重境界 part2（面试常考）_哔哩哔哩_bilibili

Decoder

🎛️位置编码

绝对位置编码 VS 相对位置编码

Sinusoidal（绝对）

RoPE（即相对又绝对但是相对）

为什么需要RoPE？正余弦不够吗？

二维

多维

离得越远，attn越低，且呈波纹

RoPE特点

YaRN（调整版RoPE 相对）

PI

NTK-Aware

ALiBi（相对）

⛓思维链（CoT）

Q：为什么需要思维链？

A：

e.g.

多数投票提高CoT性能——自洽性（Self-consistency）

LtM （Least to Most prompting）提示

缺陷

Reference:大模型思维链（Chain-of-Thought）技术原理

💭知识蒸馏

🪄模型量化

对称量化（但有区间浪费）

非对称量化（无符号数）

比较

⚖️LoRA

手撕

🧑‍🏫MoE

什么是混合专家模型（MoE)？_哔哩哔哩_bilibili

⚡KV cache

😮ATTENTION

原始Attention

⚡Flash Attention

解决Memo-bound

分块进入HBM，分块算

但是SM是按行算的，如何SM分块计算

Safe-SM，减去最大值防止float16溢出

基于Safe-SM，进行分块

算法流程

⚡Sparse Attention

⚡DeepSeek Native Sparse Attention

整体优化部分

Kernel优化

压缩注意力：把控全局粗粒度信息

选择注意力：把控局部相关重要信息

滑窗注意力：把控临近紧密信息

把三种注意力输出进行合并，通过门控机制（线性变化+sigmoid）为最终注意力输出

⚡(Efficient) Linear Attention

⚡Infinity Attention

⚡MHA/MQA/GQA/MLA

DeepSeek-v2 MLA 原理讲解_哔哩哔哩_bilibili

三者的缓存量

MLA的矩阵融合

考虑RoPE，无法矩阵融合

考虑拼接，但需缓存一共享特征（此特征用于计算带位置编码的K向量）

再看原论文图像

🔢MTP

直觉理解

原始MTP

DeepSeekMTP