02.大语言模型架构 2.1 Transformer模型 1.attention 2.layer_normalization 3.位置编码 4.tokenize分词 5.token及模型参数 6.激活函数 2.2 注意力 MHA_MQA_GQA 2.3 解码部分 解码策略(Top-k & Top-p & Temperature) 2.4 BERT bert细节 Transformer架构细节 bert变种 2.5 常见大模型 llama系列模型 chatglm系列模型 llama 2代码详解 llama 3 2.6 MoE 1.MoE论文 2.MoE经典论文简牍 3.LLM MoE :Switch Transformers