Transformer、GPT、BERT，预训练语言模型 - justinwcq/Pre-training-language-model GitHub Wiki

第一篇 Transformer、GPT、BERT，预训练语言模型的前世今生（理论）

00 预训练语言模型的前世今生（全文 24854 个词）

03 什么是预训练（Transformer 前奏）

04 统计语言模型（n元语言模型）

05 神经网络语言模型（独热编码+词向量的起源）

06 Word2Vec模型（第一个专门做词向量的模型，CBOW和Skip-gram）

07 预训练语言模型的下游任务改造简介（如何使用词向量）

08 ELMo模型（双向LSTM模型解决词向量多义问题）

09 什么是注意力机制（Attention ）

10 Self-Attention（自注意力机制）

1001 Attention 和 Self-Attention 的区别（还不能区分我就真的无能为力了）

11 Self-Attention相比较 RNN和LSTM的优缺点

12 Masked Self-Attention（掩码自注意力机制）

13 Multi-Head Self-Attention（从空间角度解释为什么做多头）

14 Positional Encoding （为什么 Self-Attention 需要位置编码）

1401 位置编码公式详细理解补充

15 Transformer 框架概述

16 Transformer 的编码器（Encodes）——我在做更优秀的词向量

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词

18 Transformer 的动态流程

19 Transformer 解码器的两个为什么（为什么做掩码、为什么用编码器-解码器注意力）

第二篇通过 Pytorch 构建 Transformer 框架（真实战，不做调包侠）

00 通过 Pytorch 实现 Transformer 框架完整代码

000 通过 Pytorch 实现 Transformer 框架完整代码（带注释）

02 Transformer 中 Add&Norm （残差和标准化）代码实现

0201 为什么 Pytorch 定义模型要有一个 init 和一个 forward，两者怎么区分

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现

04 Transformer 中的位置编码的 Pytorch 实现

05 Transformer 中的前馈神经网络（FFN）的实现

第三篇 Huggingface 实战（待续）

推荐阅读

pytorch从入门到放弃（目录）

Python从入门到放弃（目录）

人工智能从入门到放弃（目录）

数据结构与算法-江西师范大学865（针对考研or面试）（目录）

十天快速入门Python（目录）

数据结构与算法-Python/C（目录）

Go从入门到放弃（目录）

TensorFlow2教程-旧（目录）

机器学习-项目杂记（目录）

Python能干啥-项目杂记（目录）

大数据分析和人工智能科普

人工智能（机器学习）学习之路推荐

推荐书单（网课）-人生/编程/Python/机器学习

曾Python培训讲师-Python开发无包装简历