Transformer、GPT、BERT,预训练语言模型 - justinwcq/Pre-training-language-model GitHub Wiki

第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)

00 预训练语言模型的前世今生(全文 24854 个词)

03 什么是预训练(Transformer 前奏)

04 统计语言模型(n元语言模型)

05 神经网络语言模型(独热编码+词向量的起源)

06 Word2Vec模型(第一个专门做词向量的模型,CBOW和Skip-gram)

07 预训练语言模型的下游任务改造简介(如何使用词向量)

08 ELMo模型(双向LSTM模型解决词向量多义问题)

09 什么是注意力机制(Attention )

10 Self-Attention(自注意力机制)

1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)

11 Self-Attention相比较 RNN和LSTM的优缺点

12 Masked Self-Attention(掩码自注意力机制)

13 Multi-Head Self-Attention(从空间角度解释为什么做多头)

14 Positional Encoding (为什么 Self-Attention 需要位置编码)

1401 位置编码公式详细理解补充

15 Transformer 框架概述

16 Transformer 的编码器(Encodes)——我在做更优秀的词向量

17 Transformer 的解码器(Decoders)——我要生成一个又一个单词

18 Transformer 的动态流程

19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力)

第二篇 通过 Pytorch 构建 Transformer 框架(真实战,不做调包侠)

00 通过 Pytorch 实现 Transformer 框架完整代码

000 通过 Pytorch 实现 Transformer 框架完整代码(带注释)

02 Transformer 中 Add&Norm (残差和标准化)代码实现

0201 为什么 Pytorch 定义模型要有一个 init 和一个 forward,两者怎么区分

03 Transformer 中的多头注意力(Multi-Head Attention)Pytorch代码实现

04 Transformer 中的位置编码的 Pytorch 实现

05 Transformer 中的前馈神经网络(FFN)的实现

第三篇 Huggingface 实战(待续)

推荐阅读

pytorch从入门到放弃(目录)

Python从入门到放弃(目录)

人工智能从入门到放弃(目录)

数据结构与算法-江西师范大学865(针对考研or面试)(目录)

十天快速入门Python(目录)

数据结构与算法-Python/C(目录)

Go从入门到放弃(目录)

TensorFlow2教程-旧(目录)

机器学习-项目杂记(目录)

Python能干啥-项目杂记(目录)

大数据分析和人工智能科普

人工智能(机器学习)学习之路推荐

推荐书单(网课)-人生/编程/Python/机器学习

曾Python培训讲师-Python开发无包装简历