文章
103
标签
6
分类
0
LinLi's Blog
预训练语言模型的前世今生 - 从Word Embedding到BERT
发表于
2023-06-02
|
更新于
2023-10-23
|
阅读量:
Hey, password is required here.
文章作者:
Lin Li
文章链接:
http://example.com/2023/06/02/%E9%A2%84%E8%AE%AD%E7%BB%83%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%89%8D%E4%B8%96%E4%BB%8A%E7%94%9F-%E4%BB%8EWord-Embedding%E5%88%B0BERT/
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来自
LinLi's Blog
!
上一篇
代码表征预训练语言模型学习指南:原理、分析和代码
下一篇
Type Infer文献综述
Lin Li
今日事,今日毕
文章
103
标签
6
分类
0
Follow Me
公告
This is my Blog
目录
1.
预训练语言模型的前世今生 - 从Word Embedding到BERT
1.1.
一、预训练
1.1.1.
1.1 图像领域的预训练
1.1.2.
1.2 预训练的思想
1.2.
二、语言模型
1.2.1.
2.1 统计语言模型
1.2.2.
2.2 神经网络语言模型
1.3.
三、词向量
1.3.1.
3.1 独热(Onehot)编码
1.3.2.
3.2 Word Embedding
1.4.
四、Word2Vec 模型
1.5.
五、自然语言处理的预训练模型
1.6.
六、RNN 和 LSTM
1.6.1.
6.1 RNN
1.6.2.
6.2 RNN 的梯度消失问题
1.6.3.
6.3 LSTM
1.6.4.
6.4 LSTM 解决 RNN 的梯度消失问题
1.7.
七、ELMo 模型
1.7.1.
7.1 ELMo 的预训练
1.7.2.
7.2 ELMo 的 Feature-based Pre-Training
1.8.
八、Attention
1.8.1.
8.1 人类的视觉注意力
1.8.2.
8.2 Attention 的本质思想
1.8.3.
8.3 Self Attention 模型
1.8.4.
8.4 Self Attention 和 RNN、LSTM 的区别
1.8.5.
8.5 Masked Self Attention 模型
1.8.6.
8.6 Multi-head Self Attention 模型
1.9.
九、Position Embedding
1.10.
十、Transformer
1.10.1.
10.1 Transformer 的结构
1.10.2.
10.2 Encoder
1.10.3.
10.3 Decoder
1.10.4.
10.4 Transformer 输出结果
1.11.
十一、Transformer 动态流程展示
1.11.1.
11.1 为什么 Decoder 需要做 Mask
1.11.2.
11.2 为什么 Encoder 给予 Decoders 的是 K、V 矩阵
1.12.
十二、GPT 模型
1.12.1.
12.1 GPT 模型的预训练
1.12.2.
12.2 GPT 模型的 Fine-tuning
1.13.
十三、BERT 模型
1.13.1.
13.1 BERT:公认的里程碑
1.13.2.
13.2 BERT 的结构:强大的特征提取能力
1.13.3.
13.3 BERT 之无监督训练
1.13.4.
13.4 BERT之语言掩码模型(MLM)
1.13.5.
13.5 BERT 之下句预测(NSP)
1.13.6.
13.6 BERT 之输入表示
1.14.
十四、BERT 下游任务改造
1.14.1.
14.1 句对分类
1.14.2.
14.2 单句分类
1.14.3.
14.3 文本问答
1.14.4.
14.4 单句标注
1.14.5.
14.5 BERT效果展示
1.15.
十五、预训练语言模型总结
1.16.
参考文献:
最新文章
SMT Solver Validation Empowered by Large Pre-trained Language Models
2024-10-19
MR-Adopt: Automatic Deduction of Input Transformation Function for Metamorphic Testing
2024-10-13
Domain Adaptation for Code Model-Based Unit Test Case Generation
2024-10-12
LPR: Large Language Models-Aided Program Reduction
2024-10-10
Understanding and Detecting SQL Function Bugs
2024-10-04