分类: 未分类

19 篇文章

行列式点过程细节理解
原博客: 行列式点过程 (Determinantal Point Process, DPP)-CSDN博客 难点1. 解答: 难点2. 解答: 1. 问题设定 已有集合 At−1At−1​(大小为 t−1t−1),其核子矩阵为 LAt−1LAt−1​​。 已进行Cholesky分解:LAt−1=Vt−1Vt−1TLAt−1​​=Vt−1​Vt−1T…
GNN和GCN
懒得写了,看博客: 【图神经网络综述】一文道尽GNN原理、框架和应用-CSDN博客
BERT
总体模型框架原理看大佬解释: 读懂BERT,看这一篇就够了 - 知乎 我来说说bert在预训练时候的两种方式MSM(masked language modeling)和NSP(next sentence prediction) MSM bert会在输入句子中区15%的次元为未知词元,在这15%中 80% 的概率替换为 [MASK] 10% 的概率替…
GPT模型的预训练与微调
1 预训练 GPT使用的是阉割版的Transformer decoder。它取消了第二层的多头注意力,使用最下层带掩码的多头注意力。GPT使用多个这样的Transformer层。 以最后一层的输出计算损失。 在最后一层计算损失时,目标向量在概念上使用的是预测词的One-hot表示,而不是embedding矩阵里的向量。GPT的embedding矩阵…
ELMo模型
模型整体架构和实现思路看知乎大佬的总结: ELMo原理解析及简单上手使用 - 知乎 自己的理解: ELMo的预训练是训练各层LSTM内部参数,以及各层的输出上下文矩阵的参数值。 ELMo的输出: 以三层ELMo为例,当输入一个文本,并确定一个中心词后,那么在E1~En层会输出一个中心词原来的embedding向量,在第一个LSTM层的前向会输出一个…
二分类交叉熵和多分类交叉熵损失函数的区别于联系
核心联系 本质是同一个概念:它们都源于信息论中的交叉熵概念,用于衡量两个概率分布之间的差异。在机器学习中,一个分布是模型预测的分布 (Prediction),另一个是真实的分布 (Truth)。目标就是通过梯度下降等优化方法,最小化这个交叉熵,使得预测分布尽可能接近真实分布。 统一的数学思想:无论是二分类还是多分类,它们的损失函数都是同一个形式:L…
Word2vec负采样和层序softmax理解
为了解决跳远模型和连续词袋模型在训练时需要计算词表大小的梯度使计算量太大的问题。从而有了这两个方法。 1.负采样 负采样修改了原来的⽬标函数。给定中⼼词Wc的⼀个背景窗口,我们把背景词Wo出现在该背景窗 口看作⼀个事件,并将该事件的概率计算为 2.层序softmax 不搬运了,看视频 IMG_0054_哔哩哔哩_bilibili
批量梯度随机下降,小批量梯度随机下降和随机梯度下降的差别
这三种方法是梯度下降优化算法的三种主要变体,其核心区别在于每次更新模型参数时,所使用的训练数据量不同。 1. 批量梯度下降 核心思想:使用整个训练数据集(全部样本)来计算损失函数关于参数的梯度,然后进行一次参数更新。 工作流程: 遍历整个训练集,计算每个样本的梯度。 对所有样本的梯度求平均。 用这个平均梯度来更新模型参数。 重复以上步骤,直到收敛。…
Transformer编码器和解码器训练和预测流程
1.训练流程  比如我们想做一个中译英的机器翻译任务,现在我们已经准备好了数据集,例如{‘chinese’:我爱吃梨,‘english’: i love eating pears} ,那么模型的输入和输出以及标签分别是什么呢?首先我们会先根据数据集创建中文词表和英文词表,假如数据集中只有{‘chinese’:我爱吃梨,‘english’: i lo…