【Pytorch基础】torch.nn.MSELoss损失函数
MSE: Mean Squared Error(均方误差) 含义:均方误差,是预测值与真实值之差的平方和的平均值,即: $\mathrm{MSE}=\frac1{\mathrm{N}}\sum_{\mathrm{i}=1}^{\mathrm{n}}(\mathrm{x_i}-\mathrm{y_i})^2$ 但是,在具体的应用中跟定义稍有不同。主要…
直观解读KL散度的数学概念
KL 散度是一种衡量两个概率分布的匹配程度的指标,两个分布差异越大,KL散度越大。 定义如下:(公式建议Edge浏览器) $D_{KL}(p||q)=\sum_{i=1}^Np(x_i)log(\frac{p(x_i)}{q(x_i)})$ 其中 p(x) 是目标分布,q(x)是去匹配的分布,如果两个分布完全匹配,那么 $D_{KL}(p||q)=…
Transformer详解
https://blog.csdn.net/weixin_42475060/article/details/121101749 b站视频:https://www.bilibili.com/video/BV1ih4y1J7rx https://www.bilibili.com/video/BV1ih4y1J7rx 1. 解码器的输入组成 在推理阶段,…
Transformer中Position Embedding
https://www.zhihu.com/question/347678607/answer/2301693596 https://mp.weixin.qq.com/s/Npf_qJtK2DMveDBNSruSHg
空间注意力和通道注意力
https://zhuanlan.zhihu.com/p/653726085 https://blog.csdn.net/m0_37605642/article/details/135980263 https://blog.csdn.net/Vodka_Lou/article/details/115671748