AE、VAE — 基础的生成模型
AE和VAE均基于编码器-解码器的核心架构,但二者的核心定位、数学原理、能力边界完全不同:AE是面向特征学习/数据压缩的确定性无监督模型,VAE是面向生成任务的概率式深度生成模型,VAE从根本上解决了AE无法有效生成新样本的核心痛点。 一、AE(AutoEncoder,自动编码器) 1. 核心定义与架构 AE是一种经典的无监督神经网络,核心目标是学…
大模型对齐 Alignment
一、大模型对齐的核心概念 大模型对齐(Alignment) 的目标是让模型的输出与人类的价值观、偏好和指令保持一致(即“有用、无害、诚实”),解决模型“能力强但不听话”的问题。 对齐 vs 微调:核心区别 维度 微调(Fine-tuning) 对齐(Alignment) 目标 提升模型在特定任务上的能力(如问答、翻译) 让模型输出符合人类价值观/偏…
深度学习常用激活函数
一、基础概念 激活函数是嵌入神经网络每一层神经元后的非线性变换单元,核心作用是打破线性变换的叠加局限:若无激活函数,多层神经网络等价于单个线性层,无法拟合复杂的非线性关系。同时,激活函数直接决定梯度传播效率、数值稳定性、模型收敛速度与泛化能力。 行业通常按饱和特性对激活函数分类: 饱和激活函数:当输入$x \to \pm\infty$时,导数趋近于…
优化器Optimizer:Adam、Adamw
深度学习中的优化器旨在通过更新网络参数(权重和偏置)来最小化损失函数。近年来,优化器的发展主要沿着两条主线:动量机制(加速收敛并抑制震荡)和自适应学习率(为不同参数单独设置学习率)。 下面我们将目前主流的优化器按发展脉络分类,详细解析它们的原理与公式。 0. 统一符号定义 在介绍具体公式前,先统一符号: $\theta_t$: 第 $t$ 步的模型…
权重衰减 Weight Decay
权重衰减是深度学习中最基础、最常用的正则化技术之一。它的核心目的是防止模型过拟合,提高模型在未知数据上的泛化能力。 以下是对深度学习中权重衰减的全面解析: 1. 核心思想:什么是权重衰减? 在训练神经网络时,模型倾向于学习到非常大的权重值,以便在训练集上做到“极致的拟合”(特别是当模型容量很大时)。但这会导致模型对训练数据中的噪声也进行了拟合,表现…
Swin Transformer
Swin Transformer 是一种基于 Transformer 的视觉模型,由 Microsoft 研究团队提出,旨在解决传统 Transformer 模型在计算机视觉任务中的高计算复杂度问题。其全称是Shifted Window Transformer,通过引入分层架构和滑动窗口机制,Swin Transformer 在性能和效率之间取得了…
LLM生成全流程
模型输出 Logits(词表得分) → 步骤1:应用 Temperature 缩放 Logits(核心:调整整体随机性) → 步骤2:应用重复惩罚/No Repeat N-gram 等(可选:过滤/调整 Logits) → 步骤3:筛选 Top-K/Top-P 候选池(过滤低概率 Token) → 步骤4:候选池内概率归一化(确保总和为1) → 步…
AI – Prompt – Writing
📖 为什么做这个项目 当你第三次调试同一个润色 prompt 时,隔壁组的同学可能已经用现成的模板改完了三篇论文。 在学术圈,prompt 工程正在成为一种"隐性资源"——顶尖研究组有完善的模板库,而大多数人还在从零摸索。更进一步,agent skills 作为新兴技术能更强大地助力论文写作,但由于存在一定使用门槛,大部分人还不知道如何上手。我们不…
Linux 常用命令大全
Linux 常用命令大全:从入门到精通 - 实践 - jzssuanfa - 博客园 Linux 是一个功能强大、灵活且开源的操作系统,广泛应用于服务器、嵌入式系统和开发环境。掌握常用的 Linux 命令是使用和管理 Linux 系统的基础。下面我将从多个类别详细讲解 Linux 中最常用的命令,并附上示例和说明。 一、文件与目录操作 1. ls …
小emoji
📁 项目结构 / 模块类 📂 根目录 / 总模块 📄 文档类说明(Readme、指南) 🧩 核心模块 / 功能组件 🛠️ 工具模块 / 辅助工具 🗂️ 数据模块 / 数据管理 🧪 实验模块 / 测试验证 🚀 部署模块 / 上线配置 📝 文档 / 笔记类 🔬 科研 / 学术专属类 🧫 实验研究 / 深度分析 📊 数据可视化 / 结果展示 📈 趋势分析…