神经网络
定义
神经网络是由具有可学习权重和非线性激活的单元(神经元)层构建的函数逼近器。在数据上训练后,它们可以逼近从输入到输出的复杂映射。
它们是深度学习的基础构件。CNN 和 RNN 等变体为特定数据类型添加了归纳偏置(如局部性、递归性);相同的训练机制(反向传播、梯度下降)适用。
工作原理
输入被传递给第一层。每一层计算其输入的线性组合(权重),然后进行非线性激活(如 ReLU、Sigmoid)。一层的输出成为下一层的输入;堆叠层使网络能够学习层次化特征。最后的输出层通常映射到预测(如类别分数或标量)。训练通过反向传播(通过链式法则计算梯度)和梯度下降(更新权重)来最小化损失。深度和宽度决定了容量;正则化和数据量控制过拟合。
应用场景
神经网络用于任何需要灵活的、数据驱动的函数逼近的场景。
- 回归和分类(如销售预测、图像分类)
- 下游任务的特征学习(嵌入、迁移学习)
- 控制或仿真中复杂非线性函数的逼近
外部文档
- Neural Networks and Deep Learning (Nielsen) — 免费在线书籍
- 3Blue1Brown – 神经网络 — 可视化入门