论文解读

文章链接

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30, 5998-6008. https://arxiv.org/pdf/1706.03762

简介

提出Transformer模型架构，它完全基于注意力机制，摒弃了此前序列转导模型中普遍使用的循环神经网络(RNN)和卷积神经网络(CNN)结构。这是第一个完全依赖自注意力机制来计算输入输出表示的转导模型。

摘要

当前主流的序列转导模型都基于复杂的循环或卷积神经网络，包含编码器和解码器结构。性能最好的模型还通过注意力机制（attention mechanism）连接编码器和解码器。

编码器和解码器：编码器负责处理输入序列(比如源语言句子)，将其转换成一系列向量表示，这些向量编码了输入的语义和结构信息。解码器则基于这些编码向量，逐个生成输出序列(比如目标语言句子)。

我们提出了一种新的简单网络架构Transformer，它完全基于注意力机制，彻底摒弃了循环和卷积结构。在两个机器翻译任务上的实验表明，这些模型在质量上具有优势，同时具有更好的并行性，所需训练时间大大减少。

我们的模型在WMT2014英德翻译任务上获得了28.4BLEU分数，超过现有最佳结果（包括集成模型）2个BLEU以上。在WMT2014英法翻译任务上，我们的模型通过在8个GPU上训练3.5天，建立了新的单模型最高水平，达到了41.8 BLEU分数，仅用了文献中最佳模型训练成本的一小部分。我们还通过将其成功应用于英语句法解析任务，展示了Transformer具有良好的泛化能力，无论是在大规模还是受限训练数据的情况下都表现出色。

WMT2014英德翻译：机器翻译领域的一个重要基准测试。该数据集包含约450万个英语-德语的平行句子对作为训练数据，通常使用newstest2014作为测试集来评估模型性能。评估标准主要是BLEU分数，该分数越高表示机器翻译的质量越好。

BLEU (Bilingual Evaluation Understudy) ：一种评估机器翻译质量的指标，通过比较机器翻译结果和人工参考翻译的n-gram重合度来打分。分数范围是0到1，越接近1表示翻译质量越好。

创新点

提出了完全基于注意力机制的新架构，摒弃了RNN和CNN结构
提出了多头注意力机制(Multi-Head Attention)，允许模型关注不同子空间的信息
引入了位置编码(Positional Encoding)，使模型能够处理序列的顺序信息
使用缩放点积注意力(Scaled Dot-Product Attention)，提高了计算效率
采用残差连接(Residual Connection)和层归一化(Layer Normalization)，有利于深层网络训练
具有更好的并行性能，训练速度快，效果好，在多个任务上达到了（当时的）最好水平

主要内容

读前须知

论文解读尽可能的还原原文，若有不恰当之处，还请见谅；
排版上，插图会尽量贴近出处，而扩展图之类的，会放置末尾处；
左边👈有目录，可自行跳转至想看的部分；
代码超过30行，会折叠，想浏览代码可点击右边按钮展开；
部分专业术语翻译成中文可能不太恰当，此时会用括号标明它的英文原文，如感受野（Receptive field）。请注意，仅首次出现会标明；

介绍

循环神经网络，特别是长短期记忆网络（Long Short-Term Memory，LSTM）和门控循环神经网络（Gated Recurrent Neural Networks），已经在序列建模和转导问题（如语言建模和机器翻译）中牢固确立了最先进的地位。此后，众多研究工作持续推进循环语言模型和编码器-解码器架构的边界。

长短期记忆网络：一种特殊的循环神经网络架构，设计用来解决普通RNN难以学习长期依赖关系的问题。它的核心是引入了一个记忆单元和三个控制门：输入门控制新信息进入记忆单元的程度，遗忘门决定丢弃多少旧信息，输出门控制记忆单元信息输出的多少。这种精细的门控机制让LSTM能够在长序列任务中表现出色。

门控循环神经网络：循环神经网络的一种改进版本，设计用来有效缓解传统RNN中的梯度消失问题，让网络能更好地处理长序列数据，捕捉长期依赖关系。它的典型代表是GRU（Gated Recurrent Unit），相比LSTM结构更简单但效果相当。

循环模型通常沿着输入和输出序列的符号位置进行计算。将位置与计算时间步骤对齐，它们生成一系列隐藏状态 $\mathbf h_t$ ，作为前一个隐藏状态 $\mathbf h_{t-1}$ 和位置 $\mathbf t$ 的输入的函数。这种本质上的顺序特性阻碍了训练样本内的并行化，这在序列较长时变得尤为关键，因为内存限制会限制跨样本的批处理。

最近的工作通过分解技巧和条件计算在计算效率方面取得了显著改进，后者还改善了模型性能。然而，顺序计算的基本约束仍然存在。

注意力机制（attention mechanisms）已经成为各种序列建模和转导模型中不可或缺的组成部分，使模型能够建立与输入或输出序列中距离无关的依赖关系。然而，除了少数情况外，这种注意力机制都是与循环网络结合使用的。

在本工作中，我们提出了Transformer，这是一种摒弃循环而完全依赖注意力机制来捕获输入和输出之间全局依赖关系的模型架构。Transformer允许更多的并行化，在经过仅仅12小时的训练（使用8个 P100 GPU）后，就能在翻译质量上达到新的最高水平。

背景

减少顺序计算的目标也构成了Extended Neural GPU、ByteNet和ConvS2S的基础，这些模型都使用卷积神经网络作为基本构建模块，为所有输入和输出位置并行计算隐藏表示。

在这些模型中，将两个任意输入或输出位置的信号关联起来所需的操作数会随着位置之间的距离而增长：对于ConvS2S是线性增长，对于ByteNet则是对数增长。这使得学习远距离位置之间的依赖关系变得更加困难。

在Transformer中，这种操作数被减少到常数级别，尽管由于对注意力加权位置的平均化导致有效分辨率降低，但我们通过多头注意力（Multi-Head Attention）机制来抵消这种影响。

自注意力（Self-attention），有时也称为内部注意力（intra-attention），是一种将单个序列的不同位置关联起来以计算序列表示的注意力机制。自注意力已经在多种任务中成功应用，包括阅读理解、摘要生成、文本蕴涵和学习任务无关的句子表示。

基于循环注意力机制而非序列对齐循环的端到端记忆网络（End-to-end memory networks）已经被证明在简单语言问答和语言建模任务上表现良好。

然而，据我们所知，Transformer是第一个完全依赖自注意力来计算其输入和输出表示的转导模型，无需使用序列对齐的RNN或卷积。在接下来的章节中，我们将描述Transformer，阐述选择自注意力的动机，并讨论它相比其他模型的优势。

模型架构

大多具有竞争力的神经序列转导模型都具有编码器-解码器结构。其中，编码器将符号表示的输入序列 $(x_1, ..., x_n)$ 映射为连续表示序列 $z = (z_1, ..., z_n)$ 。有了 $z$ 后，解码器再逐个生成输出序列的符号 $(y_1, ..., y_m)$ 。在每一步，模型都是自回归的，在生成下一个符号时将之前生成的符号作为额外输入。

Transformer遵循这种整体架构，对编码器和解码器都使用堆叠的自注意力和逐点全连接层，如图1所示（分别在左半部分和右半部分）。

编码器与解码器

编码器：编码器由 $\text N = 6$ 个相同的层堆叠而成。每一层都有两个子层：

多头自注意力机制（multi-head self-attention mechanism）；
简单的、逐位置的全连接前馈网络；

全连接前馈网络：最基本的神经网络架构，由多个全连接层顺序堆叠而成。每一层的每个神经元都与上一层的所有神经元相连，通过权重矩阵和偏置项进行线性变换，再经过非线性激活函数（如ReLU）进行处理。

我们在这两个子层的每一个周围都采用了残差连接，然后进行层标准化。即每个子层的输出是：

\text{LayerNorm}(x + \text{Sublayer}(x))

其中 $\text{Sublayer}(x)$ 是由子层本身实现的函数。为了便于这些残差连接，模型中所有的子层以及嵌入层产生的输出维度都是 $d_{\text{model}} = 512$ 。

残差连接(Residual Connection)：一种网络架构设计，通过在深层神经网络中添加"捷径"，让输入信息可以直接跳过某些层直达后面的层。这种设计有效缓解了深层网络的梯度消失问题，使得训练更深的网络成为可能，同时也能提升模型性能。

解码器：解码器同样由 $\text N = 6$ 个相同的层堆叠而成。除了编码器层中的两个子层外，解码器还插入了第三个子层，该层对解码器堆栈的输出执行多头注意力。

与编码器类似，我们在每个子层周围使用残差连接，然后进行层标准化。我们还修改了解码器堆栈中的自注意力子层，以防止位置关注后续位置。这种遮蔽与输出嵌入偏移一个位置的事实相结合，确保对位置 $i$ 的预测只能依赖于位置小于 $i$ 处的已知输出。

解码器堆栈：由多个相同的解码器层叠加而成。每个解码器层包含三个主要部分：

带掩码的自注意力层，确保当前位置只能看到之前生成的内容

交叉注意力层，允许解码器访问编码器的输出信息

前馈神经网络层，进行特征变换

通过这种堆叠结构，解码器能够逐个生成输出序列的每个元素。

注意力

注意力函数可以描述为将一个查询（query）和一组键值对（key-value pairs）映射到输出的过程，其中查询、键、值和输出都是向量。输出是值的加权和，其中分配给每个值的权重是通过查询和对应键的兼容函数计算得到的。

缩放点积注意力

我们称我们特别使用的注意力为"缩放点积注意力（Scaled Dot-Product Attention）"。输入包含维度为 $d_k$ 的查询和键，以及维度为 $d_v$ 的值。我们计算查询和所有键的点积，将每个点积除以 $\sqrt{d_k}$ ，然后应用softmax函数来获得值的权重。

实践中，我们同时计算一组查询的注意力函数，将其打包成矩阵 $Q$ 。键和值也同样打包成矩阵 $K$ 和 $V$ 。于是我们得到以下输出矩阵：

\text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V

最常用的两种注意力函数是加性注意力和点积（乘性）注意力。除了缩放因子 $\frac{1}{\sqrt{d_k}}$ 外，点积注意力与我们的算法相同。加性注意力使用单隐层前馈网络来计算兼容性函数。虽然这两种方法在理论复杂度上相似，但点积注意力在实践中更快、更节省空间，因为它可以使用高度优化的矩阵乘法代码来实现。

当 $d_k$ 较小时，这两种机制表现相似。但对于较大的 $d_k$ 值，在未经缩放的情况下，点积的量级会增大，将softmax函数推入具有极小梯度的区域。为了抵消这种影响，我们将点积除以 $\sqrt{d_k}$ 。

多头注意力

我们发现，与使用 $d_{model}$ 维度的单个注意力函数相比，将查询、键和值分别用不同的、学习得到的线性映射到 $d_q$ 、 $d_k$ 和 $d_v$ 维度上，并行计算注意力 $h$ 次会更有益。然后将这些注意力输出的 $d_v$ 维向量拼接起来，再经过一次线性映射得到最终输出，这种方式更有利。

这允许模型共同关注来自不同位置的不同表示子空间的信息，如图2所示。使用单个注意力头，平均化会抑制这种效果。

多头注意力的计算公式如下：

\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O

其中

\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)

这里，投影矩阵为

W_i^Q \in \mathbb{R}^{d_{model} \times d_q} ,~~ W_i^K \in \mathbb{R}^{d_{model} \times d_k} ,~~ W_i^V \in \mathbb{R}^{d_{model} \times d_v} ,~~ W^O \in \mathbb{R}^{hd_v \times d_{model}},~~

在本工作中，我们采用了 $h=8$ 个并行注意力层（头）。对于每个注意力头，我们使用 $d_k = d_v = d_{model}/h = 64$ 维度。由于每个头的维度减小，总的计算成本与使用单个头的完整维度注意力相似。

基于位置的前馈网络

除了注意力子层外，编码器和解码器中的每一层都包含一个完全连接的前馈网络，该网络独立且相同地应用于每个位置。这包含两个线性变换和一个ReLU激活函数：

\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2

虽然不同位置的线性变换相同，但层与层之间使用不同的参数。这种操作也可以描述为两个卷积核大小为1的卷积。输入和输出的维度是 $d_{model} = 512$ ，内层的维度是 $d_{ff} = 2048$ 。

嵌入和Softmax

嵌入(Embedding)：将离散的符号（如单词、字符）转换为连续的密集向量表示的过程。这些向量具有语义意义，相似的符号在向量空间中距离较近。例如，"猫"和"狗"的嵌入向量会比"猫"和"汽车"的更接近。

与其他序列转导模型类似，我们使用学习得到的嵌入将输入标记和输出标记转换为维度 $d_{model}$ 的向量。我们也使用普通的线性变换和softmax函数将解码器输出转换为预测的下一个标记概率。

在我们的模型中，我们在两个嵌入层和softmax前的线性变换中共享相同的权重矩阵。在嵌入层中，我们将这些权重乘以 $\sqrt{d_{model}}$ 。

表1：不同层类型的最大路径长度、每层复杂度和最小顺序操作数。其中，n是序列长度，d是表示维度，k是卷积核大小，r是受限自注意力中的邻域大小。

位置编码

由于我们的模型不包含循环和卷积，为了让模型利用序列的顺序信息，我们必须注入一些关于标记在序列中相对或绝对位置的信息。为此，我们在编码器和解码器堆栈底部的输入嵌入中添加"位置编码"。位置编码的维度与嵌入维度相同（ $d_{model}$ ），因此两者可以相加。

这里有多种位置编码可供选择，学习得到的和固定的都可以。在本工作中，我们使用不同频率的正弦和余弦函数：

PE_{(pos,2i)} = \sin(\dfrac {pos}{10000^{\frac {2i}{d_{model}}}}),~~PE_{(pos,2i+1)} = \cos(\dfrac {pos}{10000^{\frac {2i}{d_{model}}}})

其中pos是位置，i是维度。也就是说，位置编码的每个维度对应于一个正弦曲线。波长形成从2π到10000·2π的几何级数。我们选择这个函数是因为我们假设它能让模型轻松学习通过相对位置来关注，因为对于任何固定偏移量k， $PE_{pos+k}$ 可以表示为 $PE_{pos}$ 的线性函数。

我们还尝试了使用学习得到的位置嵌入，发现两种版本产生了几乎相同的结果（见表3）。我们选择正弦版本是因为它可能允许模型推断出比训练过程中遇到的序列长度更长的序列长度。

为什么选择自注意力机制

在本节中，我们将比较自注意力层与循环层和卷积层在不同方面的特点。这些层通常用于将一个可变长度的符号表示序列 $(x_1, ..., x_n)$ 映射到另一个等长序列 $(z_1, ..., z_n)$ ，其中 $x_i, z_i \in \mathbb{R}^d$ ，比如典型序列转换编码器或解码器中的隐藏层。为论证使用自注意力的合理性，我们考虑三个期望目标：

每层的总计算复杂度；
可并行计算的数量，用所需的最小顺序操作数来衡量。
网络中长距离依赖的路径长度。

在许多序列转换任务中，学习长距离依赖关系是一个关键挑战。影响学习这种依赖关系能力的一个重要因素是信号在网络中前向和后向传播所必须经过的路径长度。输入和输出序列中任意位置之间的这些路径越短，就越容易学习长距离依赖关系。因此，我们还比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。

如表1所示，自注意力层通过恒定数量的顺序执行操作就能连接所有位置，而循环层则需要 $O(n)$ 个顺序操作。在计算复杂度方面，当序列长度 n 小于表示维度 d 时，自注意力层比循环层更快，这在机器翻译中使用的句子表示（如词片段和字节对编码）的最新模型中经常出现。

为了提高涉及超长序列任务的计算性能，可以将自注意力限制为仅考虑输入序列中以相应输出位置为中心的大小为 r 的邻域。这会将最大路径长度增加到 $O(n/r)$ 。我们计划在未来的工作中进一步研究这种方法。

单个核宽度为 $k < n$ 的卷积层无法连接所有的输入和输出位置对。要实现这一点，在连续核的情况下需要 $O(n/k)$ 层卷积层堆叠，或在扩张卷积的情况下需要 $O(\log_k(n))$ 层，这增加了网络中任意两个位置之间最长路径的长度。卷积层通常比循环层的计算开销更大，系数为 k。然而，可分离卷积能显著降低复杂度至 $O(k \cdot n \cdot d + n \cdot d^2)$ 。即使在 $k = n$ 的情况下，可分离卷积的复杂度也等于自注意力层和逐点前馈层的组合，这正是我们在模型中采用的方法。

作为附加好处，自注意力可能产生更容易解释的模型。我们检查了模型中的注意力分布，并在附录中展示和讨论了示例。不仅是各个注意力头明显学会执行不同的任务，许多注意力头似乎表现出与句子句法和语义结构相关的行为。

训练

本节描述了我们模型的训练方案。

训练数据与批处理

我们在标准的 WMT 2014 英德数据集上进行训练，该数据集包含约450万个句子对。句子使用字节对编码（byte-pair encoding）进行编码，共享源语言和目标语言的词表，包含约37000个词元。对于英法翻译，我们使用了明显更大的 WMT 2014 英法数据集，包含3600万个句子，并将词元分割成32000个词片（word-piece）词表。句子对按照近似序列长度进行批处理。每个训练批次包含一组句子对，大约包含25000个源语言词元和25000个目标语言词元。

硬件与时间安排

我们使用一台配备8块 NVIDIA P100 GPU 的机器训练模型。对于使用文中描述的超参数的基础模型，每个训练步骤大约需要0.4秒。我们总共训练了100,000步，即12小时。对于我们的大型模型（在表3的底部描述），每步用时1秒。大型模型训练了300,000步（3.5天）。

优化器

我们使用 Adam 优化器，参数设置为 $\beta_1 = 0.9$ ， $\beta_2 = 0.98$ 和 $\epsilon = 10^{-9}$ 。在训练过程中，我们根据以下公式调整学习率：

\text {lrate} = d_{\text {model}}^{-0.5} \cdot \min(\text {step\_num}^{-0.5}, \text {step\_num} \cdot \text {warmup\_steps}^{-1.5})

这相当于在前 warmup_steps 训练步骤中线性增加学习率，之后按步数的平方根的倒数比例降低学习率。我们使用 warmup_steps=4000。

在Adam优化器中这三个参数的含义是：

$\beta_1 = 0.9$ 是一阶动量的衰减率，控制历史梯度的影响程度。0.9意味着新的梯度占10%，过去的累积梯度占90%，使参数更新更平滑

$\beta_2 = 0.98$ 是二阶动量的衰减率，用于控制学习率的自适应程度。0.98表示历史梯度平方的影响会更持久，让学习率调整更稳定

$\epsilon = 10^{-9}$ 是一个很小的常数，添加到分母以防止除零，保证数值稳定性。通常取很小的值，对优化结果影响不大

这些是Adam常用的默认值，在实践中表现良好。

正则化

我们在训练期间采用三种类型的正则化：

残差丢弃：我们对每个子层的输出应用丢弃（dropout），然后再将其添加到子层输入并进行归一化。此外，我们对编码器和解码器堆栈中的嵌入和位置编码的和也应用丢弃。对于基础模型，我们使用 $P_{\text drop} = 0.1$ 的丢弃率。
标签平滑：在训练期间，我们采用值为 $\epsilon_{ls} = 0.1$ 的标签平滑。这会损害困惑度，因为模型学会了更加不确定，但能提高准确率和 BLEU 分数。

表2：Transformer在英德和英法 newstest2014 测试中，以较少的训练成本达到了比之前最先进模型更好的 BLEU 分数。

结果

机器翻译

在 WMT 2014 英德翻译任务中，Transformer 大型模型（表2中的 Transformer (big)）比之前报告的最佳模型（包括集成模型）的表现高出超过2.0个 BLEU 分，创造了新的 BLEU 分数记录：28.4。该模型的配置列在表3的最后一行。训练在8块 P100 GPU 上用时3.5天。即使是我们的基础模型也超越了所有先前发表的模型和集成模型，而且训练成本只是竞争模型的一小部分。

在 WMT 2014 英法翻译任务中，我们的大型模型达到了41.0的 BLEU 分数，超越了所有先前发表的单一模型，且训练成本不到之前最先进模型的四分之一。用于英法翻译的 Transformer 大型模型使用了 $P_{\text drop} = 0.1$ 的丢弃率，而不是0.3。

对于基础模型，我们使用了通过平均最后5个检查点获得的单一模型，这些检查点以10分钟的间隔写入。对于大型模型，我们平均了最后20个检查点。我们使用束搜索，束宽为4，长度惩罚 $\alpha = 0.6$ 。这些超参数是在开发集上实验后选择的。我们在推理过程中将最大输出长度设置为输入长度加50，但在可能的情况下提前终止。

表2总结了我们的结果，并将我们的翻译质量和训练成本与文献中的其他模型架构进行了比较。我们通过将训练时间、使用的 GPU 数量以及每个 GPU 的估计单精度浮点持续计算能力相乘来估算训练模型所使用的浮点运算次数。

模型变体

为了评估 Transformer 不同组件的重要性，我们以不同方式改变了基础模型，在英德翻译的开发集（newstest2013）上测量性能变化。我们使用了如前一节所述的束搜索，但没有进行检查点平均。这些结果在表3中展示。

表3：Transformer 架构的变体。未列出的值与基础模型相同。所有指标都基于英德翻译开发集 newstest2013。列出的困惑度是按照我们的字节对编码的每词片（per-wordpiece）计算的，不应与每词（per-word）困惑度进行比较。

在表3的（A）行中，我们改变了注意力头的数量以及注意力键值维度，同时保持计算量不变。虽然单头注意力比最佳设置低0.9 BLEU，但头数过多时质量也会下降。

在表3的（B）行中，我们观察到减小注意力键的大小 $d_k$ 会损害模型质量。这表明确定兼容性并不容易，可能需要比点积更复杂的兼容性函数。我们在（C）和（D）行中进一步观察到，正如预期的那样，更大的模型效果更好，且丢弃对避免过拟合非常有帮助。在（E）行中，我们用学习的位置嵌入替换了正弦位置编码，观察到与基础模型几乎相同的结果。

英语成分句法分析

为了评估Transformer是否能够泛化到其他任务，我们在英语成分句法分析上进行了实验。这项任务具有特定的挑战：输出受到强结构约束，并且显著长于输入。此外，基于RNN的序列到序列模型在小数据条件下无法达到最优水平。

我们在Penn Treebank（宾夕法尼亚树库）的Wall Street Journal（华尔街日报，简称WSJ）部分训练了一个4层的transformer模型，模型参数dmodel=1024，训练数据约4万句。我们还在半监督设置下进行了训练，使用了更大的高可信度语料库和BerkleyParser语料库，包含约1700万句。在仅使用WSJ的设置中，我们使用了16K词汇量，在半监督设置中使用了32K词汇量。

我们仅在第22部分的开发集上进行了少量实验来选择dropout（包括注意力和残差部分）、学习率和束搜索大小，其他所有参数均保持与英德翻译基础模型相同。在推理过程中，我们将最大输出长度增加到输入长度+300。在WSJ单独训练和半监督设置中，我们都使用了束大小为21且α=0.3的设置。

表4：Transformer在英语成分句法分析上的良好泛化性能（结果基于WSJ第23部分）

我们的结果如表4所示，尽管缺乏特定任务的调优，我们的模型表现出人意料地好，除了递归神经网络文法外，取得了优于所有先前报告模型的结果。

与RNN序列到序列模型相比，即使仅在包含4万句的WSJ训练集上训练，Transformer的表现也优于BerkeleyParser。

结论

在这项工作中，我们提出了Transformer，这是第一个完全基于注意力机制的序列转换模型，它用多头自注意力机制取代了编码器-解码器架构中最常用的循环层。

对于翻译任务，Transformer的训练速度明显快于基于循环层或卷积层的架构。在WMT 2014英德翻译和WMT 2014英法翻译任务上，我们都达到了新的最优水平。在前一个任务中，我们的最佳模型甚至超越了所有此前报告的集成模型的性能。

我们对基于注意力模型的未来充满期待，并计划将其应用于其他任务。我们计划将Transformer扩展到涉及文本以外的输入和输出模态的问题，并研究局部的、受限制的注意力机制，以有效处理大规模输入和输出，如图像、音频和视频。使生成过程减少顺序依赖性也是我们的研究目标之一。

我们用于训练和评估模型的代码可在 https://github.com/tensorflow/tensor2tensor 获取。

致谢：我们感谢Nal Kalchbrenner和Stephan Gouws富有成效的评论、修正和启发。

注意力可视化

图3

图3：在编码器第5层（共6层）的自注意力机制中跟踪长距离依赖关系的示例。许多注意力头都关注动词"making"的远距离依赖，完成短语"making…more difficult"。此处仅显示针对单词"making"的注意力。不同颜色代表不同的注意力头。最佳以彩色查看。

图4

图4：两个位于第5层（共6层）的注意力头，显然参与了回指消解。上图：第5个头的完整注意力分布。下图：仅展示来自单词"its"的注意力分布（注意力头5和6）。注意这个词的注意力分布非常清晰明确。

图5

图5：许多注意力头表现出与句子结构相关的行为模式。我们在上面给出了两个这样的示例，来自编码器第5层（共6层）自注意力机制中的两个不同头。这些注意力头明显学会了执行不同的任务。

参考文献

Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014.
Denny Britz, Anna Goldie, Minh-Thang Luong, and Quoc V. Le. Massive exploration of neural machine translation architectures. CoRR, abs/1703.03906, 2017.
Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine reading. arXiv preprint arXiv:1601.06733, 2016.
Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. CoRR, abs/1406.1078, 2014.
Francois Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357, 2016.
Junyoung Chung, Çağlar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014.
Chris Dyer, Adhiguna Kuncoro, Miguel Ballesteros, and Noah A. Smith. Recurrent neural network grammars. In Proc. of NAACL, 2016.
Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017.
Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770-778, 2016.
Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jürgen Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, 2001.
Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735-1780, 1997.
Zhongqiang Huang and Mary Harper. Self-training PCFG grammars with latent annotations across languages. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages 832-841. ACL, August 2009.
Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016.
Lukasz Kaiser and Samy Bengio. Can active memory replace attention? In Advances in Neural Information Processing Systems, (NIPS), 2016.
Lukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. In International Conference on Learning Representations (ICLR), 2016.
Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2, 2017.
Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks. In International Conference on Learning Representations, 2017.
Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
Oleksii Kuchaiev and Boris Ginsburg. Factorization tricks for LSTM networks. arXiv preprint arXiv:1703.10722, 2017.
Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured self-attentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017.
Minh-Thang Luong, Quoc V. Le, Ilya Sutskever, Oriol Vinyals, and Lukasz Kaiser. Multi-task sequence to sequence learning. arXiv preprint arXiv:1511.06114, 2015.
Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. arXiv preprint arXiv:1508.04025, 2015.
Mitchell P Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini. Building a large annotated corpus of english: The penn treebank. Computational linguistics, 19(2):313-330, 1993.
David McClosky, Eugene Charniak, and Mark Johnson. Effective self-training for parsing. In Proceedings of the Human Language Technology Conference of the NAACL, Main Conference, pages 152-159. ACL, June 2006.
Ankur Parikh, Oscar Täckström, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model. In Empirical Methods in Natural Language Processing, 2016.
Romain Paulus, Caiming Xiong, and Richard Socher. A deep reinforced model for abstractive summarization. arXiv preprint arXiv:1705.04304, 2017.
Slav Petrov, Leon Barrett, Romain Thibaux, and Dan Klein. Learning accurate, compact, and interpretable tree annotation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 433-440. ACL, July 2006.
Ofir Press and Lior Wolf. Using the output embedding to improve language models. arXiv preprint arXiv:1608.05859, 2016.
Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017.
Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15(1):1929-1958, 2014.
Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. End-to-end memory networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 2440-2448. Curran Associates, Inc., 2015.
Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems, pages 3104-3112, 2014.
Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. CoRR, abs/1512.00567, 2015.
Vinyals & Kaiser, Koo, Petrov, Sutskever, and Hinton. Grammar as a foreign language. In Advances in Neural Information Processing Systems, 2015.
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.
Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, and Wei Xu. Deep recurrent models with fast-forward connections for neural machine translation. CoRR, abs/1606.04199, 2016.
Muhua Zhu, Yue Zhang, Wenliang Chen, Min Zhang, and Jingbo Zhu. Fast and accurate shift-reduce constituent parsing. In Proceedings of the 51st Annual Meeting of the ACL (Volume 1: Long Papers), pages 434-443. ACL, August 2013.

transformer发展

transformer模型变体

自2017 年发表的这篇奠基性论文《Attention is All You Need》中提出的原始 transformer 架构之后，transformer的变体模型越来越多，同时适用的领域也越来越精细化，下表列出了近几年 transformer 的变体模型及其特点等信息：

模型名称	发表年份	特点	优势	劣势
BERT	2018	双向编码预训练语言模型，使用遮掩语言模型（MLM）和下一句预测（NSP）任务	在多个NLP任务上取得了显著的性能提升	预训练和微调需要大量计算资源，缺乏对生成任务的支持
GPT	2018	基于Transformer的单向自回归语言模型	在生成任务上表现出色，模型架构简单，易于扩展	单向性限制了对上下文信息的完整捕捉
GPT-2	2019	扩大了GPT的规模，参数量增加，生成更长的文本	文本生成更连贯，表现更佳	存在滥用风险，计算资源需求高
RoBERTa	2019	改进了BERT，取消NSP任务，增加训练数据和训练时间	在多项NLP任务上超过了BERT的性能	训练成本高，依赖大量数据
ALBERT	2019	引入参数共享和因子化嵌入，减少模型参数量	模型更小，训练速度更快，性能接近BERT	参数共享可能限制模型的表达能力
XLNet	2019	结合自回归和自编码的预训练方法，使用Transformer-XL作为基础	超越了BERT在多个任务上的性能，能够捕捉双向上下文	模型更复杂，训练难度增加
T5	2019	将所有NLP任务统一为“文本到文本”的框架，进行大规模预训练	在多项任务上表现出色，统一的架构便于迁移学习	模型体积庞大，训练和推理成本高
ELECTRA	2020	使用替换词检测作为预训练任务，提高训练效率	在相同计算预算下，性能优于BERT	训练过程更复杂，可能需要精细的超参数调节
Reformer	2020	利用局部敏感哈希（LSH）和可逆残差网络，减少内存和计算需求	能处理长序列，降低计算复杂度和内存占用	实现复杂度增加，可能在某些任务上不稳定
Longformer	2020	采用稀疏注意力机制，增强长序列处理能力	能有效处理长文档，在长序列任务上性能优异	对于短序列任务优势不明显，模型复杂度增加
Performer	2020	使用随机特征映射近似软max注意力，实现线性计算复杂度	能够高效处理长序列，计算效率高	近似可能导致性能下降，在某些任务上效果不如精确注意力
Linformer	2020	通过低秩投影将注意力机制的复杂度降为线性	大幅降低注意力的计算和内存需求，适用于长序列	低秩近似可能损失部分信息，影响模型性能
BigBird	2020	结合局部、随机和全局注意力机制，扩展到更长的序列	能处理非常长的序列，在长文本理解上表现良好	模型结构更复杂，实现和调试难度增大
ViT（Vision Transformer）	2020	将Transformer应用于图像任务，将图像划分为patches进行处理	在图像分类任务上取得了优异性能，突破了传统CNN的限制	需要大量数据进行预训练，对小样本数据集表现较差
Switch Transformer	2021	基于专家混合（MoE）的稀疏激活模型，极大地扩大模型规模	增加模型容量的同时保持计算成本较低，在大规模预训练中表现出色	通信和负载均衡成为训练的瓶颈，模型复杂度高
Swin Transformer	2021	使用层次化的Transformer结构和滑动窗口机制，适用于视觉任务	在图像分类、目标检测等任务上性能优异，具有良好的扩展性	模型结构复杂，训练时间较长，需要更多资源
GPT-3	2020	超大规模语言模型，拥有1750亿参数，具备强大的生成能力	具有卓越的零样本和少样本学习能力，可处理多种任务	参数规模庞大，训练和推理成本极高，存在偏见和不准确性
GPT-4	2023	多模态模型，支持文本和图像输入，进一步提升推理能力	在广泛的任务上表现优异，更好的上下文理解和生成能力	模型巨大，推理成本高，仍存在生成错误信息的风险

这些 transformer 变体各有特点，通过在模型结构、预训练任务和训练策略等方面的创新，不断提升了模型在各种任务上的性能。然而，随着模型规模的扩大，训练和推理的计算成本也显著增加，如何在性能和效率之间取得平衡仍是一个重要的研究方向。

优化与创新方向

细分看来，上述这些模型，主要在以下几个方向上进行了优化和创新：

模型架构优化
- 稀疏注意力机制：为了降低计算复杂度，提高对长序列的处理能力，一些模型引入了稀疏注意力机制。例如：
  - Longformer：采用局部和全局的稀疏注意力模式，能够处理更长的文本。
  - BigBird：结合局部、随机和全局注意力，扩展了模型的上下文范围。
  - Reformer：利用局部敏感哈希（LSH）替代传统的点积注意力，减少了计算和内存开销。
- 线性化注意力：通过近似方法将注意力机制的计算复杂度从二次降为线性。例如：
  - Performer：使用随机特征映射近似软max注意力，实现线性时间复杂度。
  - Linformer：采用低秩矩阵分解技术，降低了注意力矩阵的维度。
- 层次化结构：在视觉领域，引入了层次化的特征表示，以更好地捕捉不同尺度的信息。例如：
  - Swin Transformer：使用滑动窗口和金字塔结构，适用于图像和视频任务。
预训练任务和目标的改进
- 新的预训练任务：为了更有效地学习语言表示，模型引入了新的预训练任务。
  - BERT：使用了遮掩语言模型（MLM）和下一句预测（NSP）。
  - RoBERTa：改进了预训练策略，取消了NSP任务，使用动态遮掩。
  - ELECTRA：提出了替换词检测任务，训练一个判别器来区分真实词和生成的假词，提高了训练效率。
- 自回归与自编码的结合：
  - XLNet：融合了自回归和自编码的预训练方法，通过掩码排列方式捕获双向上下文信息。
模型规模的扩展
- 参数规模的增加：为了提升模型的表达能力，研究者们不断扩大模型的参数规模。
  - GPT-2：参数量达到15亿，比GPT大了一个数量级。
  - GPT-3：进一步扩展到1750亿参数，具备强大的生成和推理能力。
  - Switch Transformer：采用专家混合（MoE）结构，实现了万亿级参数的模型。
- 稀疏激活和专家模型：
  - Switch Transformer：在模型中引入了稀疏激活的专家层，每次只激活部分参数，减少计算成本。
参数高效化
- 参数共享和压缩：为了减少模型参数量，提升训练和推理效率。
  - ALBERT：使用跨层参数共享和因子化嵌入，将参数量大幅减少，同时保持性能。
  - DistilBERT：通过蒸馏技术，从大型模型中学习，生成轻量级模型。
任务统一化
- 统一的框架处理多种任务：
  - T5（Text-to-Text Transfer Transformer）：将各种NLP任务统一建模为文本到文本的问题，方便了多任务学习和迁移学习。
跨模态扩展
- 将Transformer应用于视觉和多模态任务：
  - ViT（Vision Transformer）：将Transformer直接应用于图像分类任务，效果超过了一些经典的卷积神经网络。
  - GPT-4：支持文本和图像输入的多模态模型，能够理解并生成跨模态的内容。
更好的长程依赖建模
- 相对位置编码和循环机制：
  - Transformer-XL：引入了递归机制和相对位置编码，改善了对长序列的依赖。
  - XLNet：利用相对位置编码，增强了模型对长距离依赖的捕捉能力。
计算效率和内存优化
- 可逆网络和压缩技术：
  - Reformer：引入可逆残差网络，减少了模型的内存占用，因为可以在反向传播中无需存储中间激活值。
- 低秩和近似计算：
  - Linformer：通过低秩近似，减少了注意力矩阵的尺寸，降低了计算量。
  - Performer：用核方法近似softmax函数，提升了计算效率。
训练策略的改进
- 大规模数据和训练技巧：
  - RoBERTa：增加了训练数据量，延长了训练时间，并调整了超参数，取得了比BERT更好的性能。
  - DeepSpeed和Megatron-LM：提供了高效的模型并行和数据并行策略，支持训练超大规模模型。
应用领域的拓展
- 领域特定的预训练：
  - BioBERT、SciBERT：针对生物医学和科学文献进行预训练，提升了在特定领域的性能。
- 多语言和跨语言模型：
  - mBERT、XLM-R：在多语言数据上进行预训练，支持跨语言的理解和生成。

综合上述内容，这些改进旨在提升模型的性能、效率和适用范围等等，以应对不同的任务需求和计算资源限制。

如何在新任务上优化 transformer 架构？

个人认为，可从以下几个方面考虑：

架构创新：通过改进注意力机制和引入新的网络结构，提升模型对长序列和复杂任务的处理能力。
预训练策略：设计新的预训练任务和目标，使模型能够更有效地学习新任务所需特征。
规模和效率：扩大模型规模以提高性能，同时引入参数共享、模型压缩和稀疏激活等技术，优化计算资源的利用。
任务和领域拓展：将Transformer应用于新的领域和任务，如基因组学数据分析、计算机视觉、多模态处理等等。
训练优化：改进训练算法和并行策略，以支持大规模模型的训练，降低训练时间和资源消耗。

transformer代码实现举例

作为参考，这里的示例基于Transformer架构的语言模型实现，具体是一个仅包含解码器的变体，功能是语言生成。

先来回顾一下transformer模型中的概念：

嵌入层：将词汇等源转换为密集向量表示
位置编码：为序列中的每个位置添加位置信息
Transformer解码器：核心计算单元
输出层：将结果映射回词汇等源大小的空间

重要参数：

vocab_size: 词汇表等源大小
embed_size: 嵌入维度
num_heads: 注意力头数
hidden_dim: 前馈网络维度
num_layers: 解码器层数

构建 transformer 模型

import torch
from torch import nn

# 定义一个仅包含解码器的transformer模型
class TransformerDecoderModel(nn.Module):
    def __init__(self, vocab_size, embed_size, num_heads, hidden_dim, num_layers):
        # 调用基类的初始化函数
        super(TransformerDecoderModel, self).__init__()  
        # 创建嵌入层，将词索引转换为嵌入向量
        self.embed = nn.Embedding(vocab_size, embed_size)
        # 初始化位置编码，是一个可学习的参数
        self.positional_encoding = nn.Parameter(torch.randn(embed_size).unsqueeze(0))
        # 定义Transformer解码器层
        decoder_layer = nn.TransformerDecoderLayer(d_model=embed_size, nhead=num_heads, dim_feedforward=hidden_dim)
        # 堆叠多个解码器层构成完整的解码器
        self.transformer_decoder = nn.TransformerDecoder(decoder_layer, num_layers=num_layers)
        # 定义输出层，将解码器输出转换回词汇空间
        self.fc = nn.Linear(embed_size, vocab_size)

    def forward(self, src):
        # 嵌入输入并添加位置编码
        src = self.embed(src) + self.positional_encoding
        # 生成源序列的掩码，用于屏蔽未来的信息
        src_mask = self.generate_square_subsequent_mask(src.size(0))
        # 通过解码器传递源数据和掩码
        output = self.transformer_decoder(src, src, src_mask)
        # 应用线性层输出最终的预测结果
        output = self.fc(output)
        return output

    def generate_square_subsequent_mask(self, sz):
        # 上三角矩阵，用于序列生成中遮蔽未来位置的信息
        mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)
        # 将掩码的非零位置设为无穷大，零位置设为0
        mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
        return mask

训练数据集

transformer架构的模型，整体训练成本都非常高，这里仅作演示，我们极大缩小训练量级，将以下文本存为“sentence.txt”作为训练数据：

数学

数学是利用符号语言研究数量、结构、变化以及空间等概念的一门学科，从某种角度看属于形式科学的一种。数学透过抽象化和逻辑推理的使用，由计数、计算、量度和对物体形状及运动的观察而产生。数学家们拓展这些概念，为了公式化新的猜想以及从选定的公理及定义中建立起严谨推导出的定理。

基础数学的知识与运用总是个人与团体生活中不可或缺的一环。对数学基本概念的完善，早在古埃及、美索不达米亚及古印度内的古代数学文本便可观见，而在古希腊那里有更为严谨的处理。从那时开始，数学的发展便持续不断地小幅进展，至16世纪的文艺复兴时期，因为新的科学发现和数学革新两者的交互，致使数学的加速发展，直至今日。数学并成为许多国家及地区的教育范畴中的一部分。

今日，数学使用在不同的领域中，包括科学、工程、医学、经济学和金融学等。数学对这些领域的应用通常被称为应用数学，有时亦会激起新的数学发现，并导致全新学科的发展，例如物理学的实质性发展中建立的某些理论激发数学家对于某些问题的不同角度的思考。数学家也研究纯数学，就是数学本身的实质性内容，而不以任何实际应用为目标。虽然许多研究以纯数学开始，但其过程中也发现许多应用之处。

西方语言中“数学”（）一词源自于古希腊语的（），其有“学习”、“学问”、“科学”，以及另外还有个较狭义且技术性的意思－「数学研究」，即使在其语源内。其形容词（），意思为"和学习有关的"或"用功的"，亦会被用来指"数学的"。其在英语中表面上的复数形式，及在法语中的表面复数形式'，可溯至拉丁文的中性复数'，由西塞罗译自希腊文复数（），此一希腊语被亚里士多德拿来指「万物皆数」的概念。

汉字表示的「数学」一词大约产生于中国宋元时期。多指象数之学，但有时也含有今天上的数学意义，例如，秦九韶的《数学九章》（《永乐大典》记，即《数书九章》也被宋代周密所著的《癸辛杂识》记为《数学大略》）、《数学通轨》（明代柯尚迁著）、《数学钥》（清代杜知耕著）、《数学拾遗》（清代丁取忠撰）。直到1939年，经过中国数学名词审查委员会研究“算学”与“数学”两词的使用状况后，确认以“数学”表示今天意义上的数学含义。

数学有着久远的历史。它被认为起源于人类早期的生产活动：中国古代的六艺之一就有「数」，数学一词在西方有希腊语词源（mathematikós），意思是“学问的基础”，源于（máthema，“科学，知识，学问”）。

史前的人类就已尝试用自然的法则来衡量物质的多少、时间的长短等抽象的数量关系，比如时间单位有日、季节和年等。算术（加减乘除）也自然而然地产生了。古代的石碑及泥版亦证实了当时已有几何的知识。

更进一步则需要写作或其他可记录数字的系统，如符木或于印加帝国内用来储存数据的奇普。历史上曾有过许多不同的记数系统。

在最初有历史记录的时候，数学内的主要原理是为了做税务和贸易等相关计算，为了解数字间的关系，为了测量土地，以及为了预测天文事件而形成的。这些需要可以简单地被概括为数学对数量、结构、空间及时间方面的研究。

到了16世纪，算术、初等代数以及三角学等初等数学已大体完备。17世纪变量概念的产生使人们开始研究变化中的量与量的互相关系和图形间的互相变换，微积分的概念也在此时形成。随着数学转向形式化，为研究数学基础而产生的集合论和数理逻辑等也开始发展。数学的重心从求解实际问题转变到对一般形式上的思考。

从古至今，数学便一直不断地延展，且与科学有丰富的相互作用，两者的发展都受惠于彼此。在历史上有著许多数学发现，并且直至今日都不断地有新的发现。据Mikhail B. Sevryuk于2006年1月的期刊中所说，「存放于数学评论资料库中论文和书籍的数量自1940年（数学评论的创刊年份）现已超过了一百九十万份，而且每年还增加超过七万五千份。此一学海的绝大部份为新的数学定理及其证明。」

每当有涉及数量、结构、空间及变化等方面的困难问题时，通常就需要用到数学工具去解决问题，而这往往也拓展了数学的研究范畴。一开始，数学的运用可见于贸易、土地测量及之后的天文学。今日，所有的科学都存在著值得数学家研究的问题，且数学本身亦给出了许多的问题。牛顿和莱布尼兹是微积分的发明者，费曼发明了费曼路径积分，这是推理及物理洞察二者的产物，而今日的弦理论亦引申出新的数学。一些数学只和生成它的领域有关，且用来解答此领域的更多问题。但一般被一领域生成的数学在其他许多领域内也十分有用，且可以成为一般的数学概念。即使是「最纯的」数学通常亦有实际的用途，此一非比寻常的事实，被1963年诺贝尔物理奖得主维格纳称为「数学在自然科学中不可想像的有效性」。

如同大多数的研究领域，科学知识的爆发导致了数学的专业化。主要的分歧为纯数学和应用数学。在应用数学内，又被分成两大领域，并且变成了它们自身的学科——统计学和电脑科学。

许多数学家谈论数学的"优美"，其内在的美学及美。「简单」和「一般化」即为美的一种。另外亦包括巧妙的证明，如欧几里得对存在无限多质数的证明；又或者是加快计算的数值方法，如快速傅立叶变换。高德菲·哈罗德·哈代在《一个数学家的自白》一书中表明他相信单单是美学上的意义，就已经足够作为纯数学研究的正当理由。

我们现今所使用的大部分数学符号在16世纪后才被发明出来的。在此之前，数学以文字的形式书写出来，这种形式会限制了数学的发展。现今的符号使得数学对于专家而言更容易掌握，但初学者却常对此望而却步。它被极度的压缩：少量的符号包含著大量的讯息。如同音乐符号一般，现今的数学符号有明确的语法，并且有效地对讯息作编码，这是其他书写方式难以做到的。符号化和形式化使得数学迅速发展，并帮助各个科学领域建立基础支撑理论。

数学语言亦对初学者而言感到困难。如“或”和“只”这些字有著比日常用语更精确的意思。亦困恼著初学者的，如“开放”和“域”等字在数学里有著特别的意思。数学术语亦包括如“同胚”及“可积性”等专有名词。但使用这些特别符号和专有术语是有其原因的：数学需要比日常用语更多的精确性。数学家将此对语言及逻辑精确性的要求称为「严谨」。但在现实应用中，舍弃一些严谨性往往会得到更好的结果。

严谨是数学证明中很重要且基本的一部份。数学家希望他们的定理以系统化的推理依著公理被推论下去。这是为了避免依著不可靠的直观而推出错误的「定理」，而这情形在历史上曾出现过许多的例子。在数学中被期许的严谨程度因著时间而不同：希腊人期许著仔细的论证，但在牛顿的时代，所使用的方法则较不严谨。牛顿为了解决问题所做的定义，到了十九世纪才重新以小心的分析及正式的证明来处理。今日，数学家们则持续地在争论电脑辅助证明的严谨度。当大量的计算难以被验证时，其证明亦很难说是足够地严谨。

公理在传统的思想中是「不证自明的真理」，但这种想法是有问题的。在形式上，公理只是一串符号，其只对可以由公理系统导出的公式之内容有意义。希尔伯特计划即是想将所有的数学放在坚固的公理基础上，但依据哥德尔不完备定理，每一相容且能蕴涵皮亚诺公理的公理系统必含有一不可决定的公式；因而所有数学的最终公理化是不可能的。尽管如此，数学常常被想像成只是某种公理化的集合论，在此意义下，所有数学叙述或证明都可以写成集合论的公式。

卡尔·弗里德里希·高斯称数学为「科学的皇后」。在拉丁原文'，以及其德语'中，对应于「科学」的单字的意思皆为知识（领域）。而实际上，science一词在英语内本来就是这个意思，且无疑问地数学在此意义下确实是一门「科学」。将科学限定在自然科学则是在此之后的事。若认为科学是只指物理的世界时，则数学，或至少是纯数学，不会是一门科学。爱因斯坦曾如此描述：「数学定律越和现实有关，它们越不确定；若它们越是确定的话，它们和现实越不会有关。」

许多哲学家相信数学在经验上不具可否证性，且因此不是卡尔·波普尔所定义的科学。但在1930年代时，在数理逻辑上的重大进展显示数学不能归并至逻辑内，且波普尔推断「大部份的数学定律，如物理及生物学一样，是假设演绎的：纯数学因此变得更接近其假设为猜测的自然科学，比它现在看起来更接近。」然而，其他的思想家，如较著名的拉卡托斯，便提供了一个关于数学本身的可否证性版本。

另一观点则为某些科学领域（如理论物理）是其公理为尝试著符合现实的数学。而事实上，理论物理学家齐曼（John Ziman）即认为科学是一种公众知识，因此亦包含著数学。在任何的情况下，数学和物理科学的许多领域都有著很多相同的地方，尤其是从假设所得的逻辑推论之探索。直觉和实验在数学和科学的猜想建构上皆扮演著重要的角色。实验数学在数学中的重要性正持续地在增加，且计算和模拟在科学及数学中所扮演的角色也越来越加重，减轻了数学不使用科学方法的缺点。在史蒂芬·沃尔夫勒姆2002年的著作《一种新科学》中他提出，计算数学应被视为其自身的一科学领域来探索。

数学家对此的态度并不一致。一些研究应用数学的数学家觉得他们是科学家，而那些研究纯数学的数学家则时常觉得他们是在一门较接近逻辑的领域内工作，且因此基本上是个哲学家。许多数学家认为称他们的工作是一种科学，是低估了其美学方面的重要性，以及其做为七大博雅教育之一的历史；另外亦有人认为若忽略其与科学之间的关联，是假装没看到数学和其在科学与工程之间的交互影响，进而促进了数学在许多科学上的发展此一事实。这两种观点之间的差异在哲学上产生了数学是「被创造」（如艺术）或是「被发现」（如科学）的争议。大学院系划分中常见「科学和数学系」，这指出了这两个领域被看作有紧密联系而非一样。实际上，数学家通常会在大体上与科学家合作，但在细节上却会分开。此争议亦是数学哲学众多议题的其中一个。

如上所述，数学主要的学科最先产生于商业上计算的需要、了解数字间的关系、测量土地及预测天文事件。这四种需要大致地与数量、结构、空间及变化（即算术、代数、几何及分析）等数学上广泛的子领域相关连著。除了上述主要的关注之外，亦有用来探索由数学核心至其他领域上之间的连结的子领域：至逻辑、至集合论（基础）、至不同科学的经验上的数学（应用数学）、及较近代的至不确定性的严格研究。
为了阐明数学基础，数学逻辑和集合论等领域被发展了出来。

数学逻辑专注于将数学置在一坚固的公理架构上，并研究此一架构的结果。就数学逻辑本身而言，其为哥德尔第二不完备定理所属的领域，而这或许是逻辑中最广为流传的成果－总存在一不能被证明而又为真的定理。

现代逻辑被分成递归论、模型论和证明论，且和理论电脑科学有著密切的关连性，千禧年大奖难题中的P/NP问题就是理论电脑科学中的著名问题。

数量的研究起于数，一开始为熟悉的自然数及整数与被描述在算术内的自然数及整数的算术运算。整数更深的性质于数论中有详细的研究，此一理论包括了如费马最后定理等著名的结果。数论还包括两个被广为探讨的未解问题：孪生质数猜想及哥德巴赫猜想。

当数系更进一步发展时，整数被视为有理数的子集，而有理数则包含于实数中，连续的量即是以实数来表示的。实数则可以被进一步广义化成复数。数的进一步广义化可以持续至包含四元数及八元数。从自然数亦可以推广到超限数，它形式化了计数至无限的这一概念。另一个研究的领域为大小，这个导致了基数和之后对无限的另外一种概念：阿列夫数，它允许无限集合之间的大小可以做有意义的比较。

许多如数及函数的集合等数学物件都有著内含的结构。这些物件的结构性质被探讨于群、环、-{zh-cn:域;zh-tw:体}-等抽象系统中，该些物件事实上也就是这样的系统。此为代数的领域。在此有一个很重要的概念，即广义化至向量空间的向量，它于线性代数中被研究。向量的研究结合了数学的三个基本领域：数量、结构及空间。向量分析则将其扩展至第四个基本的领域内，即变化。

创立于二十世纪三十年代的法国的布尔巴基学派认为：纯粹数学，是研究抽象结构的理论。
结构，就是以初始概念和公理出发的演绎系统。
布尔巴基学派认为，有三种基本的抽象结构：代数结构（群，环，域……），序结构（偏序，全序……），拓扑结构（邻域，极限，连通性，维数……）。

空间的研究源自于几何－尤其是欧几里得几何。三角学则结合了空间及数，且包含有著名的勾股定理。现今对空间的研究更推广到了更高维的几何、非欧几里得几何（其在广义相对论中扮演著核心的角色）及拓扑学。数和空间在解析几何、微分几何和代数几何中都有著很重要的角色。在微分几何中有著纤维丛及流形上的微积分等概念。在代数几何中有著如多项式方程的解集等几何物件的描述，结合了数和空间的概念；亦有著拓扑群的研究，结合了结构与空间。李群被用来研究空间、结构及变化。在其许多分支中，拓扑学可能是二十世纪数学中有著最大进展的领域，并包含有存在已久的庞加莱猜想，以及有争议的四色定理。庞加莱猜想已在2006年确认由俄罗斯数学家格里戈里·佩雷尔曼证明，而四色定理已在1976年由凯尼斯·阿佩尔和沃夫冈·哈肯用电脑证明，而从来没有由人力来验证过。

了解及描述变化在自然科学里是一普遍的议题，而微积分更为研究变化的有利工具。函数诞生于此，做为描述一变化的量的核心概念。对于实数及实变函数的严格研究为实分析，而复分析则为复数的等价领域。黎曼猜想－数学最基本的未决问题之一－便是以复分析来描述的。泛函分析注重在函数的（一般为无限维）空间上。泛函分析的众多应用之一为量子力学。许多的问题很自然地会导出一个量与其变化率之间的关系，而这在微分方程中被研究。在自然界中的许多现象可以被动力系统所描述；混沌理论则是对系统的既不可预测而又是决定的行为作明确的描述。
离散数学是指对理论电脑科学最有用处的数学领域之总称，这包含有可计算理论、计算复杂性理论及资讯理论。可计算理论检验电脑的不同理论模型之极限，这包含现知最有力的模型－图灵机。复杂性理论研究可以由电脑做为较易处理的程度；有些问题即使理论是可以以电脑解出来，但却因为会花费太多的时间或空间而使得其解答仍然不为实际上可行的，尽管电脑硬体的快速进步。最后，资讯理论专注在可以储存在特定媒介内的资料总量，且因此有压缩及熵等概念。

作为一相对较新的领域，离散数学有许多基本的未解问题。其中最有名的为P/NP问题－千禧年大奖难题之一。一般相信此问题的解答是否定的。

应用数学思考将抽象的数学工具运用在解答科学、工商业及其他领域上之现实问题。应用数学中的一重要领域为统计学，它利用机率论为其工具并允许对含有机会成分的现象进行描述、分析与预测。大部份的实验、调查及观察研究需要统计对其资料的分析。（许多的统计学家并不认为他们是数学家，而比较觉得是合作团体的一份子。）数值分析研究有什么计算方法，可以有效地解决那些人力所限而算不出的数学问题；它亦包含了对计算中舍入误差或其他来源的误差之研究。

数学奖通常和其他科学的奖项分开。数学上最有名的奖为菲尔兹奖，创立于1936年，每四年颁奖一次。它通常被认为是数学的诺贝尔奖。另一个国际上主要的奖项为阿贝尔奖，创立于2003年。两者都颁奖于特定的工作主题，包括数学新领域的创新或已成熟领域中未解决问题的解答。著名的23个问题，称为希尔伯特的23个问题，于1900年由德国数学家大卫·希尔伯特所提出。这一连串的问题在数学家之间有著极高的名望，且至少有九个问题已经被解答了出来。另一新的七个重要问题，称为千禧年大奖难题，发表于2000年。对其每一个问题的解答都有著一百万美元的奖金，而当中只有一个问题（黎曼猜想）和希尔伯特的问题重复。

定义TextDataset类：

class TextDataset(Dataset):
    # 初始化函数，filepath为输入文件路径
    def __init__(self, filepath):
        words = []
        with open(filepath, 'r') as file:
            for line in file:
                # 使用jieba库进行分词，并去除每行的首尾空白字符
                words.extend(list(jieba.cut(line.strip())))

        # 将所有单词转换为一个集合来去除重复，然后再转回列表形式，形成词汇表
        self.vocab = list(set(words))
        self.vocab_size = len(self.vocab)  # 计算词汇表的大小

        # 创建从单词到整数的映射和从整数到单词的映射
        self.word_to_int = {word: i for i, word in enumerate(self.vocab)}
        self.int_to_word = {i: word for i, word in enumerate(self.vocab)}

        # 将映射关系保存为JSON文件
        with open('word_to_int.json', 'w') as f:
            json.dump(self.word_to_int, f, ensure_ascii=False, indent=4)
        with open('int_to_word.json', 'w') as f:
            json.dump(self.int_to_word, f, ensure_ascii=False, indent=4)

        # 将所有单词转换为对应的整数索引，形成数据列表
        self.data = [self.word_to_int[word] for word in words]

    # 返回数据集的长度减1，这通常是因为在机器学习中可能需要使用当前数据点预测下一个数据点
    def __len__(self):
        return len(self.data) - 1

    # 根据索引idx返回数据，这里用于返回模型训练时的输入序列和目标输出
    def __getitem__(self, idx):
        # 固定序列长度为50
        sequence_length = 50
        # 获取输入序列
        if idx < sequence_length:
            # 如果idx小于序列长度，用0填充前面的部分
            input_data = self.data[0:idx]
            padding_length = sequence_length - len(input_data)
            input_seq = torch.tensor([0] * padding_length + input_data, dtype=torch.long)
        else:
            # 如果idx大于等于序列长度，直接取前50个元素
            input_seq = torch.tensor(self.data[idx - sequence_length:idx], dtype=torch.long)
        # 确保输入序列长度为50
        assert input_seq.size(0) == sequence_length
        # 获取目标输出
        target = torch.tensor(self.data[idx], dtype=torch.long)
        return input_seq, target

通过以下方式加载数据集：

1 2	dataset = TextDataset('sentence.txt') dataloader = DataLoader(dataset, batch_size=32, shuffle=True, drop_last=True)

训练模型

创建模型并发送：

model = TransformerDecoderModel(vocab_size=dataset.vocab_size, embed_size=512, num_heads=8, hidden_dim=2048, num_layers=6)

# 将模型传送到定义的设备上（例如GPU或CPU），以便进行训练
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

模型优化器和损失函数设置：

# 初始化优化器，这里使用Adam优化器，设置学习率，从模型中获取参数
optimizer = optim.Adam(model.parameters(), lr=0.001)
# 添加学习率调度器
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=3, factor=0.1)
# 初始化损失函数，这里使用交叉熵损失
criterion = nn.CrossEntropyLoss()

优化器和损失函数可参考这篇文章：

优化器和损失函数

在深度学习和机器学习中，`优化器`和`损失函数`是模型训练的核心要素。 - 优化器决定了模型的参数如何更新，以最小化损失函数 - 损失函数度量了模型预测值和真实值之间的差异下面将详细介绍常用的优化器和损失函数。 --- # 优化器（Optimizers） ## 梯度下降（Gradient Descent，GD） **原理：** 梯度下降是最基本的优化算法。其核心思想是在参数空间中

开始训练：

# 训练模式
model.train()

# 循环遍历所有的训练周期
for epoch in range(3):
    # 循环遍历数据加载器中的每个批次
    for i, (inputs, targets) in enumerate(dataloader):
        # 将输入数据转置，以符合模型的期望输入维度
        inputs = inputs.t()
        # 在每次迭代前清空梯度
        optimizer.zero_grad()
        # 前向传播：计算模型对当前批次的输出
        outputs = model(inputs)
        # 选择输出的最后一个元素进行损失计算
        outputs = outputs[-1]
        # 计算损失值
        loss = criterion(outputs, targets)
        # 反向传播：计算损失的梯度
        loss.backward()
        # 更新模型的参数
        optimizer.step()
        # 每隔50步打印一次当前的训练状态
        if i % 50 == 0:
            print(f'Epoch [{epoch + 1}/{3}], Step [{i + 1}/{len(dataloader)}], Loss: {loss.item()}')

# 保存模型到指定路径
torch.save(model, "transformer_model.pth")
print('模型已保存到', "transformer_model.pth")

仅用于演示，这里只训练了3轮，训练大致耗时几分钟，过程截图：

测试模型

import torch
import json
import jieba

def load_model(model_path):
    # 加载模型到CPU
    model = torch.load(model_path, map_location=torch.device('cpu'))
    # 设置为评估模式
    model.eval()
    return model

def load_vocab(json_file):
    # 读取词汇表文件
    with open(json_file, 'r') as f:
        vocab = json.load(f)
    return vocab

def predict(model, initial_seq, max_len=10):
    # 加载数字到单词的映射
    int_to_word = load_vocab('int_to_word.json')
    # 确保模型处于评估模式
    model.eval()
    # 关闭梯度计算
    with torch.no_grad():
        generated = initial_seq
        # 生成最多max_len个词
        for _ in range(max_len):
            input_tensor = torch.tensor([generated], dtype=torch.long)
            output = model(input_tensor)
            predicted_idx = torch.argmax(output[:, -1], dim=-1).item()
            generated.append(predicted_idx)
            # 如果生成结束标记，则停止生成
            if predicted_idx == len(int_to_word) - 1:
                break
        # 将生成的索引转换为单词
        return [int_to_word[str(idx)] for idx in generated]

def generate(model, input_sentence, max_len=10):
    # 使用结巴分词对输入句子进行分词
    input_words = list(jieba.cut(input_sentence.strip()))
    # 加载单词到数字的映射
    word_to_int = load_vocab('word_to_int.json')
    # 将单词转换为索引
    input_seq = [word_to_int.get(word, len(word_to_int) - 1) for word in input_words]
    # 生成文本
    generated_text = predict(model, input_seq, max_len)
    # 将生成的单词列表合并为字符串
    return "".join(generated_text)

def main():
    # 定义输入提示
    prompt = "介绍一下数学历史。"
    # 加载模型
    model = load_model('transformer_model.pth')
    # 生成文本
    completion = generate(model, prompt)
    # 打印生成的文本
    print(prompt, completion)

if __name__ == '__main__':
    main()

效果如下：

不出意外的烂哈哈哈，如果要提升质量，就需要在增加训练集量级和训练周期的基础之上，优化模型参数了。