迪士尼彩乐园
热点资讯
你的位置:迪士尼彩乐园 > 迪士尼彩乐园3入口 > 迪士尼彩乐园3源码 莫得归一化层的Transformer!刘壮带队,何恺明、Yann LeCun参与

迪士尼彩乐园3入口

迪士尼彩乐园3源码 莫得归一化层的Transformer!刘壮带队,何恺明、Yann LeCun参与

发布日期:2024-05-03 22:49    点击次数:179

机器之心报谈迪士尼彩乐园3源码

机器之机杼剪部

何恺明又双叒叕发新作了,此次如故与图灵奖得主 Yann LeCun 配合。

这项商讨的主题是莫得归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议给与。

Meta FAIR 商讨科学家刘壮的推文

畴昔十年,归一化层仍是稳重了其算作当代神经网罗最基本组件之一的地位。这一切不错追猜测 2015 年批归一化(batch normalization)的发明,它使视觉识别模子的拘谨速率变得更快、更好,并在随后几年中取得赶紧发展。从其时起,商讨东谈主员针对不同的网罗架构或界限建议了很多归一化层的变体。

如今,险些通盘当代网罗齐在使用归一化层,其中层归一化(Layer Norm,LN)是最受宽贷之一,畸形是在占主导地位的 Transformer 架构中。

独行侠缺少了核心,尽管欧文状态神勇,奈何队友的支援不够多。此战欧文27投14中,三分球14中5,罚球6中6,得到39分4篮板2助攻。爱德华兹赛后称赞了欧文:“对我来说,他是最伟大的控卫。只要他找到了状态,那就太难防了。我们在最后时刻都投进了一些关键球。他知道他是我有史以来最喜欢的控卫。”

亚布塞莱曾在2017-2019年效力过凯尔特人队;本赛季重新加盟NBA,场均为76人队贡献9.5分5.1篮板1.5助攻。

归一化层的往常诓骗很猛进度上成绩于它们在优化方面的实证上风。除了收尾更好的司法除外,归一化层还有助于加快和褂讪拘谨。跟着神经网罗变得越来越宽、越来越深,归一化层的必要性变得越来越紧迫。因此,商讨东谈主员渊博合计归一化层对于有用测验深度网罗至关紧迫,以至是必不可少的。这一不雅点事实上得到了深奥评释注解:连年来,新架构频繁寻求取代留意力层或卷积层,但险些老是保留归一化层。

本文中,商讨者建议了 Transformer 中归一化层的一种绵薄平替。他们的探索始于以下不雅察:LN 层使用类 tanh 的 S 形弧线将其输入映射到输出,同期缩放输入激活并压缩极值。

受此启发,商讨者建议了一种元素级运算,称为 Dynamic Tanh(DyT),界说为:DyT (x) = tanh (αx),其中 α 是一个可学习参数。此运算旨在通过 α 学习相宜的缩放因子并通过有界 tanh 函数压缩极值来模拟 LN 的活动。值得留意的是,与归一化层不同,DyT 不错收尾这两种成果,而无需诡计激活数据。

论文一作 Jiachen Zhu 为纽约大学四年事博士生、二作陈鑫磊(Xinlei Chen)为 FAIR 商讨科学家,技俩谨慎东谈主为刘壮。

论文标题:Transformers without Normalization论文地址:https://arxiv.org/pdf/2503.10622技俩主页:https://jiachenzhu.github.io/DyT/GitHub 地址:https://github.com/jiachenzhu/DyT

DyT 使用起来畸形绵薄,如下图 1 所示,商讨者径直用 DyT 替换视觉和言语 Transformer 等架构中的现存归一化层。实证司法标明,使用 DyT 的模子不错在各式建立中褂讪测验并取得较高的最终性能。同期,DyT 时时不需要在原始架构上调整测验超参数。

DyT 模块不错通过短短几行 PyTorch 代码来收尾。

该责任挑战了「归一化层对测验当代神经网罗必不可少」这一不雅念,并提供了关系归一化层属性的实证主张。此外,初步司法标明,DyT 不错进步测验和推理速率,从而成为以服从为导向的网罗想象的候选决策。

刘壮发推称,对他而言,归一化层一直是深度学习中比较深奥的内容。这项责任让他对归一化层的作用有了更深的连气儿。另外,有计划到模子测验和推理需要数千万的算力需求,DyT 有后劲助力资本裁汰。他很期待接下来 DyT 的诓骗。

归一化层有什么作用?

要去掉 Transformer 中的归一化层,最初要作念确虽然是了解归一化层有什么用。

该团队通过实证商讨对此进行了分析。为此,他们使用了三个不同的经过测验的 Transformer 模子:一个 Vision Transformer(ViT-B)、一个 wav2vec 2.0 Large Transformer 和一个 Diffusion Transformer(DiT-XL)。

他们使用这三个模子采样了一小批样本,并让其前向通过通盘这个词网罗。然后,他们监测了其中归一化层的输入和输出,即归一化操作前后的张量。

由于 LN 会保留输入张量的维度,因此不错在输入和输出张量元素之间建立逐一双应关系,从而不错径直可视化它们的关系。这个映射关系见图 2。

具有层归一化的类 tanh 映射。对于这三个模子,该团队发现,它们的早期 LN 层(图 2 第 1 列)的输入 - 输出关系基本上是线性的。但是,更深的 LN 层却有更风趣风趣的推崇。

不错不雅察到,这些弧线的阵势大多与 tanh 函数示意的完好或部分 S 形弧线额皮毛似(见图 3)。

东谈主们可能预期 LN 层会对输入张量进行线性变换,因为减去平均值和除以轨范差齐是线性运算。LN 以每个 token 的面目进行归一化,仅对每个 token 的激活进行线性变换。

由于 token 具有不同的平均值和轨范差,因此这种线性并不合输入张量的通盘激活齐成立。尽管如斯,该团队示意依然很骇怪:骨子的非线性变换尽然与某个经过缩放的 tanh 函数高度相似!

对于这么一个 S 型弧线,不错看到其中心部分(x 值接近零的部分)仍然主要呈线性阵势。大渊博点(约 99%)齐属于这个线性范围。但是,仍有很多点明显超出此范围,这些点被合计具有「顶点」值,举例 ViT 模子中 x 大于 50 或小于 -50 的点。

归一化层对这些值的主要作用是将它们压缩为不太顶点的值,从而与大渊博点愈加一致。这是归一化层无法通过绵薄的仿射变换层近似的场地。

该团队假定,这种对顶点值的非线性和不行比例的压缩效应恰是归一化层的要害之处。

前段时辰的一篇论文《On the Nonlinearity of Layer Normalization》相通要点指出了 LN 层引入的强非线性,况且标明这种非线性不错增强模子的表征才调。

此外,这种压缩活动还反馈了生物神经元对大输入的饱和(saturation)特点,这种情状约莫一个世纪前就仍是被不雅察到。

token 和通谈的归一化。LN 层何如对每个 token 实行线性变换,同期以这种非线性面目压缩顶点值呢?

为了连气儿这极少,该团队离别按 token 和通谈对这些点进行可视化。图 4 给出了 ViT 的第二和第三个子图的情况,但为了更明晰,图中使用了采样的点子集。

在图 4 左边两个小图中,使用了统一心计标识每个 token 的激活。不错不雅察到,任何单个 token 的通盘点如实齐会变成一条直线。但是,由于每个 token 齐有不同的方差,因此斜率也不同。输入 x 范围较小的 token 往往具有较小的方差,况回去一化层将使用较小的轨范偏差来除它们的激活,从而让直线有较大的斜率。

总的来说,它们变成了一条近似于 tanh 函数的 S 形弧线。在右侧的两个小图中,相通使用交流的心计标识各个通谈的激活。不错看到,不同通谈的输入范围往往存在雄伟互异,迪士尼彩乐园只消少数通谈(举例红色、绿色和粉色)会推崇出较大的顶点值 —— 而这些通谈恰是被归一化层压缩得最是非的。

Dynamic Tanh(DyT)

既知根柢,耿介立异。基于归一化层和膨胀版 tanh 函数的相似性,该团队建议了 Dynamic Tanh(DyT),况且这不错算作归一化层的径直替代。

给定一个输入张量 x,DyT 层的界说如下:

其中 α 是一个可学习的标量参数,允许把柄输入的范围以不同的面目缩放输入,并会有计划不同的 x 轨范(图 2)。也因此,他们将通盘这个词操作定名为「动态」tanh。γ 和 β 是可学习的每通谈向量参数,与通盘归一化层中使用的参数交流 —— 它们允许输出缩放到任何轨范。这偶而被视为单独的仿射层;这里,该团队将它们视为 DyT 层的一部分,就像归一化层也包括它们一样。算法 1 给出了用类 PyTorch 的伪代码收尾的 DyT。

要思将 DyT 层集成到现存架构中,花式很绵薄:径直用一个 DyT 层替换一个归一化层(见图 1)。这适用于留意力块、FFN 块和最终归一化层内的归一化层。

尽管 DyT 可能看起来像或可被视为激活函数,但本商讨仅使用它来替换归一化层,而不会更动原始架构中激活函数的任何部分,举例 GELU 或 ReLU。网罗的其他部分也保合手不变。该团队还不雅察到,险些不需要调整原始架构使用的超参数即可使 DyT 推崇精湛。

尽管 DyT 可能看起来像或可被视为激活函数,但本商讨仅使用它来替换归一化层,而不会更动原始架构中激活函数的任何部分,举例 GELU 或 ReLU。网罗的其他部分也保合手不变。该团队还不雅察到,险些不需要调整原始架构使用的超参数即可使 DyT 推崇精湛。

对于缩放参数。在这里,老是绵薄地将 γ 运行化为全一向量,将 β 运行化为全零向量,后接归一化层。对于 scaler 参数 α,除了 LLM 测验外,默许运行化为 0.5 时时就迷漫了。除非另有明确评释,不然在后续的施行中,α 均被运行化为 0.5。

评释。DyT 并非一种新式的归一化层,因为它在前向传递经由中会独速即对张量中的每个输入元素进行操作,而无需诡计统计数据或其他类型的团员。但它如实保留了归一化层的成果,即以非线性面目压缩顶点值,同期对输入的中心部分实行近乎线性的变换。

DyT 在施行中的推崇

为了考证 DyT 的成果,商讨团队在不同任务和界限中测试了 Transformer 过甚他架构,将原始架构中的 LN 或 RMSNorm 替换为 DyT 层,并按照官方开源决策进行测验和测试。

视觉监督学习

商讨团队在 ImageNet-1K 分类任务上测验了 Base 和 Large 两种限制的 Vision Transformer(ViT)和 ConvNeXt 模子。

弃取 ViT 和 ConvNeXt 是因为它们既具代表性,又离别选拔不同机制:ViT 基于留意力机制,ConvNeXt 基于卷积操作。从表 1 的 Top-1 分类准确率来看,DyT 在两种架构和不同限制模子上均优于 LN。图 5 中展示的 ViT-B 和 ConvNeXt-B 的测验亏损弧线。

表 1:ImageNet-1K 上的监督分类准确率。DyT 在两种架构和不同模子限制上均收尾了优于或等同于 LN 的性能推崇。

视觉自监督学习

商讨团队测试了两种流行的视觉自监督学习花式:的 MAE 和 DINO。

这两种花式齐默许使用 Vision Transformer 算作主干网罗,但测验想象不同。MAE 使用重建亏损进行测验,而 DINO 则使用聚积镶嵌亏损。商讨团队先在 ImageNet-1K 数据集上进行无标签预测验,然后添加分类层并用标签数据微调来测试预测验模子。表 2 展示了微调的司法。在自监督学习任务中,DyT 和 LN 的推崇基本合手平。

扩散模子

商讨者在 ImageNet-1K 上测验了三个尺寸离别为 B、L 和 XL 的 DiT 模子。需要留意的是,在 DiT 中,LN 层的仿射参数用于类调理,DyT 施行中也保留了这一参数,仅仅用 tanh (αx) 函数替换了归一化挪动。测验收尾,如表 3 所示,与 LN 比拟,DyT 的 FID 值相当或有所提高。

LLM

这些模子是按照 LLaMA 中轮廓的原始配方在带有 200B tokens 的 The Pile 数据集上进行测验的。在带有 DyT 的 LLaMA 中,商讨者在运行镶嵌层之后添加了一个可学习的标量参数,并调整了 α 的运行值(第 7 节)。下表 4 申诉了测验后的亏损值,并按照 OpenLLaMA 的花式,在 lm-eval 的 15 个零样本任务上对模子进行了基准测试。如表 4 所示,在通盘四种限制的模子中,DyT 的推崇与 RMSNorm 相当。

图 6 展示了亏损弧线,裸露了通盘模子大小的相似趋势,测验亏损在通盘这个词测验经由中齐畸形接近。

语音自监督学习。商讨者在 LibriSpeech 数据集上预测验了两个 wav2vec 2.0 Transformer 模子。表 5 申诉了最终的考证亏损。在两种模子限制下,DyT 的推崇齐与 LN 相当。

DNA 序列建模

在长程 DNA 序列建模任务中,商讨者对 HyenaDNA 模子和 Caduceus 模子进行了预测验。司法如表 6,在这项任务中,DyT 保合手了与 LN 相当的性能。

α 运行化

非 LLM 模子的 α 运行化

非 LLM 模子对 α_0 相对不解锐。图 9 展示了在不同任务中更动 α_0 对考证性能的影响。

α_0 越小,测验越褂讪。图 10 展示了使用 ImageNet-1K 数据集对有监督 ViT 测验褂讪性的消减。

将 α_0 = 0.5 设为默许值。把柄商讨司法,商讨者将 α_0 = 0.5 建立为通盘非 LLM 模子的默许值。这种建立既能提供与 LN 相当的测验褂讪性,又能保合手坚贞的性能。

LLM 模子的 α 运行化

调整 α_0 不错提高 LLM 性能。如前所述,默许建立 α_0 = 0.5 在大渊博任务中推崇精湛。然则,商讨者发现调整 α_0 不错大幅提高 LLM 性能。他们对每个 LLaMA 模子齐进行了 30B tokens 的预测验,并比较了它们的测验亏损,从而调整了它们的 α_0。

表 11 讲究了每个模子的调整后 α_0 值,其中有两个紧迫发现:

1. 较大的模子需要较小的 α_0 值。一朝笃定了较小模子的最好 α_0 值,就不错相应地沉着较大模子的搜索空间;

2. 留意力块的 α_0 值越高,性能越好。对留意力块中的 DyT 层运行化较高的 α 值,而对其他位置(即 FFN 区块内或最终线性投影之前)的 DyT 层运行化较低的 α 值,不错提高性能。

为了进一步评释 α_0 调整的影响,图 11 展示了两个 LLaMA 模子亏损值的热图。这两个模子齐受益于留意力块中较高的 α_0,从而减少了测验亏损。

模子宽度主要决定了 α_0 的弃取。咱们还商讨了模子宽度和深度对最优 α_0 的影响。商讨者发现,模子宽度对笃定最优 α_0 至关紧迫,而模子深度的影响则聊胜于无。表 12 裸露了不同宽度和深度下的最好 α_0 值,标明较宽的网罗不错从较小的 α_0 值中获益,从而取得最好性能。另一方面,模子深度对 α_0 的弃取影响聊胜于无。

从表 12 中不错看出,网罗越宽,「留意力」和「其他」所需的运行化就越不平衡。商讨者假定,LLM 的 α 运行化的明锐度与其他模子比拟过大的宽度关系。

更多商讨细节,可参考原论文。