迪士尼彩乐园地址 谷歌发布史上千亿级视觉讲话数据集,Scaling Law后劲或远未见顶
2009 年迪士尼彩乐园地址,ImageNet 数据集的发布让深度学习在盘算推算机视觉鸿沟迎来了转动点。这个包含 1,400 万张图像的数据集,不仅鼓动了的发展,更创始了用大范畴数据西宾视觉模子的先河。随后,JFT-300M(3 亿图像)和 JFT-3B(30 亿图像)的接踵问世,进一步考据了“数据范畴决定模子上限”这一理念。
本赛季步行者未能延续上赛季的进攻火力,场均只有114.8分,排在联盟第11的位置。而防守端的表现依然糟糕,这也是他们排在东部中游的原因,好在近期势头不错,胜率重新回到五成。步行者得分点还是很多的,场均有6人得分上双,其中西亚卡姆拿到最多的20.1分,进攻点还是很平均的。此外,哈利伯顿本赛季状态有所下滑,好在近期势头有所回暖,球队成绩也在慢慢提升。
连年来,跟着视觉讲话模子(VLM,Visual Language Model)的兴起,商量东谈主员运行见原图像-文本对数据集的构建。从领先的 COCO Captions(包含约 12 万张图像),到的 Conceptual Captions(约 330 万对数据),再到 LAION-5B(50 亿对)和谷歌的 WebLI(100 亿对),数据范畴在陆续冲突。而当今,谷歌 DeepMind 团队再次刷新了这一记载。
2 月 11 日, DeepMind 在arXiv上发布了题为《将视觉讲话模子的预西宾延伸至千亿级数据》(Scaling Pre-training to One Hundred Billion Data for Vision Language Models)的论文。他们推出了范畴空前的视觉讲话数据集 WebLI-100B,包含 1,000 亿对图像-文本数据。这个数据集在 WebLI 的基础上构建,不仅保持了原有的高质地握取政策,还将范畴扩大了 10 倍。
那么,将数据范畴扩大 10 倍究竟能带来什么样的提升?商量限度发现,在传统的西方中心化任务上,从 100 亿延伸到 1,000 亿的角落效益较小。具体来说:
在 ImageNet 零样天职类任务上,ViT-L/16 模子在 100 亿数据西宾时的失误率为 29.7%,延伸到 1000 亿后仅裁减到 28.5%。相似的趋势也出当今 CIFAR-100 等其他分类任务上。在 COCO 图像检索任务中,迪士尼彩乐园性能提升也相对有限。这些限度通过 Wilcoxon 象征秩考研得到了统计学维持(p 值为 0.9),标明在这些传统任务上的性能相反并不显贵。

但是,在文化各样性关系任务上,大范畴数据展现出了偶而的价值。商量团队使用 Dollar Street 数据集(一个包含来自 63 个国度的 38,000 张图像的数据集)来评估模子对不同文化场景的领路身手。限度标明:
在 10-shot 分类任务中,ViT-L/16 模子在 1,000 亿数据上单轮西宾就达到了 41.7% 的准确率,而相似架构的模子在 100 亿数据上西宾 10 个 epoch 只可达到 35.9%。更大的 ViT-H 模子赢得了肖似幅度的提升。这 5-6 个百分点的完全性能提升远超传统任务上不到 1% 的增益。Wilcoxon 考研的 p 值为 0.002,标明这种提升具有统计学显贵性。
在多讲话身手方面,商量者们发现了一个愈加引东谈主防卫的情势:低资源讲话从大范畴数据中赢得的收益彰着高于高资源讲话。商量团队使用 Crossmodal-3600 数据集(包含 36 种讲话的图像-文本检索任务)进行评估,发现:
以 Telugu 讲话为例,尽管它在扫数数据皆集仅占 0.036% 的比例,但模子性能仍然赢得了显贵提升。这种“长尾效应”在其他低资源讲话(如孟加拉语、菲律宾语、印地语、希伯来语、毛利语和斯瓦希里语)中也多量存在。
况且,这种相反在模子范畴越大时越发彰着。名目厚爱东谈主之一的翟晓华在酬酢媒体上以 Telugu 讲话为例,以为“这隆起展示了大范畴数据集在改善长尾看法领路方面的力量。即使在数据皆集占比极小的讲话,也能从中受益。”

商量团队还久了探索了数据质地与各样性之间的量度。他们发现,使用 CLIP 模子进行质地过滤天然能提升 ImageNet 等传统任务的性能,但会裁减 Dollar Street 等文化各样性辩论的发达。这个发现促使商量者们漠视了一个浅陋但有用的政策:将低资源讲话的采样比例提升到 1%。履行标明,这种重均衡政策天然会狭窄影响英语任务的性能,但能显贵改善模子在低资源讲话上的发达,最终终通晓更均衡的性能散布。
在模子着重力可视化方面,商量发现数据范畴的扩大如实匡助模子酿成了更紧密的领路。举例,在识别“Igorot Dance”(菲律宾伊戈洛特族传统跳舞)的图像时,在 1,000 亿数据上西宾的模子能够更准确地见原传统衣饰的细节特征;在识别“Igloo”(因纽特东谈主冰屋)时,模子也能更好地捕捉其专有的穹顶结构特征。

此外,商量还探索了大范畴数据对迁徙学习的影响。团队使用 PaLI-Gemma 模子评估了视觉特征的迁徙后果,涵盖了图像描绘、视觉问答、分割等多个下流任务。在这些任务上,模子性能并未随数据范畴的增多而显贵提升。这领导咱们,提晋升移学习后果可能需要探索新的模子架构或西宾政策。
值得一提的是,该商量还公布了详备的数据延伸政策和履行限度,这将有助于学术界更好地领路大范畴数据对视觉讲话模子的影响。不外缺憾的是,由于数据集体量辽远且波及版权等问题,WebLI-100B 咫尺还未对外灵通。
这项商量再次证明,Scaling Law 的后劲冒失远未触及天花板。在许多难以发出声息、难以看到的场所,还有许多有价值的数据恭候被挖掘。
参考贵府:
1.https://arxiv.org/abs/2502.07617
2.https://x.com/XiaohuaZhai/status/1889775999648248024
运营/排版:何晨龙