作家:张发恩 创新奇智CTO
转载自公众号:后向传播
最近一篇新闻标题《团队用不到50好意思元检修出忘形DeepSeek R1的AI推理模子》眩惑了不少眼球,似乎预示着AI时代行将迎来一场“低价立异”。 不少东说念主可能会惊呼:“什么?不到50好意思元就能检修出忘形DeepSeek Rl的AI模子?这AI也太低廉了吧!”
但,事实确凿如斯吗? 当作别称AI从业者,看到这个标题,我嗅觉事情并不浅易。仔细研读新闻和相干论文后,我发现这篇新闻的解读存在不少夸大和误导之处。 我详备读了原论文,尽可能归附事实,幸免众人被乌有信息所误导。
“标题党”嫌疑:事实可能并非如斯“好意思好”
1. “忘形DeepSeek R1”?骨子成果可能与你的期待有差距
DeepSeek R1是DeepSeek公司推出的 闭源 大模子,而新闻中提到的 s1模子 , 骨子上是与 OpenAI的o1-preview模子 以及 DeepSeek-R1 800K数据蒸馏出的32B模子 作念对比。注:DeepSeek R1是670B的大模子,与DeepSeek-R1 800K数据蒸馏出的32B模子是透顶不同的两个模子。
论文中的践诺收场标明,s1模子在 部分 推理任务上(举例AIME24竞赛数学题)特等了o1-preview , 但这并不代表s1模子就 全面忘形 致使 超越 了DeepSeek R1。更紧迫的是, s1的成果离DeepSeek-R1 800K数据蒸馏出的32B模子 还有不小的差距 。新闻标题用 “忘形DeepSeek Rl” 这么的字眼, 容易给读者酿成 s1模子依然不错和DeepSeek的顶尖模子同日而说念 的 极度印象 。下图是s1论文线路的践诺数据(https://arxiv.org/pdf/2501.19393)
2. “不到50好意思元”?请详实适度语和骨子资本
新闻中 “用不到50好意思元的云贪图用度” 的说法, 容易让东说念主误以为检修一个高性能AI推理模子只需要戋戋几十好意思元 。但骨子上,这50好意思元只是是 指论文中s1模子在16张H100 GPU上检修26分钟的云贪图用度 。
这 “不到50好意思元” 的资本, 只是是模子微调阶段的贪图资本 ,并不包括 :
前期数据网罗和清洗资本为了构建高质料的1K检修数据集s1K,征询团队需要从59K原始数据聚拢进行筛选和标注,这其中参加的东说念主力资本和时候资本远不啻50好意思元 。预检修模子的资本s1模子是基于 Qwen2.5-32B-Instruct 这个 依然预检修好的大模子 进行微调的。 预检修大模子的资本是极其不菲的 ,动辄数百万好意思元致使更高。新闻特意忽略了预检修阶段的普遍参加,只强调微调的低资本,有“避重逐轻”之嫌 。
3. “检修出忘形...的AI推理模子”?数据筛选的功劳不能漠视
新闻标题容易让东说念主以为, 是李飞飞团队建议了一种 立异性的模子检修要领 ,才智用 “不到50好意思元” 检修出高性能模子。 但深刻分析论文后, 咱们发现 数据筛选 在 s1模子的得手中演出了至关紧迫的脚色。
s1模子的中枢创新之一, 在于其构建的 高质料小样本数据集 s1K 。 征询团队并非赶快使用1K数据进行检修, 而是从59K 数据聚拢 用心筛选 出1K 高质料样本。 筛选经过主要包括:
质料筛选去除低质料、存在时势极度或 API 极度的数据。难度筛选去除 Qwen2.5-7B-Instruct 或 Qwen2.5-32B-Instruct 等模子概况放肆解答的浅易问题。种种性筛选凭证 MSC 分类系统对问题进行领域分类, 确保数据集涵盖不同领域的常识。
践诺收场标明,使用用心筛选的1K 数据检修的模子,性能致使不错忘形使用全量59K 数据检修的模子 ,远超 赶快选拔数据或仅研究数据长度、种种性的要领。这评释,在数据起始的AI领域,数据质料同样比数据数目更紧迫 。 s1模子的得手, 很猛进程上归功于其高质料的数据筛选计谋,迪士尼彩乐园总代理而非只是是 “低资本” 检修 。
论文的创新之处:小样本高效微调 + 推理预算强制
虽然, 这篇论文并非一无是处。 s1论文在以下方面照旧有其创新性和孝顺的 :
1. 考证了小样本高效微调的可行性
s1论文再次印证了 高质料小样本数据在模子微调中的普遍后劲 。 在算力资本不菲、 数据获得费力的布景下, 如何期骗极少数据检修出高性能模子 一直是 AI 领域的征询热门。 s1论文提供了一个 期骗数据筛选计谋收场小样本高效微调 的得手案例, 为后续征询提供了成心的参考。 尤其值得笃定的是, 论文开源了高质料的 s1K 数据集 , 这将有助于鼓舞小样本学习和推理相干领域的征询证实。
2. 建议 “推理预算强制” 要领, 探索推理经过干与
s1论文建议的 “推理预算强制 (Budget Forcing)” 要领,也为 模子推理经过的干与和调控 提供了一种新的念念路。 通过 强制扫尾或延伸模子的念念考时候 , s1模子概况在推理经过中进行自我疏通和优化 ,从而在一定进程上栽种推感性能。 这种 在推理阶段对模子行动进行干与 的念念想,具有一定的启发道理道理 ,翌日或可应用于更多推理优化要领的征询中。
感性看待时代逾越,“标题党”新闻对行业无益
总的来说,“李飞飞团队50好意思元AI模子” 这篇新闻标题存在夸大和误导之处 , 容易让读者对 AI 时代的近况产生不切骨子的幻想。 s1模子 的得手, 是数据质料、 巧技能术和现存预检修模子共同作用的收场, 并非 “低价” 和 “速成” 的代名词 。
熟悉那段历史的读者提到“上将军”,肯定会想起虎威上将军曹锟、孚威上将军吴佩孚、恪威上将军孙传芳、义威上将军、同武上将军阎锡山、扬武上将军冯玉祥,张作霖是什么上将军,笔者没查到,但有一点可以肯定——他遇刺前已经当了“陆海军大元帅”,绝对不差钱,他向日军“借款”,是缓兵之计,也是要报一点国仇。
咱们笃定 s1论文在小样本学习和推理干与方面 的探索和孝顺 ,嘉赞征询团队开源高质料数据集的举动 。但同期,咱们必须保捏解析的意志 :
AI 时代的发展仍然面对诸多挑战 “低价” 和 “通用” 的 AI 模子离咱们还很远处 。数据质料是 AI 模子性能的环节 “真金不怕火丹” 并非易事,需要综合的调参和优化 。“标题党” 式新闻 为了博取眼球, 不吝夸大事实致使误解真相 容易误导公众,致使对行业发展产生负面影响 。
当作AI从业者和醉心者,咱们应该保捏感性念念考,客不雅看待时代逾越,警惕 “标题党” 式新闻的危害,共同营造一个健康、感性的 AI 发展环境 。 原原本本,一步一个脚印,才是 AI 时代走向闇练的正确说念路 。