你的位置:迪士尼彩乐园 > 迪士尼彩乐园平台出租 >
迪士尼彩乐园三官网 大神卡帕西拿DeepSeekR1讲强化学习!最新大模子里面机制视频爆火
发布日期:2024-10-23 14:00 点击次数:65
西风 发自 凹非寺量子位 | 公众号 QbitAI迪士尼彩乐园三官网
晓喻全职搞莳植的AI大神Andrej Karpathy(卡帕西),新年第一课来了——
发布三个半小时视频课,潜入明白了ChatGPT等大讲话模子的里面责任机制,其中涵盖模子开辟的无缺西宾历程、如安在实践应用中最灵验地使用它们,还有AI翌日发展趋势。
卡帕西强调,此次是为大家准备的,即使莫得本领布景也能看懂
![](http://dingyue.ws.126.net/2025/0206/d6038fcej00sr93py0041d000gi010cm.jpg)
他在视频中潜入浅出用浩繁具体示例,如GPT-2、Llama 3.1等,无缺报告了大模子的旨趣。
当红炸子鸡DeepSeek也没落下,成为一大重心。
![](http://dingyue.ws.126.net/2025/0206/21dcb076j00sr93py0026d000u000gom.jpg)
卡帕西课程的含金量无需多言,刚一发就被网友团团围住,熬夜也要看的那种。
![](http://dingyue.ws.126.net/2025/0206/3ca2727cj00sr93py000id000ls004qm.jpg)
网友们默示,接下来三个半小时就这么过了:
你知说念,Karpathy发布新视频,一整天都会变得相等好意思好,每个视频都是金矿!
![](http://dingyue.ws.126.net/2025/0206/b6cf7b49j00sr93py000gd000m20042m.jpg)
机器学习工程师Rohan Paul看后也默示其中相关于ChatGPT里面责任机制最神圣明了的阐发。
![](http://dingyue.ws.126.net/2025/0206/d6af77ebj00sr93py001md000ls00jmm.jpg)
话未几说了,以下是重心学问点,文末有无缺视频一语气~
重心一览
用过肖似ChatGPT等用具的东说念主可能都会有这么的疑问:
这个文本框背后是什么?你不错在里面输入任何内容并按回车,但咱们应该输入什么?这些生成的词又是什么真谛?这一切是怎样责任的?你究竟在与什么换取?
卡帕西在视频中刺眼解答了这些问题。
![](http://dingyue.ws.126.net/2025/0206/0c90f14aj00sr93px000cd000u0006um.jpg)
他从怎样构建这么一个LLM伸开,刺眼造就了所有阶段:
预西宾:数据、分词、Transformer神经采集的输入/输出及里面机制、推理、GPT-2西宾示例、Llama 3.1基础推理示例。监督微调:对话数据、“LLM阵势学”:幻觉、用具使用、学问/责任牵记、自我知道、模子需要token来想考、拼写、狼藉不皆的才能。强化学习:熟能生巧、DeepSeek-R1、AlphaGo、基于东说念主类反应的强化学习(RLHF)。预西宾
领先是预西宾阶段,使模子领有丰富的学问。
预西宾的第一步是下载和处理互联网数据。指标是从互联网的公开资源中获得浩繁且种类各样的文本、高质料文档,举例FineWeb。
![](http://dingyue.ws.126.net/2025/0206/35b4e0bfj00sr93py0017d000u000dzm.jpg)
第二步是文本提真金不怕火
爬虫获得的是网页的原始HTML代码,需要过滤和处理提真金不怕火出网页文本,去除导航和无关内容。
还要进行讲话过滤,举例只保留英语占比普及65%的网页,不同公司会证据需求决定保留的讲话种类,淌若过滤掉所有的西班牙语,那么模子之后在西班牙语上的发挥就可能不会很好。
![](http://dingyue.ws.126.net/2025/0206/952b55c5j00sr93py001gd000u000ezm.jpg)
之后,还会进行去重、移除个东说念主身份信息等进一步的过滤顺次,最终得到大范围的文本数据,进入西宾集。
接下来要作念的是在这些数据上西宾神经采集。在将文本输入神经采集之前,需要将文本调遣为一维象征序列。
![](http://dingyue.ws.126.net/2025/0206/3ee96630j00sr93py004qd000u000gvm.jpg)
通过字节对编码(BPE)算法,将常见的字节组合成新象征,从而减少序列长度并加多象征词汇量。tokenization是将文本调遣为象征序列的历程,不同的输入文本会证据tokenization章程生成不同的象征序列。
![](http://dingyue.ws.126.net/2025/0206/c9cfa6d2j00sr93py004od000u000h1m.jpg)
西宾神经采集时,从数据联结就地抽取token动作输入,并揣度下一个token。神经采集的输出是下一个token出现的概率分散。
通过西宾历程抑制更新采集参数,使揣度后果与实践数据的统计模式一致。
神经采集里面是一个复杂的数学抒发式,输入token序列与采集参数羼杂,经过多层变换后输出揣度后果。当代神经汇蚁集构,如Transformer,具有浩繁参数和复杂的里面结构,但本色上是通过优化参数来使揣度后果与西宾数据匹配。
![](http://dingyue.ws.126.net/2025/0206/71a7bfdfj00sr93py001ad000u000gom.jpg)
西宾历程需要强大的估量资源援助,依赖高性能GPU集群,这些硬件好像高效处理大范围并行估量任务,加快模子的西宾和优化。随着本领的发展,西宾资本冉冉裁汰,但大范围模子的西宾仍然需要浩繁的估量资源干预。
卡帕西在视频中以GPT-2为例商量了西宾,包括其参数、陡立文长度和西宾资本。
![](http://dingyue.ws.126.net/2025/0206/dd33a1afj00sr93py0020d000u000hcm.jpg)
之后他又以Llama 3为例商量了基础讲话模子的属性,它不错生成肖似于互联网文档的token序列,并将学问存储在其参数中。
![](http://dingyue.ws.126.net/2025/0206/0825a93ej00sr93py002rd000u000gpm.jpg)
然则,模子的输出具有就地性,每次生成的后果可能不同,且模子可能会过度牵记西宾数据中的某些内容,导致输出与西宾数据高度雷同,甚而胜利复述某些要求。
这种风景在实践应用中可能会带来问题,举例模子可能无法永别事实和演叨信息,因为它仅仅基于西宾数据的统计规矩进行生成。
![](http://dingyue.ws.126.net/2025/0206/2a1cdc9bj00sr93py001qd000u000gjm.jpg)
预西宾阶段,模子通过浩繁互联网文档数据学习生成文本的才智,输出为基础模子,它好像生成与互联网文档统计特质雷同的token序列,迪士尼彩乐园应用但自己并不是一个好像恢复问题的“助手”。
自Apple TV 4以来,产品定价有所回升。目前,官网销售的Apple TV 4K(64GB版本)起步价为129美元(约合人民币:942元)。分析师认为,苹果公司可能会在下一代产品中回归低价策略,以提升市场份额。关于2025款入门级Apple TV机顶盒的具体规格,目前尚未公布。
实在是很难让人相信,一碗热气腾腾的水饺下面,藏着一场“蚯蚓奇遇”。
是以还需要后西宾。
后西宾
在后西宾阶段,模子通过学习东说念主类标注的对话数据来调理其行动,从而好像生成合乎东说念主类守望的恢复。数据集范围较小,西宾时候也相对较短。
早期的对话数据集(如InstructGPT)主要由东说念主类标注东说念主员手工创建,但随着本领的发展,当代的对话数据集越来越多地愚弄现存的讲话模子来生成开动恢复,然后由东说念主类进行剪辑和优化。这些数据集可能包含数百万条对话,隐敝鄙俗的主题和规模。
具体来说,后西宾包括监督微调(SFT)和强化学习(RL)。
在监督微调阶段,模子通过创建对话数据集,学习怎样与东说念主类进行多轮对话
![](http://dingyue.ws.126.net/2025/0206/840ed4d9j00sr93py001md000u000gqm.jpg)
举例,OpenAI的InstructGPT论文刺眼先容了怎样通过东说念主类标注者创建对话数据集。
强化学习阶段,主见是让模子通过实践和试错来发现搞定问题的最好顺次
卡帕西用东说念主类在学校学习的历程类比。预西宾很是于阅读讲义中的布景学问,微调很是于学习众人提供的解题顺次,而强化学习则很是于通过熟练题来牢固学问,我方探索解题顺次。
具体来说,模子会尝试多种不同的解题顺次,这些顺次可能来自不同的prompt。之后评估搞定决议,查抄每个搞定决议是否正确。正确的搞定决议会被象征为“好”,舛误的搞定决议会被象征为“坏”。
模子会证据正确谜底的搞定决议进行西宾,强化那些好像得到正确谜底的搞定决议。这肖似于学生在熟练中发现存效的顺次后,会更多地使用这些顺次。
强化学习和东说念主类标注比较,东说念主类标注者在创建西宾数据时,很难知说念哪种搞定决议最稳妥模子。东说念主类标注者可能会注入模子不睬解的学问,或者忽略模子已有的学问,导致模子难以清晰。而强化学习让模子通过试错来自主发现稳妥我方的搞定决议。
模子会尝试多种旅途,找到好像可靠地达到正确谜底的搞定决议。
卡帕西用具体示例商量了强化学习在大讲话模子中的应用偏执进攻性,至极是DeepSeek最近发布的论文激励了公众对这一规模的关注。
![](http://dingyue.ws.126.net/2025/0206/f182563aj00sr93py001xd000u000gum.jpg)
他还讲了东说念主类反应的强化学习(RLHF)责任旨趣偏执优缺点。
![](http://dingyue.ws.126.net/2025/0206/80a6de8ej00sr93py001ad000u000gwm.jpg)
临了卡帕西提到了多模态模子的发展,模子好像将音频、图像和文本鬈曲为tokens,并在归拢个模子中同期处理。
这种多模态才智将使模子好像进行更当然的交互,举例清晰语音辅导、处理图像内容等。
当今局限性在于,模子奉行任务时,常常是被迫地接纳任务并完成,无法像东说念主类那样在永劫候内握续、连贯地奉行复杂任务。
翌日可能会出现好像握续奉行任务的Agent,不错在永劫候内奉行任务,并如期向东说念主类答谢进程。东说念主类将成为这些Agent的监督者。
![](http://dingyue.ws.126.net/2025/0206/3ff7e988j00sr93py0015d000u0009nm.jpg)
握续专注于莳植的AI大牛
卡帕西曾任特斯拉AI摆布,之后去了OpenAI,客岁2月从OpenAI辞职。
他在所有这个词AI届领有超高的东说念主气,很大一部分来自于他的课程。
包括他我方的早期博客翰墨共享和其后的一系列Youtube视频教程,他还与李飞飞勾通开设的的斯坦福大学首个深度学习课程CS231n《与视觉识别》。
![](http://dingyue.ws.126.net/2025/0206/8224d632j00sr93py001jd000u00098m.jpg)
今天不少学者和创业者,都是随着他初学的。
卡帕西对莳植的和顺,甚而不错追念到学生时代在网上教大家玩魔方。
![](http://dingyue.ws.126.net/2025/0206/b515e131j00sr93py000rd000u0008fm.jpg)
客岁7月,从OpenAI辞职的卡帕西霎时官宣创业,搞了一家AI原生的新式学校——Eureka Labs
怎样清晰AI原生?
遐想一下与费曼一说念学习高质料教材,费曼会在每一步中1对1率领你。
不闲暇的是,即使每个学科都能找到一位像费曼这么的行家,他们也无法分身亲身指挥地球上的80亿东说念主。
但AI不错,而况AI有无穷的耐性,醒目宇宙上所有的讲话。
是以卡帕西要打造“教师+东说念主工智能的共生”,不错在一个通用平台上运行所有这个词课程。
淌若咱们告捷了,任何东说念主都将易于学习任何东西,扩大莳植这个宗旨自己的“范围”和“程度”。
当今在EurekaLabs的官方GitHub账号上也有关连课程了,手把手带你构建一个肖似ChatGPT的故事生成大模子,感兴味的童鞋不错去一睹为快。
视频一语气:https://www.youtube.com/watch?v=7kVfqmGtDL8
参考一语气:https://x.com/karpathy/status/1887211193099825254
Eureka Labs:eurekalabs.aigithub.com/EurekaLabsAI
上一篇:迪士尼彩乐园3登录 暴雪对大秘境进行史上最大收缩!东谈主东谈主可参与,全民大秘期间降临!
下一篇:没有了