迪士尼彩乐园提现不了英伟达下场，初次优化DeepSeek-R1！B200性能狂飙25倍，碾压H100

新智元报说念迪士尼彩乐园提现不了

剪辑：好困犀牛

【新智元导读】最近，开源了首个在Blackwell架构上优化的DeepSeek-R1，末端了推理速率普及25倍，和每token本钱镌汰20倍的惊东说念主效果。同期，DeepSeek指导开源多个英伟达GPU优化口头，共同探索模子性能极限。

当FP4的魔法与Blackwell的强大算力相遇，会碰撞出怎样的火花？

谜底是：推感性能暴涨25倍，本钱狂降20倍！

跟着DeepSeek-R1土产货化部署的爆火，英伟达也躬行下场，开源了首个基于Blackwell架构的优化有规画——DeepSeek-R1-FP4。

在新模子的加合手下，B200末端了高达21,088 token每秒的的推理蒙胧量，比较于H100的844 token每秒，普及了25倍。

与此同期，每token的本钱也末端了20倍的镌汰。

通过在Blackwell架构上应用TensorRT DeepSeek优化，英伟达让具有FP4分娩级精度的模子，在MMLU通用智能基准测试中达到了FP8模子性能的99.8%。

《星际：异端先知》暂未公布发售时间，本作主角是新一代的危险赏金猎人——乔丹·A·穆恩。她在一次任务中不幸被困在了塞姆皮利亚（Sempiria）星球，这颗遥远的行星与外界的联系在几百年前就已中断。事实上，任何前往探索这颗星球、试图揭开它神秘面纱的人，至今都音信全无。乔丹必须运用她的所有技能和智慧，才能成为600多年来第一个成功离开这个星球的人。

外媒GamerReporter报道，Irdeto公司在2024年游戏开发者大会（GDC）上推出Denuvo新功能，能一定程度预防游戏泄露问题。被称为“TraceMark for Gaming”的新技术允许开发人员将唯一标识符或水印嵌入到游戏中，迪士尼彩乐园III能设置可见或隐藏，可借此方法追踪泄密者。

DeepSeek-R1初次基于Blackwell GPU优化

现在，英伟达基于FP4优化的DeepSeek-R1查验点现已在Hugging Face上开源。

模子地址：https://huggingface.co/nvidia/DeepSeek-R1-FP4

后进修量化

模子将Transformer模块内的线性算子的权重和激活量化到了FP4，适用于TensorRT-LLM推理。

这种优化将每个参数从8位减少到4位，从而让磁盘空间和GPU显存的需求减少了约1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4权重文献，并为给定的教唆生成文本反馈，请参照以下示例代码：

硬件条目：需要搭救TensorRT-LLM的英伟达GPU（如B200），而况需要8个GPU来末端tensor_parallel_size=8的张量并行。

性能优化：代码运用FP4量化、TensorRT引擎和并行蓄意，旨在末端高效、低本钱的推理，适当分娩环境或高蒙胧量应用。

from tensorrt_llm import SamplingParams\nfrom tensorrt_llm._torch import LLM\n\ndef main():\n\nprompts = [\n\"Hello, my name is\",\n\"The president of the United States is\",\n\"The capital of France is\",\n\"The future of AI is\",\n]\nsampling_params = SamplingParams(max_tokens=32)\n\nllm = LLM(model=\"nvidia/DeepSeek-R1-FP4\", tensor_parallel_size=8, enable_attention_dp=True)\n\noutputs = llm.generate(prompts, sampling_params)\n\n# Print the outputs.\nfor output in outputs:\nprompt = output.prompt\ngenerated_text = output.outputs[0].text\nprint(f\"Prompt: {prompt!r}, Generated text: {generated_text!r}\")\n\n\n# The entry point of the program need to be protected for spawning processes.\nif __name__ == '__main__':\nmain()

关于这次优化的效果，网友示意惊叹。

「FP4魔法让AI昔日依然机敏！」网友Isha驳斥说念。

网友algorusty则宣称，有了这次的优化后，好意思国供应商好像以每百万token 0.25好意思元的价钱提供R1。

「还会故意润。」

网友Phil则将这次的优化与DeepSeek本周的开源5连发聚拢了起来。

「这展示了硬件和开源模子聚拢的可能性。」他示意。

DeepSeek全面开源

如今DeepSeek合手续5天的「开源周」还是进行到了第3天。

周一，他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，稀薄针对变长序列进行了优化，现在已崇拜投产使用。

周二开源了DeepEP，这是一个专为搀和行家系统（MoE）和行家并行（EP）假想的通讯库。

周三开源的是DeepGEMM。这是一个搭救众多和MoE模子的FP8 GEMM（通用矩阵乘法）蓄意库，可为V3/R1的进修和推理提供强大搭救。

总的来说，无论是英伟达开源的DeepSeek-R1-FP4，照旧DeepSeek开源的三个仓库，皆是通过对英伟达GPU和集群的优化，来鼓吹AI模子的高效蓄意和部署。

参考贵府：

https://x.com/NVIDIAAIDev/status/1894172956726890623

迪士尼彩乐园

迪士尼彩乐园

迪士尼彩乐园提现不了英伟达下场，初次优化DeepSeek-R1！B200性能狂飙25倍，碾压H100

热点资讯

推荐资讯

最新资讯

迪士尼彩乐园

迪士尼彩乐园

迪士尼彩乐园提现不了 英伟达下场，初次优化DeepSeek-R1！B200性能狂飙25倍，碾压H100

热点资讯

推荐资讯

最新资讯

迪士尼彩乐园提现不了英伟达下场，初次优化DeepSeek-R1！B200性能狂飙25倍，碾压H100