paulwong

DeepSeek资源

DeepSeek大模型由于采用了GRPO算法, 大幅降低了显存的需求.

【DeepSeek】复现DeepSeek R1？快来看这个Open R1项目实践指南~

!!!实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）

【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源？

DeepSeek R1系列

posted on 2025-02-02 19:22 paulwong 阅读(143) 评论(0) 编辑收藏所属分类: AI-DEEPSEEK


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 满血版Deepseek R1全网资源 DeepSeek背后的数学：深入研究群体相对策略优化（GRPO） DeepSeek资源