感谢 DeepSeek:Predibase 发布全球首个端到端强化微调平台并开源,支持无服务器和端到端训练方法
2025-03-20 14:55:29 小编:鑫昌软件园
本站 3 月 20 日消息,昨日晚间,大模型训练、开发平台 Predibase 发布了一个完全托管、无服务器、端到端的强化微调平台,也是首个端到端强化微调(RFT)平台。
Predibase 表示,DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响,让很多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这个端到端无服务器强化微调平台。
与传统的监督式微调相比,RFT 不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续地强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。
为了展示 RFT 的强大,Predibase 基于阿里 Qwen2.5-Coder-32B-instruct 微调了一个专门用于将 PyTorch 代码翻译为 Triton 的模型 Predibase-T2T-32B-RFT,并根据其他更大的基础模型(包括 DeepSeek-R1、Claude 3.7 Sonnet 和 OpenAI o1)对内核正确性进行了基准测试。
与传统的监督式微调方法不同,Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为,以最少的标记数据优化下游任务质量。这使其成为专有 LLM 的高性价比、高性能替代方案。
通过 RFT,Predibase 在训练过程结合了冷启动监督式微调、强化学习和课程学习,并且只使用了十几个标记数据点。
在 Kernelbench 数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct 经过强化后,其正确率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍,比 Claude 3.7 Sonnet 高出 4 倍以上,而模型占用的空间却小了一个数量级。
本站附开源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT
在线体验地址:https://predibase.com/reinforcement-fine-tuning-playground
- 猜你喜欢
-
四海旅人手机版739.92MB手游下载
-
黑星勇者成名录最新版519.11MB手游下载
-
打了个龙破解版120.4MB手游下载
-
星际守护者0.1折免费版691.6MB手游下载
-
上古修仙0.1折版3.5MB手游下载
-
粉碎传奇国际服官方正版1.3GB手游下载
-
小鱼传奇沉默版151.27MB手游下载
-
炸弹轮盘九游渠道服51.22MB手游下载
-
猎影0.1折火影打丧尸版2.44MB手游下载
- 相关手机游戏
-
魔兽三国0.05折每日领神将版316.28MB手游下载
-
新网球王子RisingBeat日服最新版90.25MB手游下载
-
曦恩之城手游2025最新版16.73MB手游下载
-
雅果视频安卓版下载76.63MB手游下载
-
涩涩软件安卓版最新版73.98MB手游下载
-
韩语翻译助手99.29MB手游下载
-
ZzzFun主题148.94MB手游下载
-
浪花直播观看最新版68.23MB手游下载
-
美拍2022最新版80.31M手游下载
- 推荐鑫昌秘籍
- 最新手机精选
-
樱桃视频直播官方版下载2025-01-28手游下载 | 88.51MB
-
TFS飞行模拟器破解版2025-02-14手游下载 | 86.66MB
-
Poppy Playtime第五章正版2025-01-15手游下载 | 603MB
-
道歉模拟器最新版2025-02-18手游下载 | 113.27MB
-
地铁跑酷火山难度版2025-02-21手游下载 | 57.33MB
-
幕后的Nexbox沙盒最新版本2025-01-17手游下载 | 593.47MB