快速导航×

News Center新闻动态

分类

当前所在位置：首页

2025-09-29

陈丹琦新作：大模型强化学习的第三条路，8B 小模型超越 GP

结合RLHF与RLVR的优势，仅需8B参数的小模型便能超越GPT-4o，并媲美Claude-3.7-Sonnet。陈丹琦团队最新研究引发广泛关注。他们提出了一种名为RLMT（ReinforcementLearningwi...

Read More

共1页 1条