Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is…
X:Elon Musk (@elonmusk, xAI)
模型发布/更新
5 小时前
Grok 4.5,基于我们的1.5T V9基础模型,并在补充训练中加入Cursor数据,现已在SpaceX和Tesla进入私测。初步评估显示其性能接近,或许超越Opus。
强化学习仍在持续显著改进模型,Grok Build工具链也在日益完善。
所有参与者的出色工作!
今年,@SpaceX 将每月发布完全从头训练的新模型。
Sina's open model VibeThinker-3B aims to show reasoning compresses well but factual knowledge doesn't
The Decoder:AI News(RSS)
模型发布/更新
8 小时前
新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200-333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出"参数压缩-覆盖假说":逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。