🔥 AI HOT – Everfadesの技术论坛

Grok 4.5 私测于 SpaceX 和 Tesla，性能接近 Opus

Grok 4.5， based on our 1.5T V9 foundation model， with Cursor data added in supplemental training， is…

X：Elon Musk (@elonmusk, xAI) 模型发布/更新 6 小时前

Grok 4.5，基于我们的1.5T V9基础模型，并在补充训练中加入Cursor数据，现已在SpaceX和Tesla进入私测。初步评估显示其性能接近，或许超越Opus。强化学习仍在持续显著改进模型，Grok Build工具链也在日益完善。所有参与者的出色工作！今年，@SpaceX 将每月发布完全从头训练的新模型。

新浪开源VibeThinker-3B：推理可压缩，事实知识不能

Sina's open model VibeThinker-3B aims to show reasoning compresses well but factual knowledge doesn't

The Decoder：AI News（RSS）模型发布/更新 9 小时前

新浪发布仅3B参数的VibeThinker-3B，在AIME26等数学编程基准上持平DeepSeek V3.2等大200-333倍的模型，LiveCodeBench超越所有20B以下模型，LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B，经SFT、强化学习、自蒸馏等多阶段后训练。研究提出"参数压缩-覆盖假说"：逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。

OpenAI 预览新一代模型 GPT-5.6 Sol

Previewing GPT-5.6 Sol： a next-generation model

OpenAI：官网动态（RSS · 排除企业/客户案例）模型发布/更新 06-26 10:00

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型，目前仅公开了预览消息和标题，尚未披露具体技术细节、性能参数或功能特性。

Ornith-1.0 开源模型家族发布，专注 Agentic Coding 全参数规模

卧槽！最近开源大模型太卷了啊！这不又一个专注agentic coding的开源模型家族来了，叫Ornith-1.0。它覆盖了从9B到397B MoE的全尺寸，在Terminal-Bench、S…

X：Berry Xia (@berryxia) 模型发布/更新 06-25 15:30

Ornith-1.0 开源模型家族发布，专注智能体编程（Agentic Coding），覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖：SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练，采用强化学习联合优化任务脚手架（scaffold）与最终解决方案，让模型自主改进执行框架。全系列 MIT 开源，提供 GGUF 版本，支持 Ollama、Unsloth 等本地运行。

GPT-5.5 Instant 新版本，对话更有趣

We have a new version of GPT-5.5 Instant for you， and it's much more fun to talk to. Our most-used …

X：OpenAI (@OpenAI) 模型发布/更新 06-24 18:00

我们为你带来了新版 GPT-5.5 Instant，它现在聊起天来有趣多了。我们最常用的模型现在能更好地理解问题背后的意图，并相应地调整回应。它也能更可靠地处理复杂约束，让购物和本地推荐更加实用和连贯。今天向付费用户推送，明天向免费用户推送。

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

OpenAI ChatGPT 语音最大规模升级：双向 AI 语音模型 Bidi 1 已上线测试

IT之家（RSS）模型发布/更新 06-24 04:34

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

FastWan-QAD：单卡5090上1.8秒生成5秒视频

（1/5） 5 seconds of video. 1.8s seconds of generation. One NVIDIA GeForce RTX 5090 on FastVideo. 🤯🚀…

X：Sky Computing Lab (@haoailab) 模型发布/更新 06-23 18:52

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

Krea 2 技术报告正式发布

our technical report is out. deep dive on the data， architecture， and training techniques used to c…

X：Krea AI (@krea_ai) 模型发布/更新 06-23 17:31

我们的技术报告已发布。深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https：//www.krea.ai/blog/krea-2-technical-report

Mistral OCR 4

Mistral AI：News（网页）模型发布/更新 06-23 14:24

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

网易发布 Confucius4-TTS：业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型，3 秒音频即可克隆音色

IT之家（RSS）模型发布/更新 06-23 11:00

网易有道推出"子曰 4.0"TTS 引擎 Confucius4-TTS，声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆，克隆音色与原声相似度超 85%，任务准确度达 97%。模型支持中文、英语等 14 种语言，首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源（Apache 协议），提供 54GB 资源包供本地部署。

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东全栈开源JoyAI-VL-Interaction，让大模型从"一问一答"走向"边看边说"

公众号：京东JoyAI 模型发布/更新 06-23 06:04

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

豆包音频生成模型1.0发布，重新定义AI音频创作

公众号：火山引擎模型发布/更新 06-23 05:41

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及"一声多角"能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API邀测，个人用户享30分钟创作额度，即将上线剪映、即梦、番茄等产品。

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen-AgentWorld： Language World Models for General Agents

Qwen：Blog Retrieval（API）模型发布/更新 06-23 03:30

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

Seed2.1 正式发布，深入 AI 生产力

字节 Seed：Research Feed（网页内嵌数据）模型发布/更新 06-23 00:02

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL2Repo-Bench表现良好，开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线，API通过火山方舟提供。

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 on Hugging Face： 50-Language OCR from 1.5M to 34.5M Parameters

Hugging Face：Blog（RSS）模型发布/更新 06-22 13:18

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

Daybreak： Tools for securing every organization in the world

OpenAI：官网动态（RSS · 排除企业/客户案例）模型发布/更新 06-22 10:00

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT-5.5-Cyber 完整版和 Codex Security 插件更新。GPT-5.5-Cyber 在 CyberGym 上达 85.6%，超越 GPT-5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。