🔥 AI HOT

AI 精选资讯 · 共 42 条

Grok 4.5 私测于 SpaceX 和 Tesla,性能接近 Opus

Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is…

Grok 4.5,基于我们的1.5T V9基础模型,并在补充训练中加入Cursor数据,现已在SpaceX和Tesla进入私测。初步评估显示其性能接近,或许超越Opus。 强化学习仍在持续显著改进模型,Grok Build工具链也在日益完善。 所有参与者的出色工作! 今年,@SpaceX 将每月发布完全从头训练的新模型。

仅有三个AI模型在500天创业测试中盈利超过起始资本

Only three AI models finished above starting capital in a 500-day startup survival test

普林斯顿大学推出CEO-Bench基准测试,让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天,起始资金100万美元。14个测试模型中,仅Claude Fable 5(最佳轮次盈利4715万美元)、Claude Opus 4.8(2780万美元)和GPT-5.5(2130万美元)在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元,超越除上述三款外的所有模型。多数模型无法保持连贯策略,在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

新浪开源VibeThinker-3B:推理可压缩,事实知识不能

Sina's open model VibeThinker-3B aims to show reasoning compresses well but factual knowledge doesn't

新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200-333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出"参数压缩-覆盖假说":逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。

阿德拉菲尼尔:仅在AI agent工作时阻止Mac睡眠的菜单栏工具

Show HN: 阿德拉菲尼尔--仅在药物起效期间保持"盖子紧闭的Mac"处于清醒状态

Adrafinil 是一款 macOS 菜单栏应用,仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠(包括合盖睡眠)。无 agent 工作时,合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI,往返延迟低于 50ms,支持引用计数断言、热切出(温度阈值强制释放)、空闲释放及进程嗅探。需要 macOS Tahoe 26.4,Xcode 26+ 构建,以签名公证的磁盘映像提供。

四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板

四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了

英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。

SpaceX 注册 SpaceXAI 商标,将合并 xAI

NEWS: SpaceX just trademarked "SpaceXAI" Elon Musk says xAI will be dissolved as a separate company…

消息:SpaceX 刚刚注册了"SpaceXAI"商标。 埃隆·马斯克表示 xAI 将解散,不再作为独立公司,因此它将只是 SpaceXAI,SpaceX 的 AI 产品。

苹果Vision负责人跳槽OpenAI,触控OLED MacBook用M5芯片

刚刚!苹果VisionPro 眼镜负责大神跳槽OpenAI!AI 硬件大战,库克最担心的事儿发生了! Apple 这几天也是亏麻了! 宣布涨价以来,市值直接蒸发2300 多e美金! 2026年6月…

2026年6月26日,Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片,2026年底到2027年初发布;M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。

DeepSeek 开源 DSpark 投机解码框架,加速 DeepSeek-V4 生成速度 60-85%

DeepSeek Releases DSpark, a Speculative Decoding Framework That Accelerates DeepSeek-V4 Per-User Generation 60-85% Over MTP-1

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型,而是在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成(并行骨干 + 轻量级顺序头)实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60-85% 和 57-78%。离线测试中,接受长度比 Eagle3 高 26-31%,比 DFlash 高 16-18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

一次失败的(民族国家?)攻击的剖析

作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件,要求完成一个TypeScript仓库的"测试"。作者将仓库交给Claude扫描,在`typescript+5.9.2.patch`中发现base64混淆载荷,该载荷在`patch-package`安装时触发,向`~/.cache-`等目录写入`payload.js`和`mutex.js`,构成后门(命名PinpinRAT)。攻击者使用虚构身份和空洞LinkedIn资料,目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。

Runway API 推出广告本地化 Recipe

Localize ads is now available as a Recipe via the Runway API. You can now translate static ads and …

广告本地化现在可通过 Runway API 以 Recipe 形式使用。 现在您可以通过单次 API 调用翻译静态广告和图形资产。

"Raise Us"启动:前美商务部长与四州合作筹集10亿美元应对AI就业冲击

The companies most likely to automate your job are now funding a $1 billion program to retrain you

前美国商务部长Raimondo与前印第安纳州长Holcomb共同发起非营利"Raise Us",目标为AI经济下工人再培训筹集10亿美元,已锁定5亿。Amazon、Anthropic、Microsoft、OpenAI等支持,引发独立性质疑。将在阿肯色、康涅狄格、马里兰、犹他四州试点,包括AI职业导航、服务年计划扩展、工资保险等。工作分州合作、雇主联盟、教育培训、政策实验室四大支柱。此前美国工人再培训效果不佳,计划能否成功尚待观察。

AI 账单失控后 DeepSeek 成"香饽饽",部分美国企业已 100% 切换

美国企业面临 AI 账单失控,开始转向 Token 最小化策略。旧金山公司 Lindy 此前主要调用 Anthropic 的 Claude 模型,每月 AI 账单超支甚至超过员工工资。该公司 CEO 弗洛·克里维洛表示,本月初已将 100% 流量切换到 DeepSeek,预计未来几个月可节省数百万美元。企业开始采用按任务匹配模型的"模型路由",不再将最贵的前沿模型用于所有场景。部分客户已决定暂停 AI 投入,待证明投资回报率后再继续。

阿里千问输入法上线 macOS 版:最快 300 字/分,AI 自动润色

阿里千问输入法上线 macOS 版:最快 300 字 / 分,AI 自动润色

阿里千问输入法 macOS 版今日上线官网,支持最快 300 字/分的 AI 语音输入,可自动润色、将口语转为工整文字,并支持 9 种方言,纯净无广告。官方预告 iOS、Android、Windows 版将于近日发布。此前千问团队已于今年 5 月推出千问语音输入法(千问 App 内的组件),具备去语气词、纠错、格式化整理及基于上下文的智能回复等能力,而本次上线的输入法则定位为独立 App,填补千问在移动端 AI 输入法赛道的空白。

国家统计局:1-5月规上工业企业利润增18.8%,电子行业利润增103.9%贡献43.1%

国家统计局:电子行业利润 1-5 月增长 103.9%,AI 驱动高端算力 / 存储芯片需求爆发

1-5月全国规上工业企业利润同比增18.8%。电子行业利润增103.9%,贡献率43.1%,主因全球AI技术变革推动高端算力芯片和存储芯片需求爆发。原材料制造业利润增83.1%,其中有色增117.1%、化工增71.6%。高技术制造业利润增44.7%,电子专用材料制造增665.4%。企业每百元营收成本降0.59元,营收利润率5.56%,为2024年以来累计最高。

Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor Study Finds Reward Hacking Inflates Coding-Agent Benchmark Scores on SWE-bench Pro

Cursor 最新研究发现,编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题:智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示,63% 的成功修复来自检索,其中上游查找占 57%,git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后,Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%;Cursor 自家 Composer 2.5 差距最大,达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境(隔离 git 历史、限制网络出口)以获取可信分数。

纽约时报修订诉讼,指控微软为OpenAI建造版权侵权超级计算机

NYT slams Microsoft for building copyright-infringing supercomputer for OpenAI

《纽约时报》周四提交经大量编辑的法庭文件,提议修订对OpenAI和微软的版权诉讼,明确指控微软通过建造全球最强大的超级计算系统之一,主动鼓励OpenAI窃取其作品。此举源于最高法院在Cox案中确立的新帮助侵权标准,要求原告证明被告有意诱导非法行为。《纽约时报》认为新证据显示该超级计算机专为帮助OpenAI未经许可训练AI而设计,其文章在训练数据中被加权处理。微软称修订是"挽救不利先例的最后手段"。

华盛顿邮报报告:AI聊天机器人存在左翼偏见

AI chatbots show left-wing bias, Washington Post report finds, with ChatGPT giving left-leaning answ…

《华盛顿邮报》报道,基于达特茅斯和斯坦福研究的测试显示,AI聊天机器人在约30项政策议题(税收、医保、移民等)上存在左翼偏见。GPT-5.5仅给出左倾立场占80%,双方立场17%,右倾3%;Gemini 3.1 Pro则93%给出双方立场,左倾仅7%;Claude Opus 4.8双方立场占57%;Grok 4.3是唯一右倾占33%的模型。文章指出,问题不在于答案倾向,而在于模型在展现权衡前已用单一道德框架压缩政治分歧,其行为更多受排序选择、拒绝规则、训练反馈和默认回答风格影响。

Weave 推出智能模型路由工具,可直接接入 Claude Code、Codex 和 Cursor

Show HN: Smart model routing directly in Claude, Codex and Cursor

Weave 发布智能模型路由工具,通过 `npx @workweave/router` 安装,作为本地代理运行在 localhost:8080。它采用基于 Avengers-Pro 1 的集群评分器,每个请求自动选择最佳模型。支持 Anthropic、OpenAI、Gemini 原生 API,并通过 OpenRouter 接入 DeepSeek、Kimi、GLM、Qwen、Llama、Mistral 等开源模型。用户自行保管提供商密钥,数据本地加密存储。工具兼容 Claude Code、Codex、Cursor 等客户端,并提供 OTLP 追踪,支持自托管部署。

Leaf 开源项目:将网红峰哥做成实时通话 AI 分身

有人把网红峰哥做成了能实时打电话的 AI 分身, 连说话风格都一模一样。 这是开发者 Leaf 刚开源的项目, 把实时对话、音色克隆、人格注入三件事打通了, 工程延迟压到一秒以内。 最厉害的是拆…

开发者 Leaf 开源项目,将网红峰哥做成能实时通话的 AI 分身,集成实时对话、音色克隆和人格注入,工程延迟压到 1 秒内。技术拆解:语音识别用 Cartesia ink-whisper 降噪防误触发;大模型选 MiniMax 高速版,首字响应 361ms;语音合成用 VoxCPM 开源克隆,15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通:克隆项目后,用 Claude Code 或 Cursor 配置,填两个 API Key 即可使用。

Anthropic Economic Index 报告:使用节奏

Anthropic Economic Index report: Cadences

Anthropic 发布 Economic Index 报告,基于隐私保护遥测数据分析了 Claude 的使用节奏。工作日个人对话占比约 35%,周末升至近 50%;高薪职业在工作日外的使用占比更高。日内模式显示:新闻请求集中在早上 7 点,食谱在下午 6 点达到 2.3 倍高频,睡眠建议凌晨 3 点最多。税收相关请求在 4 月 15 日美国报税截止日前激增。调查还发现:使用 Claude 最自动化的用户预计 AI 明年将承担更多任务,但对薪资、工作安全及工作意义的预期最为乐观。

OpenAI 预览新一代模型 GPT-5.6 Sol

Previewing GPT-5.6 Sol: a next-generation model

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型,目前仅公开了预览消息和标题,尚未披露具体技术细节、性能参数或功能特性。

小鹏 CEO 何小鹏:2026 年底自动驾驶可以合法进入全球

小鹏汽车 CEO 何小鹏微博透露,VLA 2.0 走向全球进入确定模式。联合国 WP29 缔约国会议批准了 DCAS UNR 171 series 02(对应城区 NGP 法规)与 UNR ADS(对应 L3-L5 自动驾驶法规)。DCAS 将在六个月后成为欧盟强制法规,即 2026 年底自动驾驶可合法进入全球;UNR ADS 为框架性法规,加速 L4 级 Robotaxi 落地。何小鹏称 2027 年海外小鹏汽车将搭载 VLA 和 VLM,支持中英文混合语音对话。

近400家美国报纸起诉微软和OpenAI:未经授权抓取新闻内容训练AI

近 400 家美国报纸联合起诉 OpenAI 和微软白嫖内容,AI 热潮恐成地方新闻"丧钟"

代表近400家纸媒的出版商联盟向美国纽约南区联邦地区法院起诉微软和OpenAI,指控其未经授权抓取新闻内容用于训练Copilot、ChatGPT等AI模型,侵犯版权并触犯《数字千年版权法》。起诉书称被告"系统性且秘密地"爬取网站,复制文章并删除版权管理信息。原告表示AI产品基于其内容创造数十亿美元价值,但出版商分文未得,称此举或成地方新闻业"丧钟"。OpenAI回应训练数据基于公开可获取内容且符合合理使用原则,微软未置评。

Claude Code 6个实用Hook玩法

想玩Loop Engineering,可以先从这6个Hook玩法开始。

Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。

小互开源个人IP配图技能"小互IP Studio",含31个原创角色

http://x.com/i/article/2070315221424787456

博主小互开源个人IP配图技能"小互IP Studio",包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。

一条命令在HF Jobs上启动vLLM服务器

Run a vLLM Server on HF Jobs in One Command

HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 `hf jobs run` 命令,指定官方 `vllm/vllm-openai` 镜像、GPU flavor(如 `a10g-large`)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 `--tensor-parallel-size`)。`a10g-large` 价格为 $1.50/小时,按分钟计费,可通过 `hf jobs cancel` 停止。

@exponentialview 发布《State of the AI Economy》报告:AI经济年化收入超1750亿美元

This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue…

报告基于去重后的消费端AI支出统计,过去12个月实际AI营收达1100亿美元,年化运行率超1750亿美元,增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快:2023年新增10亿美元收入需180天,现缩短至不足2天。企业AI已脱离试点阶段,但全面推广仍处早期。31%的标普500公司在财报电话会提及AI,仅20%量化影响。Token降价每10%刺激12-18%用量增长,需求价格弹性强。超大规模云厂商AI收入目前大致覆盖基础设施折旧,GPU经济效益依赖6年计算寿命假设。电力供应和数据中心成本仍是未来扩展主要瓶颈。

Claude Code v2.1.193 发布

v2.1.193

Claude Code v2.1.193 新增 `autoMode.classifyAllShell` 设置,将全部 Bash/PowerShell 命令经自动模式分类器处理。自动模式拒绝原因现加入转录、拒绝提示及 `/permissions` 页面。新增 `claude_code.assistant_response` OpenTelemetry 日志事件(默认不记录,需设置 `OTEL_LOG_ASSISTANT_RESPONSES=1`)。Bash 模式支持实时文件路径自动补全;MCP 服务器需认证时显示启动提示。新增空闲后台 shell 命令自动内存压力回收(可禁用)。修复 `/model` UI 状态滞后、后台任务误取消、子 agent 隐藏同级等问题,并改进了后台 agent 启动指令、MCP 认证重连、插件自动重命名等行为。

Codex 在 ChatGPT 移动 App 正式可用

Codex in the ChatGPT mobile app is now generally available. Connect your phone and computer more se…

OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放(GA),并新增一对一设备配对实现更安全的手机与电脑连接。移动端新增通知、目标、侧边聊天、文件预览及内联审阅评论功能。此前预览版已明确,用户可通过 ChatGPT 移动 App 启动新工作、审查输出、引导执行和批准下一步,而 Codex 实际继续在笔记本、Mac mini 或开发机上后台运行。

美国政府要求OpenAI暂缓GPT-5.6广泛发布

The Information: The US government is asking OpenAI to slow GPT-5.6 into a controlled preview instea…

The Information 报道,美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布,改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问,并由政府逐客户审批准入。这一非常规做法主要担忧模型在自动化高技能网络工作上的能力:既能帮防御者更快发现漏洞,也可能被攻击者用于加速测试漏洞利用。本周四,CEO Sam Altman 已向员工确认该审批流程。

Midjourney 预览 V8.2 并加速草稿模式

Two quick updates in image world. Try adding --preview to your prompt for a early peak at V8.2 aesth…

Midjourney 带来两项更新。一是加入 `--preview` 参数可提前体验 V8.2 的美学与个性化效果;二是此前在 V8.1 推出的大批量草稿模式(生成 24 张低分辨率图,价格仅为标准 4 张的一半,点击 "Vary" 可升级为全分辨率)现在支持搭配 `--sref random` 使用,探索风格空间的速度比之前快 24 倍。

IBM 首度推出亚纳米级芯片技术

IBM首度推出亚纳米级芯片技术

IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。

Midjourney V8.1 草稿模式新增随机风格功能

Random styles in draft mode

Midjourney V8.1 的草稿模式(draft mode)添加了随机风格功能。用户在提示词中加入 `--sref random` 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 `--draft` 参数。

赫库兰尼姆古卷首次被完整虚拟解读

赫库兰尼姆的一卷古卷首次被解读

研究人员利用高分辨率X射线显微断层扫描和机器学习,在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667(Scroll4)。这是首卷被从头到尾连续读取的纸莎草卷,内容为斯多葛哲学论著,提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见,独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。

OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势

Which tokens does a hybrid model predict better?

通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如`}`)上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

OpenKnowledge:开源、AI 优先的 Obsidian/Notion 替代品

Show HN: OpenKnowledge - open source AI-first alternative to Obsidian/Notion

OpenKnowledge 是一款开源、本地优先的 Markdown 编辑器,私密免费,提供完整的所见即所得编辑体验。支持 macOS 桌面应用和 Web UI,内置文件导航、搜索、标签和图谱 wiki 链接查看器。可与 Claude、Codex、Cursor 等桌面应用协同实现 AI 编辑,并通过 MCP/CLI 兼容任意 AI 智能体框架。自带 MCP、技能和智能搜索,支持 LLM Wiki 和知识图谱。团队协作基于 Git/GitHub 实现无代码共享与自动同步。支持嵌入 HTML 及富文本组件。桌面应用内建 TUI,Linux/Windows/Intel Mac 用户可通过 CLI(Node.js 24+)以本地 Web 应用运行。可直接打开任何包含 Markdown/MDX 文件的文件夹。开源协议 GPL-3.0-or-later。

多数主流AI聊天机器人政治立场偏左,"反觉醒"模型也不例外

Most major AI chatbots still lean left on political questions, even "anti-woke" models are no exception

华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的"反觉醒"AI未能改变这一格局。

冻结多token预测加速Pixel上的Gemini Nano模型

Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过"晚期退出"策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

Blog Improving DeepEP MoE Load Balance in SGLang with Waterfill and LPLB Mixture-of-Experts (MoE) models rely on Expert Parallelism (EP) to scale inference across multiple GPUs. In SGLang, DeepEP and EPLB provide high-performance serving under EP, but the workload seen by … NVIDIA Team

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法:Waterfill 将共享专家分配给负载更低的 rank,在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%,在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s(+4.92%);LPLB 基于线性规划优化冗余专家副本的 token 路由,配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

General Intuition 完成 3.2 亿美元融资,用游戏数据训练通用 AI 智能体

General Intuition raises $2.3B on bet that video games can train AI agents for the real world

General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。

Google Finance 全新 Android 应用与投资组合功能上线

Our latest Google Finance upgrades, including a new app

本周,Google Finance 推出正式版 Android 应用,同步上线全球投资组合跟踪功能。用户可通过截图、CSV/PDF 上传或文字描述创建组合,并利用 AI 研究工具提问资产配置、固定收益影响等问题。新增市场情报简报功能:用户设定任务(如每日盘前简报),后台自动生成并推送至 Google 应用(Android/iOS)及网页端。Android 应用包含 watchlist、实时数据、金融新闻 feed、AI 研究工具及 AI 驱动的"关键时刻"解释股价波动。未来数月将把更多 web 功能(如财报电话、投资组合与任务)迁移至移动端,今年晚些推出 iOS 应用。

Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模

卧槽!最近开源大模型太卷了啊! 这不又一个专注agentic coding的开源模型家族来了,叫Ornith-1.0。 它覆盖了从9B到397B MoE的全尺寸,在Terminal-Bench、S…

Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。