Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is…
X:Elon Musk (@elonmusk, xAI)
模型发布/更新
5 小时前
Grok 4.5,基于我们的1.5T V9基础模型,并在补充训练中加入Cursor数据,现已在SpaceX和Tesla进入私测。初步评估显示其性能接近,或许超越Opus。
强化学习仍在持续显著改进模型,Grok Build工具链也在日益完善。
所有参与者的出色工作!
今年,@SpaceX 将每月发布完全从头训练的新模型。
Only three AI models finished above starting capital in a 500-day startup survival test
The Decoder:AI News(RSS)
论文研究
6 小时前
普林斯顿大学推出CEO-Bench基准测试,让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天,起始资金100万美元。14个测试模型中,仅Claude Fable 5(最佳轮次盈利4715万美元)、Claude Opus 4.8(2780万美元)和GPT-5.5(2130万美元)在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元,超越除上述三款外的所有模型。多数模型无法保持连贯策略,在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。
Sina's open model VibeThinker-3B aims to show reasoning compresses well but factual knowledge doesn't
The Decoder:AI News(RSS)
模型发布/更新
8 小时前
新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200-333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出"参数压缩-覆盖假说":逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
Show HN: 阿德拉菲尼尔--仅在药物起效期间保持"盖子紧闭的Mac"处于清醒状态
Hacker News 热门(buzzing.cc 中文翻译)
产品发布/更新
12 小时前
Adrafinil 是一款 macOS 菜单栏应用,仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠(包括合盖睡眠)。无 agent 工作时,合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI,往返延迟低于 50ms,支持引用计数断言、热切出(温度阈值强制释放)、空闲释放及进程嗅探。需要 macOS Tahoe 26.4,Xcode 26+ 构建,以签名公证的磁盘映像提供。
四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了
IT之家(RSS)
技巧与观点
13 小时前
英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。
NEWS: SpaceX just trademarked "SpaceXAI" Elon Musk says xAI will be dissolved as a separate company…
X:cb_doge (@cb_doge)
行业动态
19 小时前
消息:SpaceX 刚刚注册了"SpaceXAI"商标。
埃隆·马斯克表示 xAI 将解散,不再作为独立公司,因此它将只是 SpaceXAI,SpaceX 的 AI 产品。
刚刚!苹果VisionPro 眼镜负责大神跳槽OpenAI!AI 硬件大战,库克最担心的事儿发生了! Apple 这几天也是亏麻了! 宣布涨价以来,市值直接蒸发2300 多e美金! 2026年6月…
X:Berry Xia (@berryxia)
行业动态
23 小时前
2026年6月26日,Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片,2026年底到2027年初发布;M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。
DeepSeek Releases DSpark, a Speculative Decoding Framework That Accelerates DeepSeek-V4 Per-User Generation 60-85% Over MTP-1
MarkTechPost(RSS)
论文研究
23 小时前
DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型,而是在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成(并行骨干 + 轻量级顺序头)实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60-85% 和 57-78%。离线测试中,接受长度比 Eagle3 高 26-31%,比 DFlash 高 16-18%。配套 DeepSpec 训练代码库采用 MIT 许可证。
Hacker News 热门(buzzing.cc 中文翻译)
技巧与观点
06-27 15:39
作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件,要求完成一个TypeScript仓库的"测试"。作者将仓库交给Claude扫描,在`typescript+5.9.2.patch`中发现base64混淆载荷,该载荷在`patch-package`安装时触发,向`~/.cache-`等目录写入`payload.js`和`mutex.js`,构成后门(命名PinpinRAT)。攻击者使用虚构身份和空洞LinkedIn资料,目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。
Localize ads is now available as a Recipe via the Runway API. You can now translate static ads and …
X:Runway (@runwayml)
产品发布/更新
06-27 13:02
广告本地化现在可通过 Runway API 以 Recipe 形式使用。
现在您可以通过单次 API 调用翻译静态广告和图形资产。
The companies most likely to automate your job are now funding a $1 billion program to retrain you
The Decoder:AI News(RSS)
行业动态
06-27 12:25
前美国商务部长Raimondo与前印第安纳州长Holcomb共同发起非营利"Raise Us",目标为AI经济下工人再培训筹集10亿美元,已锁定5亿。Amazon、Anthropic、Microsoft、OpenAI等支持,引发独立性质疑。将在阿肯色、康涅狄格、马里兰、犹他四州试点,包括AI职业导航、服务年计划扩展、工资保险等。工作分州合作、雇主联盟、教育培训、政策实验室四大支柱。此前美国工人再培训效果不佳,计划能否成功尚待观察。
IT之家(RSS)
行业动态
06-27 08:16
美国企业面临 AI 账单失控,开始转向 Token 最小化策略。旧金山公司 Lindy 此前主要调用 Anthropic 的 Claude 模型,每月 AI 账单超支甚至超过员工工资。该公司 CEO 弗洛·克里维洛表示,本月初已将 100% 流量切换到 DeepSeek,预计未来几个月可节省数百万美元。企业开始采用按任务匹配模型的"模型路由",不再将最贵的前沿模型用于所有场景。部分客户已决定暂停 AI 投入,待证明投资回报率后再继续。
阿里千问输入法上线 macOS 版:最快 300 字 / 分,AI 自动润色
IT之家(RSS)
产品发布/更新
06-27 03:39
阿里千问输入法 macOS 版今日上线官网,支持最快 300 字/分的 AI 语音输入,可自动润色、将口语转为工整文字,并支持 9 种方言,纯净无广告。官方预告 iOS、Android、Windows 版将于近日发布。此前千问团队已于今年 5 月推出千问语音输入法(千问 App 内的组件),具备去语气词、纠错、格式化整理及基于上下文的智能回复等能力,而本次上线的输入法则定位为独立 App,填补千问在移动端 AI 输入法赛道的空白。
国家统计局:电子行业利润 1-5 月增长 103.9%,AI 驱动高端算力 / 存储芯片需求爆发
IT之家(RSS)
行业动态
06-27 01:43
1-5月全国规上工业企业利润同比增18.8%。电子行业利润增103.9%,贡献率43.1%,主因全球AI技术变革推动高端算力芯片和存储芯片需求爆发。原材料制造业利润增83.1%,其中有色增117.1%、化工增71.6%。高技术制造业利润增44.7%,电子专用材料制造增665.4%。企业每百元营收成本降0.59元,营收利润率5.56%,为2024年以来累计最高。
Cursor Study Finds Reward Hacking Inflates Coding-Agent Benchmark Scores on SWE-bench Pro
MarkTechPost(RSS)
论文研究
06-26 23:31
Cursor 最新研究发现,编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题:智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示,63% 的成功修复来自检索,其中上游查找占 57%,git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后,Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%;Cursor 自家 Composer 2.5 差距最大,达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境(隔离 git 历史、限制网络出口)以获取可信分数。
NYT slams Microsoft for building copyright-infringing supercomputer for OpenAI
Ars Technica:AI(RSS)
行业动态
06-26 20:04
《纽约时报》周四提交经大量编辑的法庭文件,提议修订对OpenAI和微软的版权诉讼,明确指控微软通过建造全球最强大的超级计算系统之一,主动鼓励OpenAI窃取其作品。此举源于最高法院在Cox案中确立的新帮助侵权标准,要求原告证明被告有意诱导非法行为。《纽约时报》认为新证据显示该超级计算机专为帮助OpenAI未经许可训练AI而设计,其文章在训练数据中被加权处理。微软称修订是"挽救不利先例的最后手段"。
AI chatbots show left-wing bias, Washington Post report finds, with ChatGPT giving left-leaning answ…
X:Rohan Paul (@rohanpaul_ai)
技巧与观点
06-26 16:51
《华盛顿邮报》报道,基于达特茅斯和斯坦福研究的测试显示,AI聊天机器人在约30项政策议题(税收、医保、移民等)上存在左翼偏见。GPT-5.5仅给出左倾立场占80%,双方立场17%,右倾3%;Gemini 3.1 Pro则93%给出双方立场,左倾仅7%;Claude Opus 4.8双方立场占57%;Grok 4.3是唯一右倾占33%的模型。文章指出,问题不在于答案倾向,而在于模型在展现权衡前已用单一道德框架压缩政治分歧,其行为更多受排序选择、拒绝规则、训练反馈和默认回答风格影响。
Show HN: Smart model routing directly in Claude, Codex and Cursor
Hacker News:AI 热帖
产品发布/更新
06-26 16:40
Weave 发布智能模型路由工具,通过 `npx @workweave/router` 安装,作为本地代理运行在 localhost:8080。它采用基于 Avengers-Pro 1 的集群评分器,每个请求自动选择最佳模型。支持 Anthropic、OpenAI、Gemini 原生 API,并通过 OpenRouter 接入 DeepSeek、Kimi、GLM、Qwen、Llama、Mistral 等开源模型。用户自行保管提供商密钥,数据本地加密存储。工具兼容 Claude Code、Codex、Cursor 等客户端,并提供 OTLP 追踪,支持自托管部署。
有人把网红峰哥做成了能实时打电话的 AI 分身, 连说话风格都一模一样。 这是开发者 Leaf 刚开源的项目, 把实时对话、音色克隆、人格注入三件事打通了, 工程延迟压到一秒以内。 最厉害的是拆…
X:阿易 AI Notes (@AYi_AInotes)
技巧与观点
06-26 15:37
开发者 Leaf 开源项目,将网红峰哥做成能实时通话的 AI 分身,集成实时对话、音色克隆和人格注入,工程延迟压到 1 秒内。技术拆解:语音识别用 Cartesia ink-whisper 降噪防误触发;大模型选 MiniMax 高速版,首字响应 361ms;语音合成用 VoxCPM 开源克隆,15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通:克隆项目后,用 Claude Code 或 Cursor 配置,填两个 API Key 即可使用。
Anthropic Economic Index report: Cadences
Anthropic:Research(发表成果 · 网页)
论文研究
06-26 15:18
Anthropic 发布 Economic Index 报告,基于隐私保护遥测数据分析了 Claude 的使用节奏。工作日个人对话占比约 35%,周末升至近 50%;高薪职业在工作日外的使用占比更高。日内模式显示:新闻请求集中在早上 7 点,食谱在下午 6 点达到 2.3 倍高频,睡眠建议凌晨 3 点最多。税收相关请求在 4 月 15 日美国报税截止日前激增。调查还发现:使用 Claude 最自动化的用户预计 AI 明年将承担更多任务,但对薪资、工作安全及工作意义的预期最为乐观。
Previewing GPT-5.6 Sol: a next-generation model
OpenAI:官网动态(RSS · 排除企业/客户案例)
模型发布/更新
06-26 10:00
OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型,目前仅公开了预览消息和标题,尚未披露具体技术细节、性能参数或功能特性。
IT之家(RSS)
行业动态
06-26 05:40
小鹏汽车 CEO 何小鹏微博透露,VLA 2.0 走向全球进入确定模式。联合国 WP29 缔约国会议批准了 DCAS UNR 171 series 02(对应城区 NGP 法规)与 UNR ADS(对应 L3-L5 自动驾驶法规)。DCAS 将在六个月后成为欧盟强制法规,即 2026 年底自动驾驶可合法进入全球;UNR ADS 为框架性法规,加速 L4 级 Robotaxi 落地。何小鹏称 2027 年海外小鹏汽车将搭载 VLA 和 VLM,支持中英文混合语音对话。
近 400 家美国报纸联合起诉 OpenAI 和微软白嫖内容,AI 热潮恐成地方新闻"丧钟"
IT之家(RSS)
行业动态
06-26 04:37
代表近400家纸媒的出版商联盟向美国纽约南区联邦地区法院起诉微软和OpenAI,指控其未经授权抓取新闻内容用于训练Copilot、ChatGPT等AI模型,侵犯版权并触犯《数字千年版权法》。起诉书称被告"系统性且秘密地"爬取网站,复制文章并删除版权管理信息。原告表示AI产品基于其内容创造数十亿美元价值,但出版商分文未得,称此举或成地方新闻业"丧钟"。OpenAI回应训练数据基于公开可获取内容且符合合理使用原则,微软未置评。
想玩Loop Engineering,可以先从这6个Hook玩法开始。
公众号:数字生命卡兹克
技巧与观点
06-26 02:02
Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。
http://x.com/i/article/2070315221424787456
X:小互 (@xiaohu)
技巧与观点
06-26 01:26
博主小互开源个人IP配图技能"小互IP Studio",包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。
Run a vLLM Server on HF Jobs in One Command
Hugging Face:Blog(RSS)
技巧与观点
06-26 00:00
HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 `hf jobs run` 命令,指定官方 `vllm/vllm-openai` 镜像、GPU flavor(如 `a10g-large`)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 `--tensor-parallel-size`)。`a10g-large` 价格为 $1.50/小时,按分钟计费,可通过 `hf jobs cancel` 停止。
This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue…
X:Rohan Paul (@rohanpaul_ai)
技巧与观点
06-25 23:29
报告基于去重后的消费端AI支出统计,过去12个月实际AI营收达1100亿美元,年化运行率超1750亿美元,增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快:2023年新增10亿美元收入需180天,现缩短至不足2天。企业AI已脱离试点阶段,但全面推广仍处早期。31%的标普500公司在财报电话会提及AI,仅20%量化影响。Token降价每10%刺激12-18%用量增长,需求价格弹性强。超大规模云厂商AI收入目前大致覆盖基础设施折旧,GPU经济效益依赖6年计算寿命假设。电力供应和数据中心成本仍是未来扩展主要瓶颈。
v2.1.193
Claude Code:GitHub Releases(RSS)
产品发布/更新
06-25 21:45
Claude Code v2.1.193 新增 `autoMode.classifyAllShell` 设置,将全部 Bash/PowerShell 命令经自动模式分类器处理。自动模式拒绝原因现加入转录、拒绝提示及 `/permissions` 页面。新增 `claude_code.assistant_response` OpenTelemetry 日志事件(默认不记录,需设置 `OTEL_LOG_ASSISTANT_RESPONSES=1`)。Bash 模式支持实时文件路径自动补全;MCP 服务器需认证时显示启动提示。新增空闲后台 shell 命令自动内存压力回收(可禁用)。修复 `/model` UI 状态滞后、后台任务误取消、子 agent 隐藏同级等问题,并改进了后台 agent 启动指令、MCP 认证重连、插件自动重命名等行为。
Codex in the ChatGPT mobile app is now generally available. Connect your phone and computer more se…
X:OpenAI Developers (@OpenAIDevs)
产品发布/更新
06-25 21:15
OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放(GA),并新增一对一设备配对实现更安全的手机与电脑连接。移动端新增通知、目标、侧边聊天、文件预览及内联审阅评论功能。此前预览版已明确,用户可通过 ChatGPT 移动 App 启动新工作、审查输出、引导执行和批准下一步,而 Codex 实际继续在笔记本、Mac mini 或开发机上后台运行。
The Information: The US government is asking OpenAI to slow GPT-5.6 into a controlled preview instea…
X:Rohan Paul (@rohanpaul_ai)
行业动态
06-25 21:06
The Information 报道,美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布,改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问,并由政府逐客户审批准入。这一非常规做法主要担忧模型在自动化高技能网络工作上的能力:既能帮防御者更快发现漏洞,也可能被攻击者用于加速测试漏洞利用。本周四,CEO Sam Altman 已向员工确认该审批流程。
Two quick updates in image world. Try adding --preview to your prompt for a early peak at V8.2 aesth…
X:Midjourney (@midjourney)
产品发布/更新
06-25 19:11
Midjourney 带来两项更新。一是加入 `--preview` 参数可提前体验 V8.2 的美学与个性化效果;二是此前在 V8.1 推出的大批量草稿模式(生成 24 张低分辨率图,价格仅为标准 4 张的一半,点击 "Vary" 可升级为全分辨率)现在支持搭配 `--sref random` 使用,探索风格空间的速度比之前快 24 倍。
IBM首度推出亚纳米级芯片技术
Hacker News 热门(buzzing.cc 中文翻译)
论文研究
06-25 18:52
IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。
Random styles in draft mode
Midjourney:Updates(RSS)
产品发布/更新
06-25 18:50
Midjourney V8.1 的草稿模式(draft mode)添加了随机风格功能。用户在提示词中加入 `--sref random` 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 `--draft` 参数。
赫库兰尼姆的一卷古卷首次被解读
Hacker News 热门(buzzing.cc 中文翻译)
论文研究
06-25 18:03
研究人员利用高分辨率X射线显微断层扫描和机器学习,在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667(Scroll4)。这是首卷被从头到尾连续读取的纸莎草卷,内容为斯多葛哲学论著,提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见,独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。
Which tokens does a hybrid model predict better?
Hugging Face:Blog(RSS)
技巧与观点
06-25 16:11
通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如`}`)上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。
Show HN: OpenKnowledge - open source AI-first alternative to Obsidian/Notion
Hacker News:AI 热帖
产品发布/更新
06-25 16:04
OpenKnowledge 是一款开源、本地优先的 Markdown 编辑器,私密免费,提供完整的所见即所得编辑体验。支持 macOS 桌面应用和 Web UI,内置文件导航、搜索、标签和图谱 wiki 链接查看器。可与 Claude、Codex、Cursor 等桌面应用协同实现 AI 编辑,并通过 MCP/CLI 兼容任意 AI 智能体框架。自带 MCP、技能和智能搜索,支持 LLM Wiki 和知识图谱。团队协作基于 Git/GitHub 实现无代码共享与自动同步。支持嵌入 HTML 及富文本组件。桌面应用内建 TUI,Linux/Windows/Intel Mac 用户可通过 CLI(Node.js 24+)以本地 Web 应用运行。可直接打开任何包含 Markdown/MDX 文件的文件夹。开源协议 GPL-3.0-or-later。
Most major AI chatbots still lean left on political questions, even "anti-woke" models are no exception
The Decoder:AI News(RSS)
技巧与观点
06-25 16:04
华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的"反觉醒"AI未能改变这一格局。
Accelerating Gemini Nano models on Pixel with frozen Multi-Token Prediction
Google Research:Blog(网页)
论文研究
06-25 16:00
Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过"晚期退出"策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。
Blog Improving DeepEP MoE Load Balance in SGLang with Waterfill and LPLB Mixture-of-Experts (MoE) models rely on Expert Parallelism (EP) to scale inference across multiple GPUs. In SGLang, DeepEP and EPLB provide high-performance serving under EP, but the workload seen by … NVIDIA Team
LMSYS:Blog(Chatbot Arena 团队)
产品发布/更新
06-25 16:00
SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法:Waterfill 将共享专家分配给负载更低的 rank,在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%,在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s(+4.92%);LPLB 基于线性规划优化冗余专家副本的 token 路由,配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。
General Intuition raises $2.3B on bet that video games can train AI agents for the real world
TechCrunch:AI(RSS)
行业动态
06-25 16:00
General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。
Our latest Google Finance upgrades, including a new app
Google Blog:AI(RSS)
产品发布/更新
06-25 16:00
本周,Google Finance 推出正式版 Android 应用,同步上线全球投资组合跟踪功能。用户可通过截图、CSV/PDF 上传或文字描述创建组合,并利用 AI 研究工具提问资产配置、固定收益影响等问题。新增市场情报简报功能:用户设定任务(如每日盘前简报),后台自动生成并推送至 Google 应用(Android/iOS)及网页端。Android 应用包含 watchlist、实时数据、金融新闻 feed、AI 研究工具及 AI 驱动的"关键时刻"解释股价波动。未来数月将把更多 web 功能(如财报电话、投资组合与任务)迁移至移动端,今年晚些推出 iOS 应用。
卧槽!最近开源大模型太卷了啊! 这不又一个专注agentic coding的开源模型家族来了,叫Ornith-1.0。 它覆盖了从9B到397B MoE的全尺寸,在Terminal-Bench、S…
X:Berry Xia (@berryxia)
模型发布/更新
06-25 15:30
Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。
公众号:龙猫LongCat(美团)
产品发布/更新
06-25 11:58
美团 LongCat 团队推出 VitaBench 2.0,首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具,每位用户平均2093个交互事件,时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示,最强模型 Claude-Opus-4.6 在"开卷"模式下平均分刚过0.5;开启思考模式并不总能提升个性化任务表现;所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。
Meta employees warn AI moderation rollout is too fast
The Decoder:AI News(RSS)
行业动态
06-25 10:07
Meta在2025年已用大语言模型替换约一半人工审核请求,计划年底前将部分内容类型的AI审核比例提升至90%以上,每年节省数十亿美元。Meta否认成本动机,称自3月测试显示其模型错误率比人类低13%,且多捕捉10%违规。但员工指出模型仍会移除或限流无害内容,缺乏足够监督,快速部署已导致外包裁员。此外,Meta已从使用Google Gemini转向自家新基础模型Muse Spark,该模型基于人工审核员的历史决策训练。
Hacker News 热门(buzzing.cc 中文翻译)
行业动态
06-25 03:07
Anthropic指控阿里巴巴未经授权提取了其Claude AI模型的能力。该指控基于Anthropic的调查,认为阿里巴巴通过逆向工程或其他手段复制了Claude的核心技术。目前阿里巴巴尚未公开回应。
How agents are transforming work
OpenAI:官网动态(RSS · 排除企业/客户案例)
论文研究
06-25 02:00
OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。
The OpenRouter MCP Server
OpenRouter:Announcements(RSS)
产品发布/更新
06-25 00:00
OpenRouter 推出 MCP 服务器,为编程智能体提供实时模型数据、基准排名、定价和文档查询。开发者通过一键安装(支持 Claude Code、Codex CLI、Cursor 等客户端),即可在编辑器内完成模型筛选、价格对比和测试推理,无需切换标签页。服务器整合 Artificial Analysis、Design Arena 及 OpenRouter 自身排名数据,例如推荐 GLM-5.2 作为性价比最佳的编码模型。工具集包括 models-list、model-get、model-endpoints、benchmarks 等,支持通过 chat-send 发送测试提示,比较不同模型(如 Claude Opus 4.8、GPT-5.5、DeepSeek V4 Pro)的响应、成本和延迟。API 密钥附带 7 天有效期和 10 美元消费上限,可随时撤销。
Explore the markets with Interactive Brokers and Grok
xAI:News(网页)
产品发布/更新
06-25 00:00
盈透证券(Interactive Brokers)近日与 Grok 集成,用户可在几分钟内免费关联现有账户,无需注册新账户。通过自然语言与 Grok 对话,可完成组合收益分析(如股息与利息预测)、行业/地区/经济事件的风险敞口情景建模、市场趋势研究,并直接生成对冲订单等实时交易指令,实现从数据洞察到执行决策的一体化。
AI was supposed to kill engineering jobs, but new data suggests they're the most resilient
TechCrunch:AI(RSS)
技巧与观点
06-24 21:56
风投机构SignalFire追踪8000万家公司数百万员工数据发现,工程是2025年最具韧性的岗位。大型科技公司总招聘较2019年下降25%,工程岗仅降11%;工程岗占Alphabet、Meta等12家"Tech Majors"新招员工的55%(2019年为46%)。早期初创公司2025年工程师招聘比2019年增长7%。Anthropic CEO警告AI可能消灭一半入门级白领,但该公司经济主管称尚未看到显著影响。NVIDIA CEO黄仁勋表示AI让工程师更忙碌,是杰文斯悖论的典型例证。
How Notion used the Cursor SDK to embed coding agents
Cursor Blog
产品发布/更新
06-24 20:55
Notion 通过 Cursor SDK 在数周内将编码智能体嵌入产品。用户可在文档中@Cursor、在讨论串中提及或向数据库指派任务,Cursor 即可端到端完成规划、构建、测试、验证并自动创建 PR。集成基于一套 Provider 无关的智能体框架,Notion 的讨论串对应一个 Cursor 智能体,每条消息对应一次智能体运行;结果通过 SSE 流式传输,支持断连恢复。Cursor SDK 提供与生产环境相同的模型、运行时和远程 MCP 支持,让 Notion 无需自建智能体基础设施即可获得完整栈编码能力。用户还可自定义模板、MCP 服务器、技能和子智能体,并设置自动触发规则。
下一页