🔥 AI HOT

AI 精选资讯 · 共 11 条

Memex(RL):索引记忆解决AI智能体长周期遗忘

AI agents often forget past work, but this Accenture paper method keeps everything reachable. Tradi…

传统LLM在长项目易因有限记忆空间遗忘细节。Accenture论文提出Memex(RL)系统:保留当前紧凑摘要,将历史行为存入独立可访问数据库;智能体通过索引快速检索精确过往信息,并利用定制训练学习自主判断哪些信息需保留、何时从长期档案调取。该方法避免历史过载,保持智能体对当前目标的专注,解决多步复杂任务中的信息丢失问题。论文链接:arxiv.org/abs/2603.04257。

仅有三个AI模型在500天创业测试中盈利超过起始资本

Only three AI models finished above starting capital in a 500-day startup survival test

普林斯顿大学推出CEO-Bench基准测试,让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天,起始资金100万美元。14个测试模型中,仅Claude Fable 5(最佳轮次盈利4715万美元)、Claude Opus 4.8(2780万美元)和GPT-5.5(2130万美元)在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元,超越除上述三款外的所有模型。多数模型无法保持连贯策略,在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

研究:AI让自由职业市场更重价格竞争

AI may be turning some freelance markets into price contests, where strong profiles carry less weigh…

一项新研究(arXiv: 2606.21880)表明,AI正在将部分自由职业市场变成价格竞赛,高技能简历的优势被削弱。在ChatGPT出现后,AI暴露程度最高的职业中,人力资本信号(经验、声誉)的重要性下降了约7.8%,而价格的重要性上升了约1.1%。强背景工作者失去了部分需求优势,需求向更便宜的工人转移,表明AI使这些工作者显得更可互换。

AI职业暴露研究:聊天日志高估部分职业影响

AI job-risk scores from chat logs can confuse platform popularity with real workforce exposure. AI …

一项新研究指出,基于聊天日志的AI职业暴露评分可能将平台流行度误当作真实劳动力暴露。分析发现,此类平台指标往往高估计算机与办公室工作,低估食品、运输、生产和体力服务岗位。在将数据按真实就业分布重新加权后,估计的就业影响缩水42%至93%,部分结果几乎归零。研究提示当前测量可能更多反映平台采用情况而非实际工作流程改变。论文题为《谁在使用AI?平台选择与职业AI暴露的测量》。

VISReg:JEPA训练的新正则化方法

VISReg Variance-Invariance-Sketching Regularization for JEPA training

VISReg 用于JEPA训练的方差-不变性-草图正则化

Sakana Fugu 技术报告

Sakana Fugu Technical Report The idea is that intelligence is moving from the model to the system a…

Sakana Fugu 发布技术报告,提出智能正从模型转移到其周围系统。Fugu 是一个编排器,由数据训练的管理器动态选择最合适的专家模型,而非简单规则(如投票或固定分工)。Regular 版快速选出单个 worker 模型;Ultra 版则能针对每个任务实时设计工作流,例如让一个模型求解、另一个检查、第三个从不同角度求解,再综合最佳答案。工作流非预设,而是根据任务实时构建。

Grouped Query Experts:在GQA自注意力上的混合专家模型

This paper makes long-context attention cheaper and faster by letting each token use only the query …

论文提出Grouped Query Experts,在分组查询注意力(GQA)基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练,最佳版本准确率56.04(baseline 55.86),仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量,但需强学习信号和一个始终打开的共享头。

学生完成AI友好数学题更快,但学习效果更差

Students finish AI-friendly math problems faster, but they seem to learn less from them. The resear…

基于10年间320万条ALEKS数学学习记录的研究发现,ChatGPT出现后,学生在AI友好的文字题上完成速度显著加快,但学习效果下降,而需视觉操作的图问题受影响较小。高中和大学生用时减少,低年级变化不大;监考下时间缩短消失,说明加速非源于能力提升。后续监考保留题显示,学生对AI友好题型的正确率下降约25%,表明通过AI快速完成作业未转化为持久知识。

BINEVAL:新型LLM-as-Judge评估方法

If you use LLM-as-judge, this one is worth reading. (bookmark it) It's actually one of the most ef…

BINEVAL 是一种新型 LLM-as-Judge 评估方法,解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题,对每个输出独立回答,再汇总为校准的多维分数。每个问题级判定均可检查,用于精确定位低分原因,并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上,无需训练即可匹配或超越 UniEval 和 G-Eval,事实一致性表现尤其突出。论文: https://arxiv.org/abs/2606.27226

DeepSeek 发布 DSpark:半并行推测解码推理优化方法

Fantastic, @deepseek_ai just published their new inference optimization method. Proposes DSpark, a …

DeepSeek 提出 DSpark,一种半并行推测解码系统,使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证:草稿模型并行生成多个候选 token,再由一个小型马尔可夫头根据前一个 token 微调每个猜测,弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载,动态决定每个请求需验证的 token 数量,避免无效计算。

DeepSeek 发布 DSpark 推测解码并开源 DeepSpec

DeepSeek is the GOAT. 🐳 They just published DSpark, a new speculative decoding method that boosts …

DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark,一种新的推测解码方法,将吞吐量提升 51% 到 400%。 他们还开源了背后的训练框架 DeepSpec。 这才是真正的开放 AI。