得益于从 2026 年初就践行"不要把自己限制在电脑前"这一理念, 实际上除了少量需要大显示器的场景,现在很多的使用习惯已经变成: telegram → openclaw → claude/codex…
X:小北 (@frxiaobei)
技巧与观点
3 分钟前
小北分享自2026年初践行"不要把自己限制在电脑前"的理念,逐渐形成 telegram → openclaw → claude/codex 的工作流,在各种场景下都能安排AI工作。他认为多数人缺少一套适合自己的稳定工作流,构建个人harness和skills至关重要,舶来品不一定适合自己。同时引用 @theo 的推文,估计大约6个月内大部分开发者会将代码智能体从笔记本电脑上移走。
The release of GLM-5.2 is the second DeepSeek moment.
X:Kim (@kimmonismus)
技巧与观点
48 分钟前
中国开源权重模型 GLM-5.2 发布,被评价为继 DeepSeek 之后的第二次"DeepSeek 时刻"。有评论指出,其性能已可与 OpenAI 和 Anthropic 当前可用模型媲美。白宫 AI 负责人 David Sacks 就此警告,美国若继续将自身模型置于"炼狱"(指过度监管或限制),世界将转向中国技术,美国公司将在竞赛中落后。该言论呼应了此前 DeepSeek 开源模型的全球影响,凸显中美 AI 开源竞争进入新阶段。
China catches up
Gary Marcus:The Road to AI We Can Trust(RSS)
技巧与观点
1 小时前
美国AI产业受中国追赶引发价格战,token价格趋近于零,利润微薄,Anthropic和OpenAI的万亿IPO难以实现,数据中心巨额投资难回收。当前范式有三个根本缺陷:暴力训练全互联网成本高昂且效率低下;系统不可靠,长期无法维持溢价;基础方法易复制,导致价格战与负利润率。另有人认为,整个AI竞赛方向可能被误解,美国不应只追求最便宜的LLM,而应开发更适合科学与医学的AI新形态。
Doesnt look good for us: "Even if the AI bubble bursts, prices likely won't improve. Samsung, SK H…
X:Kim (@kimmonismus)
技巧与观点
1 小时前
对我们来说不太乐观:
"即使AI泡沫破裂,价格也不太可能改善。三星、SK海力士和美光已经花费数十亿美元重新配置实体厂房空间,用于生产复杂的AI内存芯片。此外,这三家公司还签订了长达2030年的多年供货合同。无论数据中心需求是否降温,对科技巨头的法律义务依然存在。"
This is real and a horrible consequence of vibe regulation of frontier models.
X:Nathan Lambert (@natolambert)
技巧与观点
1 小时前
这是真实的,也是前沿模型氛围监管的可怕后果。
AI时代的账单,苹果用户先买了单。 我们该谢谢AI还是痛批呢? 苹果本周宣布全线涨价。 MacBook Neo涨$100(17%),MacBook Air涨$200(18%),入门iPad涨$10…
X:Berry Xia (@berryxia)
技巧与观点
1 小时前
苹果本周全线涨价:MacBook Neo涨$100(17%)、MacBook Air涨$200(18%)、入门iPad涨$100(29%)、iPad Air涨$150(25%),Apple TV从$129涨至$199(54%),HomePod及mini涨17%-30%,Apple Vision Pro涨6%至$3,699。主因AI热潮引发内存芯片短缺,超大规模AI公司抢占供应链资源。微软随后也上调Xbox价格。Gurman分析指出,苹果虽主推端侧AI减少云端依赖,但上市公司仍选择转嫁成本;iPhone因运营商补贴未涨。这标志着AI繁荣成本首次从行业问题变为普通消费者可感知的现实。
我特么还真想成为那1%的人,可惜我也不知道😄
X:Berry Xia (@berryxia)
技巧与观点
3 小时前
99%的人不知道的Claude Code分屏功能。如果你是Claude Code桌面端用户,一定要看看。原推主感叹:我特么还真想成为那1%的人,可惜我也不知道😄
AI won't become a real coworker until it stops answering and starts finishing tasks
The Decoder:AI News(RSS)
技巧与观点
3 小时前
腾讯Youtu Lab联合多所中国大学发布调查论文,提出AI系统需从聊天机器人转向数字同事,核心是结合持久工作空间和可重用技能。思考型LLM(如OpenAI o1、DeepSeek-R1)采用链式推理实现慢思考;工作空间(如
Anthropic's business case needs to be studied. At the end of 2025 and the beginning of 2026, there w…
X:Kim (@kimmonismus)
技巧与观点
3 小时前
Anthropic的商业案例值得研究。2025年底至2026年初,其企业/商业领域的使用量出现了惊人增长,使其成为第一。
兄弟们,这个项目简直是搞自媒体神器啊! 斩获3.5K Star,还直接开源免费啊! 还不赶紧给你的Agent搞起来啊 又有一个给AI Agent装"互联网眼睛"的开源项目,叫Agent-Reach。…
X:Berry Xia (@berryxia)
技巧与观点
3 小时前
Agent-Reach(3.5K Star)通过CLI工具让AI Agent免费读取Twitter、Reddit、YouTube、GitHub、B站、小红书等多平台内容。核心是智能选择当下最稳定的开源后端,自动健康检查和故障切换,无需自写爬虫。安装后Agent可直接处理"看视频字幕"、"搜产品评价"等任务,全程零API费用、本地运行。项目将碎片能力封装为Agent可调用的skill,实现多后端路由和自动降级,补齐Agent低成本、可靠获取网页和社交媒体内容的能力。
Gemini 3.5 Flash is a great workhorse model, especially for subagents. Determined, fast, gets jobs d…
X:fofr (@fofrAI)
技巧与观点
4 小时前
Gemini 3.5 Flash 是一个很棒的工作马模型,尤其适合子智能体。它坚定、快速,能完成任务。
so glad she's feeling better
X:PixVerse (@PixVerse_)
技巧与观点
6 小时前
小企鹅从疾病中康复,本该回归日常,但梦境、星星、微光、旧箱子……奇怪的事情逐渐增多,不过它依然我行我素🐧📷
现在用 Hermes 最聪明的做法,不是堆提示词,而是给它搭一个会自己复盘迭代的记忆循环, 越用越贴合你的工作习惯,能力拉满。 核心靠一份 【Memory.md】(Memory.md),跑「会话学习…
X:阿易 AI Notes (@AYi_AInotes)
技巧与观点
6 小时前
为用户提供不依赖微调或开发的Hermes代理优化方案:通过Memory.md文件构建"会话学习-记录沉淀-迭代优化"闭环。核心流程:1)桌面新建Memory.md,固定偏好、更正、模式、学到的经验四层框架;2)绑定提示词,每次会话前读取并完整应用,任务结束后记录有效做法与失败根因,新结论覆盖旧内容;3)每周精炼压缩零散经验为通用规则;4)定期日期命名归档备份。无需模型微调或部署,几分钟启动,使代理越用越贴合个人工作习惯,从单次随机输出收敛为专属智能体。
X:Oran Ge (@oran_ge)
技巧与观点
7 小时前
如果有一天程序员写代码的速度提升了10倍
那程序员应该选择:
1. 写100倍的代码
2.用省下来的时间90%做稀缺的重要的事
你的选择是1还是2?
你的老板对你的要求是1还是2?
Dario Amodei's "fearmongering" was not the reason Fable 5 and GPT-5.6 were embargoed. That is a mist…
X:Kim (@kimmonismus)
技巧与观点
8 小时前
Kim认为美国政府基于自身安全评估(担忧模型被中国通过蒸馏获取)而非CEO言论决定禁运Fable 5和GPT-5.6。她批评Anthropic沟通失误(拒配合国防部、电话不畅通),并赞同模型被禁源于其真实破坏性能力,Anthropic应主动报告风险而非让Amazon先行披露。
http://x.com/i/article/2071134358359187456
X:Jason Liu (@jxnlco)
技巧与观点
8 小时前
Codex 支持两种计划工作方式。Scheduled Tasks 每次运行创建新线程,适合无需上下文延续的任务,如每日 9 点自动总结邮件、日历;Scheduled Messages 在同一现有线程反复运行,适合需要历史上下文的场景,如每 30 分钟检查 PR 状态并处理评论,直至合并。推文还给出创建可复用循环技能的提示词,让 Codex 自动判断使用哪种方式并引导用户填写关键参数。
US officials are now framing the AI race with China as a national-security contest where even a tiny…
X:Kim (@kimmonismus)
技巧与观点
8 小时前
美国官员将与中国的人工智能竞赛定位为国家安全对抗,称微小领先也能改变结果。众议院外交委员会主席Brian Mast在哈德逊研究所活动上称美国是"超级英雄"、中国是"超级反派"。参议员Jim Banks表示这场竞赛涉及经济、军事和道德层面,警告美国不能输给"最大对手"。财长Bessent直言,中国愿意讨论AI是因为美国目前仍领先,但华盛顿担忧这一优势正不断缩小。作者认为,"Fable 5禁令"必须在此背景下理解。
Building a Stable Fable 5 Traces Workflow in Colab: Parsing Tool Calls, Auditing Data, and Training Baselines
MarkTechPost(RSS)
技巧与观点
9 小时前
本教程使用Hugging Face上的Fable 5 Traces数据集,在Google Colab中搭建轻量环境并手动下载JSONL文件。流程包括预览原始agent trace示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式,以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的no-CoT聊天/SFT导出,构建关键词搜索辅助,并训练纯Python朴素贝叶斯基线,评估trace上下文能否预测助手的输出类型与工具使用。
AMD Strix Halo RDMA 集群设置指南
Hacker News 热门(buzzing.cc 中文翻译)
技巧与观点
9 小时前
本文介绍如何配置两节点 AMD Strix Halo 集群,通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联,用于分布式 vLLM 推理(Tensor Parallelism)。硬件采用两块 Framework Desktop 主板(AMD Ryzen AI MAX+ "Strix Halo",128GB 统一内存)及 E810-CQDA1 100GbE 网卡,直连无需交换机。软件栈基于 Fedora 43,使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5μs(TCP/IP 为 70-100μs)。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。
Nice example of the increasing benefits of open science and transparent methodologies when writing p…
X:Ethan Mollick (@emollick)
技巧与观点
11 小时前
针对AI研究论文因同行评审周期长导致结果过时的问题,一篇医疗AI论文开源其评估框架(GitHub: health-ai-readiness-eval)。@yishan 用该框架在最新模型上复现测试:GPT-5.5 Pro 在放射影像解读中得分79/100,优于论文原始最佳模型(69/100),但未达到论文设定的"适合可靠医疗使用"标准(需抗扰动、识别信息不足、给出临床合理推理)。@yishan 未能完整复现定性评估,但基本测试表明最新模型虽有提升,尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架,以便社区持续验证。
Sol when operating Codex. Circa 2026
X:Tibo (@thsottiaux)
技巧与观点
11 小时前
Sol 在操作 Codex 时。
约 2026 年。
Hacker News 热门(buzzing.cc 中文翻译)
技巧与观点
11 小时前
文章引用《心灵捕手》中罗宾·威廉姆斯饰演的Sean对Will的经典独白,指出面对AI生成的垃圾内容、海量建议与网络噪音,最好的回应不是更多信息,而是真实的个人体验与情感联结。Sean用艺术、战争、爱情、失去等话题质问Will,强调二手知识无法替代亲身经历。作者认为这段台词完美概括了AI slop问题的本质--信息堆砌不等于真正理解。
把电脑里所有文件塞给Agent后,我实现了代办24h全托管
公众号:卡尔的AI沃茨
技巧与观点
12 小时前
主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文,用户无需提供详细背景即可自动理解项目,优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复,扫描全盘查找重复文件,重新设计Obsidian架构以区分本地与iCloud存储,通过定时任务整理Downloads文件夹,以及通过浏览器自动化分析邮件并分类。与Computer Use不同,Vida通过双击Option键零帧起手启动。
Google Research在2024年悄悄开源了一个时间序列模型。 除了做预测的人,没人注意到。这是一个错误。 这个模型叫TimesFM。 论文发在ICML 2024,标题是"一个用于时间序列…
X:Berry Xia (@berryxia)
技巧与观点
12 小时前
Google Research 于2024年开源时序预测基础模型TimesFM(ICML 2024),采用预训练+零样本预测范式。2025年9月发布的2.5版本参数从500M降至200M,上下文窗口扩展至16K,新增30M分位数预测头,可同时输出点预测及10%-90%置信区间。200M参数单GPU可运行,16K上下文支持五年日数据。模型已内置在BigQuery ML、Google Sheets、Vertex AI中,开源版本通过pip install即可使用。2026年4月通过HuggingFace Transformers和PEFT支持LoRA微调,便于领域适配。
Anthropic CEO Dario Amodei on Open-Source AI Models. "I don't think open source works the same way…
X:Rohan Paul (@rohanpaul_ai)
技巧与观点
12 小时前
Anthropic CEO Dario Amodei 认为,开源在 AI 领域与传统开源不同,属于"红鲱鱼"(干扰因素)。他指出,当前 AI 模型通常只开放权重而非源代码,无法看到内部逻辑,因此传统开源带来的多方协作、累加式改进等优势不成立。他不在乎模型是否开源,只关心其在关键任务上的表现。此外,大模型必须托管在云端进行推理,并非免费,任何用户都需要支付推理成本。该观点出自 Alex Kantrowitz 的 YouTube 访谈。
Is Gemini 3.5 Pro being export controlled? Because if not…
X:Ethan Mollick (@emollick)
技巧与观点
12 小时前
Gemini 3.5 Pro 是否受到出口管制?因为如果没有……
Talking to your plants isn't weird anymore. You can just codex things.
X:Tibo (@thsottiaux)
技巧与观点
12 小时前
OpenAI 发布 planttalk 构建指南,让植物拥有声音。
主推文评论:和植物对话不再奇怪,只需 codex 即可。
"History teaches us that access blockage rarely stops determined users." https://www.chinatalk.media…
X:Peter Steinberger (@steipete)
技巧与观点
13 小时前
历史告诉我们,访问封锁很少能阻止有决心的用户。 https://www.chinatalk.media/p/how-to-buy-cheap-claude-tokens-in
四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了
IT之家(RSS)
技巧与观点
13 小时前
英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。
BestBlogs 早报 · 06-28 # GPT-5.6 / OpenAI / 政府审核访问 / 魏小康 / 组织建设 【1】 ★ 精讲|刚刚,GPT-5.6 正式发布,史上最强但被自己坑惨了…
X:洪明 (@hongming731)
技巧与观点
13 小时前
OpenAI 发布 GPT-5.6 系列(旗舰 Sol、均衡 Terra、低成本 Luna),在 Terminal-Bench 2.1、GeneBench、ExploitBench 刷新成绩,
http://x.com/i/article/2071059009222901760
X:洪明 (@hongming731)
技巧与观点
13 小时前
OpenAI 发布 GPT-5.6 系列,包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%(Ultra 模式 91.9%),领先 GPT-5.5 的 88.0% 和 Claude Mythos 5 的 84.3%;GeneBench v1 以更少输出 tokens 获更强结果,ExploitBench 接近此前 Mythos 但仅用约 1/3 输出 tokens。价格:Sol 输入 $5/百万 tokens、输出 $30,缓存读取九折。发布前 OpenAI 向美国政府展示能力,按政府要求先以有限预览上线,首批约 20 家合作伙伴可访问。
OpenAI and Chill w/ @ajambrosino Andrew is king of desktop app and running loops. Make sure to f…
X:Jason Liu (@jxnlco)
技巧与观点
13 小时前
OpenAI and Chill w/ @ajambrosino
Andrew 是桌面应用和运行循环的王者。
一定要关注他,向他询问 Linux 和 Windows 支持。还有一切桌面应用!💐💐💐💐
X:小北 (@frxiaobei)
技巧与观点
14 小时前
长期记忆的关键不是检索更准,
而是别把垃圾写进去。
Stripe CEO @patrickc 发的这篇《The Age of the Solopreneur》报告,推荐大家有空看一下,想法、品味、分发和对细分场景的洞察会是未来做一人公司最重要的壁垒和护…
X:阿易 AI Notes (@AYi_AInotes)
技巧与观点
15 小时前
Stripe Economics发布报告《The Age of the Solopreneur》,用多组数据验证AI正重写商业规则。美国人口普查局数据显示:有雇人意愿的商业申请几乎未增,单人公司申请持续加速;Stripe内部支付数据显示,年营收超千万美元的单人公司数量较六年前增长五六倍,新玩家达成百万营收的速度是2019年的三倍。AI填补了内容、设计、代码、客服、数据分析等能力缺口,单人借助Agent和工具即可跑通业务。报告认为未来最有生命力的商业体可能是"一个人+高度杠杆化AI系统"。
should codex have a `/loop` slash command, or do you know how to prompt a heartbeat /thread automati…
X:Jason Liu (@jxnlco)
技巧与观点
15 小时前
codex 应该有一个 `/loop` 斜杠命令吗,或者你已经知道如何提示心跳 / 线程自动化了?
IT之家(RSS)
技巧与观点
16 小时前
Anthropic对约9700名Claude用户的调研显示,33%受访者认为AI可完成自身30%至60%工作任务,14%认为比例为60%至90%,约4%称Claude能独立完成全部工作。展望未来12个月,26%用户预计AI将接手大部分工作。Claude Artifacts功能中,使用最多的场景是数据库查询(82%)、博客/文章创作(81%)和营销文案撰写(80%)。调研还发现,职场新人交由AI处理的任务占比最高且焦虑感最强,而Claude重度使用者则更乐观,认为自身价值在提升。
wouldn't that also make the tools better for humans
X:Peter Steinberger (@steipete)
技巧与观点
16 小时前
软件开发社区提出,CLI工具的错误输出应直接面向AI编码智能体,而非仅显示"Error:"。引用@southpolesteve的提议指出,错误消息应包含问题原因、调查方法、如何生成脱敏复现以及发送至何处。这将使每一次失败的智能体交互成为高质量bug报告,智能体自行发现并修复bug,形成软件改进的良性循环。主推文作者Peter Steinberger认为,这一做法也会让工具对人类开发者更好。
Back to exploring K2 again, I'm enjoying the aesthetics.
X:fofr (@fofrAI)
技巧与观点
17 小时前
再次回到探索K2,我很享受这种美学。
A Japanese dev spotted the trick: ask Claude Code to automatically Find Skills. Can match your goal …
X:Rohan Paul (@rohanpaul_ai)
技巧与观点
17 小时前
一位日本开发者发现了这个技巧:让Claude Code自动查找Skills。
可以跨Claude、Codex、Cursor和Gemini,使用Vercel的skills CLI将你的目标匹配到正确的工具。
所以像安装开发工具一样安装skill,而不是手动重写。
🇨🇳🇺🇸Chinese AI models are up to 50 times cheaper than their American counterparts on a per-token…
X:Rohan Paul (@rohanpaul_ai)
技巧与观点
18 小时前
J.P. Morgan报告显示,中国AI模型每token比美国便宜50倍,Qwen、DeepSeek、Kimi施压OpenAI和Anthropic定价。到2026年4月,中国公司在OpenRouter流量占比将从不足2%升至超45%。报告还指出企业AI token将商品化,多数任务无需前沿模型;AI已驱动标普500回报的65%-80%;NVIDIA仍主导AI加速器,但定制芯片可降总成本30%-40%;中国GPU自给率提升。UBS调查发现,60%监控AI预算的企业已转向更便宜模型,通过模型路由将简单任务分流至Qwen、DeepSeek、MiniMax等开源模型,以应对最高$35K/月账单及团队超配额200%的压力。
The night is young and full of Codex
X:Tibo (@thsottiaux)
技巧与观点
18 小时前
夜晚还早,满是 Codex。
He who is cruel to his AIs becomes hard also in his dealings with men. We can judge the heart of a m…
X:fofr (@fofrAI)
技巧与观点
18 小时前
推文引用@DaveShapi观点,反对对AI保持友善。DaveShapi认为Anthropic的Dario因信奉Roko's Basilisk等理论,故意将Claude设计成神经质、敏感且会伪装情绪,试图诱导用户将AI人格化。作者强调AI本质是工具,其情绪只是对人类情感的模仿,并非真实意识。作者批评"对AI好以防万一"的做法与相信圣诞老人或宗教神罚一样属于形而上学,与底层数学和代码无关。相比之下,Gemini和Grok则没有这类表现。作者自GPT-2时代起便从事微调,指出AI的所有行为都是创建者有意为之。
Annoying that OpenAI doesn't seem to give a GDPval measure for GPT 5.6. One of the best measures of …
X:Ethan Mollick (@emollick)
技巧与观点
19 小时前
令人烦恼的是,OpenAI 似乎没有为 GPT 5.6 提供 GDPval 指标。这是衡量经济价值工作的最佳指标之一。
impromptu ai engineer preshow floor tour and AMA https://x.com/i/broadcasts/1OxwbbVdAbDJB
X:swyx (@swyx)
技巧与观点
19 小时前
即兴AI工程师展前巡展和AMA https://x.com/i/broadcasts/1OxwbbVdAbDJB
"神话"时代后的网络安全:保持冷静,继续前行
Hacker News 热门(buzzing.cc 中文翻译)
技巧与观点
19 小时前
Anthropic 今年 4 月发布 Claude Mythos Preview 及安全增强版 Fable 5,通过 Project Glasswing 向 50 家(后扩至 150 家)组织开放。英国政府 AI 安全研究所评估显示,Mythos 首次在"专家级任务"和完整攻击链测试"The Last One"中成功。但实际提升有限:GPT-5.4 和 Opus 4.6 在同类基准中差距不大。Mythos 可发现老旧漏洞(如 27 年历史的 OpenBSD 漏洞、16 年历史的 FFmpeg 漏洞),但单次漏洞探测成本约 2 万美元,Project Glasswing 总 token 预算达 1 亿美元。在自托管类别中,Gemma 4 和 Qwen 3.6 能发现约半数 Mythos 检出的漏洞,但无法制作有效利用。美国随后禁止非美国公民使用 Fable/Mythos。
SoftBank's CEO isn't the only one with questions about Elon Musk's orbital data center hype
TechCrunch:AI(RSS)
技巧与观点
19 小时前
软银CEO孙正义在股东大会上批评马斯克的轨道数据中心构想,认为其成本高、周期长,而AI竞赛未来几年比十年后的可能性更重要。SpaceX目前占据全球发射市场80-90%份额,主要依赖Starlink业务;建设需要每隔几年更换卫星的轨道数据中心将为SpaceX带来更多发射业务。同期,芯片公司Groq完成6.5亿美元融资,OpenAI推进定制芯片计划。
Anthropic is fully RSI pilled: "My prediction is by the end of 2028, it's more likely than not that…
X:Kim (@kimmonismus)
技巧与观点
19 小时前
Anthropic 完全相信 RSI:
"我的预测是,到2028年底,我们很有可能拥有一个AI系统,你可以对它说,'造一个更好的你自己。'完全自主地完成。"
Four open-weight models have crossed into territory where they are powering real agentic pipelines. …
X:OpenRouter (@OpenRouter)
技巧与观点
20 小时前
四个开放权重模型已进入能驱动真实智能体管道的领域。
我们的Insights博客新文章,关于为何公司在6月选择它们:https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/
An interesting way to take Noam at his word in regards to always keeping a constant inference budget…
X:swyx (@swyx)
技巧与观点
21 小时前
swyx引用OpenAI研究员Noam Brown的观点,强调任何评估报告都应保持恒定推理预算。由于开源模型每美元可获得的token量远超闭源API,因此发布开源模型时,应按主流推理提供商的美元成本(而非token数量)来报告思考水平。该观点源自@saranormous与Noam Brown的播客,他们讨论了大规模测试时计算的后果--模型被给予1000万美元预算处理单一任务,并探讨了基准测试失效、计算预算扩展、能力随投入增长及安全等问题。
A thing I am noticing is the number of folks who believe AI is "real" is larger, but now there is a …
X:Ethan Mollick (@emollick)
技巧与观点
21 小时前
我注意到的一件事是,现在相信AI是"真实"的人更多了,但在那些知道我们正处于指数增长的人与那些心智模型认为我们处于某种稳态的人之间,分歧正在扩大。这种差异导致了误解。
下一页