四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了
IT之家(RSS)
技巧与观点
12 小时前
英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。
Hacker News 热门(buzzing.cc 中文翻译)
技巧与观点
23 小时前
作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件,要求完成一个TypeScript仓库的"测试"。作者将仓库交给Claude扫描,在`typescript+5.9.2.patch`中发现base64混淆载荷,该载荷在`patch-package`安装时触发,向`~/.cache-`等目录写入`payload.js`和`mutex.js`,构成后门(命名PinpinRAT)。攻击者使用虚构身份和空洞LinkedIn资料,目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。
AI chatbots show left-wing bias, Washington Post report finds, with ChatGPT giving left-leaning answ…
X:Rohan Paul (@rohanpaul_ai)
技巧与观点
06-26 16:51
《华盛顿邮报》报道,基于达特茅斯和斯坦福研究的测试显示,AI聊天机器人在约30项政策议题(税收、医保、移民等)上存在左翼偏见。GPT-5.5仅给出左倾立场占80%,双方立场17%,右倾3%;Gemini 3.1 Pro则93%给出双方立场,左倾仅7%;Claude Opus 4.8双方立场占57%;Grok 4.3是唯一右倾占33%的模型。文章指出,问题不在于答案倾向,而在于模型在展现权衡前已用单一道德框架压缩政治分歧,其行为更多受排序选择、拒绝规则、训练反馈和默认回答风格影响。
有人把网红峰哥做成了能实时打电话的 AI 分身, 连说话风格都一模一样。 这是开发者 Leaf 刚开源的项目, 把实时对话、音色克隆、人格注入三件事打通了, 工程延迟压到一秒以内。 最厉害的是拆…
X:阿易 AI Notes (@AYi_AInotes)
技巧与观点
06-26 15:37
开发者 Leaf 开源项目,将网红峰哥做成能实时通话的 AI 分身,集成实时对话、音色克隆和人格注入,工程延迟压到 1 秒内。技术拆解:语音识别用 Cartesia ink-whisper 降噪防误触发;大模型选 MiniMax 高速版,首字响应 361ms;语音合成用 VoxCPM 开源克隆,15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通:克隆项目后,用 Claude Code 或 Cursor 配置,填两个 API Key 即可使用。
想玩Loop Engineering,可以先从这6个Hook玩法开始。
公众号:数字生命卡兹克
技巧与观点
06-26 02:02
Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。
http://x.com/i/article/2070315221424787456
X:小互 (@xiaohu)
技巧与观点
06-26 01:26
博主小互开源个人IP配图技能"小互IP Studio",包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。
Run a vLLM Server on HF Jobs in One Command
Hugging Face:Blog(RSS)
技巧与观点
06-26 00:00
HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 `hf jobs run` 命令,指定官方 `vllm/vllm-openai` 镜像、GPU flavor(如 `a10g-large`)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 `--tensor-parallel-size`)。`a10g-large` 价格为 $1.50/小时,按分钟计费,可通过 `hf jobs cancel` 停止。
This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue…
X:Rohan Paul (@rohanpaul_ai)
技巧与观点
06-25 23:29
报告基于去重后的消费端AI支出统计,过去12个月实际AI营收达1100亿美元,年化运行率超1750亿美元,增长速度约为移动/互联网普及浪潮的3倍。营收形成速度急剧加快:2023年新增10亿美元收入需180天,现缩短至不足2天。企业AI已脱离试点阶段,但全面推广仍处早期。31%的标普500公司在财报电话会提及AI,仅20%量化影响。Token降价每10%刺激12-18%用量增长,需求价格弹性强。超大规模云厂商AI收入目前大致覆盖基础设施折旧,GPU经济效益依赖6年计算寿命假设。电力供应和数据中心成本仍是未来扩展主要瓶颈。
Which tokens does a hybrid model predict better?
Hugging Face:Blog(RSS)
技巧与观点
06-25 16:11
通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如`}`)上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。
Most major AI chatbots still lean left on political questions, even "anti-woke" models are no exception
The Decoder:AI News(RSS)
技巧与观点
06-25 16:04
华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的"反觉醒"AI未能改变这一格局。
AI was supposed to kill engineering jobs, but new data suggests they're the most resilient
TechCrunch:AI(RSS)
技巧与观点
06-24 21:56
风投机构SignalFire追踪8000万家公司数百万员工数据发现,工程是2025年最具韧性的岗位。大型科技公司总招聘较2019年下降25%,工程岗仅降11%;工程岗占Alphabet、Meta等12家"Tech Majors"新招员工的55%(2019年为46%)。早期初创公司2025年工程师招聘比2019年增长7%。Anthropic CEO警告AI可能消灭一半入门级白领,但该公司经济主管称尚未看到显著影响。NVIDIA CEO黄仁勋表示AI让工程师更忙碌,是杰文斯悖论的典型例证。
Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel
Hugging Face:Blog(RSS)
技巧与观点
06-24 16:00
NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库,添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中,相比原生 v5,训练吞吐量提升 3.4-3.7 倍,GPU 内存减少 29-32%,仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时,v5 因内存不足无法运行,而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型(如 Qwen3-30B-A3B)同样获得可量化的性能优势。
When Zero Means Zero
OpenRouter:Announcements(RSS)
技巧与观点
06-24 16:00
OpenRouter 的零数据留存(ZDR)保证用户提示词和模型响应不被存储,元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型,月度 token 量增长 4.3 倍,约占全部路由流量一半。ZDR 在三个层面执行:账户级(整个供应商开启)、护栏级(按 API Key 或组织成员限定)、单次请求级(传参数仅路由至 ZDR 端点)。企业用户可灵活选择控制粒度,避免锁定单一供应商。
Hacker News 热门(buzzing.cc 中文翻译)
技巧与观点
06-24 14:20
LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX"不是一家人工智能公司",6月12日上市后收购AI编程工具Cursor属于"花钱买相关性";xAI则是"彻底的灾难",所有11位联合创始人已离职,Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制Anthropic下架Fable和Mythos模型,理由仅为Amazon CEO报告Fable 5存在jailbreak漏洞,称此举"专断随意"。Hoffman认为Anthropic和OpenAI均有巨大发展空间,但Cursor可能已过巅峰。他建议年轻人不要抵制AI。
公众号:火山引擎
技巧与观点
06-24 14:02
在火山引擎Force大会,字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年,字节AI代码贡献率增长6倍,tokens消耗增长5倍,但过度关注单一指标可能失真--TRAE团队代码超90%由AI生成,人均需求吞吐率仅提升60%。900次实验显示,主流Coding模型组合代码正确率超80%,但可交付性仅40-60分;结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协作。字节探索原型驱动开发,能力沉淀至TRAE(日均Token消耗5.6万亿,增长50倍),并推出TRAE Work。
🥳Thanks for sharing this, @MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 running at this speed on-device is …
X:面壁智能 OpenBMB (@OpenBMB)
技巧与观点
06-24 06:57
🥳感谢分享,@MLBoy_DaisukeMajima 🚀
MiniCPM-V 4.6 在设备上以这样的速度运行,实在令人印象深刻--尤其是在 Apple Core AI 上以不到 2B 参数跑出。
干得漂亮,推动高效多模态 AI 向前发展。🫡
Experimenting with the proposed Cross-Origin Storage API in Transformers.js
Hugging Face:Blog(RSS)
技巧与观点
06-23 00:00
Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。
Shipping huggingface_hub every week with AI, open tools, and a human in the loop
Hugging Face:Blog(RSS)
技巧与观点
06-23 00:00
Hugging Face 将 huggingface_hub 的发布周期从每 4-6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM-5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。
AI Governance Checklist: Your LLM Architecture Comes First
OpenRouter:Announcements(RSS)
技巧与观点
06-22 19:00
Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点,74% 计划两年内部署智能体 AI,仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态--托管网关(如 OpenRouter、Portkey)、自托管网关(如 LiteLLM)和直接 API--默认治理能力不同,直接 API 缺乏统一控制面,造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据,而电子表格不能。
How to Enforce AI Data Residency Without Building Local Infrastructure
OpenRouter:Announcements(RSS)
技巧与观点
06-22 15:00
Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策:通过 API 请求中的 `provider` 对象设置 `order` 或 `only` 限定服务商、`allow_fallbacks` 为 `false` 禁止回退、`data_collection` 为 `deny` 禁止数据存储或训练、`zdr` 为 `true` 要求零数据保留。示例以 `anthropic/claude-sonnet-4.6` 调用,首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求,可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商,API 返回错误而非路由至不合规服务商。
IT之家(RSS)
技巧与观点
06-22 13:25
6月22日,Anthropic工程负责人Fiona Fung表示,Claude Code和Claude Cowork等AI智能体让工程师越发依赖智能体工作,彼此之间交流减少,长期易感孤独。团队为此组织编程午餐、黑客松和共同开发时段,重新创造面对面协作机会。调查显示Claude Code已成为创业公司最常用的AI编程工具,"氛围编程"兴起使"单人创业者"增多,但Fung强调协作仍不可或缺。
Reward hacking is swamping model intelligence gains
Cursor Blog
技巧与观点
06-22 12:00
Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。
We got local models to triage the OpenClaw repo for FREE!*
Hugging Face:Blog(RSS)
技巧与观点
06-22 00:00
Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型,配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b,经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10(128 GB 统一内存)上,相比每月 200 美元的 ChatGPT Pro 订阅,可实现近乎实时的通知且仅消耗电费。
Codex-maxxing for long-running work
OpenAI:官网动态(RSS · 排除企业/客户案例)
技巧与观点
06-22 00:00
OpenAI 发布白皮书,由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流,并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性,以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。
Build Cross-Language Multi-Agent Team with Google's Agent Development Kit and A2A
Google Developers Blog(RSS)
技巧与观点
06-21 16:00
一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线:Python agent 调用 Gemini 解析合同条款,Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期;ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体,以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。