📰 科技風向標 · 2026-07-03

#🚀 產品發佈/更新

#1. AI 版支付寶開放公測，螞蟻阿寶無需邀請碼即可體驗

支付寶阿寶 AI 助手今日正式開放公測，iOS 和安卓用戶可在應用商店或支付寶 App 搜索“阿寶”或“螞蟻阿寶”直接體驗。開通後右滑進入新版，以對話方式安排辦事，例如說出“查公積金”，阿寶會自動匹配對應小程序和服務入口，用戶點擊確認即可完成。支付寶承諾所有資金變動與支付環節均需用戶本人確認，掃碼、轉賬等功能已預留入口。

TIP
來源：IT之家（RSS）

#2. Google Health API 推出 CLI：ghealth 是一款針對 Fitbit 數據的開源工具

ghealth 是一款封裝 Google Health API v4 的開源命令行工具，以單個 Go 二進制文件發佈（Apache 2.0 協議）。它提供 40 種已驗證的數據類型（包括步數、心率、睡眠、體重、血氧飽和度、心率變異性等）的結構化 JSON 輸出。工具採用 Agent 優先設計，具備確定性退出碼、—dry-run 和 —raw 標誌，並附帶兩個 SKILL.md 文件供 AI 智能體使用。用戶需自行創建 OAuth 憑據，通過 PKCE S256 認證。數據來源覆蓋 Fitbit、Pixel Watch 及連接的第三方設備。

TIP
來源：MarkTechPost（RSS）

#3. Senior SWE-Bench：評估AI智能體作為高級工程師的基準測試

Senior SWE-Bench是一個開源基準測試，用於評估AI智能體完成高級軟件工程師級別任務的能力。任務分功能開發與Bug修復兩類：功能任務指令類似自然語言消息，採用驗證智能體基於專家配方自動生成行為測試；Bug任務要求根據日誌、profiling等運行時信息深入調查。排行榜顯示，Claude Opus 4.8搭配Mini-SWE-Agent（max effort）通過率24.0%，Claude Sonnet 5為19.4%，GPT-5.5為16.0%，最強前沿模型在超75%任務中未能達到高級工程師級別的正確性與品味。每個功能任務平均涉及11個文件，最強智能體也需數百步完成；中位指令長度僅為SWE-Bench Pro的31%。任…

TIP
來源：Hacker News 熱門（buzzing.cc 中文翻譯）

#4. Kimi K2.7 Code 已在 GitHub Copilot 上正式發佈

Kimi K2.7 Code 開源權重模型已在 GitHub Copilot 中正式可用，成為 Copilot 模型選擇器首個可選的開源權重模型，為編程工作流提供更低成本選擇。該模型由 GitHub 託管於 Microsoft Azure，按供應商列表價格以用量計費。逐步向 Copilot Pro、Pro+ 和 Max 計劃用戶推送，用戶可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等…

TIP
來源：Hacker News 熱門（buzzing.cc 中文翻譯）

#5. 阿里巴巴發佈 Page Agent：開源 JavaScript 庫實現網頁 DOM 自然語言操控

阿里巴巴發佈 Page Agent，一個開源的 JavaScript 客戶端庫，嵌入網頁後可通過自然語言指令直接操作 DOM 元素。與 Playwright、Puppeteer 等外部瀏覽器自動化工具不同，Page Agent 不依賴截圖或多模態模型，而是將實時 DOM 脫水壓縮為 FlatDomTree 文本映射，讓純文本模型精準執行點擊、表單填寫等操作。它繼承用戶 cookies 和會話，無需獨立後端，並支持任意 OpenAI 兼容端點的模型（示例使用 qwen3.5-plus）。項目採用 MIT 許可證，適合在自有應用內構建 AI 副駕、智能表單填充或無障礙控制等場景，但限於單頁面範圍，風險操作仍需服務端驗證。

TIP
來源：MarkTechPost（RSS）

#6. 崑崙萬維天工3.2發佈Skywork Tags，AI智能體加入工作群聊

崑崙萬維天工3.2發佈Skywork Tags，將AI智能體以團隊成員身份接入Slack、飛書、釘釘、Discord、Telegram等即時通訊工具。團隊可在原有工作群中@Skywork參與討論，無需切換窗口或遷移數據。共享版Agent持續吸收多樣上下文後表現反超精心調教的個人版，團隊最終完全改用共享版。Skywork Tags不要求改變工作方式，讓AI積累團隊上下文並越用越強。

TIP
來源：公眾號：崑崙萬維（天工）

#7. Claude Enterprise 新增用量與成本分析及支出管控功能

Claude Enterprise 推出更豐富的管理分析工具和成本控制功能。儀表板現可按群組和用戶分析用量與成本，支持按 SCIM 群組篩選，展示製品創建、文件編輯、技能和連接器對應的成本。Claude Code 管理控制檯新增“使用量”和“價值”選項卡，分別顯示活躍開發者、會話次數、常用命令，以及生產力提升估算、每次提交成本和年度價值估算。分析聊天支持自然語言查詢並返回可導出圖表。Analytics API 可將數據接入 Datadog Cloud Cost Management 和 CloudZero。管理員可設置模型默認和權限控制，並配置組織級支出限額的 75%、90% 告警通知；用戶在 75% 和 95% 時收到應用內提醒。…

TIP
來源：Claude：Blog（網頁）

#🏛️ 行業動態

#1. Microsoft 成立“Frontier Company”，斥資 25 億美元派駐 6000 名 AI 工程師到企業客戶現場

Microsoft 新設業務部門“Frontier Company”，撥款 25 億美元，將 6000 名行業與工程專家派駐企業客戶現場，“共同設計、共同創新、部署並持續改進 AI 系統”。該部門由 Rodrigo Kede Lima 領導，旨在超越“前部署工程”模式，成為“最大、以結果為導向的工程組織”。Microsoft 將自己定位為 OpenAI 和 Anthropic 的“平臺中立”替代方案，後兩者也已設立專門部署公司。Microsoft 將藉助埃森哲、凱捷、安永等系統集成商擴大覆蓋範圍。

TIP
來源：The Decoder：AI News（RSS）

#2. Anthropic與五角大樓控權之爭：Claude軍事用途護欄分歧

WSJ法庭文件顯示，Anthropic CEO Dario Amodei與五角大樓副部長Emil Michael數月郵件往來，核心分歧在於Claude的軍事用途護欄。Anthropic要求禁止全自主武器及某些監控用途，五角大樓則希望Claude可用於所有合法國家安全場景。Michael稱若分歧太大不願“強行推動”。隨後五角大樓將Anthropic列為供應鏈風險，阻止合作伙伴在國防部項目中使用其模型。法官暫停部分措施，政府正在上訴。Michael稱原先採用Anthropic的操作中已有三分之二切換至其他AI工具。

TIP
來源：X：Kim (@kimmonismus)

#3. OpenAI提議美國政府持股5%估值426億美元

據Financial Times和CNBC報道，OpenAI提議向美國政府提供公司5%的股份，按近期8520億美元估值計算，價值約426億美元。OpenAI CEO Sam Altman表示，此舉是與公眾分享AI發展紅利的最佳方式。

TIP
來源：X：Testing Catalog (@testingcatalog)

#4. 花旗、Adobe等企業限制員工使用AI旗艦模型以控制成本

據404 Media獲取的內部資料，Atlassian、Adobe、亞馬遜等六家企業正限制員工使用AI工具，要求改用能力較低的大模型避免成本失控。至少一家企業月度AI開銷增至三倍，超1500萬美元。花旗銀行因GitHub改為按量計費，於6月24日禁用Claude Opus 4.6、4.7及GPT-5.5等旗艦模型。Adobe於6月30日終止Claude無限制使用協議。Atlassian數據顯示其AI月支出從500萬美元飆升至1500萬美元，本財年預計超1.2億美元。GitHub計劃改用開源模型並測試單人按量計費模式。

TIP
來源：IT之家（RSS）

#5. 快手可靈AI獲初始投資者20.28億美元注資，投後估值180億美元

快手在港交所公告，21名初始投資者同意以138.24億元人民幣（20.28億美元）現金注資北京可靈，後者將持有可靈AI相關資產。同日15名額外投資者追加出資52.235億元人民幣（7.6639億美元），認購總上限為204.471億元（30億美元），對應北京可靈擴大後註冊資本的16.67%。投後估值180億美元。快手預計未來12個月內啟動可靈AI赴港上市，募資用於擴充算力、建設數據中心及人才引進。

TIP
來源：IT之家（RSS）

#6. 谷歌AI建設導致2025年用電量增長37%

2025年，谷歌年度用電量同比上漲37%，創歷史最大增幅。數據中心全年消耗超4200萬兆瓦時，超過新西蘭、丹麥、尼日利亞等國總用電量。自2019年以來，谷歌總用電量已增長超250%。用電激增主要來自Google Cloud、YouTube視頻流及支撐AI產品和服務的數據中心建設與運營。公司表示，AI基礎設施建設速度超過電網脫碳速度，但仍致力於擴大全球清潔電力規模，並通過技術創新降低運營排放。2024年穀歌用電量增幅為27%。

TIP
來源：Ars Technica：AI（RSS）

#📄 論文研究

#1. 關於Mythos和網絡安全的討論並非炒作

關於Mythos和網絡安全的討論並非炒作。（正如任何使用Fable進行自主工作的人可能已經認識到的那樣。）

TIP
來源：X：Ethan Mollick (@emollick)

#2. 多智能體團隊阻礙專家發揮

在自我組織的多智能體LLM系統中，團隊無法有效利用專家成員的專業知識。在多個基準測試中，即使明確告知專家身份，團隊表現仍落後於最佳成員（專家智能體）的獨立能力，性能損失最高達41.1%。失敗主因是未能有效利用專家意見，而非識別專家。對話分析顯示，團隊傾向於“整合性妥協”——平均化專家與非專家觀點，隨團隊規模增大而加劇，且與表現負相關。這種尋求共識的行為同時提升了對抗惡意智能體的魯棒性，揭示了協同對齊與專業利用之間的根本性權衡。

TIP
來源：Apple Machine Learning Research（RSS）

#3. RL微調VLM的魯棒性與思維鏈一致性研究

強化學習（RL）微調被擴展至視覺語言模型（VLM）。研究發現，簡單的文本擾動——誤導性標題或錯誤思維鏈（CoT）——會顯著降低模型魯棒性和置信度，且開源模型衰退更明顯。閉源模型呈現類似失敗模式，但魯棒性和推理一致性更強。進一步分析揭示準確性與忠實性的權衡：微調提升基準準確率，但同時侵蝕CoT的可靠性及對上下文變化的魯棒性；對抗性增強可改善魯棒性，卻無法阻止忠實性漂移。引入忠實性感知獎勵能恢復答案與推理的對齊，但與增強結合時訓練易崩潰到捷徑策略。這些發現強調需聯合關注正確性、魯棒性與視覺推理的忠實性。

TIP
來源：Apple Machine Learning Research（RSS）

#4. VideoFlexTok：可變長度粗到細視頻分詞

VideoFlexTok提出一種可變長度token序列的視頻表示方法，採用粗到細結構——首個token捕捉語義和運動等抽象信息，後續token添加精細細節，生成流解碼器支持任意token數量的視頻重建。相比傳統3D網格分詞，該結構允許根據下游需求調整token數，在相同預算下編碼更長視頻。在類別和文本到視頻生成任務中，VideoFlexTok以1.1B參數（5.2B的1/5）達到可比生成質量（gFVD和ViCLIP Score）。訓練一個處理10秒81幀視頻的文本到視頻模型僅需672個token，比同等3D網格分詞器少8倍。

TIP
來源：Apple Machine Learning Research（RSS）

#💡 技巧與觀點

#1. browser-use 發佈開源 AI 視頻剪輯 Skill「video-use」

browser-use 團隊推出面向 Codex、Claude Code 等 AI 編碼智能體的開源 Skill「video-use」，讓 LLM 通過 ElevenLabs Scribe 將音頻轉寫為約 12KB 文本（含逐詞時間戳、說話人分離、事件標記），僅在決策點調用 timeline_view.py 生成 PNG 幀圖。技術流水線包括轉寫、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 輪自評估。渲染關鍵細節：分段提取 + -c copy 拼接、30ms 音頻淡入淡出、PTS 時移、字幕最後疊加、HDR 自動映射、豎屏縮放、兩-pass loudnorm。動畫支持 HyperFrames、Remotio…

TIP
來源：X：邵猛 (@shao__meng)

#2. Emil Kowalski 發佈設計工程師 Skills，讓 AI 編碼工具具備 UI 動畫審美

Emil Kowalski 將多年 UI/動畫原則沉澱為三個 Skill，使 Codex、Claude Code、Cursor 等 Coding Agents 具備資深設計工程師的審美判斷。核心規則：動畫必須有理由；每天 100+ 次的高頻操作禁用動畫；UI 動畫控制在 300ms 內；只動畫 transform 和 opacity；入口從 scale(0.95)+opacity:0 開始；尊重 prefers-reduced-motion（僅移除位移動畫）。review-animations 以嚴格標準審查動畫代碼，輸出 Before/After/Why 表格。animation-vocabulary 將模糊描述（如“彈一下的效果…

TIP
來源：X：邵猛 (@shao__meng)

#3. Fable 5 在 RLI 基準中達成 16.1% 自動化率，較八個月前提升六倍

Remote Labor Index（RLI）衡量 AI 智能體完成 240 個付費自由職業項目（總值 14.4 萬美元）的專業質量比例。最新結果顯示，Fable 5 自動化率達 16.1%，是八個月前最佳系統 2.5% 的六倍多，也超過 Opus 4.8（8.3%）和 GPT-5.5（6.3%）。因美國政府限制訪問，Fable 5 僅完成 218/240 個項目評估，最壞情況仍達 14.6%。Gemini 3 Pro 僅 1.25%，落後於更老模型。AI 裁判會高估模型表現（GPT-5.5 評分偏高近三倍），仍需人類評估員打開專業軟件（如 Blender）檢驗幾何模型等細節。測試環境為虛擬 Linux 機，配備 30 餘款專業應用…

TIP
來源：The Decoder：AI News（RSS）

#4. Fable 5 僅 4.44 美元搭建 Rube Goldberg 機器

用 Fable 5 構建的魯布·戈德堡機械，僅需 4.44 美元 👀 提示詞在此：https://www.reddit.com/r/openrouter/comments/1ulkilz/i_asked_claude_fable_5_to_build_a_rube_goldberg/

TIP
來源：X：OpenRouter (@OpenRouter)

#5. 千問團隊朱達：C端Agent Harness的“多快好省”工程哲學與主動服務探索

千問團隊2026年1月上線通用複雜任務Agent（千問App膠囊入口），總結“多快好省”方法論：支持信息蒐集、研究分析等任務；執行時間降至初始1/3；通過搜索範式與上下文管理優化交付質量；Token消耗僅為海外產品1/10。團隊探索從被動響應轉向主動服務，構建User Memory、Environment、Task System、Assistant四大組件，指出“情商”是主動服務最難環節。朱達提出Agent工程從Prompt Engineering演進至Harness Engineering，下一站是A IWare Engineering，強調“低功耗，夠用就行”。

TIP
來源：公眾號：千問APP（阿里）

#6. Agent輔助的SGLang開發：初步探索

SGLang團隊將LLM服務、分佈式運行時、GPU內核、擴散管道等工作流編碼為可執行的SKILL.md文件、腳本、基準合約和審查循環。現有技能包括：SGLang .claude/skills（CUDA調試、內核集成、性能分析等）、SGLang diffusion .claude/skills（擴散模型添加與調優）、BBuf/AI-Infra-Auto-Driven-SKILLS（跨框架SOTA循環）、KDA（MLSys 2026 FlashInfer內核競賽獲勝方案）以及BBuf/KDA-Pilot（已合併三個SGLang集成PR）。Profile證據是性能工作的核心，長期優化轉向Loop Engineering——SGLang S…

TIP
來源：LMSYS：Blog（Chatbot Arena 團隊）

#7. 借用夜晚：將閒置推理GPU回收用於研究

Runway 開發了名為 deckard 的容量控制器，在生產推理集群與研究集群間動態重分配 GPU。生產流量在北美工作日上午 9 點 ET 達峰，晚 8 點 ET 跌至不足一半。控制器基於預計算的時間窗口（如工作日 8:30–12:30 ET 高峰子窗口）提前擴容和回收，每次集群間轉移耗時 20–60 分鐘。利用排隊論（Erlang‑C、Little’s Law）確定目標利用率，避免接近 85% 後的隊列發散（90% 利用率下等待時間約為服務時間的 10 倍）。此方案使夜間閒置 GPU 迴歸研究、白天排隊等待縮短。

TIP
來源：Runway：News（網頁）