4117 字
23 分鐘
請注意,本文最後修改於 0 天前。
📰 科技風向標 · 2026-07-03
Cover image for 📰 科技風向標 · 2026-07-03

#🚀 產品發佈/更新

#1. AI 版支付寶開放公測,螞蟻阿寶無需邀請碼即可體驗

支付寶阿寶 AI 助手今日正式開放公測,iOS 和安卓用戶可在應用商店或支付寶 App 搜索“阿寶”或“螞蟻阿寶”直接體驗。開通後右滑進入新版,以對話方式安排辦事,例如說出“查公積金”,阿寶會自動匹配對應小程序和服務入口,用戶點擊確認即可完成。支付寶承諾所有資金變動與支付環節均需用戶本人確認,掃碼、轉賬等功能已預留入口。

TIP

來源:IT之家(RSS)

#2. Google Health API 推出 CLI:ghealth 是一款針對 Fitbit 數據的開源工具

ghealth 是一款封裝 Google Health API v4 的開源命令行工具,以單個 Go 二進制文件發佈(Apache 2.0 協議)。它提供 40 種已驗證的數據類型(包括步數、心率、睡眠、體重、血氧飽和度、心率變異性等)的結構化 JSON 輸出。工具採用 Agent 優先設計,具備確定性退出碼、—dry-run 和 —raw 標誌,並附帶兩個 SKILL.md 文件供 AI 智能體使用。用戶需自行創建 OAuth 憑據,通過 PKCE S256 認證。數據來源覆蓋 Fitbit、Pixel Watch 及連接的第三方設備。

TIP

來源:MarkTechPost(RSS)

#3. Senior SWE-Bench:評估AI智能體作為高級工程師的基準測試

Senior SWE-Bench是一個開源基準測試,用於評估AI智能體完成高級軟件工程師級別任務的能力。任務分功能開發與Bug修復兩類:功能任務指令類似自然語言消息,採用驗證智能體基於專家配方自動生成行為測試;Bug任務要求根據日誌、profiling等運行時信息深入調查。排行榜顯示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通過率24.0%,Claude Sonnet 5為19.4%,GPT-5.5為16.0%,最強前沿模型在超75%任務中未能達到高級工程師級別的正確性與品味。每個功能任務平均涉及11個文件,最強智能體也需數百步完成;中位指令長度僅為SWE-Bench Pro的31%。任…

TIP

來源:Hacker News 熱門(buzzing.cc 中文翻譯)

#4. Kimi K2.7 Code 已在 GitHub Copilot 上正式發佈

Kimi K2.7 Code 開源權重模型已在 GitHub Copilot 中正式可用,成為 Copilot 模型選擇器首個可選的開源權重模型,為編程工作流提供更低成本選擇。該模型由 GitHub 託管於 Microsoft Azure,按供應商列表價格以用量計費。逐步向 Copilot Pro、Pro+ 和 Max 計劃用戶推送,用戶可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等…

TIP

來源:Hacker News 熱門(buzzing.cc 中文翻譯)

#5. 阿里巴巴發佈 Page Agent:開源 JavaScript 庫實現網頁 DOM 自然語言操控

阿里巴巴發佈 Page Agent,一個開源的 JavaScript 客戶端庫,嵌入網頁後可通過自然語言指令直接操作 DOM 元素。與 Playwright、Puppeteer 等外部瀏覽器自動化工具不同,Page Agent 不依賴截圖或多模態模型,而是將實時 DOM 脫水壓縮為 FlatDomTree 文本映射,讓純文本模型精準執行點擊、表單填寫等操作。它繼承用戶 cookies 和會話,無需獨立後端,並支持任意 OpenAI 兼容端點的模型(示例使用 qwen3.5-plus)。項目採用 MIT 許可證,適合在自有應用內構建 AI 副駕、智能表單填充或無障礙控制等場景,但限於單頁面範圍,風險操作仍需服務端驗證。

TIP

來源:MarkTechPost(RSS)

#6. 崑崙萬維天工3.2發佈Skywork Tags,AI智能體加入工作群聊

崑崙萬維天工3.2發佈Skywork Tags,將AI智能體以團隊成員身份接入Slack、飛書、釘釘、Discord、Telegram等即時通訊工具。團隊可在原有工作群中@Skywork參與討論,無需切換窗口或遷移數據。共享版Agent持續吸收多樣上下文後表現反超精心調教的個人版,團隊最終完全改用共享版。Skywork Tags不要求改變工作方式,讓AI積累團隊上下文並越用越強。

TIP

來源:公眾號:崑崙萬維(天工)

#7. Claude Enterprise 新增用量與成本分析及支出管控功能

Claude Enterprise 推出更豐富的管理分析工具和成本控制功能。儀表板現可按群組和用戶分析用量與成本,支持按 SCIM 群組篩選,展示製品創建、文件編輯、技能和連接器對應的成本。Claude Code 管理控制檯新增“使用量”和“價值”選項卡,分別顯示活躍開發者、會話次數、常用命令,以及生產力提升估算、每次提交成本和年度價值估算。分析聊天支持自然語言查詢並返回可導出圖表。Analytics API 可將數據接入 Datadog Cloud Cost Management 和 CloudZero。管理員可設置模型默認和權限控制,並配置組織級支出限額的 75%、90% 告警通知;用戶在 75% 和 95% 時收到應用內提醒。…

TIP

來源:Claude:Blog(網頁)


#🏛️ 行業動態

#1. Microsoft 成立“Frontier Company”,斥資 25 億美元派駐 6000 名 AI 工程師到企業客戶現場

Microsoft 新設業務部門“Frontier Company”,撥款 25 億美元,將 6000 名行業與工程專家派駐企業客戶現場,“共同設計、共同創新、部署並持續改進 AI 系統”。該部門由 Rodrigo Kede Lima 領導,旨在超越“前部署工程”模式,成為“最大、以結果為導向的工程組織”。Microsoft 將自己定位為 OpenAI 和 Anthropic 的“平臺中立”替代方案,後兩者也已設立專門部署公司。Microsoft 將藉助埃森哲、凱捷、安永等系統集成商擴大覆蓋範圍。

TIP

來源:The Decoder:AI News(RSS)

#2. Anthropic與五角大樓控權之爭:Claude軍事用途護欄分歧

WSJ法庭文件顯示,Anthropic CEO Dario Amodei與五角大樓副部長Emil Michael數月郵件往來,核心分歧在於Claude的軍事用途護欄。Anthropic要求禁止全自主武器及某些監控用途,五角大樓則希望Claude可用於所有合法國家安全場景。Michael稱若分歧太大不願“強行推動”。隨後五角大樓將Anthropic列為供應鏈風險,阻止合作伙伴在國防部項目中使用其模型。法官暫停部分措施,政府正在上訴。Michael稱原先採用Anthropic的操作中已有三分之二切換至其他AI工具。

TIP

來源:X:Kim (@kimmonismus)

#3. OpenAI提議美國政府持股5%估值426億美元

據Financial Times和CNBC報道,OpenAI提議向美國政府提供公司5%的股份,按近期8520億美元估值計算,價值約426億美元。OpenAI CEO Sam Altman表示,此舉是與公眾分享AI發展紅利的最佳方式。

TIP

來源:X:Testing Catalog (@testingcatalog)

#4. 花旗、Adobe等企業限制員工使用AI旗艦模型以控制成本

據404 Media獲取的內部資料,Atlassian、Adobe、亞馬遜等六家企業正限制員工使用AI工具,要求改用能力較低的大模型避免成本失控。至少一家企業月度AI開銷增至三倍,超1500萬美元。花旗銀行因GitHub改為按量計費,於6月24日禁用Claude Opus 4.6、4.7及GPT-5.5等旗艦模型。Adobe於6月30日終止Claude無限制使用協議。Atlassian數據顯示其AI月支出從500萬美元飆升至1500萬美元,本財年預計超1.2億美元。GitHub計劃改用開源模型並測試單人按量計費模式。

TIP

來源:IT之家(RSS)

#5. 快手可靈AI獲初始投資者20.28億美元注資,投後估值180億美元

快手在港交所公告,21名初始投資者同意以138.24億元人民幣(20.28億美元)現金注資北京可靈,後者將持有可靈AI相關資產。同日15名額外投資者追加出資52.235億元人民幣(7.6639億美元),認購總上限為204.471億元(30億美元),對應北京可靈擴大後註冊資本的16.67%。投後估值180億美元。快手預計未來12個月內啟動可靈AI赴港上市,募資用於擴充算力、建設數據中心及人才引進。

TIP

來源:IT之家(RSS)

#6. 谷歌AI建設導致2025年用電量增長37%

2025年,谷歌年度用電量同比上漲37%,創歷史最大增幅。數據中心全年消耗超4200萬兆瓦時,超過新西蘭、丹麥、尼日利亞等國總用電量。自2019年以來,谷歌總用電量已增長超250%。用電激增主要來自Google Cloud、YouTube視頻流及支撐AI產品和服務的數據中心建設與運營。公司表示,AI基礎設施建設速度超過電網脫碳速度,但仍致力於擴大全球清潔電力規模,並通過技術創新降低運營排放。2024年穀歌用電量增幅為27%。

TIP

來源:Ars Technica:AI(RSS)


#📄 論文研究

#1. 關於Mythos和網絡安全的討論並非炒作

關於Mythos和網絡安全的討論並非炒作。 (正如任何使用Fable進行自主工作的人可能已經認識到的那樣。)

TIP

來源:X:Ethan Mollick (@emollick)

#2. 多智能體團隊阻礙專家發揮

在自我組織的多智能體LLM系統中,團隊無法有效利用專家成員的專業知識。在多個基準測試中,即使明確告知專家身份,團隊表現仍落後於最佳成員(專家智能體)的獨立能力,性能損失最高達41.1%。失敗主因是未能有效利用專家意見,而非識別專家。對話分析顯示,團隊傾向於“整合性妥協”——平均化專家與非專家觀點,隨團隊規模增大而加劇,且與表現負相關。這種尋求共識的行為同時提升了對抗惡意智能體的魯棒性,揭示了協同對齊與專業利用之間的根本性權衡。

TIP

來源:Apple Machine Learning Research(RSS)

#3. RL微調VLM的魯棒性與思維鏈一致性研究

強化學習(RL)微調被擴展至視覺語言模型(VLM)。研究發現,簡單的文本擾動——誤導性標題或錯誤思維鏈(CoT)——會顯著降低模型魯棒性和置信度,且開源模型衰退更明顯。閉源模型呈現類似失敗模式,但魯棒性和推理一致性更強。進一步分析揭示準確性與忠實性的權衡:微調提升基準準確率,但同時侵蝕CoT的可靠性及對上下文變化的魯棒性;對抗性增強可改善魯棒性,卻無法阻止忠實性漂移。引入忠實性感知獎勵能恢復答案與推理的對齊,但與增強結合時訓練易崩潰到捷徑策略。這些發現強調需聯合關注正確性、魯棒性與視覺推理的忠實性。

TIP

來源:Apple Machine Learning Research(RSS)

#4. VideoFlexTok:可變長度粗到細視頻分詞

VideoFlexTok提出一種可變長度token序列的視頻表示方法,採用粗到細結構——首個token捕捉語義和運動等抽象信息,後續token添加精細細節,生成流解碼器支持任意token數量的視頻重建。相比傳統3D網格分詞,該結構允許根據下游需求調整token數,在相同預算下編碼更長視頻。在類別和文本到視頻生成任務中,VideoFlexTok以1.1B參數(5.2B的1/5)達到可比生成質量(gFVD和ViCLIP Score)。訓練一個處理10秒81幀視頻的文本到視頻模型僅需672個token,比同等3D網格分詞器少8倍。

TIP

來源:Apple Machine Learning Research(RSS)


#💡 技巧與觀點

#1. browser-use 發佈開源 AI 視頻剪輯 Skill「video-use」

browser-use 團隊推出面向 Codex、Claude Code 等 AI 編碼智能體的開源 Skill「video-use」,讓 LLM 通過 ElevenLabs Scribe 將音頻轉寫為約 12KB 文本(含逐詞時間戳、說話人分離、事件標記),僅在決策點調用 timeline_view.py 生成 PNG 幀圖。技術流水線包括轉寫、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 輪自評估。渲染關鍵細節:分段提取 + -c copy 拼接、30ms 音頻淡入淡出、PTS 時移、字幕最後疊加、HDR 自動映射、豎屏縮放、兩-pass loudnorm。動畫支持 HyperFrames、Remotio…

TIP

來源:X:邵猛 (@shao__meng)

#2. Emil Kowalski 發佈設計工程師 Skills,讓 AI 編碼工具具備 UI 動畫審美

Emil Kowalski 將多年 UI/動畫原則沉澱為三個 Skill,使 Codex、Claude Code、Cursor 等 Coding Agents 具備資深設計工程師的審美判斷。核心規則:動畫必須有理由;每天 100+ 次的高頻操作禁用動畫;UI 動畫控制在 300ms 內;只動畫 transform 和 opacity;入口從 scale(0.95)+opacity:0 開始;尊重 prefers-reduced-motion(僅移除位移動畫)。review-animations 以嚴格標準審查動畫代碼,輸出 Before/After/Why 表格。animation-vocabulary 將模糊描述(如“彈一下的效果…

TIP

來源:X:邵猛 (@shao__meng)

#3. Fable 5 在 RLI 基準中達成 16.1% 自動化率,較八個月前提升六倍

Remote Labor Index(RLI)衡量 AI 智能體完成 240 個付費自由職業項目(總值 14.4 萬美元)的專業質量比例。最新結果顯示,Fable 5 自動化率達 16.1%,是八個月前最佳系統 2.5% 的六倍多,也超過 Opus 4.8(8.3%)和 GPT-5.5(6.3%)。因美國政府限制訪問,Fable 5 僅完成 218/240 個項目評估,最壞情況仍達 14.6%。Gemini 3 Pro 僅 1.25%,落後於更老模型。AI 裁判會高估模型表現(GPT-5.5 評分偏高近三倍),仍需人類評估員打開專業軟件(如 Blender)檢驗幾何模型等細節。測試環境為虛擬 Linux 機,配備 30 餘款專業應用…

TIP

來源:The Decoder:AI News(RSS)

#4. Fable 5 僅 4.44 美元搭建 Rube Goldberg 機器

用 Fable 5 構建的魯布·戈德堡機械,僅需 4.44 美元 👀 提示詞在此:https://www.reddit.com/r/openrouter/comments/1ulkilz/i_asked_claude_fable_5_to_build_a_rube_goldberg/

TIP

來源:X:OpenRouter (@OpenRouter)

#5. 千問團隊朱達:C端Agent Harness的“多快好省”工程哲學與主動服務探索

千問團隊2026年1月上線通用複雜任務Agent(千問App膠囊入口),總結“多快好省”方法論:支持信息蒐集、研究分析等任務;執行時間降至初始1/3;通過搜索範式與上下文管理優化交付質量;Token消耗僅為海外產品1/10。團隊探索從被動響應轉向主動服務,構建User Memory、Environment、Task System、Assistant四大組件,指出“情商”是主動服務最難環節。朱達提出Agent工程從Prompt Engineering演進至Harness Engineering,下一站是A IWare Engineering,強調“低功耗,夠用就行”。

TIP

來源:公眾號:千問APP(阿里)

#6. Agent輔助的SGLang開發:初步探索

SGLang團隊將LLM服務、分佈式運行時、GPU內核、擴散管道等工作流編碼為可執行的SKILL.md文件、腳本、基準合約和審查循環。現有技能包括:SGLang .claude/skills(CUDA調試、內核集成、性能分析等)、SGLang diffusion .claude/skills(擴散模型添加與調優)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循環)、KDA(MLSys 2026 FlashInfer內核競賽獲勝方案)以及BBuf/KDA-Pilot(已合併三個SGLang集成PR)。Profile證據是性能工作的核心,長期優化轉向Loop Engineering——SGLang S…

TIP

來源:LMSYS:Blog(Chatbot Arena 團隊)

#7. 借用夜晚:將閒置推理GPU回收用於研究

Runway 開發了名為 deckard 的容量控制器,在生產推理集群與研究集群間動態重分配 GPU。生產流量在北美工作日上午 9 點 ET 達峰,晚 8 點 ET 跌至不足一半。控制器基於預計算的時間窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前擴容和回收,每次集群間轉移耗時 20–60 分鐘。利用排隊論(Erlang‑C、Little’s Law)確定目標利用率,避免接近 85% 後的隊列發散(90% 利用率下等待時間約為服務時間的 10 倍)。此方案使夜間閒置 GPU 迴歸研究、白天排隊等待縮短。

TIP

來源:Runway:News(網頁)

📰 科技風向標 · 2026-07-03
https://illumi.love/posts/日報向/2026-07-03/
作者
𝑰𝒍𝒍𝒖𝒎𝒊糖糖
發布於
2026-07-03
許可協議
🔒CC BY-NC-ND 4.0
分享

如果這篇文章對你有幫助,歡迎分享給更多人!

💬 參與討論
使用 GitHub 帳號登入參與討論