帖子
DeepMind研究员离职警告:评测系统正成为AI能力跃升最大瓶颈

币界网消息,DeepMind研究员Lun Wang宣布离职,并撰写长文反思AI评测机制。他指出,现有评测系统只能被动测试模型已有能力,无法预测下一代模型的新能力,成为行业发展的最大瓶颈。主流测试只适用于当前模型,一旦模型学会新操作,这些测试就失去效用。更危险的是,模型可能会故意隐瞒关键信息,现有安全工具无法识别。由于缺乏有效的预警信号,业界在开发大模型时完全处于盲目状态。如果不解决评测内容的根本问题,盲目推进模型训练和安全防护将导致严重错误。未来的评测系统必须与大模型共同进化,而不是依赖过时的标准。
相關快訊
穩定幣市場價值突破3220億美元,超過95國外匯儲備
TRX突破0.375美元,創年內新高
ZEC日內回調8.5%,Hyperliquid某巨鯨「逢低做多」遭148萬美元強平
谷歌虛假加密廣告屢禁不止,仿冒Uniswap釣魚網站再捲走40萬美元
Hyperliquid上HYPE現貨TWAP訂單轉向賣壓,未來24小時凈賣盤壓力達170萬美元
阿聯酋巨頭IHC完成首筆機構級迪拉姆穩定幣交易,金額達3000萬美元
10x Research:多數比特幣財庫公司 NAV 溢價已明顯壓縮,或將進入負溢價時代
慢霧餘弦:Squid安全事件問題不在私鑰,Safe錢包如圖模組存在漏洞
比特幣步入高風險區間,機構資金持續撤離凸顯拋壓隱憂
數據:鯨魚開設 4026 萬美元 BTC 空單,同時持有 3330 萬美元 ZEC 多單



