高質量數據集和AI共振 成為數據流通“硬通貨”
中新網北京9月2日電(記者 吳濤)當人工智能的浪潮席卷全球,其背后的“燃料”——數據,正成為競相爭奪的戰略資源。然而,并非所有數據都能加速AI的發展。一場從“海量數據”向“高質量數據集”的變革正在發生。
何為高質量數據集?
2024年12月,國家發展改革委、國家數據局等部門印發《關于促進數據產業高質量發展的指導意見》,首次明確提出“高質量數據集”概念,支持企業面向人工智能應用創新,開發高質量數據集,大力發展“數據即服務”“知識即服務”“模型即服務”等新業態。
近日發布的《高質量數據集建設指引》指出,大模型參數規模指數級增長與多模態能力的拓展,數據需求從“量級積累”轉向“量質并重”。
官方數據顯示,截至2025年6月,全國建設高質量數據集超3.5萬個、總量超400PB;數據交易機構掛牌高質量數據集3364個,作為交易流通中的關鍵商品,累計交易額近40億元,規模達246PB。
在近日舉行的一場論壇上,中國信息通信研究院院長余曉暉表示,放眼全球,有大量的私域數據,在場景、行業、政府中,這部分數據能夠釋放出來,是構成高質量數據集非常重要的一個方向。
高質量數據集和AI發展相輔相成
因為AI大模型的訓練會用到海量數據,所以,市場一直有觀點認為,未來將無數據可用,或者不得不用大量的合成數據。在這種情況下,高質量數據集無疑成為數據流通的“硬通貨”。
清華大學數字政府與治理研究院院長、教授張小勁表示,人工智能大模型走到哪里,高質量數據集就走到哪里,反之,高質量數據集走到哪里,人工智能就走到哪里,這是相輔相成的,是雙輪驅動的格局。
中國工程院院士吳世忠指出,數據集建設的質量和安全,是大模型發展的生命線,要完善分級分類的數據安全制度,強化全流程的技術防護手段,筑牢防篡改的底層技術能力。在數據集建設中,還要主動融入中華優秀傳統文化,避免模型成為利己主義的工具。
目前高質量數據集建設如火如荼,深圳市政務服務和數據管理局黨組書記、局長周劍明在國家數據局官網發文分享,深圳市結合公共數據資源授權運營和可信數據空間建設探索,支持高質量公共數據和企業數據等融合應用,已在征信金融、氣象、商保理賠等領域開展試點,取得較好成效。(完)

經濟新聞精選:
- 2025年09月02日 16:11:58
- 2025年09月02日 14:27:53
- 2025年09月02日 11:07:46
- 2025年09月02日 08:27:44
- 2025年09月01日 23:07:49
- 2025年08月29日 12:13:16
- 2025年08月27日 06:14:03
- 2025年08月27日 06:00:47
- 2025年08月26日 11:40:39
- 2025年08月25日 09:59:11