本報記者 田鵬
7月8日,由上海數據交易所、大數據流通與交易技術國家工程實驗室承辦的“大模型時代下的數據要素流通”主題論壇在上海世博中心舉行。上海數交所總經理湯奇峰作題為“大模型時代下的語料庫”的主旨演講,帶來關于國內語料庫建設挑戰的觀察,并從語料庫質量和開放程度兩個維度給出建設建議。
湯奇峰認為大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題。
“語料庫建設不是單一企業的責任,需要多方共同推進,如果每個企業都單獨建設維護語料庫,會拉低效率,也會增加企業成本,數交所希望通過自己的努力加強數據要素建設提升語料庫建設效率。”
當天活動上,上海數交所正式啟動語料數據生態創新合作伙伴計劃,攜手首批合作伙伴豐富語料庫,推動數據要素市場建設。
關于語料庫建設的挑戰,湯奇峰認為主要集中于開放程度和數據質量兩方面:“能否有大模型企業所需的高質量語料?目標對象愿不愿意開放數據?”由此,湯奇峰指出可以根據開放程度強弱和數據質量高低將語料數據生態機構分出四類供方。
上海數據交易所語料庫為這四類供方制定差異化工作策略。湯奇峰建議可以從政府引導市場主導、豐富種類提高質量、統一標準規范建設、加強監管保障安全、加強監管保障安全四個方向建設大模型時代下的語料庫。
湯奇峰指出,針對數據質量高但開放程度低的供方,可以通過數據交易鏈有效破解語料數據流通的信任問題,“核心之一在于產權和參與大模型后的收益分配問題。”
此外,上海數據交易所語料庫還將提供特色標簽服務體系、挖掘應用場景價值、驅動稀缺數據開放流通以提高該類供方開放數據積極性。
針對開放程度高但數據質量低的機構,上海數交所語料庫則通過搭建專業化數商服務渠道提高數據質量。
湯奇峰介紹,上海數交所在建設語料庫時考慮的兩個維度與數交所對企業數據發展進程四個階段的觀察密切相關。對于這四個階段,湯奇峰解釋,第一個階段是企業數據自產自用階段。隨著企業數據的內部供給有限時,企業數據需求逐步轉向外部,進入到第二階段,在該階段,大平臺和大企業通過資本紐帶在體系內部形成數據流通。到了第三個階段,企業累積的數據將開放給整個行業,產業內形成標準。第四個階段,數據使用在資產化過程中會產生新的更高階業態。
湯奇峰說:“語料庫采購已經在不少大模型企業成本中占據重要比重,上海數交所希望以市場配置的方式組織數據要素推動語料庫建設。”
據悉,上海數交所官網已經于7月7日正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態,覆蓋金融、交通運輸和醫療等領域。
(編輯 李波)
10:13 | 上市公司年報披露收官:近五成公司... |
23:23 | 2024年度深市上市公司業績穩中有進... |
22:27 | 以點帶面 穩鏈強鏈 2024年度科創... |
22:26 | 出口含“新”量更足!滬市主板公司... |
22:23 | 證監會公布《證券期貨業統計指標標... |
21:59 | 基礎穩、韌性強 滬市主板公司2024... |
21:52 | 澄天偉業:第五屆監事會第三次會議... |
21:52 | 錦波生物:第四屆董事會第十次會議... |
21:52 | 中遠通:第三屆董事會第三次會議決... |
21:52 | 迪森股份:第九屆董事會第一次會議... |
21:52 | 天力鋰能:第四屆監事會第十次會議... |
21:52 | 正川股份:2024年年度股東大會決議... |
版權所有證券日報網
互聯網新聞信息服務許可證 10120180014增值電信業務經營許可證B2-20181903
京公網安備 11010202007567號京ICP備17054264號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:[email protected]
掃一掃,即可下載
掃一掃,加關注
掃一掃,加關注