11月29日,智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCIv1.0.0)。
11月29日,智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCI v1.0.0)。该中文互联网语料库数据规模达104GB,语料库时间跨度在2001年1月至2023年11月。语料库数据主要来源于地市级以上政府门户网站、重点新闻网站、中央和地方报刊杂志、出版社等。
北京智源人工智能研究院副院长兼总工程师林咏华表示,数据决定了大模型的智力边界,已有的中文语言大模型采用的开源数据大多来自海外开源数据集。国际数据集中的中文内容占比较少,基于这些语料库训练的大模型始终是“英文思维”。建设高质量中文语料库能够从本源上解决大模型数据安全问题,保障我国大模型产业健康发展。
林咏华称,现阶段高质量语料库工作完成了第一阶段中文互联网语料库建设。第二阶段将建设综合数据集,联合建设大规模高质量文本、语音、图像、视频和多模态数据集,用于训练数据、合规性检测等方面;第三阶段将建设行业数据集,面向大模型行业应用需求,汇聚形成自动驾驶、医学文本和影像、计算机代码、网络安全等数据资源库,把生成式人工智能技术转化为生产力,支持重点行业智能化升级。
来源:中国证券报·中证网 作者:
温馨提示:最新动态随时看,请关注金投网APP。
<上一篇 沸腾!关键力量出手,什么信号?
下一篇> 商汤回应做空机构报告:内容为拼凑旧信息
相关推荐
- 海天味业:推进数智化改造 数字化设备占比超七成
- 近日,《经济半小时》报道了海天味业将传统酱油生产进行数智化改造的案例,海天味业通过自动化、数智化改造,实现了从原材料入仓到成品出库发往市场的全自动化生产线。目前,海天味业工厂的数字化设备已经占到总生产设备的70%以上。
- 实时热点 互联网 科学 0
热点话题
- 中国成单身大国有哪些反思和危害?
- 中国成单身大国有哪些反思和危害?哪怕生活...[详情]
- 霍金再次发出警告 究竟科技和毁灭要怎么看待?
- 霍金再次发出警告究竟科技和毁灭要怎么看待...[详情]
- 一分钟带你看懂美联储加息到底是咋回事!
- 一分钟带你看懂美联储加息到底是咋回事!对...[详情]
- 朋友圈的微商还能盛行多久?
- 朋友圈的微商还能盛行多久?最恨微商的还得...[详情]