金投网

现场直击!解密“AI训练师”

近年来,随着数字经济快速发展,作为北京国际科技创新中心核心区、国家战略科技力量重要承载地,海淀区聚集了一大批走在数字技术和数字经济前沿的企业。海天瑞声就是其中之一。

9月19日下午,位于在北京海淀区五道口优盛大厦的海天瑞声办公区一片忙碌。记者走进这里时,不少员工正对着整齐排列的电脑噼里啪啦地敲着键盘。

现场直击!解密“AI训练师”

海天瑞声研发中心员工正在办公

近年来,随着数字经济快速发展,作为北京国际科技创新中心核心区、国家战略科技力量重要承载地,海淀区聚集了一大批走在数字技术和数字经济前沿的企业。海天瑞声就是其中之一。

公开资料显示,海天瑞声是全球领先的AI训练数据服务商,于2021年登陆科创板。

“海天瑞声自成立以来始终致力于为AI产业链上的各类企业、研发机构提供AI算法模型开发训练所需的专业数据集。”海天瑞声副总经理、首席财务官、兼董事会秘书吕思遥一边带着记者参观各业务部门,一边说道。

作为我国最早从事AI训练数据的专业服务商之一,海天瑞声经过多年发展,其业务类型已经实现标准化产品、定制化服务、相关应用服务全覆盖。

“公司所提供的训练数据涵盖智能语音,也就是常说的语音识别、语音合成等,还有计算机视觉、自然语言等多个核心领域。”吕思遥说,“这是我们的录音室,现在工作人员正在根据经过结构化设计的内容进行原始数据的采集,也就是一个录音的过程,之后会进行数据清洗和标注,最后是质检。”

现场直击!解密“AI训练师”

海天瑞声录音室员工正在进行语音数据采集

吕思遥介绍,目前,公司的产品和服务线已覆盖全球超过200个主要语种及方言,积累了近1500个自有知识产权的AI训练数据产品,客户累计数量达到881家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的各类主流企业,教育科研机构以及部分政企机构。

数据、算法、算力是人工智能的三大核心要素,而数据是一切智慧物体的学习资源。“训练数据就像一本精心制作的教科书,可以为学生(即算法/机器)提供掌握新科目所需的知识。教材质量越好、内容越丰富,算法/机器就学得越好。数据的任务就是帮助算法训练出更接近于人类判别的模型。”吕思遥说。

你可以把这项工作,理解为给AI当‘训练师’。”她补充说。

吕思遥告诉记者,海天瑞声的数据服务已经实现了语音、图像、文本的全覆盖。“目前公司自主研发了一体化数据处理平台DOTS,形成了百余个专业级数据处理工具,支撑语音、视觉、文本三大AI数据类型,同时在数据中台管理模块中融入数据流程管理、质量把控、数据安全管理,可实现高效、高质的训练数据生产。”吕思遥进一步介绍道,“平台以基础算法作为底层技术,目前我们在16种算法框架下,研发了200余个模型,应用于各类数据的处理,形成高效的人机协同机制,应对越来越大的数据规模需求和越来越高的数据质量需求。”近年来,自动驾驶行业快速发展,自动驾驶数据需求爆发式增长。在此背景下,海天瑞声抓住机遇,及时布局和提升自动驾驶业务核心能力,并于今年4月正式推出DOTS-AD自动驾驶平台。

现场直击!解密“AI训练师”

海天瑞声自动驾驶平台DOTS-AD

“海天瑞声希望通过专业的数据处理能力赋能自动驾驶技术的高速发展。”吕思遥说,DOTS-AD平台历经亿级(帧数)量产项目打磨,能够支持万人以上同时在线作业。可以有针对性地面向业务场景痛点,全面支持2D/3D/4D标注。数据处理的过程更加自动化,灵活满足不同项目的多维度需求。在某些特定任务领域,与传统的人工标注相比,效率提升高达8倍。

记者了解到,截至目前,海天瑞声已服务70家自动驾驶领域客户,覆盖传统车企、新势力车企、自动驾驶技术公司等。

眼下大模型势头正盛,众多科技公司纷纷布局大模型。吕思遥介绍,海天瑞声也已有所布局。

今年6月,海天瑞声启动了IPO后首次定向增发再融资计划。相关公告显示,公司拟募集资金总额约为7.9亿元,全部用于“AI大模型训练数据集建设项目”和“数据生产垂直大模型研发项目”建设,上述项目均围绕海天瑞声主营业务进行。

“2023年可以被看作是大模型的元年,但从数据角度来看,当前国内数据资源虽然丰富,但优质的中文大模型训练数据仍然稀缺。因此,海天瑞声将围绕这个方向进行坚定的研发投入,一方面,通过提供覆盖预训练、强化学习及应用拓展阶段的海量、高质量专业大模型数据集,更好地支撑我国大模型领域的各类训练需求。另一方面,通过建设自主可控的数据生产垂直大模型,对公司现有数据生产平台工具体系进行升级、迭代。”吕思遥说。

“以大模型为新动能的人工智能产业即将进入新一轮加速发展期,同时我国对数据要素市场的政策推动已经启动,海天瑞声将在相关部门指导下,进一步参与数据要素市场建设,持续提升智能化数据处理能力、提供全方位的数据解决方案,助力数字经济与实体经济深度融合。”她说。

来源:中国证券报·中证网 作者:王舒嫄

温馨提示:最新动态随时看,请关注金投网APP

相关推荐

抢滩算力!“All in”AGI与AIGC
作为AI时代的核心基础设施,“算力”正在成为AI赛道内企业抢滩的新高地。
人工智能企业智慧互通启动科创板IPO:AI+交通产品应用于北上广深等48个城市 曾获中金小米蔚来投资
人工智能企业智慧互通启动科创板IPO:AI+交通产品应用于北上广深等48个城市 曾获中金小米蔚来投资
近日,国内AI+交通赛道龙头企业智慧互通科技股份有限公司(以下简称“智慧互通”)同中信证券签署上市辅导协议,正式启动A股科创板IPO进程。
AI领域新进展!蚂蚁金融大模型亮相
AI领域新进展!蚂蚁金融大模型亮相
蚂蚁集团9月8日在“2023INCLUSION・外滩大会”上正式发布金融大模型。据了解,蚂蚁金融大模型基于蚂蚁自研基础大模型,针对金融产业深度定制,底层算力集群达到万卡规模。目前,蚂蚁金融大模型已在蚂蚁集团的财富、保险平台上全面测试。
万兴科技深化泛知识AI应用布局 推出万兴智演
万兴科技深化泛知识AI应用布局 推出万兴智演
9月8日,万兴科技面向泛知识领域,推出名师必备讲演神器“万兴智演”。该款AI演示新品集成强大的AIGC能力、精美的行业课程模板以及动画特效素材,大大简化课件制作过程。
麦肯锡:生成式AI能为全球经济和各行各业带来巨大价值
麦肯锡9月8日发布的《捕捉生成式AI新机遇》(简称“报告”)显示,纵观2023上半年国内外重大科技趋势和投资热点,生成式人工智能(下称GenAI)无疑是最引人注目的技术之一。根据麦肯锡的研究,GenAI每年对全球经济的贡献至多达7.9万亿美元。
免责声明本文来自第三方投稿,投稿人在金投网发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,不保证该信息的准确性、真实性、完整性、有效性、及时性、原创性等,版权归属于原作者,如无意侵犯媒体或个人知识产权,请来电或致函告之,本站将在第一时间处理。金投网发布此文目的在于促进信息交流,不存在盈利性目的,此文观点与本站立场无关,不承担任何责任。未经证实的信息仅供参考,不做任何投资和交易根据,据此操作风险自担。侵权及不实信息举报邮箱至:tousu@cngold.org。

热点频道NEWS.CNGOLD.ORG