金投网

Kimi首发“上下文缓存”技术,助推长文本大模型降本90%

近日,月之暗面宣布 Kimi 开放平台正式公测新技术——上下文缓存(Context Caching),该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本大模型使用成本,并且显著提升模型的响应速度。据了解,月之暗面是国内首家面向开发者推出上下文缓存(Context Caching)技术的大模型公司。

近日,月之暗面宣布 Kimi 开放平台正式公测新技术——上下文缓存(Context Caching),该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本大模型使用成本,并且显著提升模型的响应速度。

据了解,月之暗面是国内首家面向开发者推出上下文缓存(Context Caching)技术的大模型公司。

上下文缓存(Context Caching)技术的基本原理是,系统预先存储那些可能会被频繁请求的大量数据或信息。这样,当用户再次请求相同信息时,系统可以直接从缓存中快速提供,而无需重新计算或从原始数据源中检索,从而节省时间和资源。

上下文缓存(Context Caching)技术可以带来降本和提速两大价值。首先,通过缓存重复性输入的大量数据,对于公共上下文仅收取一次费用,上下文缓存(Context Caching)技术大大降低了开发者使用长文本旗舰大模型的成本,最高可降本达 90%。其次,上下文缓存(Context Caching)技术还有助于提升大模型API的响应速度,实测可将 128K 长文本大模型的首 token 延迟降低 83% 左右,从平均 30 秒左右降低到平均 5 秒内。

在长上下文和高负载的业务场景上,上下文缓存带来的降本和提速效果尤为显著。常见场景包括提供大量预设内容的问答机器人,例如 Kimi API 小助手;针对固定的文档集合的频繁查询,例如上市公司信息披露问答工具;对静态代码库或知识库的周期性分析,例如各类 Copilot Agent;瞬时流量巨大的爆款 AI 应用,例如哄哄模拟器;交互规则复杂的 Agent 类应用,例如什么值得买的 Kimi+ 等。

以常见的固定文档大量提问场景为例。某硬件产品说明书大概 9万字,换算 Tokens 长度大概 64K,该产品售前支持人员需要在 10 分钟内,密集对产品的功能/使用方式进行 40 次问答,每次的问题大概 100 个字,要求模型的输出需要基于产品说明书来回答,回答问题在 120 字以内。

按照大模型问答的 Tokens 计算逻辑,售前支持人员需要每次向模型输入的 Tokens =文档 Tokens +问题 Tokens,10 分钟内 40 次的问答共计需要消耗 Tokens 2.56 M,128k 模型价格为 60元/M,预计原始花费需要 153.84 元。若该场景接入上下文缓存(Context Caching)技术:9万字的文档只收取一次创建 Cache 和存储 10 分钟 Cache 的费用,10分钟内的40次提问,将只收取问题的 100 字+ 回答的 120 字的费用,预计花费 11.88 元。节省了 141.95 元,相当于费用降低 90% 左右。

响应速度方面,以 128k 模型的一次4万字(约 30k tokens)的推理请求为例。通常向模型提问,平均要 30 秒返回首 Token。接入上下文缓存技术后,最快可 1 秒内完成首 Token 返回。经过大量测试,接入上下文缓存功能后,128k 模型的首 Token 延迟平均可降至 5 秒内,降低了 83%左右。

需要注意的是,上述测试效果基于 1 token = 1~1.5个文字和字符,使用 128k 模型进行测算。具体的效果根据业务情况/模型选择不同,会有略微差别。

上下文缓存(Context Caching)技术在公测期间将首先提供给 Kimi 开放平台的 Tier5 等级开发者,后续陆续增大开发者公开测试范围。

Kimi 大模型目前已接入了钉钉、扣子等平台,用户或开发者可以在这些平台选用 Kimi 大模型,借助出色的长文本和指令遵循能力搭建个性化的智能体应用。Kimi 开放平台的开发者注册量自从今年 2 月份以来复合增长率超过 175%,在投研服务、法律尽调、企业知识库问答、辅助软件开发等场景获得广泛应用。近期,Kimi 开放平台陆续上线了工具调用(Tool Use)、Partial Mode、上下文缓存(Context Caching)等能力,持续帮助开发者高效打造更有想象力的AI 应用。

相关推荐

上海电信5G-A技术多点开花,引领千行百业数字化转型
在近日举办的2024年世界移动通信大会上海(MWC上海)上,中国电信正式发布中国电信5G-A行动计划,包括8大核心能力、6大生态合作和9大核心应用。5G-A,全称5G-Advanced,作为5G技术的演进和增强,正在凭借接近十倍的能力提升,以及通感一体、无源物联、内生智能等全新能力,以前所未有的方式连接人、家、物、车和千行百业,满足更多场景和业务所需。
又吹又捧,美联储“三把手”:过去已非常有效地完成任务
又吹又捧,美联储“三把手”:过去已非常有效地完成任务
纽约联储主席威廉姆斯上周末参加了一场不对外开放的会议,他的讲话于美东时间周一公布。威廉姆斯同时兼任联邦公开市场委员会(FOMC)副主席,拥有对货币政策的永久投票权,被视作美联储的“三号人物”。
2023年“科创中国”系列榜单发布
在7月2日召开的第二十六届中国科协年会上,中国科协正式发布2023年“科创中国”系列榜单。榜单经初评、终评,遴选出先导技术榜150项、新锐企业榜50项、融通创新组织榜10项、技术经理人先锋榜20项,共计230项入榜项目。
江博士儿童运动鞋:冠军之选,轻松起跳
近日,央视上播放了“2024年亚洲跳绳锦标赛出征前校园挑战赛”,在这场活动中,三位跳绳世界冠军为全国的少年儿童们展现了高水准的花样跳绳表演。其中,江博士健康鞋儿童运动鞋凭借其专业的设计和卓越的品质,成为了冠军之选,为他们高难度动作的呈现提供坚实的支持。
MSA 助力实验室测量更稳定、更准确
随着工业信息化的迅速发展, 各行业对质量要求的提升,在检验检测领域深耕多年的北京三维天地科技股份有限公司在其自主研发的实验室信息管理系统( SW-LIMS) 中引入了质量管理工具 MSA( 测量系统分析)对实验室各类测量仪器进行分析,保证测量系统的稳定性和准确性,优化实验室测量过程,提高产品的质量和生产效率。
免责声明本文来自第三方投稿,投稿人在金投网发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,不保证该信息的准确性、真实性、完整性、有效性、及时性、原创性等,版权归属于原作者,如无意侵犯媒体或个人知识产权,请来电或致函告之,本站将在第一时间处理。金投网发布此文目的在于促进信息交流,不存在盈利性目的,此文观点与本站立场无关,不承担任何责任。未经证实的信息仅供参考,不做任何投资和交易根据,据此操作风险自担。侵权及不实信息举报邮箱至:tousu@cngold.org。

热点频道NEWS.CNGOLD.ORG