金投网

瓜分印度

AI巨头们突然在印度掐起来了。为了争夺三哥的欢心,OpenAI、Google、Perplexity纷纷大出血,先后在印度推出前所未有的免费订阅计划。

瓜分印度

来源:图虫

AI巨头们突然在印度掐起来了。

为了争夺三哥的欢心,OpenAI、Google、Perplexity纷纷大出血,先后在印度推出前所未有的免费订阅计划。

效果看得见。

根据市场情报公司Sensor Tower统计的数据,截至上周,ChatGPT在印度的日活跃用户同比增长607%,达到7300万,是美国用户数量的两倍多;Gemini在印度的日活跃用户达到1700万,而美国的用户数量为300万。

显然,"Free"的魔力比"AGI"大一万倍,贪小便宜是所有人的共性。

但究竟是谁占谁便宜,真不好说。

01、数字殖民

17世纪,英、荷、法多国船队,为了香料、茶叶和棉花,先后进入印度的港口、成立东印度公司,从当地攫取了海量财富。

数百年后,OpenAI、Google和Perplexity的数字船队,再一次驶入了这片次大陆。

这一次,他们要的是Token。

为什么又来印度?

首先,是人口红利。

据Epoch AI的研究,高质量的英语文本数据可能在2026年枯竭,到2028年,互联网上所有高质量的文本数据都将被使用完毕。

同时,英文数据占比超65%,但覆盖70%人口的非英语数据缺口达83%……

此时此刻,拥有超过14亿人口、22种官方语言、以及成千上万种方言的印度,就成了AI时代最大的资源宝库。

印度用户独特的Hinglish(印地语与英语的混合体)以及复杂的语码转换现象,为大模型提供了绝佳的训练材料。

瓜分印度

其次,利用庞大的印地语系,为大模型优化参数。

大模型不读字,读的是Token。

在早期的GPT模型中,英语的Tokenization效率极高,一个单词通常就是一个Token。

但对于其他语言,比如印地语、马拉地语或泰卢固语,一个词可能被拆成5-6个Token。

如此就造成了两个后果。

第一,推理成本太高。

同样的语义,印地语消耗的算力是英语的3倍。

第二,上下文窗口缩水。

同样的内存,能记住的印度语对话长度只有英语的1/3。

比如,印度人是这样说话的:Arre bhai, model training ki efficiency literally exponential honi chahiye!

这种一句话里,至少无缝切换了三种语言,直击大语言模型的软肋。

按照传统的自然语言处理方法接收这种数据,会直接崩溃的。

但通过海量的印度用户交互数据,大模型正在学习一种超语言的表征能力,能更好地理解多模态数据。

瓜分印度

简单来说,印度市场就是一个巨大的天然实验室,通过在印度大规模收集原生数据,巨头们可以重新训练Tokenizer,优化词表。

这直接关系到模型运行的经济性。

谁先让印地语的Token压缩率接近英语,谁就能在印度的B端API市场上拥有定价权。

届时,连印度这个语言最复杂、体量最庞大的市场都跑通了,世界上其他地区还算问题吗?

随着海量印度数据的注入,大模型将变得不再那么“英语中心主义”。

这不仅是政治正确,更是商业必须。

02、各显神通

为了抢夺印度的免费“矿工”,各家的大方向都是免费。

但在具体策略上,有很大不同。

OpenAI实施精准诱捕,把用户绑在生活场景里。

最经典的场景:接入UPI支付后,用户只需要输入“给妈妈转500卢比”就能直接交易,每一次支付行为都会生成“对话-决策-交易”的完整数据链。

同时,用“母语对话”痛点吸引用户:针对印地语语义准确率仅82.3%的短板,推出7种语言的广告片,直接拉动46%的月活用户每天打开APP。

这导致美国本土用户和印度用户出现巨大倒挂。

美国用户是用来变现的(Plus订阅),而印度用户是用来进化的。

这种“双轨制”策略,让OpenAI能够一边在华尔街讲收入故事,一边在实验室讲数据故事。

印度用户每用一次GPT,就相当于给OpenAI贡献了3条高质量语料。

瓜分印度

来源:官网

谷歌则选择找地头蛇合作。

Gemini在印度的日活一度低迷,但在与Reliance Jio共同推出 “18个月免费Gemini Pro”后,DAU很快飙升到15%,达到1700万。

Reliance Jio是何方神圣?

它是印度信实工业旗下的电信运营商,是数字基础设施垄断者,拥有数亿廉价4G/5G用户。

双方联手,新激活的Jio手机会默认安装Gemini插件,你连拒绝的选项都没有。

这些插件会悄悄收集 “被动数据”:天气查询积累季风气候数据,地图导航记录交通流规律,甚至相册备份都会被用来训练图像识别模型。

更关键的是,谷歌的优势在于安卓生态,而印度又是安卓的绝对主场。

安卓系统的日志权限让谷歌能获取用户的APP使用习惯,通过行为数据给用户打上200多个标签,再反哺模型优化推荐。

这不仅仅是为了云端训练,更是为了边缘计算的数据回流。

它不指望印度用户会问Gemini什么高端问题,而是你想用本地语言搜索哪家咖喱店,或者如何用孟加拉语写一封求职信。

这就够了!

瓜分印度

来源:官网

Perplexity又不一样。

既没有OpenAI的品牌光环,也没有Google的渠道霸权,所以它的逻辑是:先在印度攒够数据,再把矿卖给巨头。

印度可谓是全世界最卷的国家。

由于教育资源的不平衡,大量印度学生和职场新人将AI视为“超级导师”。

Perplexity联合Airtel,花大价钱给3.6亿用户免费用200美元的Pro版,并默认开启“全量数据同步”,用户的每一次搜索、提问、甚至修改回答的痕迹都会被记录。

这一操作直接让下载量暴涨800%,每天新增300万条多语言语料,比去年涨了4倍多。

至今收集的数据若卖给微软,估值可达10亿美元。

瓜分印度

来源:官网

除了以上这些,还有其它“小手段”。

比如三家都在玩的“游戏化激励”。

ChatGPT的“回答点赞”给积分,Gemini的“每日签到”送存储空间,Perplexity的“邀请好友”解锁高级功能。

这些设计都算不上新颖,但确实能让用户的停留时间更长:使用时长每增加1小时,产生的语料量就会翻3倍。

更狡猾的是 “错误诱导”。

企业方面会故意在回答里留小漏洞,引发用户主动纠错。

这些纠错数据能直接用于模型迭代,比人工标注的效率高5倍。

印度用户以为在帮AI进步,其实是当免费的数据质检员。

而在美国,这类质检员的时薪是25美元……

03、免费才是最贵的

在财务报表上,为大量印度免费用户提供算力支持,很明显是一笔巨额亏损。

但在AI研发部门的报表上,这又是极低成本的资产购入。

传统逻辑是:用户付费>运营成本=利润。

但AI训练的逻辑是:运营成本(算力)=数据采集成本。

以OpenAI为例,如果直接去购买7300万人的多轮对话数据,费用至少是几十亿美元。

但现在,只需要支付推理时的电费。

这是一场以算力换智力的宏大套利。

对企业而言,这毫无疑问是划算的。

比如比哈尔邦用户常用的“拉贾斯坦语”,全球能流利使用的仅500万人,但通过ChatGPT的对话收集,OpenAI已积累10万条该语言的语料,让模型识别准确率从65%提升到91%。

更珍贵的是文化语境。

宗教节日的祝福语、种姓制度的特殊称谓、地区性的俚语黑话等等,这些知识图谱的补全,是无法通过抓取通用网页数据集实现的,必须依靠人类“口口相传”给AI。

根据谷歌AI实验室的报告:接入印度方言数据后,Gemini的跨文化对话错误率下降了43%。

那这些成果最大的功臣,印度用户又充当了什么角色呢?

瓜分印度

佃农,妥妥的数据佃农!

虽然享受了免费的各种高科技服务,但他们实际上是在没有股权、没有工资的情况下,为AI公司构建护城河。

农民查“农药配比”,贡献农业数据;小商贩算税率,补充金融科技语料;甚至家庭主妇问“剩菜改造食谱”,都在丰富生活服务数据库……这些场景化数据的市场规模已超过180亿美元。

最直观的就是ShareChat的。

其用户上传的视频数据被用来训练AI质量评估模型,通过近万个视频的主观打分,让无参考质量评估的误差缩小到0.2分以内。

这些“标注数据”直接帮助ShareChat提升了5%的用户时长,估值冲到28.8亿美元,但参与打分的用户连优惠券都没有。

……

按Counterpoint的测算,印度AI用户平均每天产生4.2条有效语料,每条语料的标注成本约0.2美元,一年就是306美元。

扣除免费套餐的运营成本(每人每年76美元),每个“数据矿工”每年能给AI公司创造230美元的净价值。

以ChatGPT 7300万日活为例,一年就能贡献167.9亿美元的财富。

这比印度2024年全年的AI产业总产值还高。

更关键的是什么呢?

矿工永远变不成 “矿场主人”。

现在印度用户用的是免费AI,未来当巨头关闭免费通道,他们就得交订阅费。

相当于矿工挖了一辈子矿,最后还要买自己挖的矿石。

目前的现状是:先发者拿走了数据,炼成了模型,然后把API卖回给印度的初创公司。

这已经是个完美的商业闭环,也是一个完美的剥削链条。

与19世纪印度给英国出口棉花,最后还要买英国布料的命运如出一辙。

04、尾声

就目前而言,印度市场的潜力,很可能是谷歌重归龙头地位的机会。

首先,谷歌有YouTube的视频数据、Maps的地理数据、Android的行为数据……维度比更倾向于单纯文本的OpenAI要丰富得多。

更关键的是语音交互数据。

众所周知,印度有大量文盲,最新的人数在2.8亿左右。

这些人群在互联网上的交流方式,首选只能是语音。

谷歌通过在语音识别和语音合成上的积累,结合本地运营向的支持和Gemini的多模态能力,可能在印度农村市场实现对OpenAI的“农村包围城市”。

但说到这里,大家可能都有一种奇怪的感觉。

OpenAI和谷歌的战争,战场居然在印度。

这跟日俄战争的战场在中国东北,有啥区别?

这已经涉及到数据主权问题。

印度政府已经意识到这一点。

印度电子和信息技术部最近也表明观点:不甘心只做数据的产地,想做AI的加工厂。

一旦莫迪政府决定收紧数据出境政策(类似GDPR的印度版DPDP法案),硅谷科技巨头的免费午餐可能会立刻结束。

这或许是未来最大的风险点之一。

来源:格隆汇

温馨提示:最新动态随时看,请关注金投网APP

<上一篇 日本右转

下一篇>已是最后一篇

相关推荐

TikTok美国迎“大结局”:持股19.9%合资方案对TikTok意味着什么?
TikTok美国迎“大结局”:持股19.9%合资方案对TikTok意味着什么?
当地时间12月18日,TikTok首席执行官周受资向全体员工发出一封内部信,首次详细披露了TikTok在美国业务的全新架构方案。
科士达换届“创二代”未接棒,新能源业务遇冷定增折戟,或有意加强数据中心业务
12月19日,科士达(002518.SZ)发布一则董事会换届选举及聘任高级管理人员的公告。其中,科士达新增沈文轶为副总经理,副总经理人员配置从原来的4名变成5名。
加速上涨!资本已大举入局!
加速上涨!资本已大举入局!
继续明显大涨之后,航天卫星产业链今天继续表现强势。截至收盘,沪指涨0.36%报3890.45点,深证成指涨0.66%,创业板指涨0.49%。板块方面,零售、核电、电池、光伏、计算机等板块上涨明显。其中,航天装备板块上涨1.51%显著跑赢大盘,卫星产业ETF(159218)上涨0.77%,近20日涨幅达25.52%,走出独立行情,跑赢沪深300指数超22个百分点。
希迪智驾(3881.HK)港股上市:商用车智驾赛道“稀缺标的”,三维度拆解成长逻辑
今年以来,港股走出强劲的上涨行情,尽管近段时间市场波动加剧,但机构普遍认为港股当前处于中低分位估值,科技板块无论横向对标其他市场,还是纵向对比历史水平,均处于健康偏低区间。
刚刚,动手了!30年首次。。
刚刚,动手了!30年首次。。
刚刚,日本央行动手了!日本央行将基准利率从0.5%上调至0.75%,创下1995年以来的最高水平。这是一次全球资本市场的极限压力测试。
免责声明本文来自第三方投稿,投稿人在金投网发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,不保证该信息的准确性、真实性、完整性、有效性、及时性、原创性等,版权归属于原作者,如无意侵犯媒体或个人知识产权,请来电或致函告之,本站将在第一时间处理。金投网发布此文目的在于促进信息交流,不存在盈利性目的,此文观点与本站立场无关,不承担任何责任。未经证实的信息仅供参考,不做任何投资和交易根据,据此操作风险自担。侵权及不实信息举报邮箱至:tousu@cngold.org。

热点频道NEWS.CNGOLD.ORG