成本差异铸成AI鸿沟?牛津:汉语训练费用是英语的2倍
【资料图】
财联社7月31日讯(编辑 周子意)如今的大型语言模型(LLM)可以理解世界上很多语言,甚至是一些记载较少的语言。不过,大模型处理不同语言之间时,其性能上存在很大的差异,这是由于模型成本与其所训练的语言紧密挂钩。
牛津大学最近进行的一项研究表明,从诸多语言模型的计费方式看,英语的输入和输出比其他语言的输入和输出要便宜得多。例如,西班牙语的成本约为英语的1.5倍,简体中文的价格约为2倍以上,缅甸掸语在15倍以上。
成本的差异也间接导致英语使用者和世界其他语言使用者之间形成AI鸿沟。
成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元,这个更小的单元就是标记(Token)。这是一个人工智能(AI)公司将用户输入转换为计算成本的过程。
研究显示,使用英语以外的语言访问和训练模型的成本都更高。例如中文,无论是在语法上还是在字符数量上,都有更复杂的结构,从而导致更高的标记化(Token)率。
举例来看,基于OpenAI公司的GPT2模型,对于“国家不同,所得税的结构是不同的,税率和税率等级也有很大的差异”这句话的处理来看,在简体中文处理中运用到了66个Token,在英语处理中仅用到了24个Token,而在禅语处理中使用到了468个Token。
就每次输出所需的费用而言,汉语的成本是英语的两倍。所以在AI相关的费用中,英语的成本效益是最高的。
当涉及到语言模型时,设计者的主要目标是实现低成本和高效功能之间的平衡。随着AI领域的不断发展,科技公司必须仔细考虑语言选择对成本和可访问性的影响。
这种成本差异促使中国、印度等国家纷纷开发自己的母语LLM项目。
相关阅读
精彩推荐
- 成本差异铸成AI鸿沟?牛津:汉语训练费用是英语的2倍
- 上证50指数午后翻绿,大金融板块震荡回落
- 泰州是江苏哪个地区(泰州在江苏什么位置)
- 杨毅:李凯尔将奶奶和姥姥头像纹身在手臂上 像中国人一样重情重义
- 强降雨导致甘肃庆阳多处道路发生积水 当地消防部门紧急抢险排涝
- 虚幻引擎5重制《塞尔达传说:时之笛》视频欣赏
- 婚前浪荡,婚后专一顾家的3大星座,反差太大
- 中国科研团队破解水稻生殖隔离之谜
- 硬核餐厅模拟游戏《Cook, Serve, Delicious!》今年秋季登陆
- 保定公安交警发布降雨应对情况
- 94%选亚洲 上半年出境游超4000万人次
- 英文求职信应该怎样写?
- 人民日报:促进民营经济做大做优做强
- 跆拳道首金!梁婕/刘思玥夺得混合双人品势金牌!
- 6s发热掉电快(6s发布会)
- 多亏马尔康回归!段刘愚破门 武汉三镇1-0胜青岛海牛
- 企业受灾未及恢复 先煮爱心粥温暖全镇人
- 襄州区:全员行动“保平安” 共同织密“防护网”
- 南方观察 | 缤纷盛夏季:左凌峰@你来四面山啦!
- 银行行长表示:若存款金额达到“这个数”,可以和银行谈利率
- 宝骏云朵开启盲订,将于8月10日正式上市
- 晓春沐阳(晓春)
- 首艘国产大型邮轮“爱达·魔都号”圆满完成首次试航
- 喝冻饮不解渴又易胃痛过敏,中医推介6款汤水茶疗补水
- 受强降雨影响 北京这些场所运营时间变化、演出活动取消
- 卡纳瓦罗:当年我很接近加盟切尔西 但最后按照尤文的选择去了皇马
- 紧致完美→松散残碎!台风“大佬”杜苏芮余威仍在
- 何洁个人资料简介(何洁个人资料简介 何洁是哪里人)
- 非必要不外出!今天北京维持暴雨红色预警和防汛红色预警响应
- 创意微视频 | 成都十二时辰