小语种恐被AI时代边缘化?多国专家呼吁:语言模型不能只服务大语种!
作者: 第一财经 日期:2025-07-29 18:15 阅读:0 来源:第一财经
【天维网综合报道】“巴别鱼”是英国作家道格拉斯·亚当斯在1979年出版的科幻小说《银河系漫游指南》中创造的虚构生物——这种外形呈黄色水蛭状、寄生在宿主耳道内的神奇生物能够突破语言障碍,实现跨物种的语言交流。
翻译机的出现已经打破了人类语言的隔阂,让人们能够自由交流。然而进入AI时代,由于大部分的通用大模型对低资源语言的支持严重不足,使得小语种国家仍面临被时代边缘化的风险。
在今年的上海世界人工智能大会(WAIC)的一场高级别高水平多语言基座大模型国际学术研讨会上,来自近20个国家的约30位语言专家和人工智能专家就如何弥合AI语言模型的鸿沟,实现普惠AI技术进行深入探讨。
专家认为,如果语言被技术遗忘,那么使用这个语言的群体也会被时代遗忘;而只有当小语种国家的孩子也能够用自己的母语向AI提问时,AI平权才真正实现了。
塞尔维亚语是流行在东欧巴尔干半岛前南斯拉夫诸国的一种语言。然而,该语言的使用率远低于同一地区的斯洛文尼亚语。塞尔维亚诺维萨德大学技术科学学院主任Vlado Delić教授指出,塞尔维亚语在通用模型中token占比不足0.1%!
“语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型。”Delić表示。他还称,这对于人工智能在医疗、法律等关键领域的普及非常重要,必须构建符合本国语言特点和文化语境的国家级大模型。
匈牙利语具有极度复杂的词缀组合及自由语序,这为大语言模型token的划分等带来独特挑战。对此,匈牙利语言学研究中心总干事Gábor Prószéky教授强调,数据质量优于数据体量,是构建可信大语言模型的关键。他希望能与中国AI同行合作,构建语言模型的评估框架,实现从训练、语料建设到实际应用的完整闭环。
以色列人类语言技术协会(IAHLT)创始人兼董事Avner Algom以希伯来语为例称,希伯来语虽是世界上唯一被成功复兴为现代口语的古老语言,但在自然语言处理领域仍属低资源语言。
Algom强调:“语言服务不能只为大语种设计,小语种也应拥有技术平权。”IAHLT基于开源模型,已训练出双语大模型(希伯来语+英语),并部署于教育、客服、医疗等场景。通过政府财政激励机制,联合产业界解决数据获取合法性、训练成本和落地门槛问题。
科大讯飞研究院院长刘聪在研讨会上表示,科大讯飞最新升级的星火大模型X1已经可以支持超过130语种,希望与来自全球的机构合作,构建全方位的多语言大模型和应用,为世界提供“中国方案”,破解全球多语言大模型技术难题。
版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。
2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。
版权声明
1.
未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。
2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。
- 网红罗大美遇害案第二次庭审结束,未当庭宣判
- 特朗普关税关键一周!“关税谈判对投资不利的迹象越来越明显”
- 北京强降雨已致30人遇难
- 李强:北京密云暴雨洪涝灾害造成重大人员伤亡
- 中国公布育儿补贴方案 三周岁前每孩每年3600元
- 释永信戒牒遭注销 据报2月即被限制出境
- 陶冬:日本加息牵扯全球资金流向
- 中国佛教协会:同意对释永信的戒牒予以注销
- 广东疾控局:基孔肯雅热病例分布多个城市,一周新增2940例
- Telegram群组据报大量传播中国女性偷拍照
· 请您文明上网、理性发言
· 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任
· 您的留言只代表个人意见,不代表本站立场
· 天维网拥有管理笔名和留言的一切权利
· 您在天维网留言板发表的言论,天维网有权在网站内转载或引用
· 天维网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容
· 参与本留言即表明您已经阅读并接受上述条款
查看所有评论 共( 条)