专家解读token中文名为何定为“词元”

作者: 澎湃新闻   日期:2026-03-30 10:11 阅读:0  来源:澎湃新闻  
分享到:
邮箱:

【天维网综合报道】近日,中国科学技术名词审定委员会发布《关于发布试用人工智能领域名词token中文名“词元”的公告》,决定在综合考量社会各界意见建议的基础上,优先推荐“词元”作为人工智能领域名词token的中文名,并面向全社会发布试用。

“词元”这一定名符合单义性、科学性、简明性、协调性等科技名词审定原则。该定名经全国计算机科学技术名词审定委员会审定后,由全国科学技术名词审定委员会批准向全社会发布试用。

清华大学计算机系副教授东昱晓认为,“词元”的定名捕捉了其在人工智能语言模型中作为“基本离散符号单元”的本质,又可以通过类比自然延伸至多模态领域。在“词元”这一定名中,“词”点明其在语言场景下的根源,体现出token与表达对象语义的密切关联;“元”传达出“基本单元”之意,与“元素”等术语中的“元”保持一致的语义脉络。

“token”一词源于古英语tācen,意为“符号”或“标记”。在语言模型中,token是文本经过切分或字节级编码后得到的最小离散单元。它既可能是人类语言意义上的词串、单个词,也可能是词根、词缀、子词或单个字符。语言模型通过对token序列建模,展现出一定的智能水平。

全国计算机科学技术名词审定委员会副主任委员兼人工智能分委员会主任委员、中国科学院计算技术研究所研究员陈熙霖表示,“词元”一词可以将“作为语言基本语义单元”这一最初本质清晰表达出来,更贴合其在人工智能中的初始角色。

随着大模型从纯文本走向多模态,“token”所指已经扩展。图像被切分为“图像块”并映射为嵌入序列,语音片段可以被量化编码为离散单元,这些单元在多模态模型中同样被称为token,主要建模手段仍为序列模型。

此时,“词元”中的“词”超越了人类语言意义上的“词”,却能暗合术语命名中普遍存在的类比思维——将非文本模态的离散基本单元也视作“广义的词”。这种用法与“词云”(word cloud)、“词袋”(bag of word)类似,虽由文本衍生,但已成为人工智能领域中表达更宽泛语义的通用术语。“词元”在跨模态场景中承载了“离散基本单元”的语义,这种语义普遍存在于所有模态之中。

在中文文献、技术文档及学术交流中,“词元”作为描述大模型中token的译名,逐渐被学术界很多学者认同。token是模型将数据映射为离散符号序列的基本单位,本身并不携带智能,只是承载信息的载体;与“嵌入”“注意力”“隐状态”等术语并列时,保持了风格一致性;符合中文“二字词”偏好,表述简洁,易于传播。

国家数据局数据显示,2024年初,中国日均词元(token)调用量为1000亿;至2025年底,跃升至100万亿;今年3月,已突破140万亿,两年增长超千倍。

(原标题为《专家解读token中文名为何定为“词元”》)

版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。


2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。

版权声明
1. 未经《新西兰天维网》书面许可,对于《新西兰天维网》拥有版权、编译和/或其他知识产权的任何内容,任何人不得复制、转载、摘编或在非《新西兰天维网》所属的服务器上做镜像或以其他任何方式进行使用,否则将追究法律责任。


2. 在《新西兰天维网》上转载的新闻,版权归新闻原信源所有,新闻内容并不代表本网立场。

相关推荐

新闻评论须知

· 请您文明上网、理性发言

· 尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任

· 您的留言只代表个人意见,不代表本站立场

· 天维网拥有管理笔名和留言的一切权利

· 您在天维网留言板发表的言论,天维网有权在网站内转载或引用

· 天维网新闻留言板管理人员有权保留或删除其管辖留言中的任意内容

· 参与本留言即表明您已经阅读并接受上述条款

验证码:
×

查看所有评论  共( 条)

Click here

Advertising With Us