对言语文字,咱们“日学而不察、日用而不觉”。其实,言语文字是国家重要的教育、科技、文明、经济、安全和战略资源。近来,为抢抓大言语模型迭代晋级新机遇,教育部、国家语委、中心网信办印发《关于加强数字中文建造 推进言语文字信息化开展的定见》(以下简称《定见》)。3月31日,教育部举办新闻发布会,专门对《定见》做全面解读。
教育部言语文字信息办理司司长刘培俊介绍,《定见》了解精确地提出,将数字中文建造作为服务数字我国建造的重要使命和全方面推进言语文字信息化开展的杰出要点,全方位开释言语文字在经济社会继续健康开展中的数据要素价值。在实践中,既要规范、有用、批量地将中文资源信息转化为智能数据,也要促进中文数据的规划出产、优质集成、规范办理和复用增效,完成以数字化手法构建新式中文服务体系,引领带动言语文字信息化全面开展。
为何着重数字中文?刘培俊表明,中文使命严重,数字我国建造,加大国家通用言语文字推行力度、深化中华优异言语文明传承、增进言语文明国际交流互鉴等多项严重使命都愈加需求中文数字化赋能。中文文明内在丰厚,是我国贡献给国际的重要公共文明产品,愈加需求中文数字化传达。中文使用约束规模广泛,愈加需求中文数字化学习。并且,中文数据价值杰出,大规划、高质量的中文数据有利于推进我国特色大言语模型立异开展,愈加需求中文数字化支撑。
刘培俊介绍,未来在技能立异使用上,要发挥自然言语处理技能支撑AI开展的根底效果,加速范畴大言语模型使用试点,保证规范安全,演示使用;研发面向人工智能的言语资源建造、办理、使用规范,特别是语料和数据质量点评规范等。在数据资源建造上,发挥言语文字服务国家言语才能建造的战略效果,施行国家要害语料库建造规划,建造大规划中文语料库等。在要害范畴赋能上,发挥信息技能赋能国家言语服务体系构建的大局优势,研发大言语模型才能素质结构(师生版),推进甲骨文数字化同享,施行中华文明优异课程多语种数字化传达方案等。
北京大学王选计算机研究所所长汤帜指出,上世纪80年代,激光照排技能的创造,让承载中华文明的中文在全球互联网空间取得重生。当时,大言语模型技能对大规划高质量语料提出史无前例的需求,中文信息处理技能的开展从以往处理汉字输入输出的根底性问题,进阶到当时开释言语文字数据要素价值的全方位打破。
汤帜表明,加强数字中文建造将重塑开展格式,推进中文信息处理技能开展进入新阶段。言语文字将完成从“静态符号”向“动态数字财物”、从“信息载体”向“出产要素”的转型,要要点推进语料库、数据标示与点评等规范的研发,支撑文本生成与了解、言语翻译、情感剖析等各种使命。言语文字还将完成从符号存储到智能建模的突变,因而,要聚集要害笔直范畴建造语料根底设施,构建支撑大模型练习的高质量中文数据集。
汤帜着重,言语文字还会起到赋能大局开展的效果。新形势下,言语文字信息处理技能立异使用正阅历从“GB2312字符集”到“万亿参数大言语模型”的范式革新,言语文字将完成与信息技能的深层次地交融,构成“技能打破—场景落地—生态昌盛”的良性循环,服务教育开展,助力科学技能立异,赋能文明传承,推进工业晋级,促进社会进步。(记者 张盖伦)

人民日报社概略关于人民网报社招聘招聘英才广告服务协作加盟版权服务数据服务网站声明网站律师信息维护联络咱们
人 民 网 股 份 有 限 公 司 版 权 所 有 ,未 经 书 面 授 权 禁 止 使 用