语言资源是指语言处理自然语言处理)时所要用到的资源[1]。除此之外,语言资源亦是语言学的研究材料。一种语言的文字材料以及其被录下的发音都是它的资源,例如用粤语白话文写成的文字材料是粤语的语言资源,但白话文基于官话,白话文文字材料就不是粤语的资源。某种语言的语料库维基百科以及社交媒体等都可以视为某种语言的语言资源。

语言资源对于自然语言处理以及生成式人工智能来讲不可或缺,因为让电脑处理一门语言,通常都要让电脑读取大量文字。例如OpenAI在开发ChatGPT的时候,至少就用到了上亿的英文文字。

参考文献 编辑

  1. ^ LD4LT (2020), The Metashare Ontology as Created by the LD4LT Community Group页面存档备份,存于互联网档案馆, W3C Community Group Linked Data for Language Technology (LD4LT), Development branch, version of Mar 10, 2020