語言資源是指語言處理自然語言處理)時所要用到的資源[1]。除此之外,語言資源亦是語言學的研究材料。一種語言的文字材料以及其被錄下的發音都是它的資源,例如用粵語白話文寫成的文字材料是粵語的語言資源,但白話文基於官話,白話文文字材料就不是粵語的資源。某種語言的語料庫維基百科以及社交媒體等都可以視為某種語言的語言資源。

語言資源對於自然語言處理以及生成式人工智能來講不可或缺,因為讓電腦處理一門語言,通常都要讓電腦讀取大量文字。例如OpenAI在開發ChatGPT的時候,至少就用到了上億的英文文字。

参考文献 编辑

  1. ^ LD4LT (2020), The Metashare Ontology as Created by the LD4LT Community Group页面存档备份,存于互联网档案馆, W3C Community Group Linked Data for Language Technology (LD4LT), Development branch, version of Mar 10, 2020