泛語語料庫(Pangloss Collection)是位在巴黎的法國國家科學研究中心(CNRS)口傳語言與文化研究所(LACITO)所開發的開放獲取數位圖書館,旨在採集世界各種語言的錄音(其中大部分為瀕臨滅絕的稀有語言),匯聚成一個向大眾開放的數位語料庫,從而為保護世界語言多樣性作出貢獻 [1] [2]

該語料庫有豐富的語音館藏,可免費線上存取,囊括了世界各大洲不同類型語言的語音文檔(民間故事和傳說、生活小品、傳統藝人或工匠的口述、詞彙或語音調查等等)[3]

截至2018年2月,泛語語料庫已收錄3559卷錄音檔、影像檔、文字文件[4],總計囊括全球170種語言[5]

原則 編輯

配有人工轉寫文字檔的語料庫 編輯

泛語語料庫收錄並發布第一手錄音檔(近年來也增加了一些影像檔)。其中一部分音檔經由專家學者人工轉寫成文字稿和譯文,可與原始音檔交互參照(包括語音、音韻、拼字)[6] 。每個文檔都是根據口傳語言與文化科學研究方法,通過母語人士的親口講述,由調查人員在該文化背景下忠實地將內容記錄下來[7]

辭典 編輯

自2002年以來,除了錄音跟影像資料之外,泛語語料庫還收錄了若干辭典[8] ,並在2017年將辭典系列命名為「 Lexica 」 [9]

開放式檔案架構 編輯

泛語語料庫所存檔的數據採開源格式,訪客可以下載資料原始檔案(多數為知識共享Creative Commons許可協定),以便離線使用。資料庫網站提供的各式軟體工具也屬開源軟體(開放原始碼)。 此外,泛語語料庫很早就採用諸如XML等相容性高的格式,此種格式目前為數位人文科學的主流。 [10]

泛語語料庫是語言學資料庫「 開放式語言典藏組織」(OLAC[11])的一員,也是DELAMAN瀕危語言資料庫協會會員之一[12]

泛語語料庫乃CoCoON(COllections de COrpus Oraux Numériques)數位資料館的資料庫之一。CoCoON是一個技術平台,旨在支援口語語料採集人員建立、整理、歸檔語料庫。[13] 其典藏的數據儲存在「 數位人文資料存放平台」Huma-Num[14]上。

歷史 編輯

2001年時,「 LACITO歸檔方案」收藏了大約20種語言,共100篇左右的長篇語料[15] 。 2011年,泛語資料庫的館藏庫收錄了近1000卷的長篇語料,涵蓋67種語言,總計350篇語料經過轉寫和注釋[16] 。 館藏在2014年達到1400篇語料,其中大約有400篇已由人工轉寫和注釋[3] 。2016年10月時,泛語資料庫典藏了132種語言[17] 。 其館藏在2018年2月達到170種語言,3559個錄音檔跟影像檔[18] [19] 。2021年,在新一款自動轉寫軟體的幫助下,轉寫和歸檔都方便許多,一個小時便可以抵以往上百小時的工作進度。

參考 編輯

  1. ^ 语料库官方网页上的介绍. [2021-05-08]. (原始內容存檔於2021-11-30). 
  2. ^ 米可. 永宁摩梭话(纳语)长篇语料的记录整理与研究工作. 麗江民族研究. 2012, 5: 36-54 [2024-03-07] –透過HAL-Science. 
  3. ^ 3.0 3.1 Michailovsky, Boyd, Martine Mazaudon, Alexis Michaud, Séverine Guillaume, Alexandre François & Evangelia Adamou. 2014. Documenting and researching endangered languages: the Pangloss Collection. Language Documentation and Conservation 8. 119–135. http://hdl.handle.net/10125/4621
  4. ^ 資料目錄頁面存檔備份,存於網際網路檔案館).
  5. ^ 語言目錄頁面存檔備份,存於網際網路檔案館).
  6. ^ Jacobson, Michel; Michailovsky, Boyd; Lowe, John B. Linguistic documents synchronizing sound and text. Speech Communication. 2001, 33 (1-2): 79–96 [2017-08-28]. doi:10.1016/s0167-6393(00)00070-4 (english). 
  7. ^ Bouquiaux, Luc & Jacqueline Thomas. 1971. Enquête et description des langues à tradition orale. Deuxième édition 1976. Paris: Société d』études linguistiques et anthropologiques de France.
  8. ^ Jacobson, Michel & Boyd Michailovsky. 2002. Linking linguistic resources: time aligned corpus and dictionary. International Workshop on Resources and Tools in Field Linguistics. Las Palmas.
  9. ^ Bonnet, Rémy, Céline Buret, Alexandre François, Benjamin Galliot, Séverine Guillaume, Guillaume Jacques, Aimée Lahaussois, Boyd Michailovsky & Alexis Michaud. 2017. Vers des ressources électroniques interconnectées: Lexica, les dictionnaires de la collection Pangloss. Actes des 9èmes Journées Internationales de la Linguistique de corpus, 48–51. Grenoble: Université Grenoble Alpes.
  10. ^ Sylvain Loiseau. La Collection Pangloss : une archive des langues du monde. http://www.inalco.fr/. 2020-01-06 [2020-01-15]. (原始內容存檔於2021-01-14) (法語). 
  11. ^ Open Language Archives Community. Open Language Archives Community. Open Language Archives Community. [2021-05-09]. (原始內容存檔於2021-12-24). 
  12. ^ Digital Endangered Languages and Musics Archives Network. [5 avril 2020]. (原始內容存檔於2021-11-11) (anglais). 
  13. ^ Collections de Corpus Oraux Numériques. [2017-09-11]. (原始內容存檔於2018-04-10). 
  14. ^ Huma-Num. [2021-05-14]. (原始內容存檔於2022-01-04). 
  15. ^ Jacobson, Michel; Michailovsky, Boyd; Lowe, John B. Linguistic documents synchronizing sound and text. Speech Communication. 2001, 33 (1-2): 79–96 [2017-08-28]. doi:10.1016/s0167-6393(00)00070-4 (anglais). 
  16. ^ Michailovsky, Boyd, Alexis Michaud & Séverine Guillaume. 2011. A simple architecture for the fine-grained documentation of endangered languages: the LACITO multimedia archive. Keynote speech at Oriental-COCOSDA 2011, October 26th-28th, 2011. Hsinchu, Taiwan.
  17. ^ Collection Pangloss - FAQ. [2016-11-10]. (原始內容存檔於2017-08-04). 
  18. ^ 資料目錄頁面存檔備份,存於網際網路檔案館).
  19. ^ “泛语语料库收录了多少种语言?”. [2021-05-08]. (原始內容存檔於2021-04-18). 

外部連結 編輯