當代美國英語語料庫

當代美國英語語料庫(英語:Corpus of Contemporary American English,簡稱COCA)是一個十億詞的當代美國英語語料庫[1] 。它由楊百翰大學(BYU)語料庫語言學退休教授馬克·戴維斯創建。[2][3]

內容 編輯

截至2021年11月,當代美國英語語料庫 (COCA)由10億個單詞組成。[1][2][4]語料庫的數據還在不斷更新:截至2009年已包含超過3.85億個單詞;[5]截至2010年已增長到4億個單詞;[6]到2019年3月[7]已增長到5.6億個單詞。[7]

截至2021年11月,當代美國英語語料庫由485,202篇文本組成。[4]根據語料庫網站,[4]當前語料庫(2021年11月)由包含1990-2019每年24-25百萬個單詞的文本組成。

對於語料庫中包含的每一年(1990-2019),語料庫都被平均分為六個語域/流派:電視/電影、口語、小說、雜誌、報紙和學術(見COCA網站的文本和語域頁面)。除了這六個語料庫外,COCA(截至 2021年11月)還包含來自博客的 125,496,215 個單詞和來自網站的129,899,426個單詞,使其成為真正由當代英語組成的語料庫(參見 COCA 的文本和註冊頁面)。[4]

文本來自各種來源:

  • 口語:(8500 萬字)來自近 150 個不同電視和廣播節目的無腳本對話記錄。
  • 小說:(8100 萬字)短篇小說和戲劇、1990 年至今書籍的第一章和電影劇本。
  • 熱門雜誌:(8600 萬字)近 100 種不同的雜誌,涵蓋新聞、健康、家居和園藝、女性、金融、宗教和體育等多個領域。
  • 報紙:(8100 萬字)來自美國各地的十份報紙,文本來自報紙的不同版塊,例如地方新聞、輿論、體育和金融版塊。
  • 學術期刊:(8100 萬字)近 100 種不同的同行評審期刊。這些被選中以涵蓋國會圖書館分類系統的整個範圍。

可用性 編輯

已註冊用戶可在當代美國英語語料庫免費搜索。

查詢 編輯

  • 其網站界面與 BYU-BNC 界面相同,包含 1 億詞的英國國家語料庫、1 億詞的時代雜誌語料庫和 4 億詞的美國歷史英語 (COHA) 語料庫,從1810 年代至 2000 年代(請參閱下面的鏈接)
  • 按單詞、短語、替代詞、子字符串、詞性、引理、同義詞(見下文)和自定義列表(見下文)查詢
  • 語料庫由CLAWS標記,與用於 BNC 和 Time 語料庫的詞性標記器相同
  • 圖表列表(每個類型或年份中所有匹配形式的總數,1990 年至今,以及子類型)和表格列表(每個類型或年份中每個匹配形式的頻率)
  • 完整並置搜索(節點詞左右最多十個詞)
  • 可重新排序的索引,在搜索詞的左側和右側顯示最常見的詞/字符串
  • 流派或時間段之間的比較(例如小說或學術中「chair」的搭配,報紙或學術中帶有「break the [N]」的名詞,主要出現在體育雜誌中的形容詞,或 2005-2010 年比 2010 年更常見的動詞之前)
  • 一步比較相關詞的搭配,以研究詞之間的語義或文化差異(例如比較「small」、「little」、「tiny」、「minuscule」或「lilliputian」或「Democrats」和「Republicans」,或「men」和「women」,或「rob」與「steal」)
  • 用戶可以將來自 60,000 個詞條詞庫的語義信息直接作為查詢語法的一部分(例如:「beautiful」同義詞的頻率和分布,出現在小說而非學術中的「strong」的同義詞,「clean」+名詞的同義詞(「clean the floor」,「washed the dishes」))
  • 用戶還可以創建自己的自定義單詞列表,然後將它們重新用作後續查詢的一部分(例如與特定語義類別(衣服、食物、情感)或用戶定義的詞性相關的列表)
  • 請注意,由於版權限制,語料庫只能通過 Web 界面使用。

相關資料 編輯

全球網絡英語語料庫頁面存檔備份,存於網際網路檔案館)(GloWbE;發音為「globe」)包含來自20個不同國家的約19億個文本單詞。這使得它大約是國際英語語料庫等其他語料庫的100倍,而且它允許在那些其它地方不能使用的多種類型進行搜索。除了在線查詢,你還可以從語料庫下載全部數據。

它的獨特之處在於它允許人們對不同的英語變體進行比較。 GloWbE 與許多其他英語語料庫相關。 [8]

同時參照 編輯

  • 美國國家語料庫
  • 英國國家語料庫
  • 英語銀行
  • 布朗語料庫

參考 編輯

  1. ^ 1.0 1.1 Milana, Prior. A Comparative Corpus Study on Intensifier Usage across Registers in American English (學位論文). 2021. 
  2. ^ 2.0 2.1 Mark Davies, Professor of (Corpus) Linguistics, Brigham Young University (BYU). www.mark-davies.org. [November 9, 2021]. (原始內容存檔於2022-04-18). 
  3. ^ Kauhanen, Henri. The Corpus of Contemporary American English: Background and history. VARIENG. March 21, 2011 [October 13, 2011]. (原始內容存檔於2012-01-12). 
  4. ^ 4.0 4.1 4.2 4.3 Homepage. corpus of Contemporary American English. [April 24, 2022]. (原始內容存檔於2023-06-15). 
  5. ^ Davies, Mark. The 385+ million word Corpus of Contemporary American English (1990–2008+): Design, architecture, and linguistic insights. International Journal of Corpus Linguistics. January 1, 2009, 14 (2): 159–190 [2023-05-21]. ISSN 1384-6655. doi:10.1075/ijcl.14.2.02dav. (原始內容存檔於2023-05-21) (英語). 
  6. ^ Davies, Mark. The Corpus of Contemporary American English as the first reliable monitor corpus of English. Literary and Linguistic Computing. December 1, 2010, 25 (4): 447–464. ISSN 0268-1145. doi:10.1093/llc/fqq018. 
  7. ^ 7.0 7.1 Davies, Mark; Kim, Jong Bok. The advantages and challenges of "big data": Insights from the 14 billion word iWeb corpus. Linguistic Research. March 1, 2019, 36 (1): 1–34 [2023-05-21]. ISSN 1229-1374. S2CID 133013527. doi:10.17250/khisli.36.1.201903.001 . (原始內容存檔於2023-05-21) (英語). 
  8. ^ Corpus of Web-Based Global English. www.english-corpora.org. [December 18, 2019]. (原始內容存檔於2022-04-02). 

延伸閱讀 編輯

  • Anderson, Wendy; Corbett, John. Exploring English with Online Corpora. Palgrave Macmillan. 2009: 205. ISBN 978-0-230-55140-4. 
  • Bennett, Gena R. Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. 2010: 144. ISBN 978-0-472-03385-0. 
  • Davies, Mark. The advantage of using relational databases for large corpora: Speed, advanced queries, and unlimited annotation. International Journal of Corpus Linguistics (John Benjamins Publishing Company). 2005, 10 (3): 307–334(28). doi:10.1075/ijcl.10.3.02dav. 
  • Davies, Mark. More than a peephole: Using large and diverse online corpora. International Journal of Corpus Linguistics. 2010, 15 (3): 405–411. doi:10.1075/ijcl.15.3.13dav. 
  • Lindquist, Hans. Corpus Linguistics and the Description of English. Edinburgh University Press. 2009. ISBN 978-0-7486-2615-1. 

外部連結 編輯