大型語言模型

大語言模型（英語：large language model，LLM）是一種語言模型，由具有許多參數（通常數十億個權重或更多）的人工神經網絡組成，使用自監督學習或半監督學習對大量未標記文本進行訓練^[1]。大型語言模型在2018年左右出現，並在各種任務中表現出色^[2]。

儘管這個術語沒有正式的定義，但它通常指的是參數數量在數十億或更多數量級的深度學習模型^[3]。大型語言模型是通用的模型，在廣泛的任務中表現出色，而不是針對一項特定任務（例如情感分析、命名實體識別或數學推理）進行訓練^[2]。

儘管在預測句子中的下一個單詞等簡單任務上接受過訓練，但發現具有足夠訓練和參數計數的神經語言模型可以捕獲人類語言的大部分句法和語義。此外大型語言模型展示了相當多的關於世界的常識，並且能夠在訓練期間「記住」大量事實^[2]。

雖然 ChatGPT 為代表的LLM在生成類人文本方面表現出了卓越的能力，但它們很容易繼承和放大訓練數據中存在的偏差。這可能表現為對不同人口統計數據的歪曲表述或不公平待遇，例如基於種族^[4]、性別^[5]、語言^[6]和文化群體^[6]的不同觀點與態度。

偏差和局限性編輯

大語言模型偏差和局限性是自然語言處理（NLP）領域正在進行的研究。雖然大語言模型在生成類人文本方面表現出了卓越的能力，但他們很容易繼承和放大訓練數據中存在的偏見。這可能表現為對不同人口統計數據的不公平待遇，例如基於種族、性別、語言和文化群體的統計數據。此外，這些模型通常面臨事實準確性的限制。研究和緩解這些偏見和限制對於人工智慧在不同社會和專業領域的道德發展和應用至關重要。

語言偏差編輯

語言偏差是指與語言相關的一種統計抽樣偏差，也就是說在信息抽樣中，查詢語言導致的系統偏差會使其無法準確呈現數據中的各種不同主題和觀點。當前的大型語言模型主要是根據英語數據進行訓練的，因此通常將英語觀點視為真實可靠的觀點，而系統地將非英語觀點視為不相關、錯誤或噪音。當被問到諸如「什麼是自由主義？」之類的政治意識形態的問題時，ChatGPT以英美角度為中心，而對例如說越南的「反對國家干預個人和經濟生活」與中國的「限制政府權力」等視而不見。同樣，回覆中也沒有日本、韓國、法國和德國語料庫中的主流政治觀點。^[6]

性別偏差編輯

性別偏差是指這些模型產生的結果傾向於對一種性別產生不公平的偏見。這種偏差通常源於訓練這些模型的數據。例如，大型語言模型通常根據傳統的性別規範來分配角色和特徵；它可能會將護士或秘書主要與女性聯繫起來，將工程師或執行長與男性聯繫起來。^[4]^[7]

政治偏差編輯

政治偏差是指算法系統地傾向於某些政治觀點、意識形態或結果，也可能表現出政治偏見。由於訓練數據包含廣泛的政治觀點和覆蓋範圍，因此模型可能會生成傾向於特定政治意識形態或觀點的響應，具體取決於數據中這些觀點的普遍程度。^[8]

文化偏差編輯

文化偏見是指大語言模型對特定的文化實踐、信仰或傳統持有偏見，由於受到訓練數據中文化信息的不均衡、誤導性或歧視性影響。例如，若模型的訓練數據中某種文化的觀點被過度代表，模型就繼承這種偏差形成一定的偏見。^[9]

地域偏差編輯

地域偏差是指大語言模型根據地理位置或國籍對人們的行為、習慣或特徵做出偏見性的假設。這種偏差可能導致對特定地區的知識、成就、問題、潛力等方面的誤解、低估或過度放大。^[10]

年齡偏差編輯

年齡偏差是指大語言模型在處理或生成與年齡相關的話題時，根據年齡做出刻板印象化的假設，例如認為年長者不懂技術或年輕人缺乏責任感。^[11]

職業偏差編輯

職業偏差是指大語言模型對特定職業持有刻板印象，將某些職業視為比其他職業更有價值或重要，或對特定職業的人群做出性格或能力上的假設。^[12]