语音文档检索

此條目没有列出任何参考或来源。 (2020年2月22日)
維基百科所有的內容都應該可供查證。请协助補充可靠来源以改善这篇条目。无法查证的內容可能會因為異議提出而被移除。

语音文档检索是针对以声音形式存在的文档的信息检索。其基本定义为：是给定一个检索以及一定数量的语音文档，返回与检索需求关系最为接近的文档集合。从狭义上说，检索需求指的是一些检索词或短语，而相关性指的是语音内容与检索需求的关系。从广义上说，检索需求还包括说话人，说话风格等高层次的信息。

最基本的语音文档检索系统有以下三个主要任务：

对语音文档进行切析与识别，提取出语音中内容信息。
对于识别结果建立索引。
根据用户的检索需求，返回语音文档。

语音文档检索需要从语音中提取信息，而提取信息的方法包括使用语音识别引擎或借助人工标注。在网络环境下，根据语音文件所在网页周围的文字信息也可以很好的辅助检索。

若使用语音识别进行内容分析，需要解决的问题包括语音/非语音的判决Voice Activity Detection VAD，语音背景噪声消除，说话人信息的识别，及语音识别的准确性问题。

参考文献编辑

外部链接编辑

[1] Google 语音索引

取自“https://zh.wikipedia.org/w/index.php?title=语音文档检索&oldid=78854270”