语音产生装置

语音生成装置(英语:Speech-generating devices缩写SGDs),也被称为声音输出通信辅助装置 ,是一种电子辅助和替代通信 (AAC)系统。为有语言障碍的人补充、代替言语或书写,使他们能够口头传达他们的需求。 [1] 对于那些有语言沟通障碍的人来说,SGDs是很重要的。因为这个系统让每个人在沟通交互上成为积极的参与者。语音生成装置对于肌萎缩性侧索硬化症(ALS)的患者特别有帮助,但最近已被用于协助预测性语音不足的儿童。 [2]

斯蒂芬·霍金,物理学家和SGD用户

SGDs有多个输入和显示方法,给予不同类型的语言障碍者使用。有些SGDs提供许多的符号页面来因应大量的言语消息,因此随着系统定位这些符号页面时,一次仅能看到部分的符号。语音产生装置可以产生透过录制自然语音或语音合成的声音,这种声音或许带有较少的情感消息,但可以让用户表达丰富的语言消息。 [3]

许多因素会引响系统内容、组织和SGD系统的词汇更新,例如在用户的需求,以及该装置使用的情境。 [4] 透过技术的进步,改善现有的词汇量和输出语速是目前活跃的研究领域。用户对词汇的使用应当是有高度重要性,是经常适用,具有一定范围的含义,并且是在功能务实。 [5]

存取装置上访问消息有很多种方法:直接、间接地,或者使用专门的存取装置,虽然特定的存取方式会依用户的能力决定[1] 虽然速率增强策略可以增加输出的用户的速率,导致通信的效率提高,语音生成系统输出通常比语音慢得多。 [6]

第一个已知的SGD原型是在70年代中期,在硬件软件开发进展迅速。这意味着SGD功能,现在可以集成到智能电话等装置。SGDs的用户包括著名的史蒂芬·霍金罗杰·埃伯特、 托尼Proudfoot、和皮特Frates(ALS的冰桶挑战的创始人)。

语音产生系统可以是纯粹为AAC开发的专用装置,或者非专用装置,如电脑运行的其他软件,来使系统作为AAC装置的电脑装置。 [7] [8]

语音产生装置的历史 编辑

 
患者操作的选择机制(POSM或POSSUM),在20世纪60年代初研发

SGDs早在电子通信辅助根。第一个这样的援助是命名于1960年在英国注册由马岭原型病人操作的选择技术(POSSUM)一小口和粉扑打字机控制器[9] [10] POSSUM通过一组发光的显示器上的符号进行扫描 。 [9] 在1970年,荷兰代尔夫特理工大学的研究人员创建的亮点操作打字机(LOT),它利用端点的小幅度移动在字符的矩阵,每个配备了光电电池来指向一个小光点。尽管在商业上不成功,LOT仍深受其用户好评。 [11]

在70年代和80年代初,许多公司开始出现了成为后来SGDs的突出厂家。托比丘吉尔因脑炎而失去说话能力后, [12]于1973年创立托比丘吉尔有限公司, 在美国,Dynavox(当时称为有情系统技术)的发起是出于卡内基-梅隆大学的学生项目,始于1982年,以帮助一名年轻脑瘫女子脑性麻痹沟通的。 [13] 在20世纪80年代初期,技术改进导致语音沟通系统大大增加数目,产品多样性,和可商购的通信装置性能,并缩小尺寸和降低价格。替代性的存取,如目标扫描(也称为眼睛指向)校准用户眼睛的移动直接引导SGD产生想表达的话语。用户选则这种顺序性地替代性存取扫描,已在通信装置中得以获取。 [10] [14] 语音输出的可包括数码的和合成的语音。 [10]

硬件软件的开发进展迅速且继续进行,其中包括由欧洲共同体资助的项目。第一个商用动态画面的语音生成装置是在20世纪90年代开发的。软件程序被开发,使得以点脑为基础的通讯面板得以研发 。 [10] [14] 正当提高存取性和系统能力时,高科技装置继续变得更小,更轻。 [14];通信装置可利用眼动追踪系统,执行如同电脑做的文字处理网络功能,并可作为独立接入其他装置,如电视,广播和电话的环境控制装置 。 [15]

著名的ACC用户包括斯蒂芬·霍金罗杰艾伯特 [16] 托尼Proudfoot,和皮特Frates。由于ALS所引起的病发性残疾,以及经过紧急性的气管手术,霍金无法说话。气管切开术 。从那独特的语音合成装置发出的声音已经和他密不可分。 [17] 在过去的20年左右有语言缺陷的年轻的孩子使用SGD有所增加,如自闭症,唐氏综合症,以及手术后的预期性脑部损伤。

在21世纪初开始,专家看到不仅SGDs在成人身上有好处,儿童也是。神经语言学家发现SGDs在帮助在脑部手术后历经暂时性语言缺陷的ALS儿童时,同样有效。特别是,数码化的SGDs已被用作用于在恢复过程中的儿科患者。

存取方法 编辑

有许多方法可以存取话语消息:直接,间接地,或专业化的存取装置。直接存取方涉及与系统的物理接触,透过使用键盘或触摸板。关于使用系统,从SGDs间接和通过个别装置存取的用户必须透过操纵感、光标、视觉指示器、光学指针、红外线指示器或开关来使用扫描仪 。 [1]

个别使用的方法将依赖于用户的技巧和能力有所不同。直接选择可用身体,指针,滑鼠 , 操纵杆 ,或眼动, [18]而开关控制扫描通常用于间接选择。 [8] [19] 不同于直接选择(例如,在键盘上打字,触摸屏),当电子装置的扫描指针(或光标)是所需的选项时,目标扫描的用户只能在进行选择。 那些无法使让眼睛校准光标的用户,用眼睛注视来指向和调整,选择所需要的单词和短语。扫描的速度和的图案模式,以及选择系统项目的方法,都是依用户个别的生理条件、视觉或认知能力而设计。 [20]

资讯建设 编辑

 
Dasher的速度提升计划的屏幕截图

增进式和替代式沟通一般比语音慢很多, [6]用户通常每分钟生产8-10字。 [21] 速率增强策略可以增加输出的用户的速率,大约每分钟增加12-15个词语, [21]因此提高沟通的效率。

在任何SGD中可能有大量的声音表现形式有利于促进效率和有效的沟通,包括问候,表达欲望,和询问问题。 [22] 随着用户操纵各种网页,SGDs有许多符号页面来因应大量的声音表达,因此一次只有部分的符号可在屏幕上看见。 [23] 语音产生装置通常显示一组使用选项: 一则使用动态变化的屏幕,或固定显示的屏幕。 [24]

提高SGD沟通速率有两个主要的方式:编码和预测[6]

编码让用户产生一个或两个激活他们的SGD的字,句子或短语。 [6] 标志性的编码策略,如结合的图标(图片符号)精简语义产生的单词或短语。 [25] 在数字,字母,数字,字母和编码(也称为缩写扩展),单词和句子被编码为字母和数字序列。例如,键入“HH”或“G1”(用于问候1)可以得到“你好,你怎么样?“。 [25]

预测是一个速率的增强策略,通过预测的单词或短语,试图减少用的击键次数。然后,用户无需编写整个单词,就可以选择正确的预测用词。文字预测软件会根据语言的使用频率、与其他文字的关系性、过去的使用或文法切合度来决定选字。 [6] [25] [26] 然而,用户已表示静态的键盘布局比具有预测性的设计在每分钟可以产生多个字(用扫描接口),这表明在使用扫描接口时,事先预示认知字词的排列法已否定了预测性的接口。 [27]

一些像是听觉科学的“声音交互装置”,结合编码和预测到同一个系统中。例如,键入“HMF”可以是“你能不能帮我找到____”,然后预测功能可以帮助用户完成句子,比如“你能不能帮我找到“我的眼镜”?或者你能帮我找到“我的车钥匙”?

另一种提升沟通效率是Dasher , [28]它使用语言模型和算术编码来呈现屏幕上目标字母。这些字词都是根据过去的使用历史给予选择。 [29] [30]

文字产生的速率大部分依赖系统里的概念层次:TALK系统,以每分钟60字的展示输出,让用户选择大量的句子。 [31]

固定和动态显示​​装置 编辑

固定显示装置 编辑

 
具有固定显示器的语音产生装置

固定显示装置是指那些在特定模板中符号和数据项都是固定的;一些来源称为“静态”显示。 [32] 这样的显示装置具有比一些其他装置更简单的学习曲线。

固定显示复制了传统低技术ACC的典型格局(低技术被定义为那些不需要电池,电或电子装置),如通讯板。他们有共同的缺点;例如,它们常限制符号和消息的数量。 [24] 要注意的是,随着二十一世纪制造技术的进步,固定显示SGDs已不再被广泛使用。

动态显示装置 编辑

动态显示装置通常也是触摸面板装置。平板、TextSpeak Design, [33] Tobii技术与Word+。 [34]的装置是最普遍使用的动态显示装置。当按下按键时,装置通常会产生电子生产的视觉符号,改变一连串的显示选择。用户可以利用页面链接来选取单字或消息所在的页面,更改符号。动态显示装置的主页可能会显示与许多不同上下文或对话的主题符号。按任何一个符号能打开一个与该主题相关的屏幕页面。 [24] 例如,看排球比赛的时候,用户可以按“运动”符号打开与有关体育的消息的页面,然后按记分牌的符号,说出“比分是多少?”

 
动态显示的语音发生装置,能够输出两个合成和数码化语音的

动态显示装置的优点包括大量的词汇可用性,并能透过句构看到句子[22]动态显示装置的进一步优点是,能提供对多样的沟公平到,包括手机 , 短讯和电邮。 [35]林雪平大学的研究显示,电邮写作练习让使用SGD的儿童开发新的社交技能,增加他们的社会参的能力。 [36]

输出 编辑

SGD的输出可以是数码化的或合成的:数码化语音是直接录制字词或语音;然而合成的语音是用文本语音录制软件录制,带有较少的情感消息,但用户能借由打入新词说出丰富的消息。 [37] [38] 如今,每个用户都使用了结合录制的语音和文本语音技术的语音生成装置。 [38] 然而,一些装置仅能以一种类型的语音输出。

数码化语音 编辑

 
简单开关操作:语音产生装置

单词,短语或整个消息可以被数码化,并存储到用户的播放装置。 [1] 这个过程称为语音存储。 [39] 录制化语音的优点包括: (1)给予听话者自然的韵律和语音自然度。[3]例如,有相同的年龄和性别的AAC用户的人可以被选来录制声音)。 [3](2)它提供了额外的声音,这些声音也是很重要的,像是笑声或吹哨声。此外,当语音失常患者失去说能力,数码化SGDs为患者和家人提供一定程度的常态服务。

只使用录音语音输出的主要缺点是,用户不能产创新的语音;它们仅限于使用预先录制在装置中的消息。 [3] [40] 根据装置的不同,录音长度有可能会被限制。 [3] [40]

合成语音 编辑

SGDs运用合成语音和语言的语音规则的应用来把用户的消息翻译成语音输出。( 语音合成 )。 [1] [38] 用户可以自由地创建新的词和资讯,并且被那些已被预先记录在他人装置语音所限制。 [38]

智能电话和电脑已经透过应用程式的更新,增加合成语音的使用率。这应用程式让用户在清单中选择已被当作话语说过的词组和消息。相关应用程式,如Speak it!或是为iPhone提供的便宜的协助性表达装置,让用户无需访问医生或学习使用专业机械。

合成SGDs可以使多样的消息产生变得个人化或相互集成:可以透过单一的字母、字词、词组句子、图片来产生。[1] [40] 透过合成语音,消息除存储能力便没有限制,对于记忆空间的需求也没这么大。 [3]

合成语音引擎提供许多语言使用, [38] [40]引擎的参数,可以被用户所操控。如说话速率、音调范围、性别、重音分布、停顿和发音异常。 [40]

编制程序 编辑

 
键盘文本到语音产生装置

选择字集和词汇 编辑

SGD的选择字集是集合了所有的消息、符号和编码。方便用户的一种装置。[38] 内容、组织和选择字集的更新都是兴新的研究领域。同时也受许多因素引响,包括用户的能力,兴趣和年龄。 [4] AAC系统的选择字集可包括用户尚未知道的词语,这些字词被归类在“后续学习” [4] 许多因素会引响系统内容、组织和SGD系统的词汇更新,例如在用户的需求,以及该装置使用的情境。[4]

最初的内容选择 编辑

研究人员Beukelman和Mirenda列出了一些对初始内容选择可能的来源(如家庭成员,朋友,教师和护理人员)。广大的资源需求,是因为需要,个人没有经历过任何特定情境会产生的所有语音表达。[4] 例如,家长和治疗师可能不会想到邀加入俚语,如“ 是吗 。” [41]

以前技术已经典型说话者会说的话语和ACC用户在语音装置上所产出的话语内容。如此的研发过程对于产生核心的话语集或语音表达是很好地的,但当特定的字词需要用在特定情形时,就没什么效率。(例如,用户对骑马有兴趣,直接关连到骑马相关的字词。“边缘词汇”是指词汇对个人的兴趣或需要是特定、独特的。开发边缘词汇的装置典型的技术是: 进行与多个“话语人”采访:兄弟姐妹,父母,老师,同事和其他相关人员[4]

其他研究人员,如Charlie Musselwhite同和圣路易斯表明初期的词汇项目应该是用户很感兴趣的,经常使用,且有一系列的语义汉语用功能。 [5] 这些标准已被广泛用于在AAC中,作为SGD的生态学性质检验。 [4]

自动化内容维护 编辑

Beukelman和Mirenda强调词汇的选择也包括正在进行的词汇维护; [4]然而,维护AAC的困难是,用户或他们的照顾者必须手动编制任何新的话语(例如新的朋友或个人的故事的名字),而且没有自动添加内容的解决方案。 [21] 若干研究方法试图克服这一困难, [42]相关议题从“推断输入”,如基于加载与用户的朋友和家人的日志谈话产生的内容, [43]到互联网采集到的数据、语言材料,如WebCrawler网络。 [44] 而且,通过利用LIFELOG为基础来更改的方法,装置的内容可基于用户发生在他们一天中的事件而改变。 [42] [45] 通过得到更多用户的使用数据,更高质量的消息可冒险从他人用户的资料中生成。 [42] 例如,通过利用全球定位系统,装置的内容可以基于地理位置而改变。 [46] [47]

伦理问题 编辑

最近开发的许多SGDs系统包括表现测量和分析工具 ,以帮忙监控由用户使用的内容。这引起了人们对隐私的关注,有的认为,用户使用的装置应有让用户决定是否要在这样的监控下使用。 [48] [49] 类似的考量是关于自动内容生成装置提议, [45]隐私的议题日益成为SGD设计的考量因素。 [41] [50] 随着AAC装置被设计成为所有地区用户所使用,有个攸关法律、社会和科技的议题,关注于个人资料和家庭的分配问题,这些问题在ACC的使用资料中都能被找到。个人资讯管理系统例如,SGDs必须设计出来,如此才能支持用户有权删除自动加入系统的对话或内容。 [51]

挑战 编辑

动态生成语音装置通常是由专业人士增进式的对话所完成的。专家必须迎合患者的需求,因为患者通常选择他们想要什么样的词/词组。例如,使用患者根据自己的年龄,残疾,兴趣等。因此,内容的组织是非常耗时的。此外,SGDs很少是由医疗保险公司支付。因此,资金和人员的资源分配极有限。波士顿儿童医院的约翰·科斯特洛博士极力在他的医院或夸国医院招集和募款,维持这些计划的执行和良好的工作人员素质。

生产者 编辑

即便有几个公司生产的软件给与SGD运作的空间,SGDs的生产者相对少数,另外还有一些自制系统。专门装置的生产商包括听觉科学 ,Dynavox迈耶-约翰逊 ,LC科技 , Lingraphica页面存档备份,存于互联网档案馆) ,Prentke Romich公司 , 萨尔蒂公司 , Talk To Me技术页面存档备份,存于互联网档案馆) , 火星文设计 , [33] Tobii科技和Words+。 [34] 其他公司生产的软件,像iPhone,iPad任天堂DS装置也有SGDs系统。 [52]

参考文献 编辑

  1. ^ 1.0 1.1 1.2 1.3 1.4 1.5 安泰公司(2010)
  2. ^ Blischak等人(2003)
  3. ^ 3.0 3.1 3.2 3.3 3.4 3.5 Glennen&Decoste第88-90
  4. ^ 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Beukelman&Mirenda,第2章
  5. ^ 5.0 5.1 Charlie Musselwhite同路易-
  6. ^ 6.0 6.1 6.2 6.3 6.4 华盛顿大学
  7. ^ Glennen,第62-63页。
  8. ^ 8.0 8.1 JANS和克拉克(1998),页37-38。 引证错误:带有name属性“jansclark1998”的<ref>标签用不同内容定义了多次
  9. ^ 9.0 9.1 Vanderheide(2002)
  10. ^ 10.0 10.1 10.2 10.3 Zangari(1994)
  11. ^ [15] ^ Stassen的等人 ,第127页
  12. ^ 托比丘吉尔(简介)
  13. ^ Dynavox(公司历史)
  14. ^ 14.0 14.1 14.2 乌尔卡德(2004)。
  15. ^ Robitaille,第151-153。
  16. ^ 芝加哥太阳时报(2009年)
  17. ^ 斯蒂芬·霍金和ALS
  18. ^ Mathy(2000)
  19. ^ Glennen&Decoste 62-63页
  20. ^ Beukelman&Mirenda,第97-101
  21. ^ 21.0 21.1 21.2 希金波坦等人(2007)
  22. ^ 22.0 22.1 Beukelman&Mirenda
  23. ^ 霍克斯坦等人(2004)
  24. ^ 24.0 24.1 24.2 Beukelman&Mirenda页。 84-85
  25. ^ 25.0 25.1 25.2 文卡塔吉里(1995年)
  26. ^ 强化的交流,成立
  27. ^ Johansen等人(2003)
  28. ^ Ward等人(2000)
  29. ^ 洛克等人(2010)
  30. ^ 麦基(2003),第119页
  31. ^ 托德曼(2000)
  32. ^ 霍克斯坦等人(2003)
  33. ^ 33.0 33.1 www.textspeak.com
  34. ^ 34.0 34.1 www.infinitec.org
  35. ^ Dynavox在www.speechbubble.org.uk
  36. ^ Sundqvist&Rönnberg(2010)
  37. ^ 施洛瑟,Blischak&Koul(2003年)
  38. ^ 38.0 38.1 38.2 38.3 38.4 38.5 Beukelman&Mirenda页。 105-106 引证错误:带有name属性“beu”的<ref>标签用不同内容定义了多次
  39. ^ Beukelman&Mirenda,第105。
  40. ^ 40.0 40.1 40.2 40.3 40.4 拉多姆斯基等人(2007)
  41. ^ 41.0 41.1 @article {wickenden2011whose, 标题= {是谁的声音?:问题和残疾人青少年使用辅助和替代通信(AAC)生活的民族志研究}, 笔者= {Wickenden,M}, 杂志= {残疾研究季刊}, 音量 数量: 学年 }
  42. ^ 42.0 42.1 42.2 Reddington主及Tintarev(2011)
  43. ^ 阿什拉夫等。(2002)
  44. ^ Luo等人(2007)
  45. ^ 45.0 45.1 Black等(2010)
  46. ^ Dominowska等
  47. ^ 帕特尔与拉达克里希南
  48. ^ Beukelman&Mirenda,第三十
  49. ^ 黑石等。(2002)
  50. ^ Rackensperger等。(2005)
  51. ^ Reddington主与科尔斯-坎普(2011)
  52. ^ www.cbsphily.com

传记 编辑