打开主菜单
Chinese conversion.svg 字词转换
主页 讨论
轉換請求
错误修复请求
地区词候选
轉換介紹
字詞轉換處理 讨论
  繁简处理 讨论
  地区词处理 讨论
  公共轉換組 讨论
帮助文档
繁简与地区词处理 讨论
  转换原理 讨论
  手工轉換 讨论
  高级语法 讨论
相關模板
NoteTA 全文字詞轉換
CGroup 公共轉換組
地区用词 地區詞模板
地区用词2 進階地區詞模板
各地中文名 地區用詞信息框
查看 - 讨论 - 编辑 - 变动

本页简单介绍1.4版软件的繁简转换原理,以使大家可以有效处理转换时遇到的错误。

参看m:Automatic conversion between simplified and traditional Chinese

与分词的关系编辑

转换程序使用最简单的“最大匹配”法进行转换。这会导致如下的错误:假设转换词库中有一对应关系为

内存 => 記憶體

现对以下句子转换

人体内存在很多微生物

基于最大匹配,系统会对“内存”进行转换,得到“記憶體”。整个句子将会被错误地转换成

人體記憶體在很多微生物

解决这个问题的根本方法是采用智能的分词匹配,将上述句子先拆分为

人体 内 存在 很多 微生物

然后再对每个词单独转换。

在分词系统实现之前,要修正上述错误,可以有两种方法:

  1. 手工将涉及分词错误的词分开:“人体内-{}-存在很多微生物”
  2. 将涉及分词错误的多个词作为一个整体加到定制转换表裡,如“体内存在 => 體內存在”。

不检测原始字体编辑

由于我们允许在同一文章内繁简体混用,因而不可能判断一个词其原型是繁体还是简体。这就需要在繁体/简体用字相同的情況下,同时定义两条转换关系。例如:“電影集團”(繁)应转成“电影集团”(简),注意这里需要特殊转换的是“影集”,因其默认转换為“电视系列剧”。那么在转换表中,我们要有两条对应:

電影集團=>电影集团
电影集团=>電影集團

这是因为简体用户会直接写“电影集团”,如果没有第二条转换关系的话,在简体显示下会变成“电电视系列剧团”。

「影集 电视系列剧 电影集团 電影集團」在您的顯示模式下效果為:影集 电视系列剧 电影集团 電影集團