2009-08-05, 06:09 AM
得助於 xdb词典导入导出工具,已經完成 UTF8 chs + cht 的合併,也自己加了一些詞, 目前使用中,感覺很好。
想回應的是自己在合併過程中,碰到的情況。
在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字詞,這部份不多:
chs 部份 :
禎, 银朱, 集科, 负电, 那霸, 无名肿毒, 燏, 无业, 安徽日报, 威兴我荣, 医疗器械, 一口吸尽西江水, 万乔
cht 部份:
那霸, 防禦率王, 超慢, 禎, 競爭者, 燏, 圖利案, 大坪頂, 大直, 塞迪, 併購, 加進來, 下氣
上述的字詞都有兩行
另外一個現象則是詞性標注為 '@', 這部份幾乎都是一個中文字
chs 有 15,785,cht 則有 15,861 個.
後續有其他發現再作回報。
想回應的是自己在合併過程中,碰到的情況。
在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字詞,這部份不多:
chs 部份 :
禎, 银朱, 集科, 负电, 那霸, 无名肿毒, 燏, 无业, 安徽日报, 威兴我荣, 医疗器械, 一口吸尽西江水, 万乔
cht 部份:
那霸, 防禦率王, 超慢, 禎, 競爭者, 燏, 圖利案, 大坪頂, 大直, 塞迪, 併購, 加進來, 下氣
上述的字詞都有兩行
另外一個現象則是詞性標注為 '@', 這部份幾乎都是一個中文字
chs 有 15,785,cht 則有 15,861 個.
後續有其他發現再作回報。