Hightman 论坛

完整版: 关于词典中的词性标注
您当前正在浏览的是一个简化版本. 要观看完整版本, 请点这儿.
分页: 1 2
得助於 xdb词典导入导出工具,已經完成 UTF8 chs + cht 的合併,也自己加了一些詞, 目前使用中,感覺很好。

想回應的是自己在合併過程中,碰到的情況。

在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字詞,這部份不多:

chs 部份 :
禎, 银朱, 集科, 负电, 那霸, 无名肿毒, 燏, 无业, 安徽日报, 威兴我荣, 医疗器械, 一口吸尽西江水, 万乔

cht 部份:
那霸, 防禦率王, 超慢, 禎, 競爭者, 燏, 圖利案, 大坪頂, 大直, 塞迪, 併購, 加進來, 下氣

上述的字詞都有兩行

另外一個現象則是詞性標注為 '@', 這部份幾乎都是一個中文字
chs 有 15,785,cht 則有 15,861 個.

後續有其他發現再作回報。
单字标为 @ 是以前遗留下来的, 未确定词性, 还有一部分被标为 un 了, 建议把 un 改为 '@' ,否则可能导致散字自动聚合成2元分词时会不聚合.
感謝您的建議

最初合併字典後,用較長的內文 + IN BOOLEAN MODE 搜尋,會有 0 筆資料的情況,後來反覆縮短原文查詢發現,多數與 att = un 有關聯,只是不敢武斷就是了。
本週一,狠心將 un 完全調成 a (形容词),同時完全移除只有一個中文字的部份,發現 IN BOOLEAN MODE 搜尋 0 筆資料的不再出現,反倒是變得有點過份精確。老實說還真的把我嚇了一大跳!
分页: 1 2
Reference URL's