Hightman 论坛

完整版: 对医院的分词不太理想
您当前正在浏览的是一个简化版本. 要观看完整版本, 请点这儿.
甘肃省天水市秦城区人民医院
广东省佛山市第一人民医院
广东省江门市第三人民医院
广东省粤北人民医院
广饶县人民医院
广西防城港市防城区第一人民医院
广西上林县人民医院
广西西林县人民医院
广州市第八人民医院

分词后为

甘肃省 天水市 秦城区 人民 医院
广东省 佛山市第一人民医院
广东省 江门市 第三人 民医院
广东省 粤北 人民 医院
广饶县 人民 医院
广西 防城港市 防城区 第 一人 民医院
广西 上林县 人民 医院
广西 西 林县人 民医院
广州市 第 八人 民医院
杯具的分词词库和规则集导致这个结果, 稍后我看能不能简单调整一下规则集来获得比较好的效果。
查到原因了,是因为词库里居然有个错误的词叫“民医院”!!

建议删除该词重新生成词典或,写一个附加词典标记为删除。内容如下,保存为名字 del.txt,然后在分词前加入一句 $scws->add_dict('/path/to/del.txt', SCWS_XDICT_TXT);
如果您不会制作词典可以从 http://www.ftphp.com/scws/download.php 重新下载
代码:
; /path/to/del.txt
民医院 1 1 !
Reference URL's