|
关于分词的几个问题
|
|
2007-06-12, 04:04 PM
帖数: #1
|
|||
|
|||
|
关于分词的几个问题
原文如下:
引用:1. 全文检索,此次全文搭配数据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。 分词结果: 引用:1 . 全文检索 , 此次 全文 搭配 数据库 进行 。 测试 中 大概 有 45 万 篇文章 , 约 900 万个词 ( 是 分 好 的 词 不是 字 ) 。 1.从结果来看,分词程序对数量词的把握不是很准 45万篇文章 = > 45 万 篇文章 约900万个词 = > 约 900 万个词 篇是量词,量词怎么和后面的名词分在一块呢? 2. 效果相当好 = > 效果 相 当好 不知道在词库中"相"的词性是什么,这里把"相"和"当"分开,却把"当"和"好"分在一块, 明显不是我们想要的结果. |
|||
|
2007-06-12, 09:14 PM
帖数: #2
|
|||
|
|||
|
1.单字节的数字和中文字目前的规则不允许一起存在,像45万就可以,或四十五万
2."当好"在词典中出现并有较高的频率,这可能是错误的,可以修正词典.关于词典的问题有相关文章已经说过了,词库太大,出错不少,校对是长期而困难的 |
|||
|
2007-06-18, 07:34 PM
帖数: #3
|
|||
|
|||
|
这个也是我们垂直的优势哈。
词库上面 :lol |
|||
|
|

搜索
会员列表
日历
帮助


