发表回复 
 
主题评价:
  • 0 次(票) - 平均星级: 0
  • 1
  • 2
  • 3
  • 4
  • 5
关于分词的几个问题
2007-06-12, 04:04 PM
帖数: #1
关于分词的几个问题
原文如下:
引用:1. 全文检索,此次全文搭配数据库进行。测试中大概有 45万篇文章,约900万个词(是分好的词不是字)。
检索效果还不错,如果纯单词进行检索效果相当好。长句略慢。。。。

分词结果:
引用:1 . 全文检索 , 此次 全文 搭配 数据库 进行 。 测试 中 大概 有 45 万 篇文章 , 约 900 万个词 ( 是 分 好 的 词 不是 字 ) 。
检索 效果 还 不错 , 如果 纯 单词 进行 检索 效果 相 当好 。 长句 略 慢 。 。 。 。


1.从结果来看,分词程序对数量词的把握不是很准
45万篇文章 = > 45 万 篇文章
约900万个词 = > 约 900 万个词

篇是量词,量词怎么和后面的名词分在一块呢?

2.
效果相当好 = > 效果 相 当好

不知道在词库中"相"的词性是什么,这里把"相"和"当"分开,却把"当"和"好"分在一块,
明显不是我们想要的结果.
查找这个用户的全部帖子
引用并回复
2007-06-12, 09:14 PM
帖数: #2
 
1.单字节的数字和中文字目前的规则不允许一起存在,像45万就可以,或四十五万

2."当好"在词典中出现并有较高的频率,这可能是错误的,可以修正词典.关于词典的问题有相关文章已经说过了,词库太大,出错不少,校对是长期而困难的
查找这个用户的全部帖子
引用并回复
2007-06-18, 07:34 PM
帖数: #3
 
这个也是我们垂直的优势哈。
词库上面
:lol
查找这个用户的全部帖子
引用并回复
发表回复 


论坛跳转: