发表回复 
 
主题评价:
  • 0 次(票) - 平均星级: 0
  • 1
  • 2
  • 3
  • 4
  • 5
2007简易分词第4版(scws-0.1.x)体验
2007-06-06, 11:06 AM
帖数: #1
2007简易分词第4版(scws-0.1.x)体验
2007年最新的 SCWS 第4版已于近日开发完成并测试运行中。它在算法与写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。

这套程序的开发其实很早就开始做基础工作了,持续时间和耗费精力都相当大。开始全部采用纯 php 代码编写,功能基本实现了但发现速度太慢,比以前慢5~8倍,而准确率只比前面的第2/3版提升2个百分点,实在很不爽。

先看看演示地址吧:GBK版(推荐) UTF-8版(词库较旧)

目前全部使用 *Unix* 系统下的标准C开发,全部采用自行设计的词典格式 (XTree 和 XDB) 完全不需要依赖任何第三方库及数据库系统。统一编译成链接库 (.a或.so形式),在开发和使用上都比较方便。而在 php 这块,做法是将它移植做成 PHP 的扩展库,安装后即可在 php 中直接使用 scws 接口的函数来执行分词了,具体请参见演示代码。

这套分词目前的速度也超出了我的想象,实测 8万字节的中文文本在我的服务器上最快达 0.07秒(双核双CPU 3.0G),使用 php 扩展速度要略慢了 40% 左右,8万字节大概要 0.4~0.6秒不定。
查找这个用户的全部帖子
引用并回复
2007-06-07, 01:50 PM
帖数: #2
 
佩服!
去爽一下
查找这个用户的全部帖子
引用并回复
2007-06-07, 02:05 PM
帖数: #3
期待
核心算法的源代码释出
查找这个用户的全部帖子
引用并回复
2007-06-07, 03:10 PM
帖数: #4
 
顶一个``````````
查找这个用户的全部帖子
引用并回复
2007-06-19, 08:31 PM
帖数: #5
 
用过这个,感觉不错!微笑
查找这个用户的全部帖子
引用并回复
发表回复 


可能相关的主题...
主题: 作者 回复数: 人气: 最近发表
  2008/12 发布 scws-1.0.1 修订版, 并推出 scws 项目站点 hightman 2 16,650 2009-08-17 11:15 PM
最近发表: yueliangdao0608

论坛跳转: