|
2007简易分词第4版(scws-0.1.x)体验
|
|
2007-06-06, 11:06 AM
帖数: #1
|
|||
|
|||
|
2007简易分词第4版(scws-0.1.x)体验
2007年最新的 SCWS 第4版已于近日开发完成并测试运行中。它在算法与写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,也支持UTF-8/GBK等不同字符集。经评估测试分词准确率在 95% 左右,召回率有 92% 以上。
这套程序的开发其实很早就开始做基础工作了,持续时间和耗费精力都相当大。开始全部采用纯 php 代码编写,功能基本实现了但发现速度太慢,比以前慢5~8倍,而准确率只比前面的第2/3版提升2个百分点,实在很不爽。 先看看演示地址吧:GBK版(推荐) UTF-8版(词库较旧) 目前全部使用 *Unix* 系统下的标准C开发,全部采用自行设计的词典格式 (XTree 和 XDB) 完全不需要依赖任何第三方库及数据库系统。统一编译成链接库 (.a或.so形式),在开发和使用上都比较方便。而在 php 这块,做法是将它移植做成 PHP 的扩展库,安装后即可在 php 中直接使用 scws 接口的函数来执行分词了,具体请参见演示代码。 这套分词目前的速度也超出了我的想象,实测 8万字节的中文文本在我的服务器上最快达 0.07秒(双核双CPU 3.0G),使用 php 扩展速度要略慢了 40% 左右,8万字节大概要 0.4~0.6秒不定。 |
|||
|
2007-06-07, 01:50 PM
帖数: #2
|
|||
|
|||
|
佩服!
去爽一下 |
|||
|
2007-06-07, 02:05 PM
帖数: #3
|
|||
|
|||
|
期待
核心算法的源代码释出
|
|||
|
2007-06-07, 03:10 PM
帖数: #4
|
|||
|
|||
|
顶一个``````````
|
|||
|
2007-06-19, 08:31 PM
帖数: #5
|
|||
|
|||
|
用过这个,感觉不错!
|
|||
|
|
| 可能相关的主题... | |||||
| 主题: | 作者 | 回复数: | 人气: | 最近发表 | |
| 2008/12 发布 scws-1.0.1 修订版, 并推出 scws 项目站点 | hightman | 2 | 16,650 |
2009-08-17 11:15 PM 最近发表: yueliangdao0608 |
|

搜索
会员列表
日历
帮助


