|
scws-1.0.0 正式发布 (含php扩展及2文本词典)
|
|
2008-03-04, 10:25 PM
(这个帖子最后修改于: 2010-01-29 01:26 PM by hightman.)
帖数: #1
|
|||
|
|||
|
scws-1.0.0 正式发布 (含php扩展及2文本词典)
转眼间距离 libscws-pre 发布已经半年多了, 这段时间来 scws 伴随着 ftphp 不断的改进和成长, 现在忙里偷闲将 scws 代码整理发布, 并使用 Autoconf, Automake 工具打包发布, 方便大家安装和使用, 也感谢大量网友的不断支持.
目前 scws 的版本为 1.0.0 Release , 该版本稳定可用,而且包含两个文本词典,和转化为 xdb 的工具, 词典编码为 gbk, 将 gbk 转换成 utf8 应该非常简单了, 这里不再细述, 详细情请下载整个软件包以后阅读其中的 README 文件. 最新下载地址: http://www.ftphp.com/scws/down/scws-1.1.0.tar.bz2 (共3.0MB) 演示地址: G B K: http://www.hightman.cn/demo/scws/v4.php UTF-8: http://www.hightman.cn/demo/scws/v48.php 繁体: http://www.hightman.cn/demo/scws/v48.cht.php [README 文件说明节选] SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。 它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的 切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间 用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。 本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专 有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大 概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取 等场合运用。首次雏形版本发布于 2005 年底。 本系统支持的汉字编码包括 GBK、UTF-8 |
|||
|
2008-03-05, 05:34 PM
帖数: #2
|
|||
|
|||
|
make[2]: *** No rule to make target `rules_cht.utf8.ini', needed by `all-am'. Stop.
make: *** [all] Error 2 报错,但是能用 [ 本帖最后由 Mistruster 于 2008-3-5 17:44 编辑 ] |
|||
|
2008-03-05, 05:51 PM
帖数: #3
|
|||
|
|||
|
打包的时候少了rules_cht.utf8.ini 的原因呵,问题不大,自己touch一个或从rules.ini转换一个
现下载包已经更新并包含了该文件 |
|||
|
2008-03-07, 02:38 PM
帖数: #4
|
|||
|
|||
|
不错,顶。
|
|||
|
2008-03-07, 02:43 PM
帖数: #5
|
|||
|
|||
|
[z=hx_moflag2]浙江网友前来祝贺~[/z]
|
|||
|
|
| 可能相关的主题... | |||||
| 主题: | 作者 | 回复数: | 人气: | 最近发表 | |
| 2008/12 发布 scws-1.0.1 修订版, 并推出 scws 项目站点 | hightman | 2 | 16,650 |
2009-08-17 11:15 PM 最近发表: yueliangdao0608 |
|
| 本站论坛正式启用FullText检索功能 | hightman | 3 | 15,310 |
2007-06-13 09:59 AM 最近发表: laohoo |
|

搜索
会员列表
日历
帮助



