Hightman 论坛

完整版: scws-1.0.0 正式发布 (含php扩展及2文本词典)
您当前正在浏览的是一个简化版本. 要观看完整版本, 请点这儿.
分页: 1 2 3 4
转眼间距离 libscws-pre 发布已经半年多了, 这段时间来 scws 伴随着 ftphp 不断的改进和成长, 现在忙里偷闲将 scws 代码整理发布, 并使用 Autoconf, Automake 工具打包发布, 方便大家安装和使用, 也感谢大量网友的不断支持.

目前 scws 的版本为 1.0.0 Release , 该版本稳定可用,而且包含两个文本词典,和转化为 xdb 的工具, 词典编码为 gbk, 将 gbk 转换成 utf8 应该非常简单了, 这里不再细述, 详细情请下载整个软件包以后阅读其中的 README 文件.

最新下载地址: http://www.ftphp.com/scws/down/scws-1.1.0.tar.bz2 (共3.0MB)

演示地址:
G B K: http://www.hightman.cn/demo/scws/v4.php
UTF-8: http://www.hightman.cn/demo/scws/v48.php
繁体: http://www.hightman.cn/demo/scws/v48.cht.php


[README 文件说明节选]
SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。
它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的
切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间
用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。
本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专
有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大
概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取
等场合运用。首次雏形版本发布于 2005 年底。
本系统支持的汉字编码包括 GBK、UTF-8
make[2]: *** No rule to make target `rules_cht.utf8.ini', needed by `all-am'. Stop.
make: *** [all] Error 2

报错,但是能用

[ 本帖最后由 Mistruster 于 2008-3-5 17:44 编辑 ]
打包的时候少了rules_cht.utf8.ini 的原因呵,问题不大,自己touch一个或从rules.ini转换一个

现下载包已经更新并包含了该文件
不错,顶。
[z=hx_moflag2]浙江网友前来祝贺~[/z]
分页: 1 2 3 4
Reference URL's