发表回复 
 
主题评价:
  • 0 次(票) - 平均星级: 0
  • 1
  • 2
  • 3
  • 4
  • 5
scws-1.0.0 正式发布 (含php扩展及2文本词典)
2008-03-04, 10:25 PM (这个帖子最后修改于: 2010-01-29 01:26 PM by hightman.)
帖数: #1
scws-1.0.0 正式发布 (含php扩展及2文本词典)
转眼间距离 libscws-pre 发布已经半年多了, 这段时间来 scws 伴随着 ftphp 不断的改进和成长, 现在忙里偷闲将 scws 代码整理发布, 并使用 Autoconf, Automake 工具打包发布, 方便大家安装和使用, 也感谢大量网友的不断支持.

目前 scws 的版本为 1.0.0 Release , 该版本稳定可用,而且包含两个文本词典,和转化为 xdb 的工具, 词典编码为 gbk, 将 gbk 转换成 utf8 应该非常简单了, 这里不再细述, 详细情请下载整个软件包以后阅读其中的 README 文件.

最新下载地址: http://www.ftphp.com/scws/down/scws-1.1.0.tar.bz2 (共3.0MB)

演示地址:
G B K: http://www.hightman.cn/demo/scws/v4.php
UTF-8: http://www.hightman.cn/demo/scws/v48.php
繁体: http://www.hightman.cn/demo/scws/v48.cht.php


[README 文件说明节选]
SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。
它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的
切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间
用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。
本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专
有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大
概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取
等场合运用。首次雏形版本发布于 2005 年底。
本系统支持的汉字编码包括 GBK、UTF-8
查找这个用户的全部帖子
引用并回复
2008-03-05, 05:34 PM
帖数: #2
 
make[2]: *** No rule to make target `rules_cht.utf8.ini', needed by `all-am'. Stop.
make: *** [all] Error 2

报错,但是能用

[ 本帖最后由 Mistruster 于 2008-3-5 17:44 编辑 ]
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
2008-03-05, 05:51 PM
帖数: #3
 
打包的时候少了rules_cht.utf8.ini 的原因呵,问题不大,自己touch一个或从rules.ini转换一个

现下载包已经更新并包含了该文件
查找这个用户的全部帖子
引用并回复
2008-03-07, 02:38 PM
帖数: #4
 
不错,顶。
查找这个用户的全部帖子
引用并回复
2008-03-07, 02:43 PM
帖数: #5
 
[z=hx_moflag2]浙江网友前来祝贺~[/z]
查找这个用户的全部帖子
引用并回复
发表回复 


可能相关的主题...
主题: 作者 回复数: 人气: 最近发表
  2008/12 发布 scws-1.0.1 修订版, 并推出 scws 项目站点 hightman 2 16,650 2009-08-17 11:15 PM
最近发表: yueliangdao0608
  本站论坛正式启用FullText检索功能 hightman 3 15,310 2007-06-13 09:59 AM
最近发表: laohoo

论坛跳转: