2007-06-06, 10:47 AM
简要说明
cscwsd 是英文全称 C-Simpled Chinese Word Segment Daemon 的首字缩写,这是用标准纯 C 编写,并配合使用 autoconf GNU软件工具包, 基本上可以很方便在的各类 Unix-Like OS 系统下顺利编译执行。目前测试过的有 RedHat Linux (as3,as4) FreeBSD 4.x 5.x 6.x。目前只支持 GBK 编码。
这个小程序的基本工作方式如下:运行后在本地绑定一个端口(缺省是 4700)监听处理分词服务,无其它功能。针对输入的文字进行分词后然后原样输出,注意每次输入均以 "\n" 作为处理标记,即一行处理一次并返回。这样作的目的在于提高分词的效率和通用性,由专门的一支程序来处理,别的程序只需通过 socket 与其对话即可,客户端用什么语言都方便的实现,发布包中附带了一系列 misc/CWS_*.php,均是采用 PHP 编写的访问例子。切词速度比原 PHP直接分词要提高数十倍以上。
词典采用的是 .txt 格式,解决了编辑困扰问题。格式非常简单,一行一条目,词与频率之间用(TAB制表符或空格)分开,具体的程序运行说明,请参看发布包中的 README
下载及演示
安装下载地址:http://www.hightman.cn/down/cscwsd-0.0.3.tgz (2MB 含文本词典)
在线演示地址:http://www.hightman.cn/demo/scws/by_server.php (若服务没启动不可用)
安装说明
1. 快速安装 (Linux/BSD ...)
./configure
make
make install
2. 使用
cscwsd -h
建议使用
cscwsd -D -L /tmp/cscwsd.log -d /usr/local/etc/dict.txt
3. 简单测试分词
telnet localhost 4700
然后直接输入文字即可,每敲入一个回车,服务器立刻返回当前句的切分结果.
几条控制命令,在切分前设定(可不设)
/set autodis=[on|off|yes|no]
/set ignore_mark=[on|off|yes|no]
/set delim=_
统计词语出现频率??
/set stat=on (开始统计)
/set attr=名词,动名词,...(只统计这些?)
中间收到的分词语句均不直接输出而等到最后一句再输出结果, 排好顺序??
格式:词语\t次数\r\n
/set stat=off (停止统计)
4. 编译选项
--enable-mio=[select|poll] 缺省是 poll
--enable-mio-debug 打开 mio 的 debug 信息
--enalbe-debug 打开主体程序的 debug 信息
cscwsd 是英文全称 C-Simpled Chinese Word Segment Daemon 的首字缩写,这是用标准纯 C 编写,并配合使用 autoconf GNU软件工具包, 基本上可以很方便在的各类 Unix-Like OS 系统下顺利编译执行。目前测试过的有 RedHat Linux (as3,as4) FreeBSD 4.x 5.x 6.x。目前只支持 GBK 编码。
这个小程序的基本工作方式如下:运行后在本地绑定一个端口(缺省是 4700)监听处理分词服务,无其它功能。针对输入的文字进行分词后然后原样输出,注意每次输入均以 "\n" 作为处理标记,即一行处理一次并返回。这样作的目的在于提高分词的效率和通用性,由专门的一支程序来处理,别的程序只需通过 socket 与其对话即可,客户端用什么语言都方便的实现,发布包中附带了一系列 misc/CWS_*.php,均是采用 PHP 编写的访问例子。切词速度比原 PHP直接分词要提高数十倍以上。
词典采用的是 .txt 格式,解决了编辑困扰问题。格式非常简单,一行一条目,词与频率之间用(TAB制表符或空格)分开,具体的程序运行说明,请参看发布包中的 README
下载及演示
安装下载地址:http://www.hightman.cn/down/cscwsd-0.0.3.tgz (2MB 含文本词典)
在线演示地址:http://www.hightman.cn/demo/scws/by_server.php (若服务没启动不可用)
安装说明
1. 快速安装 (Linux/BSD ...)
./configure
make
make install
2. 使用
cscwsd -h
建议使用
cscwsd -D -L /tmp/cscwsd.log -d /usr/local/etc/dict.txt
3. 简单测试分词
telnet localhost 4700
然后直接输入文字即可,每敲入一个回车,服务器立刻返回当前句的切分结果.
几条控制命令,在切分前设定(可不设)
/set autodis=[on|off|yes|no]
/set ignore_mark=[on|off|yes|no]
/set delim=_
统计词语出现频率??
/set stat=on (开始统计)
/set attr=名词,动名词,...(只统计这些?)
中间收到的分词语句均不直接输出而等到最后一句再输出结果, 排好顺序??
格式:词语\t次数\r\n
/set stat=off (停止统计)
4. 编译选项
--enable-mio=[select|poll] 缺省是 poll
--enable-mio-debug 打开 mio 的 debug 信息
--enalbe-debug 打开主体程序的 debug 信息