发表回复 
 
主题评价:
  • 0 次(票) - 平均星级: 0
  • 1
  • 2
  • 3
  • 4
  • 5
MySQL-5.1.11~12 全文检索分词插件
2007-06-06, 02:09 AM
帖数: #1
MySQL-5.1.11~12 全文检索分词插件
概要及说明

经过不停的尝试和努力,以当时最新的 mysql 5.1.11-beta 为基础,制作的分词插件已经测试成功,现在发布如下。

mysql 5.1.x 本身的架构作了修改,所以增加分词直接以插件形式方式作就可以了,为了其中的 SEGMENT() 作为 UDF 来开发,但MySQL 本身的缺陷设计导致了自定义函数无法捕获参数的 charset info,于是为了“完美”起见,我还是对其中几个核心文件稍作了改动(不影响MYSQL的其它任何功能和架构)。

使用这个插件的效果是您可以在 MySQL 5.1.x 的 MyISAM 表中建立支持中文分词的全文索引,这个分词算法非常简单,基本上就是一个正向最大匹配法。特别要提醒的是 MySQL 5.1.13 及后续版本改动很大,该补丁可能无法直接使用,请注意。 安装及使用方法

这是一个简单的分词插件, 包括一个 FTPARSER, 和 1个 SEGMENT() 函数. (注: 以下示例中的 x 表示某个具体的版本号):
1. 下载取得文件包:
wget http://www.hightman.cn/down/ft-hightman-M5-0.1.tgz

2. 解压文件包
tar xvzf ft-hightman-M5-0.x.tgz
解压后您大概看到以下文件列表
ft-hightman-M5-0.x.patch
ft_hightman/

3. 将 ft_hightman/ 整个目录移入, mysql-5.1.x/plugin/ 目录

4. 将 ft-hightman-M5-0.x.patch 拷入 mysql-5.1.x/ 目录

5. 进入 mysql-5.1.x/ 目录, 运行下面命令针对旧文件打补丁
patch -p1 < ft-hightman-M5-0.x.patch

6. 仍在源码目录中, 依次运行如下命令
aclocal
automake
autoconf

7. 命令执行可能有点慢, 请耐心等待, 如有错误或警告请忽略它...

8. 按原先的方法编译、安装 mysql 5.x

9. 在编译时请增加: --with-plugins=fthightman 来开启该插件
./configure --prefix=/home/soft/mysql5 --with-charset=gbk --with-extra-charsets=all --with-plugins=fthightman
make
make install

10. 编译完后准备启动程序, 请在 $prefix/share/mysql 目录下建立要用的词典文件:

utf8 字符集对应的词典: wordlist-utf8.txt 和 stopwords-utf8.txt
gbk/gb2312 对应的词典: wordlist-gbk.txt 和 stopwords-gbk.txt
big5 字符集对应的词典: wordlist-big5.txt 和 stopwords-big5.txt
其它字符集请适当修改 plugin/ft_hightman/hightman_parser.c 中关于 wordlist[] 的定义
其中 wordlist-xxx.txt 的格式为每行一个词条信息, 由词和词频组成, 词与词频之间用\t或空格分开
而 stopwords-xxx.txt 是停用不作索引的词表, 则不需词频, 每行一个词.

提示: 如果您的数据库只用其中一种编码的话, 那么 utf8,gbk,big5只需要其中一种, 插件会根据当前的校正字符集(字段级)来采用相应的词典....

特别提醒,如果您的mysql5安装在自定义目录, 请在启动 mysql 前或脚本里加上以下句话: ($prefix为安装目录,请勿照抄!!)
export LD_LIBRARY_PATH=$prefix/lib/mysql


11. 用命令行方式进入 MySQL 界面, 执行如下命令安装插件:
INSTALL PLUGIN fthightman SONAME 'myhightman.so';

12. 命行建立函数
CREATE FUNCTION segment RETURNS STRING SONAME 'myhightman.so';

13. 测试简单的 SEGMENT() 看看:
SET NAMES 'gbk';
SELECT SEGMENT('I am hightman,我是一个中国人') AS result;
SET NAMES 'utf8';
SELECT SEGMENT('I am hightman,鎴戞槸涓€涓?腑鍥戒汉') AS result;

14. 假设服务器字符集是 GBK, 这里我们测试 1个表, 以 UTF-8 字符集建表,同样可以试着改用 gbk 字符集建表看看效果
CREATE TABLE `test_utf8` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`title` varchar(200) DEFAULT NULL,
`body` mediumtext,
PRIMARY KEY (`id`),
FULLTEXT KEY `ft_utf8` (`title`,`body`) WITH PARSER fthightman
) ENGINE=MyISAM DEFAULT CHARSET=utf8;
INSERT INTO `test_utf8` VALUES (1, 'MySQL Tutorial', 'DBMS stands for DataBase ...');
INSERT INTO `test_utf8` VALUES (2, 'How To Use MySQL Efficiently', 'After you went through a ...');
INSERT INTO `test_utf8` VALUES (3, 'Optimising MySQL', 'In this tutorial we will show ...');
INSERT INTO `test_utf8` VALUES (4, '1001 MySQL Tricks', '1. Never run mysqld as root. 2. ...');
INSERT INTO `test_utf8` VALUES (5, 'MySQL vs. YourSQL', 'In the following database comparison ...');
INSERT INTO `test_utf8` VALUES (6, 'MySQL Security', 'When configured properly, MySQL ...');
INSERT INTO `test_utf8` VALUES (7, '中国测试', '这样可以吗');
INSERT INTO `test_utf8` VALUES (8, '疯狂测中国测试', '这样总应该可以吗');
INSERT INTO `test_utf8` VALUES (9, '中国语言测试', '这样又是行不行呢');
INSERT INTO `test_utf8` VALUES (10, '我爱china', 'china是我的祖国');
SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST ('中国');
SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST ('+中国 -疯狂' IN BOOLEAN MODE);
SELECT SEGMENT(title) FROM test_utf8;
查找这个用户的全部帖子
引用并回复
2007-06-12, 04:15 PM
帖数: #2
 
是不是不能在windows平台下使用呢?
查找这个用户的全部帖子
引用并回复
2007-06-14, 03:51 PM
帖数: #3
 
automake
autoconf

顺序反了吧
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
2007-06-29, 10:32 AM
帖数: #4
安装有问题
安装时存在以下问题:
mysql> INSTALL PLUGIN fthightman SONAME 'myhightman.so';
ERROR 1062 (23000): Duplicate entry 'fthightman' for key 'PRIMARY'
mysql> CREATE FUNCTION segment RETURNS STRING SONAME 'myhightman.so';
ERROR 1125 (HY000): Function 'segment' already exists
mysql> CREATE TABLE `test_utf8` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(200) DEFAULT NULL, `body` mediumtext, PRIMARY KEY (`id`), FULLTEXT KEY `ft_utf8` (`title`,`body`) WITH PARSER fthightman ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
ERROR 1128 (HY000): Function 'fthightman' is not defined
mysql>
另:
特别提醒,如果您的mysql5安装在自定义目录, 请在启动 mysql 前或脚本里加上以下句话: ($prefix为安装目录,请勿照抄!!)
export LD_LIBRARY_PATH=$prefix/lib/mysql
启动 mysql 前的脚本具体是那个,我在mysqld_safe中加的export LD_LIBRARY_PATH=/usr/local/mysql5/lib/mysql
对下载的mysql-5.1.11-hi1.tgz编译后在=/usr/local/mysql5/下没有发现mysql.server,这是扎回事?请指点
查找这个用户的全部帖子
引用并回复
2007-06-29, 01:45 PM
帖数: #5
 
/usr/local/mysql5/shared/mysql/ 下!!实在找不到就用 find

如果这些也都不会那么确实很难装成功.
查找这个用户的全部帖子
引用并回复
发表回复 


可能相关的主题...
主题: 作者 回复数: 人气: 最近发表
  [2009献礼] 发布MySQL-5.1.30的scws-1.x分词插件(090611最新修订) hightman 16 29,417 2009-11-15 08:34 AM
最近发表: Mistruster
  It crashes for MySQL 5.1.35, and solution 新用户 3 6,146 2009-06-12 08:42 AM
最近发表: hightman
  MySQL-5.1.11~12 全文检索分词插件支持mysql5.0.41吗? ykjsw 1 11,235 2009-01-01 12:41 PM
最近发表: hightman
  (安装手记) MySQL-5.1.11~12 全文检索分词插件 derekchen 1 11,265 2008-06-05 10:26 PM
最近发表: derekchen
  ft搜索取的结果都不是最近的记录 nhbbq 3 13,808 2007-07-14 09:36 AM
最近发表: laohoo
  MySQL-4.0.x(fulltext) 源码修订 patch 文件包 hightman 1 15,092 2007-06-13 01:28 PM
最近发表: Mistruster
  MySQL Fulltext 总结与目录 hightman 0 14,706 2007-06-06 02:26 AM
最近发表: hightman
  MySQL-4.0.x FT 使用与演示 hightman 0 12,593 2007-06-06 01:57 AM
最近发表: hightman
  MySQL-4.0.27-hi4 完整安装包发布及安装说明(推荐) hightman 0 13,345 2007-06-06 01:28 AM
最近发表: hightman
  MySQL ft 补丁的授权声明 hightman 0 12,504 2007-06-06 01:09 AM
最近发表: hightman

论坛跳转: