|
MySQL-5.1.11~12 全文检索分词插件
|
|
2007-06-06, 02:09 AM
帖数: #1
|
|||
|
|||
|
MySQL-5.1.11~12 全文检索分词插件
概要及说明
经过不停的尝试和努力,以当时最新的 mysql 5.1.11-beta 为基础,制作的分词插件已经测试成功,现在发布如下。 mysql 5.1.x 本身的架构作了修改,所以增加分词直接以插件形式方式作就可以了,为了其中的 SEGMENT() 作为 UDF 来开发,但MySQL 本身的缺陷设计导致了自定义函数无法捕获参数的 charset info,于是为了“完美”起见,我还是对其中几个核心文件稍作了改动(不影响MYSQL的其它任何功能和架构)。 使用这个插件的效果是您可以在 MySQL 5.1.x 的 MyISAM 表中建立支持中文分词的全文索引,这个分词算法非常简单,基本上就是一个正向最大匹配法。特别要提醒的是 MySQL 5.1.13 及后续版本改动很大,该补丁可能无法直接使用,请注意。
这是一个简单的分词插件, 包括一个 FTPARSER, 和 1个 SEGMENT() 函数. (注: 以下示例中的 x 表示某个具体的版本号): 1. 下载取得文件包: wget http://www.hightman.cn/down/ft-hightman-M5-0.1.tgz 2. 解压文件包 tar xvzf ft-hightman-M5-0.x.tgz 解压后您大概看到以下文件列表 ft-hightman-M5-0.x.patch ft_hightman/ 3. 将 ft_hightman/ 整个目录移入, mysql-5.1.x/plugin/ 目录 4. 将 ft-hightman-M5-0.x.patch 拷入 mysql-5.1.x/ 目录 5. 进入 mysql-5.1.x/ 目录, 运行下面命令针对旧文件打补丁 patch -p1 < ft-hightman-M5-0.x.patch 6. 仍在源码目录中, 依次运行如下命令 aclocal automake autoconf 7. 命令执行可能有点慢, 请耐心等待, 如有错误或警告请忽略它... 8. 按原先的方法编译、安装 mysql 5.x 9. 在编译时请增加: --with-plugins=fthightman 来开启该插件 ./configure --prefix=/home/soft/mysql5 --with-charset=gbk --with-extra-charsets=all --with-plugins=fthightman make make install 10. 编译完后准备启动程序, 请在 $prefix/share/mysql 目录下建立要用的词典文件: utf8 字符集对应的词典: wordlist-utf8.txt 和 stopwords-utf8.txt gbk/gb2312 对应的词典: wordlist-gbk.txt 和 stopwords-gbk.txt big5 字符集对应的词典: wordlist-big5.txt 和 stopwords-big5.txt 其它字符集请适当修改 plugin/ft_hightman/hightman_parser.c 中关于 wordlist[] 的定义 其中 wordlist-xxx.txt 的格式为每行一个词条信息, 由词和词频组成, 词与词频之间用\t或空格分开 而 stopwords-xxx.txt 是停用不作索引的词表, 则不需词频, 每行一个词. 提示: 如果您的数据库只用其中一种编码的话, 那么 utf8,gbk,big5只需要其中一种, 插件会根据当前的校正字符集(字段级)来采用相应的词典.... 特别提醒,如果您的mysql5安装在自定义目录, 请在启动 mysql 前或脚本里加上以下句话: ($prefix为安装目录,请勿照抄!!) export LD_LIBRARY_PATH=$prefix/lib/mysql 11. 用命令行方式进入 MySQL 界面, 执行如下命令安装插件: INSTALL PLUGIN fthightman SONAME 'myhightman.so'; 12. 命行建立函数 CREATE FUNCTION segment RETURNS STRING SONAME 'myhightman.so'; 13. 测试简单的 SEGMENT() 看看: SET NAMES 'gbk'; SELECT SEGMENT('I am hightman,我是一个中国人') AS result; SET NAMES 'utf8'; SELECT SEGMENT('I am hightman,鎴戞槸涓€涓?腑鍥戒汉') AS result; 14. 假设服务器字符集是 GBK, 这里我们测试 1个表, 以 UTF-8 字符集建表,同样可以试着改用 gbk 字符集建表看看效果 CREATE TABLE `test_utf8` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(200) DEFAULT NULL, `body` mediumtext, PRIMARY KEY (`id`), FULLTEXT KEY `ft_utf8` (`title`,`body`) WITH PARSER fthightman ) ENGINE=MyISAM DEFAULT CHARSET=utf8; INSERT INTO `test_utf8` VALUES (1, 'MySQL Tutorial', 'DBMS stands for DataBase ...'); INSERT INTO `test_utf8` VALUES (2, 'How To Use MySQL Efficiently', 'After you went through a ...'); INSERT INTO `test_utf8` VALUES (3, 'Optimising MySQL', 'In this tutorial we will show ...'); INSERT INTO `test_utf8` VALUES (4, '1001 MySQL Tricks', '1. Never run mysqld as root. 2. ...'); INSERT INTO `test_utf8` VALUES (5, 'MySQL vs. YourSQL', 'In the following database comparison ...'); INSERT INTO `test_utf8` VALUES (6, 'MySQL Security', 'When configured properly, MySQL ...'); INSERT INTO `test_utf8` VALUES (7, '中国测试', '这样可以吗'); INSERT INTO `test_utf8` VALUES (8, '疯狂测中国测试', '这样总应该可以吗'); INSERT INTO `test_utf8` VALUES (9, '中国语言测试', '这样又是行不行呢'); INSERT INTO `test_utf8` VALUES (10, '我爱china', 'china是我的祖国'); SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST ('中国'); SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST ('+中国 -疯狂' IN BOOLEAN MODE); SELECT SEGMENT(title) FROM test_utf8; |
|||
|
2007-06-12, 04:15 PM
帖数: #2
|
|||
|
|||
|
是不是不能在windows平台下使用呢?
|
|||
|
2007-06-14, 03:51 PM
帖数: #3
|
|||
|
|||
|
automake
autoconf 顺序反了吧 |
|||
|
2007-06-29, 10:32 AM
帖数: #4
|
|||
|
|||
|
安装有问题
安装时存在以下问题:
mysql> INSTALL PLUGIN fthightman SONAME 'myhightman.so'; ERROR 1062 (23000): Duplicate entry 'fthightman' for key 'PRIMARY' mysql> CREATE FUNCTION segment RETURNS STRING SONAME 'myhightman.so'; ERROR 1125 (HY000): Function 'segment' already exists mysql> CREATE TABLE `test_utf8` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(200) DEFAULT NULL, `body` mediumtext, PRIMARY KEY (`id`), FULLTEXT KEY `ft_utf8` (`title`,`body`) WITH PARSER fthightman ) ENGINE=MyISAM DEFAULT CHARSET=utf8; ERROR 1128 (HY000): Function 'fthightman' is not defined mysql> 另: 特别提醒,如果您的mysql5安装在自定义目录, 请在启动 mysql 前或脚本里加上以下句话: ($prefix为安装目录,请勿照抄!!) export LD_LIBRARY_PATH=$prefix/lib/mysql 启动 mysql 前的脚本具体是那个,我在mysqld_safe中加的export LD_LIBRARY_PATH=/usr/local/mysql5/lib/mysql 对下载的mysql-5.1.11-hi1.tgz编译后在=/usr/local/mysql5/下没有发现mysql.server,这是扎回事?请指点 |
|||
|
2007-06-29, 01:45 PM
帖数: #5
|
|||
|
|||
|
/usr/local/mysql5/shared/mysql/ 下!!实在找不到就用 find
如果这些也都不会那么确实很难装成功. |
|||
|
|
| 可能相关的主题... | |||||
| 主题: | 作者 | 回复数: | 人气: | 最近发表 | |
| [2009献礼] 发布MySQL-5.1.30的scws-1.x分词插件(090611最新修订) | hightman | 16 | 29,417 |
2009-11-15 08:34 AM 最近发表: Mistruster |
|
| It crashes for MySQL 5.1.35, and solution | 新用户 | 3 | 6,146 |
2009-06-12 08:42 AM 最近发表: hightman |
|
| MySQL-5.1.11~12 全文检索分词插件支持mysql5.0.41吗? | ykjsw | 1 | 11,235 |
2009-01-01 12:41 PM 最近发表: hightman |
|
| (安装手记) MySQL-5.1.11~12 全文检索分词插件 | derekchen | 1 | 11,265 |
2008-06-05 10:26 PM 最近发表: derekchen |
|
| ft搜索取的结果都不是最近的记录 | nhbbq | 3 | 13,808 |
2007-07-14 09:36 AM 最近发表: laohoo |
|
| MySQL-4.0.x(fulltext) 源码修订 patch 文件包 | hightman | 1 | 15,092 |
2007-06-13 01:28 PM 最近发表: Mistruster |
|
| MySQL Fulltext 总结与目录 | hightman | 0 | 14,706 |
2007-06-06 02:26 AM 最近发表: hightman |
|
| MySQL-4.0.x FT 使用与演示 | hightman | 0 | 12,593 |
2007-06-06 01:57 AM 最近发表: hightman |
|
| MySQL-4.0.27-hi4 完整安装包发布及安装说明(推荐) | hightman | 0 | 13,345 |
2007-06-06 01:28 AM 最近发表: hightman |
|
| MySQL ft 补丁的授权声明 | hightman | 0 | 12,504 |
2007-06-06 01:09 AM 最近发表: hightman |
|

搜索
会员列表
日历
帮助



