参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。
nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。
一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。
parse-html跟目录中包含3个xml分别是build.xml、 ivy.xml、 plugin.xml,一个源程序目录src。
实现了接口的类为java.org.apache.nutch.parse.html.HtmlParser.java ,所有的可实现接口都包含在src\plugin\nutch-extensionpoints\plugin.xml中
接口示例如下所示:
public class HtmlParser implements Parser {
.....
public ParseResult getParse(Content content) {
.....
}
.....
}
依据实现类分别修改
build.xml、 ivy.xml、 plugin.xml文件。
从代码中可以看到实现了Parser接口, getParse()为接口中定义的方法。
二、实现接口编写代码完毕后修改配置步骤如下:
1、src/plugin/build.xml在<target name="deploy">;<target name="test">;<target name="clean">分别增加相应配置。
2、修改nutch/build.xml文件在<target name="release" depends="compile-core" description="generate the release distribution">中增加配置如:<packageset dir="${plugins.dir}/parse-js/src/java"/>
3、 修改${plugins.dir}/parse-js/src/build.xml ,修改project标签 name值为"parse-js"
运行ant编译,nutch/build中编译生成相应的文件夹即成功。
三、将插件配置到 nutch中:
修改nutch/conf/nutch-default.xml文件中的<name>plugin.includes</name><value></value>将新的插件包添加到value中,语法请参考已配置插件的语法规则。
分享到:
相关推荐
nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!
nutch1.4 在windows下的安装配置环境搭建
nutch 1.4 在windows下安装配置
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch目前最新的版本为version1.4。这个为nutch的最新版 1.4。
apache-nutch-1.4-bin.tar.gz.part2
Nutch1[1].4_windows下eclipse配置图文详解
Nutch 高级 插件是开发 多Nutch内部的流程有很好的解释和说明
nutch插件,安装nutch插件,mysql与nutch
apache-nutch-1.4-bin.part2
apache-nutch-1.4-bin.part1
nutch插件机制 实例讲解 轻松学习 扩展nutch功能 随意添加扩展
apache-nutch-1.4-bin.tar.gz.part1
Nutch的插件机制...详细讲解了nutch的api 很有帮助
Lucene nutch 搜索引擎开发 Part1
Nutch的插件机制分析,了解Nutch的插件机制
Nutch插件开发和服务器发布流程,以indexingFilter为例子进行说明
完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。
学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍
licene 实例代码 nutch实例代码 lucene+nutch搜索引擎开发实例代码(王学松版)
《Lucene+nutch搜索引擎开发》书附带的源代码