nutch本地模式调试可以跟踪详细的爬取过程,便于调试。现将环境配置做如下说明:
1、apache官网下载nutch文件,我们以apache-nutch-1.4-bin.tar.gz 为例。将apache-nutch-1.4-bin.tar.gz解压到linux工作目录。
2、执行 chmod +x runtime/local/bin/nutch 修改权限。
3、runtime/local 目录下运行命令 ./bin/nutch
4、安装提示说明做配置调整。
5、以上操作过程完成后nutch即可以正常爬取数据。
注意事项:
1、本地模式的nutch不需要在conf目录中添加hadoop的配置文件,一旦添加就会在hadoop中运行服务,此处要注意。
2、在local中添加urls文件并创建任意文本,内容为待排去的网站地址。
自定义nutch:
1、将编译好的runtime/local/lib中的apache-nutch-*.jar 同步覆盖服务器中的runtime/local/lib中的apache-nutch-*.jar
2、覆盖runtime/local/plugins文件夹中的插件。
相关推荐
eclipse配置nutch,eclipse配置nutch
我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法
Nutch在windows开发中程序运行环境的配置,可用于Java环境开发
Nutch1.6的编译配置过程,详细介绍了Nutch1.6的下载到安装运行过程。
nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细
图解搜索引擎nutch配置,自己制作的教程。因为在网上搜索到的教程很多都是粗略,对于初学nutch搜索引擎很难配置好,所以自己亲自打造了一篇图解教程!希望你能够配置成功!
nutch 1.4 在windows下安装配置
Nutch2.3.1 环境搭建 Nutch2.3.1 环境搭建 Nutch2.3.1 环境搭建 亲测可用,我自己安装和搭建过程的记录文档
Nutch的配置文件主要有三类: 1.Hadoop的配置文件,Hadoop-default.xml和Hadoop-site.xml。 2.Nutch的配置文件,Nutch-default.xml和Nutch-site.xml。 3.Nutch的插件的配置文件,这些插件的配置文件在加载插件的时候...
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。
Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
Linux 下 Nutch 单机配置
nutch配置nutch-default.xml
一步一步详细解释了如何搭建nutch web开发环境,对nutch1.2有效,nutch1.3以上已经没有web这部分内容了
nutch1.4 在windows下的安装配置环境搭建
本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机 会但我不想因此放弃对搜索引擎学习和实战在...Nutch还是先从安装和使用Nutch开始吧以下是我在xp sp2环境下安装Nutch过程记录
NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.
Nutch在MyEclipse下的配置[参照].pdf
nutch配置文件的备注 解决代理问题
1 Nutch简介 2 1.1 nutch体系结构 2 2 抓取部分 3 2.1 爬虫的数据结构及含义 3 2.2 抓取目录分析 4 2.3 抓取过程概述 4 2.4 抓取过程分析 5 ...3 配置文件分析 3.1 nutch-default.xml分析 31 …………