org.apache.nutch.net.URLFilter接口有如下实现类:
1、//匹配suffix, domain, host
org.apache.nutch.urlfilter.domain.DomainURLFilter
2、//程序代码结构实现同相同,不知道为什么一模一样,没仔细琢磨。
org.apache.nutch.urlfilter.domainblacklist.DomainBlacklistURLFilter
3、//解析URL是否符合./conf/nutch-default.xml的 "urlfilter.prefix.file"属性规则
org.apache.nutch.urlfilter.prefix.PrefixURLFilter
4、// 解析URL是否符合./conf/nutch-default.xml的 " suffix-urlfilter.txt "属性规则
org.apache.nutch.urlfilter.suffix.SuffixURLFilter
5、//正则解析验证URL是否书写规范的有效地址。
org.apache.nutch.urlfilter.validator.UrlValidator
分享到:
相关推荐
nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!
nutch1.4 在windows下的安装配置环境搭建
nutch 1.4 在windows下安装配置
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch目前最新的版本为version1.4。这个为nutch的最新版 1.4。
apache-nutch-1.4-bin.tar.gz.part2
Nutch1[1].4_windows下eclipse配置图文详解
apache-nutch-1.4-bin.part2
apache-nutch-1.4-bin.part1
apache-nutch-1.4-bin.tar.gz.part1
Windows下使用Eclipse配置Nutch2图文详解
Nutch 是一个开源Java 实现的搜索引擎。这里是它的安装包。
对于nutch源码的解读,让你了解nutch工作流程各个功能模块的作用
很好的一个开源搜索引擎,可以自己设计添加代码。
nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch各个配置项的详细说明,非常详细的说明了每一项
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
nutch平台的详细搭建过程 配置环境 抓取 建立索引 查看结果
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 ...