`
peigang
  • 浏览: 166879 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch1.4 URLNormalizers 详解

 
阅读更多

 

org.apache.nutch.net.URLNormalizers 

 

url过滤封装类,过滤器有3个实现类分别是:

 

//格式化url将url字符小写转换一次,Perl5正则解析URL FILE。
org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer
//空方法,不执行任何解析,直接返回url,注:应该是预留接口
org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer
//根据配置文件regex-urlfilter.txt中的网站爬取规则过滤URL,不符合规则的网站不予爬取
org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer

 

 插件包如下:

urlnormalizer-basic.jar

urlnormalizer-pass.jar

urlnormalizer-regex.jar

三个插件包

 

分享到:
评论
1 楼 u011938035 2015-08-07  
我用的是nutch1.7,org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer,这个类是这样干的:
将URL地址里与(?i)(;?\b_?(l|j|bv_)?(sid|phpsessid|sessionid)=.*?)(\?|&|#|$)模式相匹配的子串全部替换为 $4
将URL地址里与#.*?(\?|&|$)模式相匹配的子串全部替换为 $1
将URL地址里与\?&)模式相匹配的子串全部替换为 \?
将URL地址里与&{2,}模式相匹配的子串全部替换为 &
将URL地址里与[\?&\.]$ 模式相匹配的子串全部替换为“”(空字符串)
将URL地址里与(?<!:)/{2,} 模式相匹配的子串全部替换为 /
跟regex-urlfilter.txt文件没关系。1.4的不知道是不是。  

相关推荐

Global site tag (gtag.js) - Google Analytics