`
peigang
  • 浏览: 167293 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
  准备:hadoop单机模式设置,参考:http://peigang.iteye.com/admin/blogs/2093070   nutch配置:1、解压nutch文件,此处以apache-nutch-1.4-bin.tar.gz为例。 2、将编译好的nutch文件拷贝到nutch/runtime/local 目录下。注意lib下的.jar文件必须与编译环境的同步。同时将apache-nutch-*.jar拷贝到lib中。      配置conf目录,将hadoop/conf下的core-site.xml 、hdfs-site.xml、mapred-site.xml拷贝到l ...
Hadoop单机模式调试很方便,现将配置过程作一描述: 环境准备: JAVA环境要调试安装正常,可以在命令行执行java -version 查看结果,能正常显示版本即可。 java环境变量配置示例如下:   export JAVA_HOME=/home/$USER/jdk1.7 export JRE_HOME=/home/$USER/jdk1.7 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$JAVA_HOME/bin:$JAVA_HOME/jr ...
  Red Hat Enterprise Linux 下将tomcat的server.xml的端口改为80后非root身份无法启动tomcat. 这是因为只有root用户才可访问1024以下的端口。 解决方法:重将server.xml中的端口改为8080,然后做IP映射。以超级用户登录执行如下命令即可。   iptables -t nat -A PREROUTING -p tcp --dport 80 -j REDIRECT --to-port 8080
nutch正文提取在Fatcher的run方法中进行,本文将相关调用对象结构进行分析说明,各对象结构如下图所示:     未完待续:
高并发访问的核心原则其实就一句话“把所有的用户访问请求都尽量往前推”。 如果把来访用户比作来犯的"敌人",我们一定要把他们挡在800里地以外,即不能让他们的请求一下打到我们的指挥部(指挥部就是数据库及分布式存储)。 如:能缓存在用户电脑本地的,就不要让他去访问CDN。 能缓存CDN服务器上的,就不要让CDN去访问源(静态服务器)了。能访问静态服务器的,就不要去访问动态服务器。以此类推:能不访问数据库和存储就一定不要去访问数据库和存储。 说 起来很轻松,实际做起来却不容易,但只要稍加努力是可以做到的,Google的日独立IP过亿不也做到了么?我们这几千万的PV站 ...
  本文来源于:http://zettadata.blogspot.com/2011/12/eclipsenutch.html,由于某种不“不可知”的原因无法打开,现在转载贴图。以给其他人提供帮助。                                      
一、tomcat部署调试   Update the package repository sudo apt-get update sudo apt-get upgrade --show-upgrades   Install the authbind package     sudo apt-get install authbind   This package allows non-root users to bind to ports below 1024. Install the tomcat7 package sudo apt-get install to ...
准备环境: 1、jdk安装调试完毕 2、eclipse安装调试完毕   hbase配置 1、将如下jar文件引入工程中: hadoop-core-1.0.0.jar,hbase-0.94.0-security.jar,zookeeper-3.4.3.jar,protobuf-java-2.4.0a.jar 2、拷贝hbase运行环境中的hbase-site.xml到工程根目录下。 3、hbase-site.xml中注意以下几个配置:    <configuration><property><name>hbase.rootdir</na ...
ubuntu12.04版本中安装了mysql-5.1.63-linux-x86_64-glibc23。安装完配置完毕后可以正常使用。 在意外安装了mysql-client-5.5后,重启服务器导致执行mysql start出现如下提示:     #mysql -u root -p出现,ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock' (2)   google、baidu也没解决。甚至重新安装配置mysql也无效。费劲周折突然想起 ...

hbase安装

  准备: 1、JDK安装调试完毕 2、hadoop安装调试完毕。 3、下载hbase,地址:http://www.apache.org/dyn/closer.cgi/hbase/ ;本次安装使用版本hbase-0.94.0-security(未确认是否要打补丁) 4、 ulimit 和 nproc: Base是数据库,会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的,会导致FAQ: Why do I see "java.io.IOException...(Too manyopen files)" in my logs?异常。 ...

crontab使用经验(转)

    博客分类:
  • OS
crontab使用经验  本文出自孤风颠影|网站运维 网址:http://yunhaozou.org/linux/109.html.    作为网站运维工程师,经常要与crontab打交道,通过使用crontab自动运行定时任务从而达到自动化运维的目的。在我的日常工作中也深刻地感受到 ...

转:Solr开发文档

    博客分类:
  • solr
Solr开发文档 原文地址:http://www.cnblogs.com/hoojo/archive/2011/10/21/2220431.html  
分析师给出关于Hadoop的12个事实TechTarget中国原创内容,原文链接:http://www.searchbi.com.cn/showcontent_62856.htm?info=databaseweekly20120622   【TechTarget中国原创】现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发 ...
从nutch1.3开始本地抓取(单机),分布式抓取(集群)所使用的配置文件和命令单独分开。 NUTCH_HOME/conf 为分布式抓取所用配置文件 NUTCH_HOME/runtime/deply/bin/nutch 分布式抓取命令 NUTCH_HOME/runtime/local/conf 为本地抓取所用配置文件 NUTCH_HOME/runtime/local/bin/nutch 本地抓取命令 另外,修改了NUTCH_HOME/conf下的配置文件,需要重新编译之后才能生效。 爬取命令分别如下: 单机:     */nutch1.4/runtime/local/bin/nutc ...
nutch1.4定时爬取数据配合linux定时任务可以实现nutch的自动定时爬取,linux定时任务请参考《 Linux定时执行任务命令 :at和crontab》   步骤如下: 1、首先查看当前用户的 crontab服务执行命令:   crontab -l 执行结果: no crontab for *** 表示没有定义 crontab 服务   2、编辑crontab服务:   crontab -e */10 * * * * /home/*/*.sh //每10分钟执行一次 ,*.sh中包含nutch抓取脚本如crawl 注意设置服务执行账户,此处 ...
Global site tag (gtag.js) - Google Analytics