Tags: nutch + crawler

  • Sort by: Date / Title / URL

    1. Heritrix Crawler vs. Nutch Crawler 主要目的不同。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。 二者的差异: Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌 Nutch 可以修剪内容,或者对内容格式进行转换。 Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。 Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。 Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。
      2005-11-25 to , , , by MarkTag.com

    First / Previous / Next / Last / Page 1 of 1