打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
nutch内部工作流程 -
nutch内部工作流程

nutch内部工作流程

1. 创建一个新的WebDB (admin db -create)。
2. 把开始抓取的跟Url 放入WebDb (inject)。
3. 从WebDb的新 segment 中生成 fetchlist (generate)。
4. 根据 fetchlist 列表抓取网页的内容 (fetch)。
5. 根据抓取回来的网页链接url更新 WebDB (updatedb)。
6. 重复上面3-5个步骤直到到达指定的抓取层数。
7. 用计算出来的网页url权重 scores 更新 segments (updatesegs)。
8. 对抓取回来的网页建立索引(index)。
9. 在索引中消除重复的内容和重复的url (dedup)。
10. 合并多个索引到一个大索引,为搜索提供索引库(merge)。


我的测试机器的执行命令:

cd work/java_work/search_engine/open_src/nutch-0.7.2

一次性:

../bin/nutch crawl urls -dir invader -depth 3 -topN 50

分解:

1. 创建数据库
../bin/nutch admin -local test -create

2. 把根URL放到数据库中
../bin/nutch inject -local test -urlfile urls

3. 把数据库中的URL取出到块中
../bin/nutch generate test test/segments

4. 根据取出的URL进行WEB下载
s1=`ls -d crawl/segments/2* | tail -1`
echo $s1
../bin/nutch fetch test/segments/20060628160619

5. 把下载的web更新到数据库中
../bin/nutch updatedb test test/segments/20060628160619

6. 重复3-5步骤,直至要下载网页树的深度
../bin/nutch generate test test/segments
../bin/nutch fetch test/segments/20060628162458
../bin/nutch updatedb test test/segments/20060628162458

7. 建立索引
../bin/nutch index indexes test/linkdb test/segments/*

j接下来就可以用jsp查询了。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Nutch爬虫实验运行及抓取数据分析(一)
NUTCH介绍--抓取(2)
分析Nutch的工作流程_守护地下铁
什么是大数据?你需要知道的…..
开源爬虫Labin,Nutch,Neritrix介绍和对比
未知都是已知的: Nutch 初体验
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服