|
1. Sb收集url的原理的是根据footprint, 也就是根据你这个网站是建立在什么程序上的,例如赚客这个论坛是用discuz建立的,那么一般情况下就会有Powered by Discuz!的字样。好了,我们回到sb上。 当你打开sb程序后,在左上角会看到Harvester,选择custom footprint,然后在那个框里输入Powered by Discuz!就可以搜出用discuz作出的站,当然我这里只是举一个例子,用某种程序作出的站会有很多相似的地方,你可以拿来搜索,没必要非要搜索Powered by Discuz!。
在看sb的Harvester那部分,有个下拉的箭头,点一下,可以看到sb已经给你集成到里面的一些命令,例如site:.edu, 这个命令就是去搜索后缀是edu的站。
其实说白了,用sb和用google是一个道理,设定一些特定的关键字,就可以搜出和这些特定关键字相关的东西。明白了这一点,sb使用起来就更容易了,就和你使用搜索引擎是一个道理。
2. 在看下面的keywords:功能,使用这个功能,你可以设定一些关键字来配合收集url。
首先我们来看Import, 用这个功能,你可以导入关键词,比如你已经准备好了几个关键词,并且存在文本文档里,那么这个时候你只要导入就可以。
再看scrape,如果你没有keywords,你可以用这个功能来搜索一些keywords,比如你要搜索鞋子,你可以输入 鞋, 然后点scrape,sb就会根据你输入的 鞋 来搜索相关的关键词,从中选择你想要的即可。
3. 看第3部分 Select Engines & proxies, 意思就是选择搜索引擎和选择代理,这里提到一点,为什么要选择代理呢?原因是你如果不使用代理,你的ip会被搜索引擎尤其是google封的相当厉害,想必大家在用google的时候碰到过这种情况,所以一定要使用代理,其他的就不用解释了,就是几个搜索引擎的选择。
4. 当你footprint以及关键字,搜索引擎和代理都设置好后,就可以开始harvest(收集)了,收集完的结果会显示在右半边的 URL's Harvested 部分,意思是已经收集到的url。
今天就说到这里,下一个教程讲如何处理收集到的url |
评分
-
1
查看全部评分
-
|