Scrapebox中文教程1 - 收集url

wenyi352 · 发表于 2010-7-7 10:16:08

1. Sb收集url的原理的是根据footprint, 也就是根据你这个网站是建立在什么程序上的，例如赚客这个论坛是用discuz建立的，那么一般情况下就会有Powered by Discuz!的字样。好了，我们回到sb上。当你打开sb程序后，在左上角会看到Harvester，选择custom footprint，然后在那个框里输入Powered by Discuz!就可以搜出用discuz作出的站，当然我这里只是举一个例子，用某种程序作出的站会有很多相似的地方，你可以拿来搜索，没必要非要搜索Powered by Discuz!。

在看sb的Harvester那部分，有个下拉的箭头，点一下，可以看到sb已经给你集成到里面的一些命令，例如site:.edu, 这个命令就是去搜索后缀是edu的站。

其实说白了，用sb和用google是一个道理，设定一些特定的关键字，就可以搜出和这些特定关键字相关的东西。明白了这一点，sb使用起来就更容易了，就和你使用搜索引擎是一个道理。

2. 在看下面的keywords：功能，使用这个功能，你可以设定一些关键字来配合收集url。

首先我们来看Import, 用这个功能，你可以导入关键词，比如你已经准备好了几个关键词，并且存在文本文档里，那么这个时候你只要导入就可以。
再看scrape，如果你没有keywords，你可以用这个功能来搜索一些keywords，比如你要搜索鞋子，你可以输入鞋，然后点scrape，sb就会根据你输入的鞋来搜索相关的关键词，从中选择你想要的即可。

3. 看第3部分 Select Engines & proxies, 意思就是选择搜索引擎和选择代理，这里提到一点，为什么要选择代理呢？原因是你如果不使用代理，你的ip会被搜索引擎尤其是google封的相当厉害，想必大家在用google的时候碰到过这种情况，所以一定要使用代理，其他的就不用解释了，就是几个搜索引擎的选择。

4. 当你footprint以及关键字，搜索引擎和代理都设置好后，就可以开始harvest（收集）了，收集完的结果会显示在右半边的 URL's Harvested 部分，意思是已经收集到的url。

今天就说到这里，下一个教程讲如何处理收集到的url

g-star · 发表于 2010-7-7 11:40:01

google

账号		自动登录	找回密码
密码			注册

Scrapebox中文教程1 - 收集url

评分

相关帖子

浏览过的版块