找回密码
 注册

QQ登录

只需一步,快速开始

查看: 2743|回复: 1

Scrapebox中文教程1 - 收集url

[复制链接]
发表于 2010-7-7 10:16:08 | 显示全部楼层 |阅读模式
1. Sb收集url的原理的是根据footprint, 也就是根据你这个网站是建立在什么程序上的,例如赚客这个论坛是用discuz建立的,那么一般情况下就会有Powered by Discuz!的字样。好了,我们回到sb上。 当你打开sb程序后,在左上角会看到Harvester,选择custom footprint,然后在那个框里输入Powered by Discuz!就可以搜出用discuz作出的站,当然我这里只是举一个例子,用某种程序作出的站会有很多相似的地方,你可以拿来搜索,没必要非要搜索Powered by Discuz!。

在看sb的Harvester那部分,有个下拉的箭头,点一下,可以看到sb已经给你集成到里面的一些命令,例如site:.edu, 这个命令就是去搜索后缀是edu的站。

其实说白了,用sb和用google是一个道理,设定一些特定的关键字,就可以搜出和这些特定关键字相关的东西。明白了这一点,sb使用起来就更容易了,就和你使用搜索引擎是一个道理。

2. 在看下面的keywords:功能,使用这个功能,你可以设定一些关键字来配合收集url。

首先我们来看Import, 用这个功能,你可以导入关键词,比如你已经准备好了几个关键词,并且存在文本文档里,那么这个时候你只要导入就可以。
再看scrape,如果你没有keywords,你可以用这个功能来搜索一些keywords,比如你要搜索鞋子,你可以输入 鞋, 然后点scrape,sb就会根据你输入的 鞋 来搜索相关的关键词,从中选择你想要的即可。

3. 看第3部分 Select Engines & proxies, 意思就是选择搜索引擎和选择代理,这里提到一点,为什么要选择代理呢?原因是你如果不使用代理,你的ip会被搜索引擎尤其是google封的相当厉害,想必大家在用google的时候碰到过这种情况,所以一定要使用代理,其他的就不用解释了,就是几个搜索引擎的选择。

4. 当你footprint以及关键字,搜索引擎和代理都设置好后,就可以开始harvest(收集)了,收集完的结果会显示在右半边的 URL's Harvested 部分,意思是已经收集到的url。

今天就说到这里,下一个教程讲如何处理收集到的url

评分

1

查看全部评分

发表于 2010-7-7 11:40:01 | 显示全部楼层
google
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|Archiver|手机版|小黑屋|广告网 ( 鄂ICP备20005464号-17 )

GMT+8, 2024-5-21 01:59

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表