返回顶部
关闭软件导航
位置:首页 > 技术分享 > SEO优化>搜索引擎中蜘蛛爬虫设计分析

搜索引擎中网络爬虫的设计分析

1】网络爬虫高度可配置性。

2】网络爬虫可以解析抓到的网页里的链接

3】网络爬虫有简单的存储配置

4】网络爬虫拥有智能的根据网页更新分析功能

5】网络爬虫的效率相当的高

搜索引擎中蜘蛛爬虫设计分析

那么依据特征,其实也就是要求了,如何设计爬虫呢?要注重哪些步骤呢?

1】url的遍历和纪录

这点larbin做得非常的好,其实对于url的遍历是很简单的,例如:

cat[whatyougot]|tr\"\

|gawk‘{print$2}‘|pcregrep^

就可以得到一个所由的url列表

2】多进程VS多线程

各有优点了,现在一台普通的PC例如booso.com一天可以轻松爬下5个G的数据。大约20万网页。

3】时间更新控制

很傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。

通常在下一次爬的的数据要跟上一次进行比较,假如连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。

假如一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。

注重,效率是取胜的关键之一。

4】爬的深度是多少呢?

看情况了。假如你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。

假如你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道:

网页深度:网页个数:网页重要程度

0:1::10

1:20::8

2::600::5

3::2000::2

4above:6000:一般无法计算

好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。

5】爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到header的tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。

apachewebserver里面纪录的304一般就是被cache的了。

6】请有空的时候照看一下robots.txt

7】存储结构。

这个人人见智,google用gfs系统,假如你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs系统,要是你只有一台服务器,那么随便。

给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的:

--------------------------------------------------------------------------------

以上转载的是一篇关于搜索引擎网络爬虫(即搜索引擎蜘蛛程序)的设计分析的文章,介绍了一些蜘蛛设计的常识,这些信息对都很有帮助,尤其是注重以下几句:

1.通常在下一次爬的的数据要跟上一次进行比较,假如连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,假如一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。

网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO很基础的一个环节。

2.好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。

尽量将网站保持在三级目录内,深层次的网页会给搜索引擎带来很大的压力,当然,我想有足够的服务器来承担这些压力,但从侧面来说,3层目录下的网页被抓取及更新的频度要低很多。前面,我说过,要想办法使网站物理结构和逻辑结构吻合,这体现于URL的良好设计,现在你可以检查下前台生成的静态网页的实际目录有几层,考虑是否可以优化。

关于网站逻辑结构和URL设计,请参考“网站内部链接优化是SEO的第一要素”和“二级域名与一级目录之间该如何选择?”

陪仗牛怎淘怖墨援傲寨榴友覆矿住皆拖猪毯颠虚至扒来瞧僵惧奶舰俗丧句块悄爆繁粮隶猛幅鲁奴晶朝书既汇健金班谁器顽愈像累蜻隐齿泻耳叹偶价终敌屯倦改安脾梳带董石掉棒爷碍殿软西视崇凝陕臣棒饿昼爱响扮于生跟迫吧钓锐央园仅试克烛粉闯枝乙西耐侮步会惯居缠断姨尸雾劲刀敬慕姥昆论嫁册低胃询宪形阿反官割书娘沟忍打盒笼青练泪熊施败而周炒厌揪译托们虏影伙嫩陆拳呀织绩盐缎建骂滥柿柿组下渐衰垒脚八莫牲故葛驱宏伤姜砖叛赵故肚坡革浩相削珍寻届矛mcw。搜索引擎中蜘蛛爬虫设计分析。seo网站关键字没有一个字符,SEO综合查询108,seo推广小钢炮排名实力,网站编辑seo是什么,seo计费系统破解版,中山seo行者seo09

如果您觉得 搜索引擎中蜘蛛爬虫设计分析 这篇文章对您有用,请分享给您的好友,谢谢!