[爬虫] 爬虫策略+爬虫去重

ゞ浴缸里的玫瑰 2022-04-23 00:26 439阅读 0赞

# 深度优先、广度优先 #

# 深度优先
    def depth_tree(tree_node):
    	if tree_node is not None:
    		print (tree_node._data)
    		if tree_node._left is not None:
    			return depth_tree(tree_node._left)
    		if tree_node._right is not None:
    			return depth_tree(tree_node._right)
    # 广度优先
    def level_queue(root):
    	if root is None:
    		return
    	my_queue = []
    	node = root
    	my_queue.append(node)
    	while my_queue:
    		node = my_queue.pop(0)
    		print (node.elem)
    		if node.lchild is not None:
    			my_queue.append(node.lchild)
    		if node.rchild is not None:
    			my_queue.append(node.rchild)

# 爬虫去重 #

【常用策略】

1.  将访问过的Url保存到数据库中  
    【评价】应用简单但效率低
2.  将访问过的url保存到set中，只需要O(1)的代价就可以查询url：  
    【评价】内层占用越来越大  
    【估算】一亿个URL：1 0000 0000\*2byte\*50个字符/1024/1024/1024 = 9G
3.  url经过md5等方法哈希后保存到set中（scrapy采用）  
    【Md5编码】将字符缩减到固定的长度（一般128bit=16byte）  
    第二种是100byte，进行了几倍的压缩
4.  用bitmap方法，将访问过的url通过hash函数映射到某一位  
    【评价】冲突可能性非常高，内容压缩非常可观  
    【估算】一亿个URL：1 0000 0000\\8\\1024\\1024 = 12M
5.  bloomfilter方法对bitmap进行改进，多重hash函数降低冲突

发表评论取消回复

表情：

评论列表（有 0 条评论，439人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫扩展——网站爬取 URL 去重方法

目录前言一. 为什么要URL 去重二. URL 去重的常用方法总结爬虫文章专栏 -------------------- 前言 > 上一篇文章我

r囧r小猫/ 2023年09月29日 12:22/ 0 赞/ 122 阅读

相关 java爬虫(本地爬虫和网络爬虫)

前言必读 > [读者手册（必读）\_云边的快乐猫的博客-CSDN博客][-CSDN] 一、本地爬虫 1.这是爬取的是本地的数据，可以按照步骤来进行，用的是正则表达式的

素颜马尾好姑娘i/ 2023年09月24日 13:35/ 0 赞/ 182 阅读

相关爬虫--分布式爬虫

爬虫的本质：　　很多搞爬虫的总爱吹嘘分布式爬虫，仿佛只有分布式才有逼格，不是分布式简直不配叫爬虫，这是一种很肤浅的思想。　　分布式只是提高爬虫功能和效率的一个环节而已，

Myth丶恋晨/ 2023年08月17日 16:35/ 0 赞/ 290 阅读

相关 Python爬虫学习记录——16.去重与入库

文章目录数据去重 URL去重数据库去重补充：Berkeley DB数据库数据去重数据去重又称重复数

╰+攻爆jí腚メ/ 2023年06月11日 03:16/ 0 赞/ 142 阅读

相关爬虫---高性能爬虫

目录一：单线程爬虫： 1：新浪图片NBA标题和图片的爬取：二：多线程爬虫： 1：回顾多线程的方法：

灰太狼/ 2022年11月20日 01:51/ 0 赞/ 368 阅读

相关网络爬虫去重参考

第一种，使用shingling算法参考： http://liangqingyu.com/blog/2014/12/03/%E7%BB%86%E8%AF%B4%E5%9E%

妖狐艹你老母/ 2022年08月09日 09:59/ 0 赞/ 273 阅读

相关多线程爬虫去重问题

最近无聊做了一个小爬虫项目，用的是WebCollector框架，比较好上手。但爬取数据后发现有许多重复的，测试了一下是多线程的问题，一开始想到的是在插入MongoDB前判断是否

左手的ㄟ右手/ 2022年06月11日 00:58/ 0 赞/ 324 阅读

相关反爬虫策略

突然接到一个任务，是要对公司的网站做反爬虫策略，于是到网上到处去找相关资料，总结出主要几种反爬虫策略。 1、user\_agent判断：只允许特定的爬虫引擎和浏览器user\

╰半夏微凉°/ 2022年06月01日 13:21/ 0 赞/ 418 阅读

相关 [爬虫] 爬虫策略+爬虫去重

深度优先、广度优先深度优先 def depth_tree(tree_node): if tree_node is not None:

ゞ浴缸里的玫瑰/ 2022年04月23日 00:26/ 0 赞/ 440 阅读

相关网络爬虫去重方案

[为什么80%的码农都做不了架构师？>>> ][80_] ![hot3.png][] 最近在用python写小爬虫程序，就是爬去一些自己喜欢图片的，在实现从网页中抓取特定的

我就是我/ 2022年01月17日 03:35/ 0 赞/ 421 阅读