爬虫------动态HTML处理

朱雀 2022-01-31 13:55 215阅读 0赞

# 一、常见的反爬虫技术 #

如果你在一个网站上看到了 jQuery，那么采集这个网站数据的时候要格外小心。jQuery可 以动态地创建 HTML 内容,只有在 JavaScript 代码执行之后才会显示。如果你用传统的方法采集页面内容,就只能获得 JavaScript 代码执行之前页面上的内容。

一些网站采取的反爬虫技术，一般包括ajax，DHTML等

## 1、什么是ajax？ ##

我们与网站服务器通信的唯一方式，就是发出 HTTP 请求获取新页面。如果提交表单之后，或从服务器获取信息之后，网站的页面不需要重新刷新，那么你访问的网站就在用Ajax 技术。

Ajax 其实并不是一门语言,而是用来完成网络任务(可以认为 它与网络数据采集差不多)的一系列技术。Ajax 全称是 Asynchronous JavaScript and XML(异步 JavaScript 和 XML)，网站不需要使用单独的页面请求就可以和网络服务器进行交互 (收发信息)

## 2、什么是DHTML？ ##

和Ajax 一样，动态 HTML(Dynamic HTML, DHTML)也是一系列用于解决网络问题的 技术集合。DHTML 是用客户端语言改变页面的 HTML 元素(HTML、CSS，或者二者皆 被改变)。比如页面上的按钮只有当用户移动鼠标之后才出现,背景色可能每次点击都会改变，或者用一个 Ajax 请求触发页面加载一段新内容，网页是否属于 DHTML，关键要看有没有用 JavaScript 控制 HTML 和 CSS 元素。

## 3、如何用python绕过这些反爬虫？ ##

那些使用了 Ajax 或 DHTML 技术改变/加载内容的页面，可能有一些采集手段。但是用 Python 解决这个问题只有两种途径:直接从 JavaScript 代码里采集内容（费时费力）用 Python 的 第三方库运行JavaScript，直接采集你在浏览器里看到的页面（这个可以有）

# 二、Selenium&PhantomJS #

## 1、Selenium ##

Selenium 是一个 Web 的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是 Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括 PhantomJS 这些无界面的浏览器）。

Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。

Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起  
才能使用。但是我们有时候需要让它内嵌在代码中运行，所以我们可以用一个叫 PhantomJS  
的工具代替真实的浏览器。

可以从 PyPI 网站下载 Selenium 库 https://pypi.python.org/simple/selenium ，也可以用  
第三方管理器 pip 用命令安装：pip install selenium==2.48.0

Selenium 官方参考文档：http://selenium-python.readthedocs.io/index.html

## 2、PhantomJS ##

PhantomJS 是一个基于 Webkit 的“无界面”(headless)浏览器，它会把网站加载到内存并执行页面上的 JavaScript，因为不会展示图形界面，所以运行起来比完整的浏览器要高效。

如果我们把 Selenium 和 PhantomJS 结合在一起，就可以运行一个非常强大的网络爬虫了，这个爬虫可以处理 JavaScrip、Cookie、headers，以及任何我们真实用户需要做的事情。

注意：PhantomJS 只能从它的官方网站 [http://phantomjs.org/download.html][http_phantomjs.org_download.html] 下载。 因为PhantomJS 是一个功能完善(虽然无界面)的浏览器而非一个 Python 库，所以它不需要像 Python 的其他库一样安装，但我们可以通过 Selenium 调用 PhantomJS 来直接使用。  
下载--解压，然后，设置环境变量：C:\\Users\\cz\\Downloads\\phantomjs-2.1.1-windows\\bin  
打开终端命令行，输入：phantomjs，能够进行到 phantomjs 命令行，则表示安装成功

Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素，与页面上的元素进行交互 (发送文本、点击等)，以及执行其他动作来运行网络爬虫。

下面以访问百度写一段程序：

#1、导入webdriver
    
    from selenium import webdriver
    import time
     
    #2、调用环境变量指定的PhantomJs浏览器创建浏览器对象
    
    #driver = webdriver.PhantomJs()
    
    #3、如果没有在环境变量执行的PhantomJs位置，需要手动加入
    
    driver = webdriver.PhantomJS(executable_path = r"C:\Users\Administrator\Desktop\phantomjs-2.1.1-windows\bin\phantomjs.exe")
    
    #4、请求页面
    driver.get("https://www.baidu.com/")
    print(driver.page_source)
    
    #5、截屏工具
    
    driver.save_screenshot('01.png')
    #with open('baidu.html','w',encoding='utf-8') as fp:
    #    fp.write(driver.page_source)
    
    #6、模拟输入人名点击搜索
    # 截屏
    driver.save_screenshot('02.png')
    # 输入胡歌
    driver.find_element_by_id('kw').send_keys('胡歌')
    driver.save_screenshot('03.png')
    
    # 点击百度一下
    driver.find_element_by_id('su').click()
    # 留出充足时间等待响应
    time.sleep(6)
    driver.save_screenshot('04.png')
    print(driver.title)

最后的一张截屏如图所示：

![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDIzOTU0MQ_size_16_color_FFFFFF_t_70][]

模拟滚动操作：

以访问豆瓣电影为例：

from selenium import webdriver
    import time
    from selenium.webdriver.common.keys import Keys
    
    driver = webdriver.PhantomJS(executable_path=r'C:\Users\Administrator\Desktop\phantomjs-2.1.1-windows\bin\phantomjs.exe')
    driver.get('https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=')
    time.sleep(3)
    driver.save_screenshot('20.png')
    
    #将页面滚动条从页面顶部向下拉1000px
    js = 'document.body.scrollTop = 10000'
    driver.execute_script(js)
    time.sleep(3)
    driver.save_screenshot('21.png')

第一张图片：

![2019051620424427.png][]

第二张图片;

![20190516204317887.png][]

[http_phantomjs.org_download.html]: http://phantomjs.org/download.html
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDIzOTU0MQ_size_16_color_FFFFFF_t_70]: /images/20220131/cb98ddde887a47da99c2c253c69aa22e.png
[2019051620424427.png]: /images/20220131/8f1ae10fa457483983267677070f5029.png
[20190516204317887.png]: /images/20220131/1db3b39548a24a81beea1841417c93e0.png