【NodeJS】爬虫之cheerio抓取网页数据

ゝ一纸荒年。 2022-05-27 07:14 652阅读 0赞

记录：及其简单的牛客网讨论区爬虫

源代码：

var express = require('express');
    var superagent = require('superagent');
    var cheerio = require('cheerio');
    var url = require('url');
    var router = express();
    
    var cnodeUrl = 'https://www.nowcoder.com/discuss';
    router.get('/', function(req, res, next) { 
        // 用 superagent 去抓取 https://www.nowcoder.com/discuss 的内容
        superagent.get(cnodeUrl).end(function(err, sres){ 
            // 常规的错误处理
            if(err){
                return next(err);
            }
            // sres.text 里面存储着网页的 html 内容
            var $ = cheerio.load(sres.text);
            var items = [];
            $('.discuss-main').each(function(idx, element){ 
                var $element = $(element);
                items.push({
                    title: $element.find('a').text(),
                    href: $element.find('a').attr('href'),
                    link: url.resolve(cnodeUrl, $element.find('a').attr('href'))
                });
            });
            res.send(items);
        })
    });

目标结构：  
![这里写图片描述][70]  
效果展示：  
![这里写图片描述][70 1]

[70]: /images/20220527/6d1ca00a9a244596ab5f2820f6780fc1.png
[70 1]: /images/20220527/5b6492b2acd542e4a9a1c7dc0c3a0922.png

发表评论取消回复

表情：

评论列表（有 0 条评论，652人围观）

还没有评论，来说两句吧...

相关阅读

相关 Python爬虫实践：网页抓取与数据清洗

在Python中，我们可以使用requests库获取网页内容，然后使用BeautifulSoup等库解析HTML并提取所需数据。数据清洗则包括去除冗余信息、处理缺失值、纠正错误

旧城等待，/ 2025年03月03日 14:57/ 0 赞/ 115 阅读

相关 Python爬虫实践：抓取网页数据

Python爬虫是自动化获取互联网信息的一种方式。以下是一个简单的Python爬虫实践，用于抓取网页的标题。首先，我们需要安装两个Python库：`requests`用于发

男娘i/ 2025年02月24日 05:30/ 0 赞/ 133 阅读

相关 Python网络爬虫：使用BeautifulSoup抓取网页数据？

是的，你可以使用Python和BeautifulSoup库来创建一个网络爬虫，以抓取网页上的数据。以下是一个简单的例子，展示如何使用BeautifulSoup抓取HTML中

偏执的太偏执、/ 2025年02月12日 13:39/ 0 赞/ 128 阅读

相关 Python实战：爬虫抓取网页数据问题

在爬虫抓取网页数据时，可能会遇到以下几个问题： 1. **反爬机制**：许多网站会通过检测IP地址、User-Agent、验证码等手段来防止爬虫访问。 2. **登录验证*

今天药忘吃喽~/ 2025年02月01日 09:33/ 0 赞/ 181 阅读

相关 java爬虫抓取简单网页数据_简单的java爬虫抓取网页实现代码

import java.io.IOException; import java.util.LinkedList; import java.util.List; impor

忘是亡心i/ 2022年11月09日 12:49/ 0 赞/ 481 阅读

相关网络爬虫之网页抓取

说到网页抓取，往往有两个点是不得不说的，首先是网页编码的识别，另外一个是对网页脚本运行的支持，除此之外，是否支持以POST方式提交请求和支持自动的cookie管理也是很多人所关

逃离我推掉我的手/ 2022年06月09日 11:49/ 0 赞/ 455 阅读

相关【NodeJS】爬虫之cheerio抓取网页数据

记录：及其简单的牛客网讨论区爬虫源代码： var express = require('express'); var superagent = requi

ゝ一纸荒年。/ 2022年05月27日 07:14/ 0 赞/ 653 阅读

相关【nodeJs】用cheerio写一个爬虫吧

爬取Cnode社区的文章用到的模块：express cheerio superagent superagent([http://visionmedia.gi

本是古典何须时尚/ 2022年05月24日 12:40/ 0 赞/ 382 阅读

相关【nodeJs】cheerio

cheerio是什么？ cheerio([https://github.com/cheeriojs/cheerio][https_github.com_cheeriojs

╰+攻爆jí腚メ/ 2022年05月24日 12:40/ 0 赞/ 291 阅读

相关 Nodejs爬虫－－cheerio

cheerio解析html, 通读cheerio API: 参考文档：http://cnodejs.org/topic/5203a71844e76d216a727d2e [通

﹏ヽ暗。殇╰゛Y/ 2021年10月09日 04:06/ 0 赞/ 418 阅读