Nodejs爬虫--抓取豆瓣电影网页数据(上)

之前写了一个nodejs的开源爬虫小项目,补上博客详细解析下代码。

PS:共有上下两篇,第一篇讲从网站上抓取数据,第二篇讲将抓取的数据存入mongodb数据库。

我们快速开始吧

首先,安装nodejs,然后用npm工具初始化资源管理配置文件:package.json

新建spider文件夹,在该文件夹下面初始化package.json

1
npm init

然后用npm安装相关库文件:

1
npm install --save-dev superagent cheerio eventproxy async

在文件夹下面新建spider.js, 在文件中引入需要用到的nodejs模块如下(具体用法请查询网上相关资料):

1
2
3
4
5
let superagent = require('superagent'), //nodejs里面一个非常方便的客户端代理请求模块,支持get,post,put,delete等
cheerio = require('cheerio'), //类似于jQuery的DOM操作模块,可以提取html中想要的信息
eventproxy = require('eventproxy'), //控制异步请求并发,可以监听请求,使得某些请求完毕之后在发送请求
assert = require('assert'), //异常抛出判断模块,assert.equal(err, null); 如果err不为null,则直接抛出异常
async = require('async'); //控制请求并发连接数

阅读全文


Powered by Hexo and Hexo-theme-hiker

Copyright © 2013 - 2018 前端博客 All Rights Reserved.

chenghao 保留所有权利