项目中常用正则表达式使用整合大全
提取网页标签内容
一.单个标签提取
|
|
之前写了一个nodejs的开源爬虫小项目,补上博客详细解析下代码。
PS:
共有上下两篇,第一篇讲从网站上抓取数据,第二篇讲将抓取的数据存入mongodb数据库。
新建spider文件夹,在该文件夹下面初始化package.json1npm init
|
|
在文件夹下面新建spider.js, 在文件中引入需要用到的nodejs模块如下(具体用法请查询网上相关资料):12345let superagent = require('superagent'), //nodejs里面一个非常方便的客户端代理请求模块,支持get,post,put,delete等 cheerio = require('cheerio'), //类似于jQuery的DOM操作模块,可以提取html中想要的信息 eventproxy = require('eventproxy'), //控制异步请求并发,可以监听请求,使得某些请求完毕之后在发送请求 assert = require('assert'), //异常抛出判断模块,assert.equal(err, null); 如果err不为null,则直接抛出异常 async = require('async'); //控制请求并发连接数