Javascript正则表达式整合

2017-02-10 正则表达式

项目中常用正则表达式使用整合大全

提取网页标签内容

一.单个标签提取

1
2
3

let str = `<a class="menu">GitHub</a>`;
let content = str.match(/<a class="menu">([\s\S]+)<\/a>/)[1];

阅读全文

Nodejs爬虫--抓取豆瓣电影网页数据（上）

2017-02-09 爬虫

之前写了一个nodejs的开源爬虫小项目，补上博客详细解析下代码。

PS：共有上下两篇，第一篇讲从网站上抓取数据，第二篇讲将抓取的数据存入mongodb数据库。

我们快速开始吧

首先，安装nodejs，然后用npm工具初始化资源管理配置文件：package.json

新建spider文件夹，在该文件夹下面初始化package.json

npm init

然后用npm安装相关库文件：

1	npm install --save-dev superagent cheerio eventproxy async

在文件夹下面新建spider.js, 在文件中引入需要用到的nodejs模块如下(具体用法请查询网上相关资料)：

let superagent = require('superagent'),     //nodejs里面一个非常方便的客户端代理请求模块，支持get,post,put,delete等
    cheerio = require('cheerio'),           //类似于jQuery的DOM操作模块，可以提取html中想要的信息
    eventproxy = require('eventproxy'),     //控制异步请求并发，可以监听请求，使得某些请求完毕之后在发送请求
    assert = require('assert'),             //异常抛出判断模块，assert.equal(err, null);  如果err不为null,则直接抛出异常
    async = require('async');              //控制请求并发连接数

阅读全文

前端博客

学习总结思考感悟

chenghao

Javascript正则表达式整合

项目中常用正则表达式使用整合大全

提取网页标签内容

一.单个标签提取

Nodejs爬虫--抓取豆瓣电影网页数据（上）

我们快速开始吧

首先，安装nodejs，然后用npm工具初始化资源管理配置文件：package.json

然后用npm安装相关库文件：