node怎么做爬虫?

node中可以使用egg.js框架来实现HTTP请求,然后通过cherrio模块来读取请求的数据,node中通过require方法引用egg.js和cherrio。

node做爬虫所需环境:

1.node环境

2.egg.js(可以不用框架,自己搭建http请求模块)

3.cherrio模块(用于解析DOM)

在本次的项目我就把数据的爬取写在了service层,而controller层我就主要用于接收客户端的请求。

node爬虫的实现:

1、Controller层代码如下:

1 (2).jpg-600

2、Service层代码如下:

2.jpg-600

3.Cherrio

3.jpg-600

我们用node爬到数据后,就要对爬到的html代码进行解读,读取出我们需要使用的数据。然后通过cherrio将数据拿到,最后返回controller即可。

Egg.js特性

  • 提供基于 Egg 定制上层框架的能力

  • 高度可扩展的插件机制

  • 内置多进程管理

  • 基于 Koa 开发,性能优异

  • 框架稳定,测试覆盖率高

  • 渐进式开发

cheerio:

cheerio 是nodejs特别为服务端定制的,能够快速灵活的对JQuery核心进行实现,工作于DOM模型上,并且解析、操作、呈送都很高效

以上就是node怎么做爬虫?的详细内容,更多请关注0133技术站其它相关文章!

赞(0) 打赏
未经允许不得转载:0133技术站首页 » Node.js答疑