node做爬虫所需环境:
1.node环境
2.egg.js(可以不用框架,自己搭建http请求模块)
3.cherrio模块(用于解析DOM)
在本次的项目我就把数据的爬取写在了service层,而controller层我就主要用于接收客户端的请求。
node爬虫的实现:
1、Controller层代码如下:
2、Service层代码如下:
3.Cherrio
我们用node爬到数据后,就要对爬到的html代码进行解读,读取出我们需要使用的数据。然后通过cherrio将数据拿到,最后返回controller即可。
Egg.js特性
提供基于 Egg 定制上层框架的能力
高度可扩展的插件机制
内置多进程管理
基于 Koa 开发,性能优异
框架稳定,测试覆盖率高
渐进式开发
cheerio:
cheerio 是nodejs特别为服务端定制的,能够快速灵活的对JQuery核心进行实现,工作于DOM模型上,并且解析、操作、呈送都很高效
以上就是node怎么做爬虫?的详细内容,更多请关注0133技术站其它相关文章!