nodejs有哪些爬虫框架? - 网站

nodejs有哪些爬虫框架?

分类:Node.js常见问题 · 发布时间:2019-12-13 17:10 · 阅读:6455

nodejs有哪些爬虫框架?下面本篇文章给大家介绍几款nodejs爬虫框架。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。

node-spider

基于nodejs的通用爬虫框架,得益于nodejs的高性能异步io,爬虫的执行效率非常高。目前版本仅支持http/https协议,可以设置header属性和cookie会话保持,暂时还不支持代理。

软件架构

该框架主要分为调度器(node-shceduler) 下载器(node-downloader) 请求(node-request) 结果(node-response) 爬虫(node-spider) 数据抽取(node-pipeline)。 程序运行时:'调度器'从爬虫抽取'请求'或者'结果',如果是'请求'交给'下载器',如果是对象则交给node-pipeline保存数据。

node-crawler

Node Crawler:强大的Node开源爬虫

目标打造成Node社区最强大和流行的爬虫/内容抽取工具库,且支持生产环境。

特性:

  • 服务端DOM和自动jQuery注入,使用Cheerio(默认)或JSDOM

  • 可配置的连接池大小和重试次数

  • Control rate limit

  • 支持设置请求队列优先级

  • forceUTF8模式可让爬虫处理字符集编码探测和转换

  • 兼容Node 4.x及以上版本

更新日志:https://github.com/bda-research/node-crawler/blob/master/CHANGELOG.md

ppspider

这是一个使用nodejs + typescript编写的web爬虫框架。

支持puppeteer爬取动态网页,支持request+cheerio爬取静态网页;

提供了任务队列管理和调度,内置过滤器,轻松实现连接去重;

拥有webUi管理界面,爬取进度一目了然;

应用运行状态可保存,重启应用可继续爬取;

框架提供了可扩展的接口实现,方便用户自定义队列,过滤器,以及worker工厂类,另外还内置了用户自定义交互界面的实现方案,实现爬取结果的实时展示;

说明:

ppspider框架使用 nodejs + typescript 编写,在使用的时候,也是采用 nodejs + typescript 编写爬虫脚本

更多nodejs相关技术文章,请访问 Node.js答疑 栏目进行学习!

标签:
nodejs

相关文章

如何设置 nodejs 的环境变量

在前端开发过程中,我们需要对 application 运行的环境进行设置,一般会包括开发环境development,生产环境production,每个环境可以对应不同的一些配置,例如不同环境下请求的地址...

谈谈Node.js与JavaScript的差异

Javascript是一种web前端语言,主要用于web开发中,由浏览器解析执行。Node.js是一个可以快速构建网络服务及应用的平台,是用Javascript语言构建的服务平台。

npm install安装报错怎么解决?

解决方法:1、报“operation not permitted”错误,通过“npm i 包名 --no-optional”解决;2、报“Missing: chromedriver”错误,表示没有安装chromedriver,安装一下即可。

怎么使用npm下载vue.js?

使用npm下载vue.js的方法:1、安装node.js和npm;2、安装cnpm;3、使用命令cnpm install -g vue-cli来安装即可。

vue.js和node.js是什么关系?

vue.js和node.js并没有关系,vue.js是前端框架,算是js的三大框架之一吧,node.js是后端开发语言,同php、java、c#一样的。但是他们可以配合使用。

返回分类 返回首页