百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

50行实现Node.js多进程分页爬虫 nodejs 多进程 共享数据

suiw9 2024-11-06 20:22 21 浏览 0 评论

作者: 怪怪

转发链接:https://mp.weixin.qq.com/s/FAtD6F-V-f-UdsM1LYS3eg

前言

Coding 应当是一生的事业,而不仅仅是 30 岁的青春

Node 用来写爬虫还是挺方便的,网上大部分文章都是单进程爬取,抽下班时间写了个多进程爬虫


每篇文章都希望你能收获到东西,这篇是基于 Node.js 的多进程爬虫,希望你看完有这些收获:

  • Node cluster 的简单用法、进程间通信
  • 对于一些简单的分页爬虫,能够自己立马实现
  • superagent 的简单使用

架构图

目标分析

怪怪我痴迷于日本动画,经常会去豆瓣看排行榜,然后一个人躲在家静静的欣赏,嘘~~

不知道上面的动画你看过多少,反正海贼王我是看完了!


目标锁定豆瓣日本动画排行榜前 10 页数据爬取。

我们先抓个包看看,豆瓣日本动画排行榜的请求逻辑是怎样滴?

第一页抓包

第二页抓包

通过对前两页接口抓包可以很明显的总结出:

  • 热榜日本动画 api 为 https://movie.douban.com/j/search_subjects
  • 入参除了 page_start 递增 20,其它入参保持不变
  • 请求方式为 get

构建 get 请求

superagent 是 Node.js 里面一个蛮方便的客户端请求代理模块,用来打请求非常方便。

根据上面分析得出的小结,配合 superagent,我们可以轻松的构建出请求。

多进程创建

关于 Node 多进程架构底层原理,可以参考我的另外一篇《大前端进阶 Node.js》系列 多进程模型底层实现。

利用 Node 提供的 cluster 模块,可以轻松创建多个子进程。

一般来讲,cpu 是几核的,就创建几个子进程,但是真正的服务端,其实考虑得会更多~

子进程分页抓取

这里涉及到一丢丢的小算法逻辑,其实也很简单啦~

最终就是实现,比如我的 mac 是 4 核的,那么我会开 4 个子进程来进行爬取,下面的小算法就是实现如何让 4 个子进程尽量的均分掉爬取的网络请求数

专业点来说就是请求的负载均衡,如果你全部的请求都压在一个子进程上面,那么你开这么多子进程,岂不是失去了意义?

关闭子进程

爬取结束后,不用一直开着进程,可以关闭掉,节约资源。

cluster.disconnect(); 

多进程无序问题

多进程爬取的时候,是 cpu 来进行各个子进程之间的调度的,所以爬取的数据实际上是无序的。比如一共需要爬取前 20 页的数据,最先爬取到的不一定是第 1 页。

我们可以加一个 movieIndex 字段,来标识爬取的顺序

效果

看一下爬取前 10 页的效果。


总结

Node 多进程架构,缓解了 cpu 资源利用问题,在一些耗时的操作上,可以尝试多进程的方式来解决。

在使用多进程的时候,数据同步是一个非常重要的问题,处理不好,容易引发一系列的坑,例如怪怪之前写的《大前端进阶 Node.js》系列 双十一秒杀系统(进阶必看),其中提到的超卖问题,就是多进程数据同步的问题。

本文只是一个非常简单的小爬虫,入门贴,后面会写一些比较深入的 Node 多进程实战帖~

作者: 怪怪

转发链接:https://mp.weixin.qq.com/s/FAtD6F-V-f-UdsM1LYS3eg

相关推荐

5款Syslog集中系统日志常用工具对比推荐

一、为何要集中管理Syslog?Syslog由Linux/Unix系统及其他网络设备生成,广泛分布于整个网络。因其包含关键信息,可用于识别网络中的恶意活动,所以必须对其进行持续监控。将Sys...

跨平台、多数据库支持的开源数据库管理工具——DBeaver

简介今天给大家推荐一个开源的数据库管理工具——DBeaver。它支持多种数据库系统,包括Mysql、Oracle、PostgreSQL、SLQLite、SQLServer等。DBeaver的界面友好...

强烈推荐!数据库管理工具:Navicat Premium 16.3.2 (64位)

NavicatPremium,一款集数据迁移、数据库管理、SQL/查询编辑、智能设计、高效协作于一体的全能数据库开发工具。无论你是MySQL、MariaDB、MongoDB、SQLServer、O...

3 年 Java 程序员还玩不转 MongoDB,网友:失望

一、什么场景使用MongoDB?...

拯救MongoDB管理员的GUI工具大赏:从菜鸟到极客的生存指南

作为一名在NoSQL丛林中披荆斩棘的数据猎人,没有比GUI工具更称手的瑞士军刀了。本文将带你围观五款主流MongoDB管理神器的特性与暗坑,附赠精准到扎心的吐槽指南一、MongoDBCompass:...

mongodb/redis/neo4j 如何自己打造一个 web 数据库可视化客户端?

前言最近在做neo4j相关的同步处理,因为产线的可视化工具短暂不可用,发现写起来各种脚本非常麻烦。...

solidworks使用心得,纯干货!建议大家收藏

SolidWorks常见问题...

统一规约-关乎数字化的真正实现(规范统一性)

尽管数字化转型的浪潮如此深入人心,但是,对于OPCUA和TSN的了解却又甚少,这难免让人质疑其可实现性,因为,如果缺乏统一的语义互操作规范,以及更为具有广泛适用的网络与通信,则数字化实际上几乎难以具...

Elasticsearch节点角色配置详解(Node)

本篇文章将介绍如下内容:节点角色简介...

产前母婴用品分享 篇一:我的母婴购物清单及单品推荐

作者:DaisyH8746在张大妈上已经混迹很久了,有事没事看看“什么值得买”已渐渐成了一种生活习惯,然而却从来没有想过自己要写篇文章发布上来,直到由于我产前功课做得“太过认真”(认真到都有点过了,...

比任何人都光彩照人的假期!水润、紧致的肌肤护理程序

图片来源:谜尚愉快的假期临近了。身心振奋的休假季节。但是不能因为这种心情而失去珍贵的东西,那就是皮肤健康。炙热的阳光和强烈的紫外线是使我们皮肤老化的主犯。因此,如果怀着快乐的心情对皮肤置之不理,就会使...

Arm发布Armv9边缘AI计算平台,支持运行超10亿参数端侧AI模型

中关村在线2月27日消息,Arm正式发布Armv9边缘人工智能(AI)计算平台。据悉,该平台以全新的ArmCortex-A320CPU和领先的边缘AI加速器ArmEthos-U85NPU为核心...

柔性——面向大规模定制生产的数字化实现的基本特征

大规模定制生产模式的核心是柔性,尤其是体现在其对定制的要求方面。既然是定制,并且是大规模的定制,对于制造系统的柔性以及借助于数字化手段实现的柔性,就提出了更高的要求。面向大规模定制生产的数字化业务管控...

创建PLC内部标准——企业前进的道路

作者:FrankBurger...

标准化编程之 ----------- 西门子LPMLV30测试总结

PackML乃是由OMAC开发且被ISA所采用的自动化标准TR88.00.02,能够更为便捷地传输与检索一致的机器数据。PackML的主要宗旨在于于整个工厂车间倡导通用的“外观和感觉”,...

取消回复欢迎 发表评论: