百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

公众号采集系列(一)基于微信PC端的搜索采集

suiw9 2024-10-29 16:41 24 浏览 0 评论

由于19年八九月份时,搜索微信下架了公众号历史文章显示。不久后,文章搜索列表中的时间过滤也下架了,而且由于列表中没有排序的功能,对于采集来说,其意义已经大打折扣了。由于又不能影响公司业务,无奈只能先基于微信PC端,通过Python控制鼠标的方式,进行搜索采集。

由于是过度方式,所以代码写的难免粗糙,各位将就看看,如果能帮助您一点,那再好不过了,哈哈.。

完整代码如下:

'''

Created on Dec 10, 2019

@author: admin

'''

import time, random, pyperclip , traceback

from pymouse import PyMouse

from pykeyboard import PyKeyboard

from com.fy.utils.date.DateUtils import Date_Utils

from com.fy.utils.http.HttpUtils import HttpUtils

from com.fy.utils.file.FileUtils import File_Utils

from com.fy.utils.hash.HashUtils import Hash_Utils

class WeChatMouseInfo:

def __init__(self):

self.du = Date_Utils()

self.du = Date_Utils()

self.pm = PyMouse()

self.kb = PyKeyboard()

self.httpUtil = HttpUtils()

self.hash = Hash_Utils()

self.datas = []

#打开搜索界面,并执行搜索操作;

def control(self, kw, isTheme:"是否是主题采集。主题采集是的排序方式为默认;关键词为发布时间"):

print(self.du.getCurrentTimeStr()[11:] + " 点击微信快捷方式")

self.pm.click(575, 755)#点击微信快捷方式

time.sleep(2)

print(self.du.getCurrentTimeStr()[11:] + " 点击微信搜索框")

self.pm.click(122, 39)#点击微信搜索框

time.sleep(2)

print(self.du.getCurrentTimeStr()[11:] + " 点击搜索框下的【文章搜索】")

self.pm.click(156, 173)#点击搜索框下的文章搜索

time.sleep(2)

self.pm.click(105, 12)#微信主界面置前

time.sleep(2)

self.pm.click(800, 15)#关闭微信主界面

time.sleep(2)

print(self.du.getCurrentTimeStr()[11:] + " 点击输入区,把鼠标置于输入状态")

self.pm.click(500, 345)#点击输入区,把鼠标置于输入状态;

time.sleep(2)

pyperclip.copy(kw)

#以下语句模拟键盘点击ctrl+v

print(self.du.getCurrentTimeStr()[11:] + " 模拟键盘点击ctrl+v")

self.kb.press_key(self.kb.control_key)

self.kb.tap_key('v')

self.kb.release_key(self.kb.control_key)

time.sleep(2)

self.kb.tap_key(self.kb.enter_key)#回车,进行搜索

print(self.du.getCurrentTimeStr()[11:] + " 按下回车键,进行搜索")

time.sleep(5)

if isTheme:

self.pm.click(780, 153)#点击相关度排序

print(self.du.getCurrentTimeStr()[11:] + " 点击【相关度排序】完毕")

else:

self.pm.click(885, 153)#点击时间排序

print(self.du.getCurrentTimeStr()[11:] + " 点击【时间排序】完毕")

print(self.du.getCurrentTimeStr()[11:] + " +++++++++++++打开搜索界面,并执行搜索操作完毕+++++++++++++")

time.sleep(4)

#处理搜索结果列表

def crawlerSearchResult(self):

print(self.du.getCurrentTimeStr()[11:] + " +++++++++++++解析搜索结果列表++++++++【开始】+++++")

for high in range(0, 5) :

moveHigh = 233 + 111 * high

print(self.du.getCurrentTimeStr()[11:] + " 点击第【", high + 1, "】条信息")

self.pm.click(660, moveHigh)# 点击一条信息,加载一条信息的详细页;

time.sleep(6)

title, url, author = self.parseInfo()#获取信息URL地址;

self.pm.click(1352, 14)# 关闭信息详情页

if url != None and title != None :

data = {}

data["title"] = title#标题

data["url"] = url

data["author"] = self.hash.getMd5HashUtils(author + "#" + title) #获取url中的Signature参数,作为排重字段;

data['dicName'] = "Cralwer_WeChat_List"#缓存库名称;

data["keyField"] = "author"#由于搜狗微信的链接地址不断变化,暂时用公众号加标题进行排重;

self.datas.append(data)

print()

print(self.du.getCurrentTimeStr()[11:] + " +++++++++++++解析搜索结果列表++++++++【完毕】+++++")

#关闭搜索窗口

def closeSearchPanle(self):

print(self.du.getCurrentTimeStr()[11:] + " 关闭搜索结果页")

self.pm.click(988, 25)#点击关闭搜索窗口

def parseInfo(self):

try:

print(self.du.getCurrentTimeStr() + " 点击微信快捷方式")

self.pm.click(180, 56)#点击微信快捷方式

time.sleep(2)

url = pyperclip.paste()

self.pm.click(180, 120)#点击微信快捷方式

time.sleep(2)

self.kb.press_keys([self.kb.control_r_key, 'a'])#全选

time.sleep(2)

self.kb.press_keys([self.kb.control_r_key, 'c'])#复制;

time.sleep(2)

text = pyperclip.paste()

title = text.split("")[0].strip()

author = self.getAuthor(text)

print(self.du.getCurrentTimeStr()[11:] + " 标题:", title)

print(self.du.getCurrentTimeStr()[11:] + " 链接:", url)

print(self.du.getCurrentTimeStr()[11:] + " 作者:", author)

return title, url, author

except:

print(traceback.print_exc())

return None, None, None

#从内容中解析出服务号名称;

def getAuthor(self, text):

author = ""

lineNumber = 0

for line in text.split(""):

line = line. strip()

if len(line) > 2:

lineNumber += 1

if lineNumber == 2:

line = line.replace(" ", " ")

lines = line.split(" ")

index = len(lines)

author = lines[index - 2]

return author

#保存采集的数据;

def saveDatas(self, datas):

url = "http://XXX.XXX.XXX.XXX:XXXX/hashInter/addListHashRepeat?isChecked=false" #保存结果数据的接口

try:

result = self.httpUtil.post(url, datas)#具有URL排重功能

if result == None:

time.sleep(5)

result = self.httpUtil.post(url , datas)#具有URL排重功能

print(result, "")

except:pass

if __name__ == '__main__':

owc = WeChatMouseInfo()

fu = File_Utils("./kw.txt")

while 1:

kws = []

theme = []

owc.datas = []

for kw in fu.read_To_List("utf-8"):

kws.append(kw)

startTime = owc.du.getCurrentTimeLong()

for kw in kws:

owc.control(kw, False)#打开搜索界面,并执行搜索操作;

owc.crawlerSearchResult()#解析列表信息;

owc.closeSearchPanle()#关闭搜索窗口

for data in owc.datas:

theme.append(data["title"])

endTime = owc.du.getCurrentTimeLong()

print(owc.du.getCurrentTimeStr()[11:] + " 已获取数据【" + str(len(owc.datas)) + "】条,历时【" + str(endTime - startTime) + "】秒")

time.sleep(100)

#-------以下是把关键词搜索到的信息标题,作为关键词,进行二次主题搜索采集

for tkw in theme:

owc.control(tkw, False)#打开搜索界面,并执行搜索操作;

owc.crawlerSearchResult()#解析列表信息;

owc.closeSearchPanle()#关闭搜索窗口

endTime = owc.du.getCurrentTimeLong()

print(owc.du.getCurrentTimeStr()[11:] + " 已获取数据【" + str(len(owc.datas)) + "】条,历时【" + str(endTime - startTime) + "】秒")

#owc.saveDatas(owc.datas)#保存解析的搜索结果数据.

num = random.randint(180, 540)

print(owc.du.getCurrentTimeStr() + " " + str(num) + " seconds later for the nex round of processing....")

time.sleep(num)

上述代码实现了基于Python控制鼠标,通过模拟人为点击的方式,实现关键词搜索,然后获取列表中最近5条信息URL、作者、标题等属性。但是当前这种方式,只能作为临时的处理 方式,因为其存在下列缺点:

  1. 微信客户端频繁操作会有退出登录的情况;

  2. 采集性能是个问题。采集的关键词不能太多。我目前是监控了十几个关键词,运行还算稳定;

  3. 同一个微信号,频繁搜索,会有被限制搜索;搜索列表无数据显示;

  4. 由于 存在前三个缺点,为保证其正常运行,运维是个大问题;

基于以上的缺点,下次介绍一种基于手机的公众号监控采集策略。

相关推荐

5款Syslog集中系统日志常用工具对比推荐

一、为何要集中管理Syslog?Syslog由Linux/Unix系统及其他网络设备生成,广泛分布于整个网络。因其包含关键信息,可用于识别网络中的恶意活动,所以必须对其进行持续监控。将Sys...

跨平台、多数据库支持的开源数据库管理工具——DBeaver

简介今天给大家推荐一个开源的数据库管理工具——DBeaver。它支持多种数据库系统,包括Mysql、Oracle、PostgreSQL、SLQLite、SQLServer等。DBeaver的界面友好...

强烈推荐!数据库管理工具:Navicat Premium 16.3.2 (64位)

NavicatPremium,一款集数据迁移、数据库管理、SQL/查询编辑、智能设计、高效协作于一体的全能数据库开发工具。无论你是MySQL、MariaDB、MongoDB、SQLServer、O...

3 年 Java 程序员还玩不转 MongoDB,网友:失望

一、什么场景使用MongoDB?...

拯救MongoDB管理员的GUI工具大赏:从菜鸟到极客的生存指南

作为一名在NoSQL丛林中披荆斩棘的数据猎人,没有比GUI工具更称手的瑞士军刀了。本文将带你围观五款主流MongoDB管理神器的特性与暗坑,附赠精准到扎心的吐槽指南一、MongoDBCompass:...

mongodb/redis/neo4j 如何自己打造一个 web 数据库可视化客户端?

前言最近在做neo4j相关的同步处理,因为产线的可视化工具短暂不可用,发现写起来各种脚本非常麻烦。...

solidworks使用心得,纯干货!建议大家收藏

SolidWorks常见问题...

统一规约-关乎数字化的真正实现(规范统一性)

尽管数字化转型的浪潮如此深入人心,但是,对于OPCUA和TSN的了解却又甚少,这难免让人质疑其可实现性,因为,如果缺乏统一的语义互操作规范,以及更为具有广泛适用的网络与通信,则数字化实际上几乎难以具...

Elasticsearch节点角色配置详解(Node)

本篇文章将介绍如下内容:节点角色简介...

产前母婴用品分享 篇一:我的母婴购物清单及单品推荐

作者:DaisyH8746在张大妈上已经混迹很久了,有事没事看看“什么值得买”已渐渐成了一种生活习惯,然而却从来没有想过自己要写篇文章发布上来,直到由于我产前功课做得“太过认真”(认真到都有点过了,...

比任何人都光彩照人的假期!水润、紧致的肌肤护理程序

图片来源:谜尚愉快的假期临近了。身心振奋的休假季节。但是不能因为这种心情而失去珍贵的东西,那就是皮肤健康。炙热的阳光和强烈的紫外线是使我们皮肤老化的主犯。因此,如果怀着快乐的心情对皮肤置之不理,就会使...

Arm发布Armv9边缘AI计算平台,支持运行超10亿参数端侧AI模型

中关村在线2月27日消息,Arm正式发布Armv9边缘人工智能(AI)计算平台。据悉,该平台以全新的ArmCortex-A320CPU和领先的边缘AI加速器ArmEthos-U85NPU为核心...

柔性——面向大规模定制生产的数字化实现的基本特征

大规模定制生产模式的核心是柔性,尤其是体现在其对定制的要求方面。既然是定制,并且是大规模的定制,对于制造系统的柔性以及借助于数字化手段实现的柔性,就提出了更高的要求。面向大规模定制生产的数字化业务管控...

创建PLC内部标准——企业前进的道路

作者:FrankBurger...

标准化编程之 ----------- 西门子LPMLV30测试总结

PackML乃是由OMAC开发且被ISA所采用的自动化标准TR88.00.02,能够更为便捷地传输与检索一致的机器数据。PackML的主要宗旨在于于整个工厂车间倡导通用的“外观和感觉”,...

取消回复欢迎 发表评论: