公众号采集系列(一)基于微信PC端的搜索采集

suiw9 2024-10-29 16:41 24 浏览 0 评论

由于19年八九月份时，搜索微信下架了公众号历史文章显示。不久后，文章搜索列表中的时间过滤也下架了，而且由于列表中没有排序的功能，对于采集来说，其意义已经大打折扣了。由于又不能影响公司业务，无奈只能先基于微信PC端，通过Python控制鼠标的方式，进行搜索采集。

由于是过度方式，所以代码写的难免粗糙，各位将就看看，如果能帮助您一点，那再好不过了，哈哈.。

完整代码如下：

'''
Created on Dec 10, 2019
@author: admin
'''
import time, random, pyperclip , traceback
from pymouse import PyMouse
from pykeyboard import PyKeyboard
from com.fy.utils.date.DateUtils import Date_Utils
from com.fy.utils.http.HttpUtils import HttpUtils
from com.fy.utils.file.FileUtils import File_Utils
from com.fy.utils.hash.HashUtils import Hash_Utils
class WeChatMouseInfo:
def __init__(self):
self.du = Date_Utils()
self.du = Date_Utils()
self.pm = PyMouse()
self.kb = PyKeyboard()
self.httpUtil = HttpUtils()
self.hash = Hash_Utils()
self.datas = []
#打开搜索界面，并执行搜索操作；
def control(self, kw, isTheme:"是否是主题采集。主题采集是的排序方式为默认；关键词为发布时间"):
print(self.du.getCurrentTimeStr()[11:] + " 点击微信快捷方式")
self.pm.click(575, 755)#点击微信快捷方式
time.sleep(2)
print(self.du.getCurrentTimeStr()[11:] + " 点击微信搜索框")
self.pm.click(122, 39)#点击微信搜索框
time.sleep(2)
print(self.du.getCurrentTimeStr()[11:] + " 点击搜索框下的【文章搜索】")
self.pm.click(156, 173)#点击搜索框下的文章搜索
time.sleep(2)
self.pm.click(105, 12)#微信主界面置前
time.sleep(2)
self.pm.click(800, 15)#关闭微信主界面
time.sleep(2)
print(self.du.getCurrentTimeStr()[11:] + " 点击输入区，把鼠标置于输入状态")
self.pm.click(500, 345)#点击输入区，把鼠标置于输入状态；
time.sleep(2)
pyperclip.copy(kw)
#以下语句模拟键盘点击ctrl+v
print(self.du.getCurrentTimeStr()[11:] + " 模拟键盘点击ctrl+v")
self.kb.press_key(self.kb.control_key)
self.kb.tap_key('v')
self.kb.release_key(self.kb.control_key)
time.sleep(2)
self.kb.tap_key(self.kb.enter_key)#回车，进行搜索
print(self.du.getCurrentTimeStr()[11:] + " 按下回车键，进行搜索")
time.sleep(5)
if isTheme:
self.pm.click(780, 153)#点击相关度排序
print(self.du.getCurrentTimeStr()[11:] + " 点击【相关度排序】完毕")
else:
self.pm.click(885, 153)#点击时间排序
print(self.du.getCurrentTimeStr()[11:] + " 点击【时间排序】完毕")
print(self.du.getCurrentTimeStr()[11:] + " +++++++++++++打开搜索界面，并执行搜索操作完毕+++++++++++++")
time.sleep(4)
#处理搜索结果列表
def crawlerSearchResult(self):
print(self.du.getCurrentTimeStr()[11:] + " +++++++++++++解析搜索结果列表++++++++【开始】+++++")
for high in range(0, 5) :
moveHigh = 233 + 111 * high
print(self.du.getCurrentTimeStr()[11:] + " 点击第【", high + 1, "】条信息")
self.pm.click(660, moveHigh)# 点击一条信息，加载一条信息的详细页；
time.sleep(6)
title, url, author = self.parseInfo()#获取信息URL地址；
self.pm.click(1352, 14)# 关闭信息详情页
if url != None and title != None :
data = {}
data["title"] = title#标题
data["url"] = url
data["author"] = self.hash.getMd5HashUtils(author + "#" + title) #获取url中的Signature参数，作为排重字段；
data['dicName'] = "Cralwer_WeChat_List"#缓存库名称；
data["keyField"] = "author"#由于搜狗微信的链接地址不断变化，暂时用公众号加标题进行排重；
self.datas.append(data)
print()
print(self.du.getCurrentTimeStr()[11:] + " +++++++++++++解析搜索结果列表++++++++【完毕】+++++")
#关闭搜索窗口
def closeSearchPanle(self):
print(self.du.getCurrentTimeStr()[11:] + " 关闭搜索结果页")
self.pm.click(988, 25)#点击关闭搜索窗口
def parseInfo(self):
try:
print(self.du.getCurrentTimeStr() + " 点击微信快捷方式")
self.pm.click(180, 56)#点击微信快捷方式
time.sleep(2)
url = pyperclip.paste()
self.pm.click(180, 120)#点击微信快捷方式
time.sleep(2)
self.kb.press_keys([self.kb.control_r_key, 'a'])#全选
time.sleep(2)
self.kb.press_keys([self.kb.control_r_key, 'c'])#复制；
time.sleep(2)
text = pyperclip.paste()
title = text.split("")[0].strip()
author = self.getAuthor(text)
print(self.du.getCurrentTimeStr()[11:] + " 标题：", title)
print(self.du.getCurrentTimeStr()[11:] + " 链接：", url)
print(self.du.getCurrentTimeStr()[11:] + " 作者：", author)
return title, url, author
except:
print(traceback.print_exc())
return None, None, None
#从内容中解析出服务号名称；
def getAuthor(self, text):
author = ""
lineNumber = 0
for line in text.split(""):
line = line. strip()
if len(line) > 2:
lineNumber += 1
if lineNumber == 2:
line = line.replace(" ", " ")
lines = line.split(" ")
index = len(lines)
author = lines[index - 2]
return author
#保存采集的数据；
def saveDatas(self, datas):
url = "http://XXX.XXX.XXX.XXX:XXXX/hashInter/addListHashRepeat?isChecked=false" #保存结果数据的接口
try:
result = self.httpUtil.post(url, datas)#具有URL排重功能
if result == None:
time.sleep(5)
result = self.httpUtil.post(url , datas)#具有URL排重功能
print(result, "")
except:pass
if __name__ == '__main__':
owc = WeChatMouseInfo()
fu = File_Utils("./kw.txt")
while 1:
kws = []
theme = []
owc.datas = []
for kw in fu.read_To_List("utf-8"):
kws.append(kw)
startTime = owc.du.getCurrentTimeLong()
for kw in kws:
owc.control(kw, False)#打开搜索界面，并执行搜索操作；
owc.crawlerSearchResult()#解析列表信息；
owc.closeSearchPanle()#关闭搜索窗口
for data in owc.datas:
theme.append(data["title"])
endTime = owc.du.getCurrentTimeLong()
print(owc.du.getCurrentTimeStr()[11:] + " 已获取数据【" + str(len(owc.datas)) + "】条，历时【" + str(endTime - startTime) + "】秒")
time.sleep(100)
#-------以下是把关键词搜索到的信息标题，作为关键词，进行二次主题搜索采集
for tkw in theme:
owc.control(tkw, False)#打开搜索界面，并执行搜索操作；
owc.crawlerSearchResult()#解析列表信息；
owc.closeSearchPanle()#关闭搜索窗口
endTime = owc.du.getCurrentTimeLong()
print(owc.du.getCurrentTimeStr()[11:] + " 已获取数据【" + str(len(owc.datas)) + "】条，历时【" + str(endTime - startTime) + "】秒")
#owc.saveDatas(owc.datas)#保存解析的搜索结果数据.
num = random.randint(180, 540)
print(owc.du.getCurrentTimeStr() + " " + str(num) + " seconds later for the nex round of processing....")
time.sleep(num)

上述代码实现了基于Python控制鼠标，通过模拟人为点击的方式，实现关键词搜索，然后获取列表中最近5条信息URL、作者、标题等属性。但是当前这种方式，只能作为临时的处理方式，因为其存在下列缺点：

微信客户端频繁操作会有退出登录的情况；
采集性能是个问题。采集的关键词不能太多。我目前是监控了十几个关键词，运行还算稳定；
同一个微信号，频繁搜索，会有被限制搜索；搜索列表无数据显示；
由于存在前三个缺点，为保证其正常运行，运维是个大问题；

基于以上的缺点，下次介绍一种基于手机的公众号监控采集策略。

okhttputils

公众号采集系列(一)基于微信PC端的搜索采集

相关推荐

取消回复欢迎你发表评论:

Linux:Ubuntu22.04上安装python3.11，简单易上手

宝马阿布达比分公司推出独特M4升级套件，整套升级约在20万

MATLAB中图片保存的五种方法(一)（matlab中保存图片命令）

别再傻傻搞不清楚Workstation Player和Workstation Pro的区别了

Linux上使用tinyproxy快速搭建HTTP/HTTPS代理器

如何提取、修改、强刷A卡bios a卡刷bios工具

Element Plus 的 Dialog 组件实现点击遮罩层不关闭对话框

日本组合“岚”将于2020年12月31日停止团体活动

SpringCloud OpenFeign 使用 okhttp 发送 HTTP 请求与 HTTP/2 探索

tinymce 号称富文本编辑器世界第一，大家同意么?

公众号采集系列(一)基于微信PC端的搜索采集

相关推荐

取消回复欢迎 你 发表评论:

Linux:Ubuntu22.04上安装python3.11，简单易上手

宝马阿布达比分公司推出独特M4升级套件，整套升级约在20万

MATLAB中图片保存的五种方法(一)（matlab中保存图片命令）

别再傻傻搞不清楚Workstation Player和Workstation Pro的区别了

Linux上使用tinyproxy快速搭建HTTP/HTTPS代理器

如何提取、修改、强刷A卡bios a卡刷bios工具

Element Plus 的 Dialog 组件实现点击遮罩层不关闭对话框

日本组合“岚”将于2020年12月31日停止团体活动

SpringCloud OpenFeign 使用 okhttp 发送 HTTP 请求与 HTTP/2 探索

tinymce 号称富文本编辑器世界第一，大家同意么?

取消回复欢迎你发表评论: