Python基于pywinauto实现的自动化采集任务

更新时间：2023年04月14日 08:39:15 作者：CrazyDragon_King

这篇文章主要介绍了Python基于pywinauto实现的自动化采集任务,模拟了输入单词, 复制例句, 获取例句, 清空剪切板, 然后重复这个操作,需要的朋友可以参考下

基于 pywinauto 的自动化采集任务

实现技术代码总结这是一篇学习总结, 前段时间写了一个基于 Python 的自动获取网易有道单词例句的程序, 效果感觉还不错. 但是最终我也没有使用它, 主要原因有以下三点:

获取速度太慢, 我想要获取的单词比较多.
网易也会对这种行为进行封禁的, 采集会中断.
这些例句是有属于网易的.

实现技术

这个程序使用了一个 Python 的自动化库 ---- pywinauto, 因为官方已经很久没更新了, 所以 python 的版本最高只能是 Python 3.7 左右, 我用的是 Python 3.7.1. 我使用它模拟了输入单词, 复制例句, 获取例句, 清空剪切板, 然后重复这个操作, 总体上实现比较简陋. 而且, 为了简单, 我是之间手动切换到例句页, 这样就不用使用程序来切换到例句页了.

代码

requirements.txt

pyperclip==1.8.2
pywin32==304
pywinauto==0.6.8

代码

import os
import random
import time
import re
from typing import Dict, List
from pywinauto.application import Application
from pywinauto import mouse
from pywinauto import keyboard
import pyperclip
import json


# 程序处理中的各种路径
dir_path = r"C:/Users/Dick/Desktop/work/DragonEnglish/tools"
input_path = os.path.join(dir_path, r"input.txt")
output_path = os.path.join(dir_path, r"output.json")
error_path = os.path.join(dir_path, r"error.txt")
# 顺序错误的单词
error_words = []
# 有道词典的进程id
processId = 13840


def line_process(content: str) -> str:
    """
    去除所有空行, 再去除前面四行无关内容
    """
    lines = content.split("\r\n")
    # 因为例句开头是 数字. 开头的, 所以先以这个为特点来进行过滤掉多复制的开头
    count = 0
    for i in range(len(lines)):
        if re.match(r"\d+\.", lines[i]):
            count = i
            break

    lines = lines[count:]
    filter_lines = []
    for line in lines:
        if line.strip() != "":  # 过滤空行
            if not line.startswith("youdao") and not \
                    (line.startswith("《") and line.endswith("》")):  # 过滤来源
                filter_lines.append(line)

    if len(filter_lines) % 3 != 0:
        raise Exception("抓取数据错误")

    content = "\n".join(filter_lines) + "\n"  # 补上一个 \n, 不然正则会漏掉一个结果
    return content


def to_list(line: str) -> List[Dict[str, str]]:
    """
    直接生成列表字典对象
    [{
        "no": 1,
        "original": "",
        "translate"
    }]
    """
    sentences = []
    # 正则表达式
    REGEXP = r'(?P<no>\d+?)\.\n(?P<original>.+?)\n(?P<translate>.+?)\n'
    # 编译
    pattern = re.compile(REGEXP)
    # 匹配
    rs = pattern.finditer(line)
    # 组装结果
    for r in rs:
        print(r.groupdict())
        sentences.append(r.groupdict())
    return sentences


if __name__ == "__main__":
    # 连接网易有道词典
    app = Application(backend="uia").connect(process=processId)
    # 获取需要的窗口
    win = app.window(class_name="RICHEDIT50W")

    # 输入词汇列表
    input_words = []
    # 输出词汇对象列表
    output_words = []
    # 打开输入文件，初始化输入词汇列表
    with open(input_path, "r", encoding="utf-8") as input_file:
        input_words = input_file.read().split("\n")

    for word in input_words:
        print("正在抓取单词: %s" % word)
        # 清空剪切板，这步很重要，防止重复复制
        pyperclip.copy("")
        # 将输入数据复制到剪切板
        pyperclip.copy(word)
        # 定位到输入框（采用坐标定位，定位到大致位置即可）
        mouse.click(coords=(2400, 80))
        # 模拟按键操作：全选 删除 粘贴 回车（触发查询）
        keyboard.send_keys("^a{DELETE}^v{ENTER}")
        # 清空剪切板，这步很重要，防止重复复制
        pyperclip.copy("")
        # 鼠标左键点击，这个操作只是为了把鼠标移动到这里
        mouse.click(button="left", coords=(2200, 330))
        # 模拟键盘 CTRL+A CTRL+C，直接全选所有的例句（这里会多选一部分内容，待会再处理）
        keyboard.send_keys("^a^c")
        # 暂停一会儿，不做操作的太快
        time.sleep(random.random() * 2 + 1)
        # pywinauto 复制的内容是在系统的剪切板里面的，所以需要其它库读取
        content = pyperclip.paste()
        # 对内容进行简单的预处理后，加入output_words
        try:
            lines = line_process(content)
        except BaseException as exp:
            print(exp)
            # 如果抓取出现问题，说明被网易抓了现行，直接退出即可。
            break

        sentences = to_list(lines)
        if not sentences:
            print("获取例句为空, 可能是数据格式错误.")
            break
        output_words.append({
            "word": word,
            "example": sentences,
        })
        # 模拟暂停一个较长的随机时间，没有必要追求速度，平稳运行即可。
        time.sleep(random.random() * 3 + 3)
        # 清空剪切板，这步很重要，防止重复复制
        pyperclip.copy("")

    # 抓取完毕一个文件的内容后，然后一次性写入即可。
    # 之前的写法是一个单词写入一次，会造成太多的IO次数，浪费性能！
    with open(output_path, "a+", encoding="utf-8") as output_file:
        output_file.write(json.dumps(
            output_words, ensure_ascii=False, indent=4))

        # 错误单词记录
        with open(error_path, "w", encoding="utf-8") as err_file:
            err_file.writelines("\n".join(error_words))

演示如果想要启动这个代码, 还是蛮复杂的. 我这里直接把需要的步骤罗列一下, 希望能帮助感兴趣的同学.

修改dir_path, 并且在下面准备一个 input.txt 文件.
获取有道词典进程的 id.
获取单词输入框的坐标, 获取复制粘贴处的坐标.
将有道词典界面调整到例句处.

启动项目, 需要一个 input.txt 文件, 这里是我测试的文件.

sophisticated
centralization
phenomenon
internationalization
radioactive

我是通过任务管理器获取的进程 pid, 你也可以通过其它访问. 或者最简单的是使用 Inspect 和 Spy++, 我这里就偷懒了, 直接怎么省事怎么来了.

在这里插入图片描述

单词输入框的坐标, 复制粘贴处的坐标. 第一个坐标是为了定位输入框的, 然后程序会把单词复制进去, 并执行一下回车键, 然后内容被查询出来. 再将鼠标移动到第二个坐标处, 这里只是移动到下面的空白处就行了, 然后会执行一个全选 CTRL+A 操作. 这样一个单词的内容就全部获取到了.

在这里插入图片描述

将有道调整到这个位置, 首选查询一个单词, 选择例句, 然后保持这个界面不要动即可.

在这里插入图片描述

最后就是程序的执行了, 录制的 GIF 做了加速处理, 实际上执行的时候, 是特意加了延时的, 防止被过早的发现了.

在这里插入图片描述

控制台输出

在这里插入图片描述

output.json 文件

在这里插入图片描述

总结

这个虽然没有什么用处, 不过也了解了不少新的东西. 在这个过程中学习了正则表达式, 并且也运用上了. 如果你关注我的其它博客的话, 会发现我最近一直在更新正则表达式相关的文章. 这个就是一个小玩具, 不过如果真的要启动的话, 我感觉还蛮麻烦的, 如果感兴趣的话, 不妨试一试. 如果有问题的话, 可以在下面评论. 不过不一定可以及时回复了.

到此这篇关于Python基于pywinauto实现的自动化采集任务的文章就介绍到这了,更多相关pywinauto实现自动化采集内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python神经网络使用Keras进行模型的保存与读取
这篇文章主要为大家介绍了python神经网络使用Keras进行模型的保存与读取，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-05-05
Pycharm Available Package无法显示/安装包的问题Error Loading Package Li
这篇文章主要介绍了Pycharm Available Package无法显示/安装包的问题Error Loading Package List解决，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-09-09
Python使用requests提交HTTP表单的方法
今天小编就为大家分享一篇Python使用requests提交HTTP表单的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
Python实现处理Excel数据并生成只读模式
这篇文章主要为大家详细介绍了如何使用 Python 处理 Excel 数据,并生成只读模式的 Excel 文档,文中的示例代码简洁易懂,有需要的小伙伴可以参考下
2023-11-11
Python numpy有哪些常用数据类型
Numpy提供了两种基本的对象：ndarray(N-dimensional Array Object)和 ufunc(Universal Function Object)。ndarray是存储单一数据类型的多维数组，而ufunc则是能够对数组进行处理的函数
2023-02-02
利用python将xml文件解析成html文件的实现方法
下面小编就为大家分享一篇利用python将xml文件解析成html文件的实现方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2017-12-12
总结分析Python的5个硬核函数
今天看到一篇很好的 Python 博文，结合自己的经验总结，分享给大家一篇关于eval, exec, compile, locals, globals这些函数的文章
2021-11-11
Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理)
这篇文章整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法，对大家学习python具有一定的参考借鉴价值，有需要的朋友们下面来一起看看吧。
2016-09-09
Python命名空间namespace及作用域原理解析
这篇文章主要介绍了Python命名空间namespace及作用域原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06
python使用urlparse分析网址中域名的方法
这篇文章主要介绍了python使用urlparse分析网址中域名的方法,涉及Python使用urlparse模块操作URL的技巧,需要的朋友可以参考下
2015-04-04