爬虫还担心验证码问题吗？这你给你解决方案！_技术教程

爬虫还担心验证码问题吗？这你给你解决方案！

发布时间：2025-09-02

点击量：

概述简介坑！安装 Tesseract-OCR使用 pytesseract 识别验证码高级玩法 - 除线简介

首先呢，简单的验证码是这样的：

不是这样的：

这里使用了 pytesseract 来进行验证码识别，它是基于 Google 的 Tesseract-OCR ，所以在使用之前需要先安装 Tesseract-OCR。使用 PIL 来进行图像处理。pytesseract 默认支持 tiff、bmp 图片格式，使用 PIL 库之后，能够支持 jpeg、gif、png 等其他图片格式；

坑！

PIL(Python Imaging Library) 库只支持 32 位的系统，如果要在 64 位系统中使用，请安装 pillow。嗯，这个真是坑死我了，为了安装这个倒腾了很久。希望能帮到你。

32 位系统

代码语言：javascript代码运行次数：0运行复制

pip install PIL

64 位系统

代码语言：javascript代码运行次数：0运行复制

pip install pillow

安装 Tesseract-OCR

在使用 pytesseract 之前，必须安装 tesseract-ocr ，因为 pytesserat 依赖于 tesseract-ocr ，否则无法使用

Mac代码语言：javascript代码运行次数：0运行复制

brew install tesseract

centos7代码语言：javascript代码运行次数：0运行复制

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/yum updateyum install tesseract yum install tesseract-langpack-deu

windows

download-address（https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows）

使用 pytesseract 识别验证码

首先将图像灰度化

代码语言：javascript代码运行次数：0运行复制

    #使用路径导入图片    im = Image.open(imgimgName)    #使用 byte 流导入图片    # im = Image.open(io.BytesIO(b))    # 转化到灰度图    imgry = im.convert('L')    # 保存图像    imgry.save('gray-' + imgName)

灰度化的图像是这个样子的：

然后将图像二值化

代码语言：javascript代码运行次数：0运行复制

    # 二值化，采用阈值分割法，threshold为分割点    threshold = 140    table = []    for j in range(256):        if j < threshold:            table.append(0)        else:            table.append(1)    out = imgry.point(table, '1')    out.save('b' + imgName)

二值化的图像是这个样子的：

最后进行识别

代码语言：javascript代码运行次数：0运行复制

 #  识别    text = pytesseract.image_to_string(out)    print("识别结果："+text)

识别结果是这样的：

高级玩法 - 除线

上面的知识简单的处理，在日常网络冲浪中，我们还会遇到这样的验证码：

这个给我们的识别增加了难度，我们要做的就是将这条线去掉。详细代码如下：

代码语言：javascript代码运行次数：0运行复制

def removeLine(imgName):    (img, pixdata) = open_img(imgName)    for x in range(img.size[0]):  # x坐标        for y in range(img.size[1]):  # y坐标            if pixdata[x, y][0] < 8 or pixdata[x, y][1] < 6 or pixdata[x, y][2] < 8 or (                    pixdata[x, y][0] + pixdata[x, y][1] + pixdata[x, y][2]) <= 30:  # 确定颜色阈值                if y == 0:                    pixdata[x, y] = (255, 255, 255)                if y > 0:                    if pixdata[x, y - 1][0] > 120 or pixdata[x, y - 1][1] > 136 or pixdata[x, y - 1][2] > 120:                        pixdata[x, y] = (255, 255, 255)  # ?    # 二值化处理    for y in range(img.size[1]):  # 二值化处理，这个阈值为R=95，G=95，B=95        for x in range(img.size[0]):            if pixdata[x, y][0] < 160 and pixdata[x, y][1] < 160 and pixdata[x, y][2] < 160:                pixdata[x, y] = (0, 0, 0)            else:                pixdata[x, y] = (255, 255, 255)    img.filter(ImageFilter.EDGE_ENHANCE_MORE)  # 深度边缘增强滤波，会使得图像中边缘部分更加明显（阈值更大），相当于锐化滤波    img.resize(((img.size[0]) * 2, (img.size[1]) * 2), Image.BILINEAR)  # Image.BILINEAR指定采用双线性法对像素点插值#?    img.save('remove-' + imgName)    print("除线成功！")    recognize('remove-' + imgName)

那么我们的运行结果是这样的：

总结

经过这么一些折腾，我们总算是看到了我们想要的结果，但是我很遗憾地告诉你，pytesseract 还是无法识别处理过的图片，他的识别结果是这样的：

结果有点令人痛心，不过我们也算是为我们的目标踏进了一小步。你以为这篇文章就这样完了吗？嗯，是的，这篇文章就这样完了。不过好在 pytesseract 提供了自定义训练功能，来提高识别能力（也可以自建神经网络进行识别），这个暂且放到下一篇文章来写吧，因为今天是七夕耶。

参考文档：Verification-code-crack

后台【验证码源码】获取源码

上一篇：C# .NET Core如何快速读取和解析RSS源_在.NE

下一篇：Win10系统中检测游戏违反安全规则该如何解决？

爬虫还担心验证码问题吗？这你给你解决方案！

发布时间：2025-09-02

点击量：

返回

4008888355