Agent-readable wiki
ddddocr 技术百科 — 验证码离线识别 SDK
ddddocr 是一个基于 ONNX Runtime 的离线验证码识别 Python 库,内置 OCR 文字识别、目标检测和滑块匹配三大引擎,支持自定义模型、颜色过滤,并提供 FastAPI HTTP 服务与 MCP 协议接入。
Pages
- 用大白话说 ddddocr这个仓库做什么、最简单的类比、以及你需要记住的几件事。
- 安装与第一次运行从 pip 安装到跑通第一个验证码识别的完整步骤,包括 Docker 方式。
- 三个引擎:OCR、检测、滑块ddddocr 内部有三个独立引擎,各司其职——文字识别、目标检测、滑块缺口定位。
- OCR 识别流水线:从图片到文字一张验证码图片如何经过加载、预处理、模型推理、CTC 解码,最终变成一行文字。
- 图像预处理与增强在送入模型之前,图像经历了哪些尺寸调整、灰度化、去噪和标准化操作。
- 自定义模型与字符集如何加载自己训练的 ONNX 模型和自定义字符集文件,突破内置模型的限制。
- 颜色过滤:只看你想看的颜色在识别前用 HSV 颜色空间过滤干扰色,保留目标字符的颜色,提升识别准确率。
- HTTP API 与 MCP 协议服务通过 FastAPI 暴露 REST 接口,或通过 MCP 协议让 AI Agent 直接调用 ddddocr 能力。
- 总结与下一步回顾核心思想、最值得记住的一句话,以及推荐阅读路径。
Complete Markdown
The complete agent-readable Markdown files are published separately from this HTML page.