Agent-readable wiki

ddddocr 技术百科 — 验证码离线识别 SDK

ddddocr 是一个基于 ONNX Runtime 的离线验证码识别 Python 库，内置 OCR 文字识别、目标检测和滑块匹配三大引擎，支持自定义模型、颜色过滤，并提供 FastAPI HTTP 服务与 MCP 协议接入。

Pages

用大白话说 ddddocr这个仓库做什么、最简单的类比、以及你需要记住的几件事。
安装与第一次运行从 pip 安装到跑通第一个验证码识别的完整步骤，包括 Docker 方式。
三个引擎：OCR、检测、滑块ddddocr 内部有三个独立引擎，各司其职——文字识别、目标检测、滑块缺口定位。
OCR 识别流水线：从图片到文字一张验证码图片如何经过加载、预处理、模型推理、CTC 解码，最终变成一行文字。
图像预处理与增强在送入模型之前，图像经历了哪些尺寸调整、灰度化、去噪和标准化操作。
自定义模型与字符集如何加载自己训练的 ONNX 模型和自定义字符集文件，突破内置模型的限制。
颜色过滤：只看你想看的颜色在识别前用 HSV 颜色空间过滤干扰色，保留目标字符的颜色，提升识别准确率。
HTTP API 与 MCP 协议服务通过 FastAPI 暴露 REST 接口，或通过 MCP 协议让 AI Agent 直接调用 ddddocr 能力。
总结与下一步回顾核心思想、最值得记住的一句话，以及推荐阅读路径。

Complete Markdown

The complete agent-readable Markdown files are published separately from this HTML page.