Agent-readable wiki

ddddocr 技术参考手册

ddddocr 是一个离线通用验证码识别 Python SDK，基于 ONNX Runtime 推理，支持 OCR 文字识别、目标检测和滑块验证码匹配三大核心能力，同时提供 RESTful API 与 MCP 协议集成。

Pages

技术概览ddddocr 项目定位、整体架构、核心入口与模块职责全景图
安装与环境配置PyPI/源码安装方式、Python 版本要求、平台兼容性、GPU 加速配置与依赖说明
CLI 命令与 API 服务启动ddddocr CLI 子命令用法、API 服务启动参数、Docker 部署与健康检查
OCR 文字识别引擎OCREngine 的初始化流程、图像预处理管线、CTC 解码逻辑、概率输出与字符集范围限制
目标检测引擎DetectionEngine 的 YOLOX 风格推理流程：预处理、锚点解码、NMS 后处理与边界框输出
滑块验证码匹配引擎SlideEngine 的两种匹配算法：边缘检测模板匹配与图像差异比较，以及结果坐标输出
图像预处理与颜色过滤ImageProcessor 的尺寸调整、灰度转换、去噪与二值化能力，以及 ColorFilter 的 HSV 颜色空间过滤机制
模型加载与字符集管理ModelLoader 的 ONNX 模型加载、GPU/CPU 提供者切换，CharsetManager 的字符集加载与范围限制机制
RESTful API 参考FastAPI 服务的全部端点定义、请求/响应模型、功能初始化与运行时切换流程
MCP 协议集成MCP（Model Context Protocol）端点、能力声明与工具调用机制，使 AI Agent 能直接调用 ddddocr 识别服务

Complete Markdown

The complete agent-readable Markdown files are published separately from this HTML page.