Agent-readable wiki

ddddocr 技术参考手册

ddddocr 是一个离线通用验证码识别 Python SDK,基于 ONNX Runtime 推理,支持 OCR 文字识别、目标检测和滑块验证码匹配三大核心能力,同时提供 RESTful API 与 MCP 协议集成。

Pages

  1. 技术概览ddddocr 项目定位、整体架构、核心入口与模块职责全景图
  2. 安装与环境配置PyPI/源码安装方式、Python 版本要求、平台兼容性、GPU 加速配置与依赖说明
  3. CLI 命令与 API 服务启动ddddocr CLI 子命令用法、API 服务启动参数、Docker 部署与健康检查
  4. OCR 文字识别引擎OCREngine 的初始化流程、图像预处理管线、CTC 解码逻辑、概率输出与字符集范围限制
  5. 目标检测引擎DetectionEngine 的 YOLOX 风格推理流程:预处理、锚点解码、NMS 后处理与边界框输出
  6. 滑块验证码匹配引擎SlideEngine 的两种匹配算法:边缘检测模板匹配与图像差异比较,以及结果坐标输出
  7. 图像预处理与颜色过滤ImageProcessor 的尺寸调整、灰度转换、去噪与二值化能力,以及 ColorFilter 的 HSV 颜色空间过滤机制
  8. 模型加载与字符集管理ModelLoader 的 ONNX 模型加载、GPU/CPU 提供者切换,CharsetManager 的字符集加载与范围限制机制
  9. RESTful API 参考FastAPI 服务的全部端点定义、请求/响应模型、功能初始化与运行时切换流程
  10. MCP 协议集成MCP(Model Context Protocol)端点、能力声明与工具调用机制,使 AI Agent 能直接调用 ddddocr 识别服务

Complete Markdown

The complete agent-readable Markdown files are published separately from this HTML page.