Docling
docling-project/docling
TOOLDocling是一个开源工具,专注于文档预处理,为生成式AI应用准备数据。它支持多种文档格式,帮助开发者高效提取和转换文档内容,提升AI模型的数据质量。
60,893
4,243
Python
2026-06-03
概述
Docling 是一款面向开发者的开源文档预处理工具,专为生成式 AI 应用的数据准备环节而设计。它能够高效处理多种常见文档格式,帮助用户从 PDF、Word、PPT 等文件中精准提取并转换内容,从而显著提升 AI 模型训练与推理时的数据质量与可用性。
核心特点
- 支持多格式文档解析:兼容 PDF、DOCX、PPTX 等多种主流格式,实现一站式文档内容提取。
- 高效的数据转换能力:将非结构化文档转化为结构化的 AI 友好数据,简化数据清洗流程。
- 开源且易于集成:作为开源项目,开发者可自由定制,并轻松将其嵌入到现有的 AI 工作流中。
适用场景
本工具主要面向 AI 开发者、数据科学家以及需要为大型语言模型(LLM)或 RAG 应用准备高质量文档数据的团队。它有效解决了文档格式混乱、内容提取困难等痛点,帮助用户快速构建可靠的 AI 数据管道。
定价
Docling 采用开源模式,完全免费使用。用户无需支付任何许可费用,即可在本地或服务器上部署并运行该工具,具体使用成本仅取决于自身的计算资源消耗。
Last updated: 2026-05-28