Docling

Docling

docling-project/docling

TOOL

Docling是一个开源工具,专注于文档预处理,为生成式AI应用准备数据。它支持多种文档格式,帮助开发者高效提取和转换文档内容,提升AI模型的数据质量。

Stars

60,893

Forks

4,243

Language

Python

Updated

2026-06-03

aiconvertdocument-parserdocument-parsingdocumentsdocxhtmlmarkdown

概述

Docling 是一款面向开发者的开源文档预处理工具,专为生成式 AI 应用的数据准备环节而设计。它能够高效处理多种常见文档格式,帮助用户从 PDF、Word、PPT 等文件中精准提取并转换内容,从而显著提升 AI 模型训练与推理时的数据质量与可用性。

核心特点

  • 支持多格式文档解析:兼容 PDF、DOCX、PPTX 等多种主流格式,实现一站式文档内容提取。
  • 高效的数据转换能力:将非结构化文档转化为结构化的 AI 友好数据,简化数据清洗流程。
  • 开源且易于集成:作为开源项目,开发者可自由定制,并轻松将其嵌入到现有的 AI 工作流中。

适用场景

本工具主要面向 AI 开发者、数据科学家以及需要为大型语言模型(LLM)或 RAG 应用准备高质量文档数据的团队。它有效解决了文档格式混乱、内容提取困难等痛点,帮助用户快速构建可靠的 AI 数据管道。

定价

Docling 采用开源模式,完全免费使用。用户无需支付任何许可费用,即可在本地或服务器上部署并运行该工具,具体使用成本仅取决于自身的计算资源消耗。

Last updated: 2026-05-28

Category: #开发工具License: MIT免费
Visit Project

Related Tools