Docling解析各种格式与AI生态系统的无缝集成

Docling

Docling

Docling 简化了文档处理,解析各种格式(包括高级 PDF 理解),并提供与 gen AI 生态系统的无缝集成。

功能

  • 🗂️ 解析 [多种文档格式][supported_formats],包括 PDF、DOCX、PPTX、XLSX、HTML、WAV、MP3、VTT、图像 (PNG、TIFF、JPEG 等) 等
  • 📑 高级 PDF 理解,包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等
  • 🧬 统一且富有表现力的 [DoclingDocument][docling_document] 表示格式
  • ↪️ 多种 [导出格式][supported_formats] 和选项,包括 Markdown、HTML、DocTags 和无损 JSON
  • 🔒 针对敏感数据和隔离环境的本地执行功能
  • 🤖 即插即用 [集成][integrations],包括LangChain、LlamaIndex、Crew AI 和 Haystack 助力 Agentic AI
  • 🔍 全面支持扫描 PDF 和图片的 OCR 识别
  • 👓 支持多种视觉语言模型 (GraniteDocling)
  • 🎙️ 自动语音识别 (ASR) 模型支持音频
  • 🔌 使用 MCP 服务器 连接到任何 Agent
  • 💻 简单便捷的 CLI

新功能

  • 📤 结构化 [信息提取][提取] [🧪 测试版]
  • 📑 默认使用新的布局模型 (Heron),以加快 PDF 解析速度
  • 🔌 [MCP]用于代理应用程序的服务器](https://docling-project.github.io/docling/usage/mcp/)
  • 💬 解析 Web 视频文本轨道 (WebVTT) 文件

即将推出

  • 📝 元数据提取,包括标题、作者、参考文献和语言
  • 📝 图表理解(条形图、饼图、线图等)
  • 📝 复杂化学理解(分子结构)

安装

要使用 Docling,只需从包管理器安装“docling”,例如 pip:

bash 复制代码
pip install docling

适用于 macOS、Linux 和 Windows 环境。x86_64 和 arm64 架构均可运行。

更多详细安装说明 请参阅文档。

入门

要使用 Python 转换单个文档,请使用 convert(),例如:

python 复制代码
from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

CLI

Docling 内置 CLI 用于运行转换。

bash 复制代码
docling https://arxiv.org/pdf/2206.01062

您还可以通过 Docling CLI 使用 🥚GraniteDocling 和其他 VLM:

bash 复制代码
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062

这将在支持的 Apple Silicon 硬件上使用 MLX 加速。

点击此处了解更多信息

文档

查看 Docling 的文档,了解安装、使用、概念、方法、扩展等详细信息。

示例

亲手实践我们的示例
这些示例演示了如何使用 Docling 处理不同的应用程序用例。

集成

为了进一步加速您的 AI 应用程序开发,请查看 Docling 与热门框架和工具的原生集成。

获取帮助和支持

欢迎通过​​讨论区与我们联系。

技术报告

有关 Docling 内部工作原理的更多详细信息,请参阅 Docling 技术报告。

贡献

有关详细信息,请阅读 Docling 贡献指南。

参考文献

如果您在项目中使用 Docling,请考虑引用以下内容:

bib 复制代码
@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

许可证

Docling 代码库遵循 MIT 许可证。
对于单个模型的使用,请参阅原始软件包中的模型许可证。

LF AI 与数据

Docling 作为一个项目托管在 LF AI 与数据基金会

IBM ❤️ 开源 AI

该项目由 IBM 苏黎世研究院的 AI for Knowledge 团队发起。

关于项目

Docling 简化了文档处理,解析各种格式(包括高级 PDF 理解),并提供与 gen AI 生态系统的无缝集成。支持解析多种文档格式,包括 PDF、DOCX、PPTX、XLSX、HTML、WAV、MP3、VTT、图像(PNG、TIFF、JPEG 等)等。
MIT
Python
41,097
2901
170
2024-07-09
2025-10-10

增长趋势 - stars