Docling 简化了文档处理,解析各种格式(包括高级 PDF 理解),并提供与 gen AI 生态系统的无缝集成。
要使用 Docling,只需从包管理器安装“docling”,例如 pip:
pip install docling
适用于 macOS、Linux 和 Windows 环境。x86_64 和 arm64 架构均可运行。
更多详细安装说明 请参阅文档。
要使用 Python 转换单个文档,请使用 convert()
,例如:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"
Docling 内置 CLI 用于运行转换。
docling https://arxiv.org/pdf/2206.01062
您还可以通过 Docling CLI 使用 🥚GraniteDocling 和其他 VLM:
docling --pipeline vlm --vlm-model granite_docling https://arxiv.org/pdf/2206.01062
这将在支持的 Apple Silicon 硬件上使用 MLX 加速。
点击此处了解更多信息
查看 Docling 的文档,了解安装、使用、概念、方法、扩展等详细信息。
亲手实践我们的示例,
这些示例演示了如何使用 Docling 处理不同的应用程序用例。
为了进一步加速您的 AI 应用程序开发,请查看 Docling 与热门框架和工具的原生集成。
欢迎通过讨论区与我们联系。
有关 Docling 内部工作原理的更多详细信息,请参阅 Docling 技术报告。
有关详细信息,请阅读 Docling 贡献指南。
如果您在项目中使用 Docling,请考虑引用以下内容:
@techreport{Docling,
author = {Deep Search Team},
month = {8},
title = {Docling Technical Report},
url = {https://arxiv.org/abs/2408.09869},
eprint = {2408.09869},
doi = {10.48550/arXiv.2408.09869},
version = {1.0.0},
year = {2024}
}
Docling 代码库遵循 MIT 许可证。
对于单个模型的使用,请参阅原始软件包中的模型许可证。
Docling 作为一个项目托管在 LF AI 与数据基金会。
该项目由 IBM 苏黎世研究院的 AI for Knowledge 团队发起。