项目预览图
项目介绍
PdfTocExtractor 是一个轻量级PDF目录提取工具,用于从PDF文件中提取目录(TOC)并导出为多种格式。支持Markdown、JSON、XML、纯文本等格式,完全摆脱命令行依赖,无需额外的PDF处理工具。v2.0新增的语义分析功能让您即使在PDF没有嵌入书签的情况下,也能通过基于NLP的智能分析自动识别章节标题。
核心特性
从PDF文件提取书签/目录信息
语义分析功能:基于NLP的智能章节标题识别
支持多种输出格式:Markdown、JSON、XML、纯文本
可配置的导出选项(层级深度、页码格式等)
可扩展的导出器架构,支持自定义格式
异步操作支持,高性能处理
提供命令行工具和NuGet包
支持AOT编译,原生性能无需.NET运行时
跨平台支持:Windows、Linux、macOS
多种分析模式:默认、严格、宽松模式可选
技术栈
.NET 9
C#
AOT
NLP
PDF Processing
项目信息
项目类型开源项目
项目分类开发工具
项目状态
已完成
开始时间2024-03