PdfTocExtractor

🚀

纯C# AOT实现的PDF目录提取工具

开源项目

项目类型

🔧

开发工具

项目分类

✓

已完成

项目状态

Stars

2024-03

项目周期

查看源码

项目预览图

项目介绍

PdfTocExtractor 是一个轻量级PDF目录提取工具，用于从PDF文件中提取目录（TOC）并导出为多种格式。支持Markdown、JSON、XML、纯文本等格式，完全摆脱命令行依赖，无需额外的PDF处理工具。v2.0新增的语义分析功能让您即使在PDF没有嵌入书签的情况下，也能通过基于NLP的智能分析自动识别章节标题。

核心特性

从PDF文件提取书签/目录信息

语义分析功能：基于NLP的智能章节标题识别

支持多种输出格式：Markdown、JSON、XML、纯文本

可配置的导出选项（层级深度、页码格式等）

可扩展的导出器架构，支持自定义格式

异步操作支持，高性能处理

提供命令行工具和NuGet包

支持AOT编译，原生性能无需.NET运行时

跨平台支持：Windows、Linux、macOS

多种分析模式：默认、严格、宽松模式可选

技术栈

.NET 9

AOT

NLP

PDF Processing

项目信息

项目类型开源项目

项目分类开发工具

项目状态

已完成

开始时间2024-03