PdfTocExtractor

🚀

纯C# AOT实现的PDF目录提取工具

开源项目
项目类型
🔧
开发工具
项目分类
已完成
项目状态
25
Stars
2024-03
项目周期
项目预览图

项目介绍

PdfTocExtractor 是一个轻量级PDF目录提取工具,用于从PDF文件中提取目录(TOC)并导出为多种格式。支持Markdown、JSON、XML、纯文本等格式,完全摆脱命令行依赖,无需额外的PDF处理工具。v2.0新增的语义分析功能让您即使在PDF没有嵌入书签的情况下,也能通过基于NLP的智能分析自动识别章节标题。

核心特性

从PDF文件提取书签/目录信息
语义分析功能:基于NLP的智能章节标题识别
支持多种输出格式:Markdown、JSON、XML、纯文本
可配置的导出选项(层级深度、页码格式等)
可扩展的导出器架构,支持自定义格式
异步操作支持,高性能处理
提供命令行工具和NuGet包
支持AOT编译,原生性能无需.NET运行时
跨平台支持:Windows、Linux、macOS
多种分析模式:默认、严格、宽松模式可选

技术栈

.NET 9
C#
AOT
NLP
PDF Processing

项目信息

项目类型开源项目
项目分类开发工具
项目状态
已完成
开始时间2024-03
PdfTocExtractor - 项目详情 - 曦远 | DealiAxy | 程序设计实验室