文档介绍:密级: 学校代码:10075
分类号:TP391 学号:20101195
工学硕士学位论文
PDF 文档中数学公式检测方法研究
学位申请人:焦娜
指导教师:田学东教授
申请学位级别:工学硕士
学科专业:计算机应用技术
授予学位单位:河北大学
答辩日期:二〇一三年六月
Classified Index: TP391 CODE: 10075
: NO: 20101195
A Dissertation for the Degree of M. Engineering
Research on Method of Mathematical
Formula Detection in PDF Documents
Candidate: Jiao Na
Supervisor: Prof. Tian Xuedong
Academic Degree Applied for: Master of Engineering
Specialty: Computer Applied Technology
University: Hebei University
Date of Oral Examination: June, 2013
II
摘要
摘要
随着信息技术的快速发展,电子文档成为人们获取和保存信息的核心途径。在诸多
格式的电子文档中,PDF 格式文档凭借其自身优点得到最为广泛的应用。而如何快速从
海量 PDF 文档中检测出含数学公式的文档,对于以数学公式为主要成分的科技文档的
检索具有重要意义。
本文总结了 PDF 文档的应用特点及技术特点,对 PDF 文档进行了解析,给出了其
内容的提取步骤,之后分析了 PDF 文档中数学公式的特点,从其字体特征、运算符特
征、语法特征等三方面入手,设计了一种数学公式检测方法。该方法通过判断有无数学
字体、所含数学运算符是否在映射表中以及数学运算符是否符合数学公式语法规则来对
PDF 文档进行检测。通过对随机抽取的 PDF 文档进行实验,结果表明,该方法能够有
效地进行 PDF 文档中数学公式的检测,为 PDF 公式检索打下了基础。
关键词 PDF 文档数学公式检测字体特征数学运算符特征语法特征
I
Abstract
Abstract
With the rapid development of information technology, the electronic document es
the core channel for people to obtain and save information. In many kinds of the electronic
document format, the PDF document format with its own advantages used widely. While how
to detect the document containing mathematical formulas quickly from the massive PDF
documents has the important meaning for the retrieval of scientific documents which take the
mathematical formulas as the ponents.
This dissertation concludes the application characteristics and technical characteristics of
the PDF document, parses and gives the extraction steps of its content, and then analyzes the
features of the mathematical formula in PDF document. Based on the font feature, operator
feature and grammar feature, the dissertation designs a method to detect the mathematical
formula in PDF