摘要:为解决PDF在保存学术文献时存在可检索性和可重用性差的问题,使用可扩展标记语言(XML)描述学术文献。对NLM DTD进行扩充,使XML可用于描述中文文献。再通过扩展样式表转换语言(XSLT)定义一套转换模板,将无版式的XML文档转换成HTML、PDF等便于阅读的格式。因此,使用XML描述学术文献是优化期刊编辑、存储和排版的有效途径,但其中一些技术障碍还有待进一步研究解决。
关键词:学术文献; 文件格式; 可扩展标记语言;扩展样式表转换语言;多元出版
1.概述
学术文献与其他文献相比,具有几个显著的特点:(1) 学术文献的版式相对规划化;(2) 学术文献的内容具有较强的结构化特点; (3) 学术文献中包含大量学科符号, 例如各种特殊字符、各种标注、数学公式、表格、图片等,这些符号具有标准性,并具有特定含义;(4) 学术文献具有持久的保留价值;(5)学术文献的重复利用率较高;(6)学术文献的读者具有较高的科学素养。因此,以何种文件格式长久地保留这些数据,是期刊出版界、数字出版界长期关注的问题。
在20世纪80年代前,在全世界基本是以纸本的方式保留学术文献(个别图书馆还把他们制作成缩微胶卷方式保存),自激光照排系统出现后, 人们开始保留PS文件,或者菲林片,并把这些PS文件制作成CD进行保存;自1990年PDF成为国际标准以来,人们逐渐把PDF作为保留学术文献和数字出版的主要形式。而随着数字化技术的发展,人们开始更加关注文献数据的可检索性和可重用性时,但PDF并不是最理想的格式,因为PDF是一个以页面描述为特征的非结构化文件,所以几乎无法对PDF进行准确的内容提取和内容重用。尤其是在期刊领域,为实现过刊内容的数字化,PDF文件给整个社会造成了巨大的劳动浪费。
自XML文件成为W3C推荐的国际标准以来,出版界认识到,XML[1]文件才是学术文献最佳的保存方式。
作者:曾宪荣