各市州地方志工作机构:
为深入贯彻落实党中央、国务院关于实施国家文化数字化战略的决策部署,加快推进我省地方志事业高质量发展,提升地方志资源开发利用和信息化建设水平,实现全省地方志数字资源标准化、规范化、集约化管理,在广泛调研、充分征求意见并组织专家论证的基础上,我院制定了《湖南省地方志数字化加工规范(试行)》。现予印发,请认真遵照执行。
各地要高度重视地方志数字化工作,切实加强组织领导,明确责任分工,按照本规范要求开展地方志文献的数字化加工、验收与管理。省级将依托湖南数字方志馆平台,逐步推进平台共享和资源汇聚,推动形成统一标准、分级负责、共建共享的全省地方志数字化工作格局。
特此通知。
湖南省地方志编纂院
2025年12月9日
湖南省地方志数字化加工规范
(试行)
一、总则
(一)目的与意义
为深入学习贯彻习近平文化思想和习近平总书记关于文化与科技融合等的重要论述和指示批示精神,认真实施《地方志工作条例》《湖南省地方志工作办法》,进一步提高地方志资源开发利用和地方志信息化建设水平,促进全省地方志数字化规范化、标准化建设,制定本规范。
(二)适用范围
本规范适用于湖南省行政区域内地方志及有关地情文献的数字化加工。
(三)基本原则
1.政治性。以满足人民群众的文化需求、服务经济社会发展为导向,以符合党和国家法律法规和政策规定为原则,以守牢意识形态安全和数字资源安全为底线。
2.实用性。因地制宜、降本增效,符合湖南省信息化建设总要求,加工后的地方志数字资源应确保其字词句等内容可以进行修改和复制。
3.真实性。在确保政治性前提下,加工后的地方志数字资源应忠实于原书,保持原书必要的内容和结构完整,但对于排版格式,不强调与原书保持完全一致。
4.共享性。在确保实用性前提下,实现全省地方志数字化加工标准一致,以利于资源在省政务云等平台实现充分共享。
5.前瞻性。紧跟大语言模型和智能知识库等前沿数据挖掘和数据分析技术,元数据标准充分考虑可扩展性和灵活性。
(四)基本定义
本规范所指的地方志,包括湖南省行政区域内历代地方志书、地方史、地方综合年鉴和部门志、行业志、专题志、特色志、部门史、行业史、部门年鉴、行业年鉴、专题年鉴等。
本规范所指的数字化加工是指提取地方志纸质书籍、网页、图片或其他计算机电子文件等载体上的不可编辑的文本,转录为文字(页眉、页脚、页码等文字除外)均可编辑的电子文档的过程。
本规范所指的富文本,是一种支持文字、表格和图片编辑的文本格式,一般以WORD或WPS软件进行编辑存储。
二、责任分工
省级地方志工作机构负责制定全省地方志数字化加工规范,按规范要求实施省本级地方志的数字化加工,按规范修改完善省本级已完成加工的地方志数字资源。
市县两级地方志工作机构负责按规范要求实施本级地方志数字化加工,按规范修改完善本级加工的地方志数字资源。
省级地方志工作机构按照“省级主建、系统主用”的工作要求,负责建设全省地方志数字资源集约共享平台,并对平台日常运维实施监督管理,确保平台的物理安全、网络安全和应用安全。平台的建设应考虑一定的兼容性,初期应支持上传不同格式的文献,以避免少部分地方志工作机构前期已加工的数字化成果无法上传造成的浪费。
全省地方志数字资源集约共享平台向市县两级地方志工作机构提供基础的数字资源加工、上传、存储、管理功能,为每一个市县地方志工作机构提供单独的展示站点。市县两级地方志工作机构,如存在集约共享平台无法满足的个性化需求或其他必要需求情况,可以单独建设数字化平台,但所建设的平台应具备与全省地方志数字资源集约共享平台进行数据交换的功能。
省市县三级地方志工作机构应各自建立健全独立的数字资源发布审核工作机制,按照“谁上传、谁审核、谁负责”的原则,对各自上传平台的数字资源内容安全负主体责任。
上传至集约共享平台的数字资源,需在内容检索上提供单站点和全平台两种数据检索方式。
上传至集约共享平台的数字资源,系统默认其为无条件共享,不再进行著作权的信息网络传播授权许可。
三、文献分类
(一)地方志书
1.通志(综合志):省级通志、市级综合志、县级综合志
2.分志:省级分志、市级分志、县级分志
3.简志:省级简志、市级简志、县级简志
4.其他
(二)专题志书
1.特色志:省级特色志、市级特色志、县级特色志
2.乡镇简志
3.扶贫志:省级扶贫志、市级扶贫志、县级扶贫志
4.小康志:省级小康志
5.其他
(三)外部志书
除历代旧志文献外(下同),仅限于地方志工作机构组织编纂、承编或审核把关的志书。
1.部门行业志:省级部门行业志、市级部门行业志、县级部门行业志
2.乡镇(街道)志
3.村(社区)志
4.小区志
5.其他
(四)综合年鉴
1.年鉴正刊(正本):省级综合年鉴、市级综合年鉴、县级综合年鉴
2.年鉴增刊(增本)
3.其他:通鉴、月鉴等
(五)其他年鉴
仅限于地方志工作机构组织编纂、承编或审核把关的年鉴。
1.部门行业年鉴:省级部门行业年鉴、市级部门行业年鉴、县级部门行业年鉴
2.乡镇街道年鉴
3.其他
(六)旧方志
仅限于1949年10月1日以前出版的文献。
1.通志
2.府(州、厅)志、卫志
3.县志、所志
4.乡志、村志
5.其他:以行政区域冠名的风土记、纪、录、备考、阳秋等
(七)其他旧志
仅限于1949年10月1日以前出版的文献。
1.山水志
2.学宫书院志
3.寺庙宫观祠志
4.其他
(八)单篇文章
论文集、刊物、连续性内部资料(内刊)等发表的单篇文章。
1.动态通讯
2.经验总结
3.理论文章
4.地情文章
5.其他
(九)地情书等
仅限于地方志工作机构组织编纂的地情书。
1.地方志目录
2.地方综合史
3.地方专门史
4.综合地情文献
5.专题地情文献
6.其他
四、文献加工格式
综合考虑富文本、纯文本、双层PDF等文献格式的特点,基于当前的大语言模型和智能知识库能力分析,同时从已加工数字资源最大化兼容和最小化修改完善成本的角度出发,本省地方志数字化加工以富文本(RichTextFormat)格式为主。
富文本和纯文本格式的主要区别是,富文本可以包含图片和表格。富文本格式的主要优点是:支持返回多项结果的全文检索,支持便捷快速的文本内容大调整和微修改,机器处理效率高,AI学习效率高。使用Word文字编辑软件保存富文本数据,统一保存为docx文件格式,并设置段落首行缩进2个字符,正文宜使用小四号宋体,行间距为1.5倍行距。
五、数据单元和数据分割
各类文献均应按一定的方法分割成为独立的物理数据单元,每个数据单元的加工成果单独用一个电子文档存储,并按照本规范的加工和文件打包方式,使加工成果呈现出一定的结构和逻辑。
除旧方志、其他旧志、单篇文章三类文献外,新方志、年鉴、旧志点校本(校注本)、地情书等文献的分割原则是从书籍排版的另起一页处分割成若干个电子文档。一般情况下,新方志正文按章分割、年鉴正文按篇分割,旧志点校本(校注本)正文按卷或门分割,尽量避免按节或节下目进行分割。每一处副文内容(例如序言、前言、编辑说明、编委会、编纂人员、撰稿人员、总目、目录、凡例、索引、后记、跋、版权页等),凡排版上分页处理的,均需独立分割为一个电子文档。
论文集、刊物、连续性内部资料(内刊)等单篇文章类文献,应将单篇文章作为一个电子文档(内部资料不得公开对外宣发,仅限系统内人员可见可学)。序言、发刊词、卷首语以及封二、封三的短通讯等内容,均视同为单篇文章。
旧方志、其他旧志类文献,应将文档按卷或页分为若干个文件夹,然后将卷或门的每一页数据分割为一个电子文档。
六、数据结构
地方志数字化加工数据类型包含属性数据、目录数据、文本数据三种基本数据(单篇文章类文献不需要目录数据)。有条件的地方,可以探索开展数据标引,形成标引数据。
(一)属性数据
属性数据即文献属性信息,格式为表格数据,单种(部、卷)文献的属性数据为一行数据。属性数据结构见下表:
|
|
名称 |
说明 |
数据示例 |
|
1 |
全名* |
书名全称,包括前缀、后缀、副书名等,除示例中包含的标点外,一般不再包含其他标点符号。 |
示例1:湖南省志第四卷·政务志·人事 示例2:湘西土家族苗族自治州志1989—2010 示例3:湖南年鉴2025 示例4:万山红遍——百年大党的湖南征程 示例5:嘉靖《长沙府志》校注 示例6:万历《衡州府志》 |
|
2 |
题名* |
书名的简称。 |
示例1:人事志 示例2:湘西州志1989—2010 示例3:湖南年鉴2025 示例4:万山红遍 示例5:嘉靖长沙府志校注 示例6:万历衡州府志 |
|
3 |
责任者* |
人员姓名。可填写多人,以空格分隔。 |
示例:张×× 王×× |
|
4 |
责任方式* |
主编、总编、作者等。 |
示例:主编 |
|
5 |
责任机构 |
|
示例:×××地方志编纂室 |
|
6 |
其他责任者 |
人员姓名。可填写多人,以空格分隔。 |
示例:刘×× 李×× |
|
7 |
其他责任方式 |
总纂、分纂、点校等。 |
示例:总纂 |
|
8 |
出版单位 |
出版社名称。 |
示例:××××出版社 |
|
9 |
出版标识类型 |
ISBN、ISSN、书号、准印证号。 |
示例:准印证号 |
|
10 |
出版标识 |
书号、刊号的具体编码。尽可能转换为标准书号、刊号;无法转换的,按原书号、刊号填写。 |
示例1:9787101151596 示例2:10036806 示例3:(湘E)LK20240009 |
|
11 |
主题 |
3—5个关键词,以中文顿号分隔。 |
示例:湖南、政务、人事 |
|
12 |
描述 |
提要、摘要、书籍简介。 |
|
|
13 |
出版时间* |
该文献正式出版的时间。 |
示例1:清光绪五年(1879)刊 示例2:2018年05月第一版第一次印刷 |
|
14 |
类型* |
文献分类, 详见本规范第三部分, 填写至最下一级分类名。 |
正确示例:省级特色志 错误示例:专题志书 |
|
15 |
字数 |
版权字数,以千字为单位。 数字间不加逗号,数字后不加单位。 |
示例:1065 错误示例:106.5万字 |
|
16 |
页数 |
加工成果对应的原书总页数。 |
示例:12665 |
|
17 |
定价 |
以元为单位。 数字间不加逗号,数字后不加单位。 |
示例:60.5 |
|
18 |
上限 |
该文献记事的上限年份。 如空缺,则默认为上溯发端或史前。 时间后不加“年”字或月份等。 |
示例1:-221 示例2:1840 示例3:2025 错误示例:1840年 |
|
19 |
下限 |
该文献记事的上限年份。 时间后不加“年”字或月份等。 |
示例1:-207 示例2:1995 示例3:2025 错误示例:2025年03月 |
|
20 |
行政区域* |
该文献记事主要地域空间 对应的行政区划代码。 限填1个6位代码。 |
示例:430000 错误示例:431000、432000 |
|
21 |
精确度* |
数字化加工校对精确度。 分精校、粗校、AI。 限填1种校对方式。 |
示例:粗校 错误示例:粗校、AI |
|
22 |
备注 |
|
|
|
说明:该结构仅用于地方志数字化加工成果上传,不是建设数字化加工平台的数据字典。数据字典应根据平台功能需要增加编码、权限、上传用户、终审用户、发布证明、是否公开发布等字段。带*号为必填项。 |
|||
表1 属性数据结构
(二)目录数据
目录数据即文献加工后的目录,分为正文和副文目录信息。
正文目录一般以正文排版两次另起一页之间内容为一条基础级目录,基础级目录下无子目录。为提高文档加载和阅读效率,正文目录无需和书籍自身的篇目保持完全一致。建议将正文目录数据控制在2级以内(目录层级过多将消耗较多数据库资源,导致上传数据成本增加)。
副文目录需要包括封面、扉页、编纂人员、序言(前言)、目录、索引、后记(跋)、版权页等目录数据。副文目录均为一级目录且无子目录。
目录数据的格式为表格数据,属性数据和目录数据为一对多的关系。目录数据结构见下表:
|
序号 |
名称 |
备注 |
示例 |
|
1 |
目录层级* |
目录框架层级,顶层为1, 子层逐层次递增。 |
第一篇 示例:1 第一篇第一章 示例:2 第二篇 示例:1 第二篇第三章 示例:2 第二篇第三章第一节 示例:3 |
|
2 |
目录名称* |
目录的名称。 |
示例1:卷之二三五 艺文志 示例2:第一篇 职工队伍 示例3:人事篇 |
|
3 |
起始页码 |
原文献的页码。 |
封一 示例:0000 扉页 示例:0001 序言 示例:0015 目录 示例:0021 |
|
4 |
结束页码 |
原文献的页码。 |
封一 示例:0000 扉页 示例:0001 序言 示例:0020 目录 示例:0025 |
|
5 |
页数 |
加工后的该目录下对应原书的页数。 |
示例:20 |
|
6 |
路径或文件名* |
该目录对应的文本数据的文件存储路径或文件名。 旧志、旧方志类文献填写路径名,见示例2; 其他类文献填写文件名,见示例1。 |
示例1:.\0001.doc 示例2:.\0001\ |
|
7 |
备注 |
|
|
|
说明: 1.目录数据的层级,以及行数据顺序必须核实无误,否则将导致书籍目录混乱。 2.该结构仅用于地方志数字化加工成果上传,不是建设数字化加工平台的数据字典。数据字典应根据平台功能需要增加目录编码、书籍编码、父目录编码、目录顺序等字段。带*号为必填项。 |
|||
表2 目录数据结构
(三)文本数据
文本数据,即可编辑的文本内容,格式为富文本数据。除旧方志、其他旧志、单篇文章这三类文献外,文本数据与目录数据存在一对一的从属关系。旧方志、其他旧志类文献的文本数据,与目录数据存在多对一的从属关系。单篇文章的文本数据,与属性数据存在一对一或多对一的从属关系。
数字化加工的实施过程是,先对文献内容进行文字识别,同时采取一定的手段对文字内容进行校对,再按照本规范要求以数据单元的方式存储在特定格式的电子文档中,并将某一个文献的全部电子文档按一定的结构和顺序打包成为一个整体的文件包。具体加工要求详见本规范第七和第八点。
(一)文本数据
使用光学字符识别(OCR)软件对文献资源进行文字识别,或对文献未转曲PDF定稿进行文字复制或格式转换(转曲是平面设计软件术语,即将PDF可编辑内容转化为图片),得到初步加工数字资源。
应按照本规范质量控制要求,对初步加工的数字资源进行整理、排版和校对。文字内容基本与原书一致,文字格式不要求保持完全一致。
使用docx电子文档格式对识别或提取的文本数据进行存储。使用四位数字编码按原书顺序为文本数据电子文档命名(示例:0001.docx、9999.docx)。文本数据电子文档的四位数字编码即为该成果的加工规范页码。
旧方志、其他旧志类文献的各卷或门文本数据的文件夹,按顺序以0000—9999命名。每个文件夹下原书卷或门的第一页电子文档均重新从0001.docx开始命名,逐一递增。
原书中存在错误内容及字词,应全部集中记录在勘误表中。勘误表内容应当包括错误内容所在章节段落,以及更正信息等。勘误表电子文件命名为KWB.docx。
(二)结构数据
结构数据是指文献属性数据和目录数据。
使用XLSX格式电子表格对属性数据进行逐一录入存储,电子表格以SX.xlsx为文件名;使用XLSX格式电子表格对目录数据进行逐一录入存储,电子表格以ML.xlsx为文件名。
属性数据和目录数据存储于同一文件夹下。
除旧方志、其他旧志、单篇文章这三类文献外,必须将对应文本数据文件名填写至对应的目录数据中的第6字段“路径或文件名”。旧方志、其他旧志类文献,必须将存储文本数据对应的文件夹名填写至对应的目录数据中的第6字段“路径或文件名”。
(三)书页图片
使用光学字符识别方法加工的,应按原文献顺序留存所有扫描高清图片或PDF文件;使用未转曲PDF定稿进行文字复制或格式转换方法进行加工的,应留存文献未转曲PDF定稿。
除单篇文章类文献外,其余文献的封一均需以图片形式和属性数据存储于同一文件夹下,并以0000.jpg命名。
除旧方志、其他旧志类文献外,其他文献的书页图片无需上传,按一定形制自行留存高清图片即可,高清图片格式推荐使用TIFF。
旧方志、其他旧志类文献的书页图片应分两套进行存储,一套为本地存储高清图片,一套为上传的标清图片。标清图片推荐使用JPG,标清图片单张大小一般不超过200KB。与文本数据电子文档命名方式类似,每个文件夹下原书卷或门的第一页标清图片均重新从0001.jpg开始命名,逐一递增。标清书页图片与文本数据存储于同一文件夹下,图片文件与文本数据文件具有一对一的联系。
(四)内文图表
彩页图片、正文中的图表可以直接嵌入文本数据段落中。表格按富文本或图片方式处理均可,推荐按富文本方式处理。
内文图表的图片以最小外包矩形进行截取,必要时截取框内可包含其他内容。图片像素要求为大于300dpi。图名、表名、图注、表注等内容原书排版在图表之外的,一般应以提取富文本的方式处理。
有条件的,可将提取的内文图表和图表数据信息单独留存。
文件包是单种(部、卷)文献的所有单元构成的一个数据集合,本地存储于单个文件夹下。分册数量在三册及以下的书籍,建议将各分册内容合并为一个数据集。
除旧方志、其他旧志、单篇文章这三类文献外,其他类型文献的文件包应包含以下内容:属性数据SX.xlsx、目录数据ML.xlsx、封一0000.jpg,以及从0001.docx开始统一命名的若干个电子文档,以及勘误表电子文件KWB.docx。
单篇文章类文献的文件包应包含以下内容:属性数据SX.xlsx,以及从0001.docx开始统一命名的若干个电子文档。
旧方志、其他旧志类文献的文件包应包括以下内容:属性数据SX.xlsx、目录数据ML.xlsx、封一0000.jpg,以及从0001开始统一命名的若干个文本夹。每个文件夹下包含从0001.docx开始统一命名的若干个电子文档,以及与之相对应的从0001.jpg开始统一命名的若干个标清书页图片。
九、质量控制
(一)文献完整性
使用人工抽查的方式对文献进行检查。当发现一处有缺页、漏页情况时,应认定整本文献加工不合格,要对整本文档缺页、漏页情况进行检查。当一个批次或一个年度的加工文献出现三次及以上缺页、漏页情况时,应认定整批或整年度文献加工不合格,需对整批或整年度文献缺页、漏页情况进行检查。
(二)文字正确率
允许对不同文献采取AI校对、粗校和精校三种质量标准。应在文献属性数据的精确度属性中明确标识采取的质量标准类型。在有关应用平台展示数字文献时,应在显著位置对应标注“AI校对”“粗校”“精校”。建议对地方志书和地方综合年鉴使用精校质量标准,采取AI校对和粗校质量标准加工的文献应逐步转化为精校质量标准。单个(即部、卷、册)文献禁止采取两种及以上的质量标准。
1.AI校对
以AI识别、校对文字为主,确保文字错误率在10%以下。使用校对软件检查方式为主,人工为辅的方式对AI校对文献进行检查。
2.粗校
以机器校对为主,辅以人工校对,重点对光学字符识别(OCR)软件提示的错误进行核实,确保文字错误率在1%以下。使用人工抽查的方式对粗校文献进行检查,单个(即部、卷、册)文献抽查字数不少于1千字。计算错误时仅计算汉字、字母、数字和计量符号错误。
3.精校
以人工交叉检查等方式对加工结果进行质量控制,确保完整、准确地提取到文献资源所有有效内容,确保文字部分错误率在万分之一以下。使用人工抽查的方式对精校文献按进行检查,要按照《图书质量管理规定》第十二条的要求,正文部分的抽查必须内容(或页码)连续且不少于10万字,全书字数不足10万字的必须检查全书。计错标准参照《图书质量管理规定》附件之《图书编校质量差错率计算方法》。
当发现抽查结果的错误率高于万分之一时,应认定整本文献精校加工不合格,需对整本文档进行第三方人工校对。当一个批次或年度的加工文献出现五次及以上错误率高于万分之一时,应认定整批或整年度文献精校加工不合格,需对整批或整年度文献进行第三方人工校对。
