Skip to content
This repository has been archived by the owner on Mar 29, 2024. It is now read-only.

Digitalization of Gu Lau folk

Davidzdh edited this page Sep 7, 2021 · 12 revisions

This documation is for volunteers who joined digitalization of 中国歌谣集成福建卷・福州市鼓楼区分卷 (福州鼓楼区民间文学三集成编委会, 1989).


报名

如果有兴趣参与本书的电子化,请在本库的issue区留言,或联系项目统筹人山月

项目内容

感谢参与本书电子化。除本文档外,还会分发四个文件:

两份录入必需的文件。

以及所分配页面的图片版及其OCR识别文字。如果浏览图片会比浏览pdf文件更方便,则可以利用图片。

需要做的,便是将pdf文件内分工的内容录入xlsx文件内。

打开xlsx文件,会看到栏头如下:

录入表单的栏头。

以下逐项解释。

录入表单格式

标题

此图意在说明标题在一页中的相对位置。

可见“赞农曲”为标题,如图,则录入赞农曲

副标题

此图意在说明副标题在一页中的相对位置。

有时在标题下方,可见被括弧括起来的副标题。则略去括号,将副标题录入。

如果出现被括弧括起来的文本有一个以上的情况,如图。

被括弧括起来的文本有一个以上的情况。

则舍弃“二首”。因为通过合理填写节标题,读者能够明白该题目下有两首歌谣。

节标题

有时会有同题的多节独立歌谣,如图。

数字编号的同题的多节歌谣。

则将节标题填为等。

注意,有时有些长篇歌谣有分节,但是各节之间有承接关系,如下图。

各节之间有承接关系的长诗。

则不视为同题的多节独立歌谣,正文全部内容都录进同一个单元格内。“(一)”“(二)”等视为空行,无须录入,只需留一个空行。

一个简单的判断方式是,看标题旁边的括弧文本有没有写“五首”之类的文字。如果一则歌谣的标题是“渔船花烛结姻缘(五首)”,而下文有“(一)”“(二)”“(三)”“(四)”“(五)”的分节,则可以把它们看作五条同题的多节独立歌谣,它们的标题渔船花烛结姻缘,副标题为五首节标题填为等。

如果不知道如何判断同题的多节独立歌谣,则在本库的issue区留言,或联系项目统筹人。

正文

此图意在正文在一页中的相对位置。

在标题下方可以看到该歌谣的正文,如图。则录入。

分行按照原书的排版。在Excel软件中,单元格内文字的分行操作方式如下:

未分行的表格文字示意图。

光标定位到需要分行的文字后边,按快捷键Alt+Enter即可。

完成分行的表格文字示意图。

有时正文中有分节的空行,如图。

分节的空行。

则同样遵照原文敲出空行。

方言注释

此图意在说明方言注释在一页中的相对位置。

在正文下方可以看到该歌谣的方言注释,如图。若有,则录入。

录入时不需要按照原书的排版分行。全部录入为一行,注意正确录入编号与标点即可。

有时原书编号不作阿拉伯数字,如图。

编号不作阿拉伯数字的例子。

录入时则直接写为带圈的阿拉伯数字。

附记

此图意在说明附记在一页中的相对位置。

在正文下方可以看到该歌谣的附记,如图。若有,则录入。

有时一些扩展信息的文段不会以“附记:”打头,如图。

被放到末尾的附记。

则仍然将对应文本录入至附记

作者

此图意在说明作者在一页中的相对位置。

在标题旁可以看到该歌谣的作者,如图。若有,则录入。

创作时代

此图意在说明创作时代在一页中的相对位置。

在标题旁可以看到该歌谣的创作时代,如图,则录入为唐末。不需要录入空格。

采录年、月、日

此图意在说明采录年、采录月在一页中的相对位置。

在方言注释、附记的下方,可以看到该歌谣的采录信息,包括采录年、月、日,如图,则分别将采录年录入为1988采录月录入为6采录日留空。

有时采录时间并不具体,如“1989年初”,则采录年录入为1989采录大约时间录入为采录月采录日留空。

采录地点、采录文献

此图意在说明采录地点在一页中的相对位置。

在方言注释、附记的下方,可以看到该歌谣的采录信息,包括采录地点、单位等,如图,则将采录地点录入为鼓楼区曲艺团

有时采录信息不是写为地点、单位,而是写为文献名,则采录地点留空,将相关信息填入采录文献栏。

此图意在说明采录文献在一页中的相对位置。

如图,则录入《福州民歌.1981、11》。书名号亦一并录入。

“民间手抄传本”。

如图,则录入民间手抄传本

供稿人

在正文、采录信息下方,有时有供稿人名氏,则录入。

演唱人/讲述人/口述者

此图意在说明演唱者/讲述人/口述者在一页中的相对位置。

在采集信息的下方,为演唱人信息,如图,则录入其姓名。

需要注意的是,有时该信息不写为“演唱人”,而写为“演唱者”,甚至“讲述人”,或类似的名义。则同样录入于此栏。

讲/唱者性别、地域、年岁、学历、职业

此图意在说明讲/唱者性别、年岁、学历、职业在一页中的相对位置。

在采集信息的下方,为演唱人信息,如图,则录入其讲/唱者性别讲/唱者年岁47讲/唱者学历初中讲/唱者职业艺人

其中讲/唱者年岁栏只填写阿拉伯数字。

有时,学历的分句不会只写“高中”或“初中”之类的两个字,而会写为“高中毕业”等。则按照原文,录入为高中毕业

如果对象被描述为“文盲”,则将文盲填入讲/唱者学历,如图。

文盲信息的示意图。

有时,地域信息会被写为“福州郊区”,如图。

“福州郊区人”。

注意,郊区是福州过去曾存在过的一个区。讲/唱者地域按原文填写为福州郊区

有时,在讲/唱者的地域信息后,会多出一些上述未有的信息,如以下二图。

此图意在说明讲/唱者性别、年岁、学历、职业信息的不同胪列方式。

此图亦意在说明讲/唱者性别、年岁、学历、职业信息的不同胪列方式。

则录入讲/唱者出身或职称农民出身副研究员,其他如常。

搜集人及其性别、地域、年岁、学历、职业

在采集信息的下方,能找到搜集人及其相关信息,如图。

此图意在说明搜集人及其性别、地域、年岁、学历、职业在一页中的相对位置。

则参考前文所述演唱人/讲述人/口述者讲/唱者性别等信息的格式,录入搜集人郑郁搜集人信息搜集人地域福州搜集人年岁55搜集人学历高中毕业搜集人职业鼓楼区文化局局长

再整理者

此图意在说明再整理者在一页中的相对位置。

在搜集人信息的下方,有时有加注再整理者,如图。则录入。

是否为对话形式

对话形式文本一例。

有时,歌谣正文有“甲:”“乙:”的字样,甚至有一些对语言、动作的描述。则在本栏填Y,并在录入正文时遵照原文的排版分行。

需要特别标注是否为对话形式的原因,是以其格式复杂,需要后期另谋处理。

页码

此图意在说明页码在一页中的相对位置。

在每页的下方角落,可以看见该页的页码。单数页的页码在该页右下角,偶数页的在左下角。

大部分情况下,对应内容会跨页,所以需要以连接符-缀连起头尾两页。例如,《赞农曲》的页码为1-2

Excel软件可能会把相关文本识别成月日,导致格式错乱。这时可以选中整列,右键,点击设置单元格格式,将单元格格式设置为文本,如图。

将单元格格式设置为文本的示意图。

辑编号

辑标题示意图

在每辑的开头,可以看见辑编号,如图中为“一”,则录入阿拉伯数字1

辑名无须录入。本书全部辑名可借表格查询。

章编号

此图意在说明章编号在一页中的相对位置。

在每章节的开头,可以看见章编号,如图中为“一”,则录入阿拉伯数字1

章节名无须录入。本书全部章名可借表格查询。

发表信息

此图意在说明发表信息在一页中的相对位置。

在搜集人、再整理者等信息的下方,有时会出现发表信息,如图,则录入北京《民间文学》86年第5期发表

录入者、录入时间

每条歌谣的录入者、录入时间,请参考下图的方式填写。

录入者、录入时间填写示意图。

录入时间的格式为YYYY-MM-DD。即,如果月份或日期为个位数,需要添加前置0。可以选择整列,右键,点击设置单元格格式,将单元格格式设置为日期,类型选择YYYY-MM-DD,如图。

选择单元格类型的界面。

录入时间的填写,亦有助于后续分配电子化任务时,更加科学地向热心的志愿者们分配工作。

误植及其校正

原书可能有误植的情况。遇到这种情况,可在issue区发起讨论,或联系项目统筹人。如若最终确定需要校正,则以{校正前,校正后}的格式录入。以下试举几种可能遇到的误植情况。

有时是本该写为简化字的,却作了传统汉字的情况。全书基本以简化字书写,然而会遇到植为传统汉字的情况,如图。

误植为传统汉字的情况。

则录入为{餓,饿}

有时是脱字,如图:

脱字示意

注意上图的副标题作“又名 华侨泪》”,可知前书名号被不慎脱去。则需要校正空格为前书名号,录入为又名{ ,《}华侨泪》

共通信息的录入

有时,一些歌谣文本会共享一些信息。如《猫咪哥》《老鼠姆》两则之后,有如图的文段。

共通信息一例。

说明图中的信息是《猫咪哥》《老鼠姆》两则共享的。则将对应信息同时录于《猫咪哥》和《老鼠姆》。

同题的多节歌谣也会存在共享或独有信息的情况。如下图《上门守节歌》系列歌谣的一部分。

数字编号的同题的多节歌谣。

可发现其中第二首独享一则注释。则只将对应的注释填给第二首,其余的标题、附记、采录信息、演唱者等填给《上门守节歌》全六首。

特殊字符

本书电子化过程中会用到以下特殊字符:

  • ①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳
  • āáǎàâ
  • ōóǒòô
  • ēéěèê
  • īíǐìî
  • ūúǔùû
  • ǖǘǚǜ

打不出的汉字,宜善用字海网的拼字功能

如果有文字无unicode,则进行字形描述,如图。

则作⿰亻鞋

半、全角

括号的示意图。

如图,则作半角括号。

干净的数据

如果使用Excel等软件编辑,并用在GitHub pull requests以外的方式直接将电子文档发给项目统筹人的话,则无视本章。

如是使用源代码编辑软件,则需注意在.tsv文件末尾留一个空行,再于GitHub pull requests。如是方便于提交时生成干净的提交报告。

提交方式

志愿者有两种方式提交自己的贡献。

若有GitHub账户,且熟悉其操作方式,可直接pull requests至本库。本书的电子化文档路径为中国歌谣集成福建卷・福州市鼓楼区分卷/content.tsv

若非,则请直接联系项目统筹人,寻求帮助。


This document is published under CC 0.