-
Notifications
You must be signed in to change notification settings - Fork 3
Digitalization of Gu Lau folk
This documation is for volunteers who joined digitalization of 中国歌谣集成福建卷・福州市鼓楼区分卷 (福州鼓楼区民间文学三集成编委会, 1989).
如果有兴趣参与本书的电子化,请在本库的issue区留言,或联系项目统筹人山月。
感谢参与本书电子化。除本文档外,还会分发四个文件:
以及所分配页面的图片版及其OCR识别文字。如果浏览图片会比浏览pdf文件更方便,则可以利用图片。
需要做的,便是将pdf文件内分工的内容录入xlsx文件内。
打开xlsx文件,会看到栏头如下:
以下逐项解释。
可见“赞农曲”为标题,如图,则录入赞农曲
。
有时在标题下方,可见被括弧括起来的副标题。则略去括号,将副标题录入。
如果出现被括弧括起来的文本有一个以上的情况,如图。
则舍弃“二首”。因为通过合理填写节标题,读者能够明白该题目下有两首歌谣。
有时会有同题的多节独立歌谣,如图。
则将节标题
填为一
、二
等。
注意,有时有些长篇歌谣有分节,但是各节之间有承接关系,如下图。
则不视为同题的多节独立歌谣,正文全部内容都录进同一个单元格内。“(一)”“(二)”等视为空行,无须录入,只需留一个空行。
一个简单的判断方式是,看标题旁边的括弧文本有没有写“五首”之类的文字。如果一则歌谣的标题是“渔船花烛结姻缘(五首)”,而下文有“(一)”“(二)”“(三)”“(四)”“(五)”的分节,则可以把它们看作五条同题的多节独立歌谣,它们的标题
为渔船花烛结姻缘
,副标题为五首
,节标题
填为一
、二
等。
如果不知道如何判断同题的多节独立歌谣,则在本库的issue区留言,或联系项目统筹人。
在标题下方可以看到该歌谣的正文,如图。则录入。
分行按照原书的排版。在Excel软件中,单元格内文字的分行操作方式如下:
光标定位到需要分行的文字后边,按快捷键Alt
+Enter
即可。
有时正文中有分节的空行,如图。
则同样遵照原文敲出空行。
在正文下方可以看到该歌谣的方言注释,如图。若有,则录入。
录入时不需要按照原书的排版分行。全部录入为一行,注意正确录入编号与标点即可。
有时原书编号不作阿拉伯数字,如图。
录入时则直接写为带圈的阿拉伯数字。
在正文下方可以看到该歌谣的附记,如图。若有,则录入。
有时一些扩展信息的文段不会以“附记:”打头,如图。
则仍然将对应文本录入至附记
。
在标题旁可以看到该歌谣的作者,如图。若有,则录入。
在标题旁可以看到该歌谣的创作时代,如图,则录入为唐末
。不需要录入空格。
在方言注释、附记的下方,可以看到该歌谣的采录信息,包括采录年、月、日,如图,则分别将采录年
录入为1988
,采录月
录入为6
,采录日
留空。
有时采录时间并不具体,如“1989年初”,则采录年
录入为1989
,采录大约时间
录入为初
,采录月
、采录日
留空。
在方言注释、附记的下方,可以看到该歌谣的采录信息,包括采录地点、单位等,如图,则将采录地点
录入为鼓楼区曲艺团
。
有时采录信息不是写为地点、单位,而是写为文献名,则采录地点
留空,将相关信息填入采录文献
栏。
如图,则录入《福州民歌.1981、11》
。书名号亦一并录入。
如图,则录入民间手抄传本
。
在正文、采录信息下方,有时有供稿人名氏,则录入。
在采集信息的下方,为演唱人信息,如图,则录入其姓名。
需要注意的是,有时该信息不写为“演唱人”,而写为“演唱者”,甚至“讲述人”,或类似的名义。则同样录入于此栏。
在采集信息的下方,为演唱人信息,如图,则录入其讲/唱者性别
为男
、讲/唱者年岁
为47
、讲/唱者学历
为初中
、讲/唱者职业
为艺人
。
其中讲/唱者年岁
栏只填写阿拉伯数字。
有时,学历的分句不会只写“高中”或“初中”之类的两个字,而会写为“高中毕业”等。则按照原文,录入为高中毕业
。
如果对象被描述为“文盲”,则将文盲
填入讲/唱者学历
,如图。
有时,地域信息会被写为“福州郊区”,如图。
注意,郊区是福州过去曾存在过的一个区。讲/唱者地域
按原文填写为福州郊区
。
有时,在讲/唱者的地域信息后,会多出一些上述未有的信息,如以下二图。
则录入讲/唱者出身或职称
为农民出身
或副研究员
,其他如常。
在采集信息的下方,能找到搜集人及其相关信息,如图。
则参考前文所述演唱人/讲述人/口述者与讲/唱者性别等信息的格式,录入搜集人
为郑郁
,搜集人信息
为男
,搜集人地域
为福州
,搜集人年岁
为55
,搜集人学历
为高中毕业
,搜集人职业
为鼓楼区文化局局长
。
在搜集人信息的下方,有时有加注再整理者,如图。则录入。
有时,歌谣正文有“甲:”“乙:”的字样,甚至有一些对语言、动作的描述。则在本栏填Y
,并在录入正文时遵照原文的排版分行。
需要特别标注是否为对话形式
的原因,是以其格式复杂,需要后期另谋处理。
在每页的下方角落,可以看见该页的页码。单数页的页码在该页右下角,偶数页的在左下角。
大部分情况下,对应内容会跨页,所以需要以连接符-
缀连起头尾两页。例如,《赞农曲》的页码为1-2
。
Excel软件可能会把相关文本识别成月日,导致格式错乱。这时可以选中整列,右键,点击设置单元格格式
,将单元格格式设置为文本
,如图。
在每辑的开头,可以看见辑编号,如图中为“一”,则录入阿拉伯数字1
。
辑名无须录入。本书全部辑名可借表格查询。
在每章节的开头,可以看见章编号,如图中为“一”,则录入阿拉伯数字1
。
章节名无须录入。本书全部章名可借表格查询。
在搜集人、再整理者等信息的下方,有时会出现发表信息,如图,则录入北京《民间文学》86年第5期发表
。
每条歌谣的录入者、录入时间,请参考下图的方式填写。
录入时间的格式为YYYY-MM-DD
。即,如果月份或日期为个位数,需要添加前置0。可以选择整列,右键,点击设置单元格格式
,将单元格格式设置为日期
,类型选择YYYY-MM-DD
,如图。
录入时间的填写,亦有助于后续分配电子化任务时,更加科学地向热心的志愿者们分配工作。
原书可能有误植的情况。遇到这种情况,可在issue区发起讨论,或联系项目统筹人。如若最终确定需要校正,则以{校正前,校正后}
的格式录入。以下试举几种可能遇到的误植情况。
有时是本该写为简化字的,却作了传统汉字的情况。全书基本以简化字书写,然而会遇到植为传统汉字的情况,如图。
则录入为{餓,饿}
。
有时是脱字,如图:
注意上图的副标题作“又名 华侨泪》”,可知前书名号被不慎脱去。则需要校正空格为前书名号,录入为又名{ ,《}华侨泪》
有时,一些歌谣文本会共享一些信息。如《猫咪哥》《老鼠姆》两则之后,有如图的文段。
说明图中的信息是《猫咪哥》《老鼠姆》两则共享的。则将对应信息同时录于《猫咪哥》和《老鼠姆》。
同题的多节歌谣也会存在共享或独有信息的情况。如下图《上门守节歌》系列歌谣的一部分。
可发现其中第二首独享一则注释。则只将对应的注释填给第二首,其余的标题、附记、采录信息、演唱者等填给《上门守节歌》全六首。
本书电子化过程中会用到以下特殊字符:
- ①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳
- āáǎàâ
- ōóǒòô
- ēéěèê
- īíǐìî
- ūúǔùû
- ǖǘǚǜ
打不出的汉字,宜善用字海网的拼字功能。
如果有文字无unicode,则进行字形描述,如图。
则作⿰亻鞋
。
如图,则作半角括号。
如果使用Excel等软件编辑,并用在GitHub pull requests以外的方式直接将电子文档发给项目统筹人的话,则无视本章。
如是使用源代码编辑软件,则需注意在.tsv
文件末尾留一个空行,再于GitHub pull requests。如是方便于提交时生成干净的提交报告。
志愿者有两种方式提交自己的贡献。
若有GitHub账户,且熟悉其操作方式,可直接pull requests至本库。本书的电子化文档路径为中国歌谣集成福建卷・福州市鼓楼区分卷/content.tsv
。
若非,则请直接联系项目统筹人,寻求帮助。
This document is published under CC 0.