forked from rdmorganiser/rdmo-catalog
-
Notifications
You must be signed in to change notification settings - Fork 1
/
spokencorpus_dfg_5.xml
3814 lines (3703 loc) · 242 KB
/
spokencorpus_dfg_5.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
<?xml version="1.0" encoding="UTF-8"?>
<rdmo created="2022-02-28T14:34:57.121843+01:00" xmlns:dc="http://purl.org/dc/elements/1.1/">
<catalog dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>spokencorpus_dfg_5</key>
<dc:comment>covers catalog "DFG v5" and <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank>the recommendations of the “Linguistics” Review Board on data standards and tools in the collection of language corpora</a> (2019) and the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/guidelines_review_board_linguistics_corpora.pdf" target=_blank>Guidelines for Building Language Corpora Under German Law</a> (2017)
umfasst Fragenkatalog "DFG v5" und deckt zusätzlich die <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank>Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a> (2019) und die <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_recht.pdf" target=_blank>Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora</a> (2013) des DFG-Fachkollegiums "Sprachwissenschaften" zu mündlichen Korpora ab</dc:comment>
<order>150104</order>
<title lang="en">DFG 104 Spoken corpus v5</title>
<help lang="en"/>
<title lang="de">DFG 104 Mündlicher Korpus v5</title>
<help lang="de"/>
</catalog>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>description</key>
<path>spokencorpus_dfg_5/description</path>
<dc:comment/>
<catalog dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5"/>
<order>1</order>
<title lang="en">Data description</title>
<title lang="de">Datenbeschreibung</title>
</section>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/creation">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>creation</key>
<path>spokencorpus_dfg_5/description/creation</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description"/>
<questionset/>
<is_collection>True</is_collection>
<order>1</order>
<title lang="en">How does your project generate new data?</title>
<help lang="en">In the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/guidelines_research_data.pdf" target=_blank>DFG guidelines for handling research data</a>, the following examples of research data are given: "Research data might include measurement data, laboratory values, audiovisual information, texts, survey data, objects from collections, or samples that were created, developed or evaluated during scientific work. Methodical forms of testing such as questionnaires, software and simulations may also produce important results for scientific research and should therefore also be categorised as research data."
Because managing digital research data is very different from managing physical objects, this form treats both separately. Physical objects are discussed in the last section. All other sections refer to digital research data.
We start with digital research data. Usually, digital research data are divided into "datasets". The first questions therefore collect information on the datasets that are produced or used in the project. The definition of what a dataset is in each case is an important conceptual decision that has to be made individually for each plan or project. For example, a data set can consist of more data files of different types (numeric, image, text...) grouped together, which collect exhaustedly all results coming from an investigation series on a given research object.
The "datasets" that are described here in the data management plan can be delimited in the same way as those that are later stored in the repository as datasets, provided there are not too many and the readability of the data management plan does not suffer due to the large number. If, for example, large amounts of data all have the same history, but then have to be split up so that the data can be uploaded and downloaded via the web in a reasonable time, planning should better be summarized here. Research data that require uniform or at least similar data management could be summarized here as a "dataset".
It is of course possible to define only one data record on the whole. This can also be done if it is not yet clear in the initial phase of the project how the research data will be divided up. You can add more datasets later if necessary. Existing datasets can be renamed by clicking on the pencil symbol.</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Auf welche Weise entstehen in Ihrem Projekt neue Daten?</title>
<help lang="de">Die Deutsche Forschungsgemeinschaft nennt in ihren <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/leitlinien_forschungsdaten.pdf" target=_blank>Leitlinien zum Umgang mit Forschungsdaten</a> die folgenden Beispiele für Forschungsdaten: "Zu Forschungsdaten zählen u.a. Messdaten, Laborwerte, audiovisuelle Informationen, Texte, Surveydaten, Objekte aus Sammlungen oder Proben, die in der wissenschaftlichen Arbeit entstehen, entwickelt oder ausgewertet werden. Methodische Testverfahren, wie Fragebögen, Software und Simulationen können ebenfalls zentrale Ergebnisse wissenschaftlicher Forschung darstellen und sollten daher ebenfalls unter den Begriff Forschungsdaten gefasst werden."
Da sich das Management digitaler Forschungsdaten vom Management physischer Objekte deutlich unterscheidet, behandelt dieses Formular beide getrennt. Physische Objekte werden im letzten Abschnitt behandelt. Alle übrigen Abschnitte beziehen sich auf digitale Forschungsdaten.
Begonnen werden soll also mit den digitalen Forschungsdaten. Üblicherweise werden digitale Forschungsdaten in „Datensätze“ eingeteilt. Die ersten Fragen dienen deshalb der Beschreibung der Datensätze, die im Projekt erzeugt und/oder verwendet werden. Die Definition dessen, was jeweils ein Datensatz ist, ist eine wichtige konzeptionelle Entscheidung, die für jedes Vorhaben bzw. Projekt individuell getroffen werden muss. Ein Datensatz kann beispielweise aus mehreren zusammen gruppierten Dateien verschiedener Arten (numerisch, bild- oder textbasiert...) bestehen, die alle aus einer Versuchsreihe auf einem definierten Versuchsobjekt entstandenen Ergebnisse enthalten.
Die "Datensätze", die hier im Datenmanagementplan beschrieben werden, können genauso abgegrenzt sein wie die, die später im Repositorium als Datensätze gespeichert werden, sofern es nicht zu viele sind und die Lesbarkeit des Datenmanagementplans nicht durch die Vielzahl leidet. Wenn beispielsweise große Datenmengen alle die gleiche Entstehungsgeschichte haben, dann aber aufgeteilt werden müssen, damit die Daten in vernünftiger Zeit über das Web hoch- und heruntergeladen werden können, sollte hier besser zusammengefasst geplant werden. Als "Datensatz" könnten solche Forschungsdaten hier zusammengefasst werden, die ein einheitliches oder zumindest ähnliches Datenmanagement benötigen.
Selbstverständlich ist es möglich, nur einen Datensatz zu definieren. So kann auch vorgegangen werden, wenn in der Anfangsphase des Projekts noch nicht klar ist, wie die Forschungsdaten einmal eingeteilt sein werden. Später können Sie bei Bedarf weitere Datensätze hinzufügen. Bereits vorhandene Datensätze können durch Klicken auf das Bleistiftsymbol umbenannt werden.</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/creation/dataset">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>dataset</key>
<path>spokencorpus_dfg_5/description/creation/dataset</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/description"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/creation"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en">Please describe the type of data involved and the method used to collect or create the data. From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of corpora</a>, Part 1:
Spoken corpora are composed of data of different types: the actual primary data are recorded as audio and / or video recordings; in addition, there may be additional materials (handouts, presentation slides, etc.) that are relevant for understanding the speech data or the communicative event; based on the recordings, transcriptions are created that can be linked to sections from the recording; transcriptions can be enriched with further annotations; finally, metadata documents the recording situation and circumstances, characteristics of the speakers involved, the creation of the resource (who was involved in the annotation, etc.) and any other information necessary or useful for analysis and subsequent use of the data.
Today, audio and video recordings should generally be recorded <i>digitally</i> (i.e. with digital recording devices), because firstly, the use of analog technology (e.g. VHS recorders, compact cassettes) is neither cheaper nor leads to better quality results, and secondly, subsequent digitization, which is necessary for Archive purposes usually is essential, usually leads to loss of information and quality.
For certain communicative events, it makes sense and is advisable to collect relevant <i>additional materials</i> for better understanding and interpretation of the data, to archive them, to link them with the language data and to make them accessible to the body (e.g. presentation slides and handouts for lectures; agendas and table templates for meetings; questionnaires, etc., which were used to collect data on language biographies or language skills of multilingual speakers; panel pictures and other written materials for classroom communication). It is recommended to consider the relevance of any additional materials at the start of the project.</help>
<text lang="en">What kind of dataset is it?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Bitte beschreiben Sie hier, um welchen Datentyp es sich handelt und mit welcher Methode die Daten erhoben oder erstellt wurden. Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>, Teil 1:
Mündliche Korpora setzen sich aus Daten unterschiedlichen Typs zusammen: Die eigentlichen Primärdaten werden als Audio- und/oder Videoaufnahmen erhoben; hinzu kommen gegebenenfalls Zusatzmaterialien (Handouts, Präsentationsfolien etc.), die für das Verständnis der Sprachdaten oder des kommunikativen Ereignisses relevant sind; auf der Grundlage der Aufnahmen werden Transkriptionen erstellt, die mit Abschnitten aus der Aufnahme verknüpft werden können; Transkriptionen können mit weiteren Annotationen angereichert werden; Metadaten schließlich dokumentieren die Aufnahmesituation und -umstände, Eigenschaften der beteiligten Sprecherinnen und Sprecher, die Erstellung der Ressource (wer war an der Annotation beteiligt, usw.) sowie ggf. weitere für Analyse und Nachnutzung der Daten notwendige oder nützliche Informationen.
Audio- und Videoaufnahmen sollten heute in aller Regel <i>digital</i> (d. h. mit digitalen Aufnahmegeräten) erhoben werden, da erstens die Verwendung analoger Technik (z.B. VHS-Rekorder, Kompaktkassetten) weder günstiger ist noch zu qualitativ besseren Ergebnissen führt und zweitens eine nachträgliche Digitalisierung, die für Archivzwecke i.d.R. unerlässlich ist, üblicherweise zu Informations- und Qualitätsverlust führt.
Für bestimmte kommunikative Ereignisse ist es sinnvoll und empfehlenswert, für das bessere Verständnis und die Interpretation der Daten relevante <i>Zusatzmaterialien</i> zu sammeln, zu archivieren, mit den Sprachdaten zu verknüpfen und Korpusnutzenden zugänglich zu machen (etwa Präsentationsfolien und Handouts bei Vorträgen; Tagesordnungen und Tischvorlagen bei Besprechungen; Fragebögen u.ä., mit denen etwa Daten zu Sprachbiographien oder Sprachkompetenzen mehrsprachiger Sprecherinnen und Sprecher erhoben wurden; Tafelanschrieb und andere schriftliche Materialien bei Unterrichtskommunikationen). Es wird empfohlen, bereits bei Projektbeginn die Relevanz etwaiger Zusatzmaterialien zu bedenken.</help>
<text lang="de">Um was für einen Datensatz handelt es sich?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/creation/creation_methods">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>creation_methods</key>
<path>spokencorpus_dfg_5/description/creation/creation_methods</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/creation_methods"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/creation"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en"><a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank> Recommendations on data technology standards and tools for the collection of corpora </a> (in German) concerning transcription and further annotation:
<i>Tools</i>
- <a href="http://www.anvil-software.org/download/index.html" target=_blank> ANVIL</a>, <a href="http://tla.mpi.nl/tools/tla-tools/elan/" target=_blank> ELAN</a>, <a href = "http://www.exmaralda.org/" target = _blank> EXMARaLDA</a>, <a href="http://agd.ids-mannheim.de/folker.shtml" target=_blank> FOLKER</a>, <a href="http://phonbank.talkbank.org/" target=_blank> Phon </a> and <a href="http://www.fon.hum.uva.nl/praat/" target=_blank> Praat </a> recommended
- Furthermore, the use of <a href="http://dali.talkbank.org/clan/" target=_blank> CLAN/CHAT </a> or <a href="http://transag.sourceforge.net/" target=_blank> Transcriber </a> can be regarded as recommended with only a few restrictions.
- Toolbox and, more recently, FLEX are the most common tools in the field of interlinear glossing. However, both are not without problems with regard to portability and interoperability, whereby the problem situation is very different. Before extensive use, you should definitely deal with the various problems that arise when exporting or converting to other formats.
- Tools such as F4/F5, field score or Transana, on the other hand, do not meet several of the criteria listed above. It is therefore not advisable to use them unless additional precautions are taken in the workflow to ensure that the data is reliably transferred to another format that is more suitable for subsequent use and archiving. The same applies to the use of general word processing formats such as MS Word or Open Office.
- In this context, tools such as atlas.ti or MaxQDA should be limited to their function as instruments for qualitative data analysis, since they only partially meet the requirements formulated above; in particular, information is lost when data from these tools is exchanged with other editors, i.e. even if these tools are necessary and common for many analysis purposes, they should not be used for the (first) transcription of audio or video data with a view to optimal archiving and reusability.
- In addition to the formats themselves, several of the recommended tools provide additional mechanisms for ensuring consistency and transparent documentation of the data. For example, <a href="http://www.anvil-software.org/download/index.html" target=_blank> ANVIL </a> allows to define a specification file and <a href="http://agd.ids-mannheim.de/folker.shtml" target=_blank> FOLKER </a> contains mechanisms for checking the temporal and syntactic consistency of transcription data. In terms of quality assurance, it may make sense to use these mechanisms, depending on the desired work processes.
<i> Transcription conventions and annotation schemes </i>
The selection of a transcription system and especially the decision as to which further annotations are useful and necessary for a corpus are particularly dependent on project-specific circumstances and objectives. It is therefore hardly possible in this area to highlight a few solutions as recommended. Nevertheless, the reusability and archivability of a corpus can be significantly improved by observing some general principles with regard to the transcription conventions and annotation schemes used. In particular, project-specific transcription conventions and annotation schemes should always be related to already established and documented procedures, i.e. before developing “project-specific” processes, it should be checked in detail whether processes that have already been used elsewhere can be used. If this is not the case, project-specific conventions and schemes should be developed as extensions, modifications or simplifications of existing procedures, if possible, and documented accordingly.
- For the orthography-based transcription of spontaneous speech, <a href="http://www.gespraechsforschung-ozs.de/heft2009/px-gat2.pdf" target=_blank> GAT / cGAT </a> and <a href="https://www.exmaralda.org/files/azm_56" target=_blank> HIAT </a> are the most common methods. In addition, with <a href="https://talkbank.org/manuals/CHAT" target=_blank> CHAT </a> there is a very widespread convention that is not limited to the German-speaking countries. Since these conventions are also comparatively well documented (through regular scientific publications) and tested in their application to digital corpora, their suitability for specific project purposes should be checked in any case. If your own transcription system is nevertheless developed, it should be documented in a form that is accessible and comprehensible to outsiders.
- For phonetic transcriptions, <i> IPA </i> is one of the few “real” standards in the field of linguistics. When using IPA, a Unicode-based font should be used in any case (in particular, the use of special IPA fonts, such as SIL, which is widespread in the 1990s, is not recommended). For practical reasons, the use of an IPA-isomorphic ASCII-based alphabet (<a href="http://www.phon.ucl.ac.uk/home/sampa/x-sampa.htm" target=_blank>SAMPA or X-SAMPA</a>) are preferable. This is harmless in terms of data technology.
- De facto standards sometimes exist for further annotations. Examples are <a href="http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf" target=_blank> STTS </a> (morphosyntactic annotation at word level), <a href="http://www.ling.helsinki.fi/~lcarlson/04-05/ctl142/sofie/disslezius.pdf" target=_blank> Tiger </a> (syntactic annotation), SALSA (semantic role annotation), <a href="https://opus4.kobv.de/opus4-bamberg/frontdoor/index/index/docId/26235" target=_blank>GRAID</a> (Grammatical Relations and Animacy in Discourse) and <a href="http://www.cs.columbia.edu/~agus/tobi/labelling_guide_v3.pdf" target=_blank>ToBi</a> (annotation procedure for prosody and intonation). If such methods can be used meaningfully for the respective investigation purpose, they should also be used as a starting point.
- Interlinear glossaries are widespread in language documentation, description and typology. The standard for this are the <a href="http://www.eva.mpg.de/lingua/resources/glossing-rules.php" target=_blank>Leipzig Glossing Rules</a>.
- A comprehensive reference framework for the annotation of oral data for the purposes of language documentation, which encompasses all traditional structural levels (phonetics, phonology, morphology, syntax, semantics) and clearly separates the units, structures and relations from each other, offers <a href="http://www.mpi.nl/DOBES/documents/Advanced-Glossing1.pdf" target=_blank> Advanced Glossing (AG)</a>.</help>
<text lang="en">Which tools, software, technologies or processes are used to generate or collect the data?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"><a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank>Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a> betreffend Transkription und weitere Annotation:
<i>Tool-Empfehlungen</i>
- <a href="http://www.anvil-software.org/download/index.html" target=_blank>ANVIL</a>, <a href="http://tla.mpi.nl/tools/tla-tools/elan/" target=_blank>ELAN</a>, <a href="http://www.exmaralda.org/" target=_blank>EXMARaLDA</a>, <a href="http://agd.ids-mannheim.de/folker.shtml" target=_blank>FOLKER</a>, <a href="http://phonbank.talkbank.org/" target=_blank>Phon</a> und <a href="http://www.fon.hum.uva.nl/praat/" target=_blank>Praat</a> empfehlenswert
- Des Weiteren kann auch die Verwendung von <a href="http://dali.talkbank.org/clan/" target=_blank>CLAN/CHAT</a> oder <a href="http://transag.sourceforge.net/" target=_blank>Transcriber</a> mit nur wenigen Einschränkungen als empfehlenswert betrachtet werden.
- Im Bereich der interlinearen Glossierung sind Toolbox und in jüngerer Zeit auch FLEX die am meisten verbreiteten Werkzeuge. Beide sind jedoch hinsichtlich von Portabilität und Interoperabilität nicht unproblematisch, wobei die Problemlage jeweils sehr verschieden ist. Vor extensiver Nutzung sollte man sich unbedingt mit den diversen Problemen beschäftigen, die beim Export bzw. der Konvertierung in andere Formate entstehen.
- Tools wie F4/F5, Feldpartitur oder Transana erfüllen hingegen mehrere der oben aufgeführten Kriterien nicht. Von ihrer Verwendung ist daher abzuraten, sofern nicht durch zusätzliche Vorkehrungen im Arbeitsablauf sichergestellt wird, dass die Daten zuverlässig in ein anderes, für Nachnutzung und Archivierung besser geeignetes, Format überführt werden. Gleiches gilt für die Verwendung allgemeiner Textverarbeitungsformate wie MS Word oder Open Office.
- Tools wie atlas.ti oder MaxQDA sollten in diesem Zusammenhang auf ihre Funktion als Instrumente zur qualitativen Datenanalyse beschränkt werden, da sie die oben formulierten Voraussetzungen höchstens zum Teil erfüllen; insbesondere treten beim Austausch von Daten dieser Tools mit anderen Editoren Informationsverluste auf. D.h. auch wenn die diese Werkzeuge für viele Analysezwecke notwendig und gebräuchlich sind, sollten sie im Hinblick auf eine optimale Archivier- und Nachnutzbarkeit möglichst nicht für die (Erst-)Transkription von Audio- oder Videodaten eingesetzt werden.
- Neben den Formaten selbst stellen mehrere der empfehlenswerten Tools zusätzliche Mechanismen zur Konsistenzsicherung und transparenten Dokumentation der Daten bereit – z. B. erlaubt <a href="http://www.anvil-software.org/download/index.html" target=_blank>ANVIL</a> die Definition einer Spezifikationsdatei und <a href="http://agd.ids-mannheim.de/folker.shtml" target=_blank>FOLKER</a> beinhaltet Mechanismen zum Überprüfen der zeitlichen und syntaktischen Konsistenz von Transkriptionsdaten. Im Sinne einer Qualitätssicherung kann es, in Abhängigkeit von den angestrebten Arbeitsabläufen, sinnvoll sein, diese Mechanismen zu nutzen.
<i>Transkriptionskonventionen und Annotationsschemata</i>
Die Auswahl eines Transkriptionssystems und erst recht die Entscheidung, welche weiteren Annotationen für ein Korpus sinnvoll und notwendig sind, sind in besonderem Maße von projektspezifischen Gegebenheiten und Zielsetzungen abhängig. Es ist daher in diesem Bereich kaum möglich, einige wenige Lösungen als empfehlenswert herauszuheben. Dennoch können die Nachnutzbarkeit und Archivierbarkeit eines Korpus durch die Beachtung einiger allgemeiner Prinzipien auch im Hinblick auf die verwendeten Transkriptionskonventionen und Annotationsschemata deutlich verbessert werden. Insbesondere sollten projektspezifische Transkriptionskonventionen und Annotationsschemata möglichst immer in Bezug zu bereits etablierten und dokumentierten Verfahren gesetzt werden – d.h. vor der Entwicklung “projekteigener” Verfahren sollte eingehend geprüft werden, ob nicht bereits anderweitig eingesetzte Verfahren verwendet werden können. Ist dies nicht der Fall, sollten projektspezifische Konventionen und Schemata möglichst als Erweiterungen, Modifikationen oder Vereinfachungen existierender Verfahren entwickelt und entsprechend dokumentiert werden.
- Für die orthographie-basierte Transkription von Spontansprache sind im deutschsprachigen Raum <a href="http://www.gespraechsforschung-ozs.de/heft2009/px-gat2.pdf" target=_blank>GAT/cGAT</a> und <a href="https://www.exmaralda.org/files/azm_56" target=_blank>HIAT</a> die am weitesten verbreiteten Verfahren. Daneben existiert mit <a href="https://talkbank.org/manuals/CHAT" target=_blank>CHAT</a> eine sehr weit verbreitete Konvention, die nicht auf den deutschsprachigen Raum beschränkt ist. Da diese Konventionen auch vergleichsweise gut (durch reguläre wissenschaftliche Publikationen) dokumentiert und in der Anwendung auf digitale Korpora erprobt sind, sollte ihre Eignung für die spezifischen Projektzwecke in jedem Falle geprüft werden. Falls dennoch ein eigenes Transkriptionssystem entwickelt wird, sollte dieses in einer für Außenstehende zugänglichen und nachvollziehbaren Form dokumentiert werden.
- Für phonetische Transkriptionen existiert mit <i>IPA</i> einer der wenigen “echten” Standards im Bereich der Linguistik. Bei der Verwendung von IPA sollte in jedem Fall eine Unicode-basierte Schriftart verwendet werden (insbesondere ist von der Verwendung von in den 1990er Jahren weit verbreiteten speziellen IPA-Schriftsätzen, bspw. vom SIL, abzuraten). Aus praktischen Gründen kann auch die Verwendung eines IPA-isomorphen ASCII-basierten Alphabets (<a href="http://www.phon.ucl.ac.uk/home/sampa/x-sampa.htm" target=_blank>SAMPA oder X-SAMPA</a>) vorzuziehen sein – dies ist in datentechnischer Hinsicht unbedenklich.
- Für weiterführende Annotationen existieren teilweise De-Facto-Standards. Exemplarisch seien hier <a href="http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf" target=_blank>STTS</a> (morphosyntaktische Annotation auf Wortebene), <a href="http://www.ling.helsinki.fi/~lcarlson/04-05/ctl142/sofie/disslezius.pdf" target=_blank>Tiger</a> (syntaktische Annotation), SALSA (semantische Rollenannotation), <a href="https://opus4.kobv.de/opus4-bamberg/frontdoor/index/index/docId/26235" target=_blank>GRAID</a> (Grammatical Relations and Animacy in Discourse) und <a href="http://www.cs.columbia.edu/~agus/tobi/labelling_guide_v3.pdf" target=_blank>ToBi</a> (Annotationsverfahren für Prosodie und Intonation) genannt. Sofern sich solche Verfahren für den jeweiligen Untersuchungszweck sinnvoll anwenden lassen, sollten sie ebenfalls mindestens als Ausgangsbasis herangezogen werden.
- In der Sprachdokumentation und -beschreibung sowie -typologie weit verbreitet sind Interlinearglossierungen. Der Standard hierfür sind die <a href="http://www.eva.mpg.de/lingua/resources/glossing-rules.php" target=_blank>Leipzig Glossing Rules</a>.
- Einen umfassenden Referenzrahmen für die Annotation mündlicher Daten zu Zwecken der Sprachdokumentation, der alle traditionellen strukturellen Ebenen (Phonetik, Phonologie, Morphologie, Syntax, Semantik) umfasst und in diesen jeweils die Einheiten, Strukturen und Relationen klar voneinander trennt, bietet <a href="http://www.mpi.nl/DOBES/documents/Advanced-Glossing1.pdf" target=_blank>Advanced Glossing (AG)</a>.</help>
<text lang="de">Welche Instrumente, Software, Technologien oder Verfahren werden zur Erzeugung oder Erfassung der Daten genutzt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/existing">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>existing</key>
<path>spokencorpus_dfg_5/description/existing</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description"/>
<questionset/>
<is_collection>True</is_collection>
<order>2</order>
<title lang="en">Is existing data reused?</title>
<help lang="en">Before data is newly created, it is advisable to check if there is existing data that could be re-used. This way, redundant collection or creation of research data is prevented.</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Werden existierende Daten wiederverwendet?</title>
<help lang="de">Vor der Erzeugung von Daten empfiehlt es sich zu prüfen, ob bereits vorhandene Daten nachgenutzt werden können. Die Vermeidung doppelter Erhebungen spart Aufwand und Kosten.</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/existing/origin">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>origin</key>
<path>spokencorpus_dfg_5/description/existing/origin</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/origin"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/existing"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en"/>
<text lang="en">Is the dataset being created or re-used?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wird der Datensatz selbst erzeugt oder nachgenutzt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>radio</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets>
<optionset dc:uri="https://rdmorganiser.github.io/terms/options/dataset_origin_options"/>
</optionsets>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/existing/creator_name">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>creator_name</key>
<path>spokencorpus_dfg_5/description/existing/creator_name</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/creator/name"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/existing"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en"/>
<text lang="en">If re-used, who created the dataset?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wenn nachgenutzt, wer hat den Datensatz erzeugt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/existing/uri">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>uri</key>
<path>spokencorpus_dfg_5/description/existing/uri</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/uri"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/existing"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>3</order>
<help lang="en"/>
<text lang="en">If re-used, under which address, PID or URL can the dataset be found?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wenn nachgenutzt, unter welcher Adresse, PID oder URL ist der Datensatz verfügbar?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>text</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/data-formats">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>data-formats</key>
<path>spokencorpus_dfg_5/description/data-formats</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description"/>
<questionset/>
<is_collection>True</is_collection>
<order>3</order>
<title lang="en">Data types and processing</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "Which data types (in terms of data formats like image data, text data or measurement data) arise in your project and in what way are they further processed?"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Datentypen und -verarbeitung</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "Welche Datentypen, im Sinne von Datenformaten (z. B. Bilddaten, Textdaten oder Messdaten) entstehen in Ihrem Projekt und auf welche Weise werden sie weiterverarbeitet?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/data-formats/format">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>format</key>
<path>spokencorpus_dfg_5/description/data-formats/format</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/format"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/data-formats"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en">From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of corpora </a> (in German), Part 1, spoken corpora:
Recordings should be made with the <i> best possible recording quality </i> that the device used offers. In particular, this means that if possible <i> no lossy compression </i> should be used for the recording. For example, in an audio recording device, a mode that stores uncompressed data with the highest possible sampling rate is absolutely preferable to a mode for storing in MP3 format. The microphones used are also decisive for the recording quality, for example, usually recommendable to equip a video camera with a suitable external microphone. When choosing the recording device, it should also be ensured that the <i> formats used for storage are not proprietary </i> (i.e. tied to a specific manufacturer) or can at least easily and losslessly be transferred into non-proprietary (i.e. open) formats.
- For audio recordings, an <i> uncompressed linear PCM format </i> (typically saved as WAV) with appropriate bit and sampling rates is recommended. For spoken speech in interference-free environments, 16bit / 22kHz may apply as a minimum requirement; 16bit / 48kHz should be aimed for if the recording environment is to be adequately represented (which is usually the case with recordings “in the field”).
- For most purposes, the video formats produced by the higher quality amateur cameras on the market (<i>MPEG2 or MPEG4/H.264 with high bit rates</i>) are of sufficient quality. They can be saved and archived in their original version until compression-free solutions for long-term archiving are financially affordable. The following parameters can serve as guidelines: <ul>
<li> Standard definition video (720px x 576px or 704px x 480px) with MPEG2 compression up to 9.8 Mbit/s (typically around 3.5 Mbit/s) is suitable for field recordings; </li>
<li> High-definition video (1280px x 720px or 1920px x 1080px) with H.264 / MPEG4 AVC compression up to 48 Mbit/s (typically around 9 Mbit/s) is suitable for detailed analysis of gestures and facial expressions; </li>
<li> the frame rate normally used in Europe should be 25fps. </li> </ul>
- In certain circumstances, storage of videos in uncompressed form can also be considered from the outset. <i> MJPEG2000 </i> (with appropriate coding of the soundtrack in PCM, see above) is currently a suitable format.
Notwithstanding these recommendations, it may be necessary to convert audio or video data into other (e.g., space-saving or compatible with a specific tool) format for use with a specific tool in a specific technical environment. Such converted data can be seen as working files. The versions in the formats recommended above should always be kept as “master copies” for archiving and subsequent use.
For the transcription and further annotation of oral data, a large number of specialized software tools have been developed over the past twenty years, which serve both to make the workflow more effective and to improve the archivability and reusability of the resulting data. In general, such specialized software tools are preferable to the use of general word processing software for transcription and further annotation, since only the first one store the <i> data in a structured form</i>, i.e. save with explicit and thus computer-aided usable markings of relevant units (speakers, words, utterances, time references, etc.). For this purpose, the standard "ISO 24624: 2016: Language resource management - Transcription of spoken language" was published as a relevant international standard, which provides a detailed description and instructions for the structured and portable labeling of spoken language data. Essential points that can also be used for the assessment of other tools or tool formats are:
- <i> Unicode-based </i> and openly documented formats are to be preferred over other formats, as these enable sustainable data storage and archiving.
- Formats based on an explicit <i> data model </i> or on an explicit <i> document grammar </i> simplify the understanding and thus further processing of the data.
- A subsequent use of the data is made considerably easier by a continuous link between transcriptions / annotations and the underlying audio or video recordings. Formats that allow such an <i> alignment between recording and transcription </i> are therefore preferable.
- Furthermore, annotation tools should allow flexible but unambiguous assignment of different levels of annotation (sentences, words, affixes, etc.) to each other.
- When choosing a tool, care should also be taken to ensure that its format can also be read by other tools or that it is <i> interoperable </i> with other common formats. Tools whose development is still active increase the chances that the associated format will be compatible with future standards.
- There is a high level of interoperability with <i> XML-based formats</i>, as these have established themselves as general standards for storing more complex text documents.
- Purely or predominantly presentation-oriented formats (i.e. formats that only represent their visual formatting instead of the content structure of the data, such as HTML or MS Word formats) are generally unsuitable for archiving and reuse purposes because they are not flexible have further processed. The same applies to proprietary formats, i.e. those that can only be read by a specific tool.</help>
<text lang="en">Which file formats are used?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>, Teil 1, mündliche Korpora:
Aufnahmen sollten mit der <i>bestmöglichen Aufnahmequalität</i>, die das eingesetzte Gerät bietet, gemacht werden. Dies bedeutet insbesondere, dass nach Möglichkeit bei der Aufnahme <i>keine verlustbehaftete Kompression</i> zum Einsatz kommen sollte. Beispielsweise ist bei einem Audio-Aufnahmegerät also ein Modus, der unkomprimierte Daten mit möglichst hoher Samplingrate speichert, einem Modus zum Speichern im MP3-Format unbedingt vorzuziehen. Weiterhin maßgeblich für die Aufnahmequalität sind die eingesetzten Mikrofone – so ist es z.B. meist empfehlenswert, eine Videokamera mit einem geeigneten externen Mikrofon auszustatten. Bei der Wahl des Aufnahmegerätes sollte außerdem darauf geachtet werden, dass die zum Speichern verwendeten <i>Formate nicht proprietär</i> (d. h. an einen bestimmten Hersteller gebunden) sind oder sich zumindest problemlos und verlustfrei in nicht-proprietäre (d.h. offene) Formate überführen lassen.
- Für Audio-Aufnahmen ist ein <i>unkomprimiertes lineares PCM-Format</i> (typischerweise als WAV gespeichert) mit dem Untersuchungszweck angemessenen Bit- und Samplingraten zu empfehlen. Für gesprochene Sprache in störungsfreien Umgebungen können 16bit/22kHz als Mindestanforderung gelten; 16bit/48kHz sind anzustreben, wenn auch die Aufnahmeumgebung angemessen repräsentiert werden soll (was bei Aufnahmen “im Feld” in der Regel der Fall ist).
- Für die meisten Zwecke sind die Video-Formate, die von den höherwertigen Amateur-Kameras auf dem Markt produziert werden (<i>MPEG2 oder MPEG4/H.264 mit hohen Bitraten</i>) von ausreichender Qualität. Sie können in ihrer Original-Fassung gespeichert und archiviert werden, bis kompressionsfreie Lösungen für die Langzeitarchivierung finanziell erschwinglich sind. Folgende Parameter können dabei als Richtwerte dienen:<ul>
<li>Standard-Definition-Video (720px x 576px oder 704px x 480px) mit MPEG2-Kompression bis zu 9.8 MBit/s (typischerweise um 3.5 Mbit/s) ist geeignet für Aufnahmen im Feld;</li>
<li>High-Definition-Video (1280px x 720px oder 1920px x 1080px) mit H.264/MPEG4 AVC-Kompression bis zu 48 MBit/s (typischerweise um 9 Mbit/s) ist geeignet für detaillierte Analysen von Gestik und Mimik;</li>
<li>als Framerate sollte normalerweise der in Europa übliche Wert von 25fps verwendet werden.</li></ul>
- Unter gewissen Umständen kann auch von vorneherein eine Speicherung von Videos in unkomprimierter Form in Betracht gezogen werden. <i>MJPEG2000</i> (bei entsprechender Kodierung der Tonspur in PCM, s.o.) ist ein derzeit gängiges hierfür geeignetes Format.
- Ungeachtet dieser Empfehlungen kann es notwendig sein, Audio- oder Video-Daten für die Verwendung mit einem spezifischen Tool in einer spezifischen technischen Umgebung geeignet in andere (z.B. platzsparendere oder mit einem bestimmten Tool kompatible) Formate zu konvertieren. Solche konvertierten Daten können als Arbeitsdateien betrachtet werden. Die Versionen in den oben empfohlenen Formaten sollten als “Master-Kopien” in jedem Fall für die Archivierung und Nachnutzung aufbewahrt werden.
Für die Transkription und weitere Annotation mündlicher Daten ist in den letzten zwanzig Jahren eine Vielzahl spezialisierter Software-Tools entwickelt worden, die sowohl einer Effektivierung des Arbeitsablaufes als auch einer Verbesserung der Archivierbarkeit und Nachnutzbarkeit der entstehenden Daten dienen. Grundsätzlich sind solche spezialisierten Software-Tools der Verwendung allgemeiner Textverarbeitungssoftware für die Transkription und weitere Annotation vorzuziehen, da nur erstere die <i>Daten in strukturierter Form</i>, d.h. mit expliziter und damit computergestützt verwertbarer Auszeichnung relevanter Einheiten (Sprecher, Wörter, Äußerungen, Zeitbezüge etc.), speichern. Hierzu wurde 2016 der Standard "ISO 24624:2016: Language resource management -- Transcription of spoken language" als einschlägiger internationaler Standard veröffentlicht, der eine detaillierte Beschreibung und Anleitung für die strukturierte und portable Auszeichnung von gesprochenen Sprachdaten bereitstellt. Wesentliche Punkte, die auch für die Beurteilung anderer Tools bzw. Toolformate herangezogen werden können, sind:
- <i>Unicode-basierte</i> und offen dokumentierte Formate sind anderen Formaten unbedingt vorzuziehen, da diese eine nachhaltige Datenhaltung und Archivierung ermöglichen.
- Formate, die auf einem expliziten <i>Datenmodell</i> oder auf einer expliziten <i>Dokumentgrammatik</i> basieren, vereinfachen das Verständnis und damit eine Weiterverarbeitung der Daten.
- Eine Nachnutzung der Daten wird weiterhin durch eine durchgängige Verknüpfung zwischen Transkriptionen/Annotationen und den zugrunde liegenden Audio- oder Videoaufnahmen wesentlich erleichtert. Formate, die ein solches <i>Alignment zwischen Aufnahme und Transkription</i> ermöglichen, sind daher vorzuziehen.
- Weiterhin sollten Annotationswerkzeuge eine flexible, aber eindeutige Zuordnung unterschiedlicher Annotationsebenen (Sätze, Wörter, Affixe usw.) zueinander erlauben.
- Bei der Wahl eines Tools sollte möglichst auch darauf geachtet werden, dass dessen Format auch von anderen Tools gelesen werden kann bzw. <i>interoperabel</i> mit anderen gebräuchlichen Formaten ist. Bei Tools, deren Entwicklung noch aktiv ist, erhöhen sich die Chancen, dass das zugehörige Format kompatibel mit sich zukünftig herausbildenden Standards sein wird.
- Eine hohe Interoperabilität ist bei <i>XML-basierten Formaten</i> gegeben, da diese sich als allgemeine Standards für die Speicherung komplexerer Textdokumente flächendeckend etabliert haben.
- Rein oder vorwiegend präsentationsorientierte Formate (d. h. Formate, die statt der inhaltlichen Struktur der Daten nur deren visuelle Formatierung repräsentieren, wie z.B. HTML- oder MS Word-Formate) sind in aller Regel für Zwecke der Archivierung und Nachnutzung ungeeignet, weil sie sich nicht flexibel weiterverarbeiten lassen. Gleiches gilt für proprietäre Formate, d.h. solche, die nur von einem bestimmten Tool gelesen werden können.</help>
<text lang="de">In welchen Formaten liegen die Daten vor?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/data-formats/description">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>description</key>
<path>spokencorpus_dfg_5/description/data-formats/description</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/usage_description"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/data-formats"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en"/>
<text lang="en">How / for what purpose will this dataset be used during the project?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wozu / wie wird dieser Datensatz während des Projektes genutzt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/size">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>size</key>
<path>spokencorpus_dfg_5/description/size</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description"/>
<questionset/>
<is_collection>True</is_collection>
<order>4</order>
<title lang="en">Data volume</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "To what extent do these arise or what is the anticipated data volume?"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Volumen</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "In welchem Umfang fallen diese an bzw. welches Datenvolumen ist zu erwarten?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/size/volume">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>volume</key>
<path>spokencorpus_dfg_5/description/size/volume</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/size/volume"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/size"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en"/>
<text lang="en">What is the actual or expected size of the dataset?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Was ist die tatsächliche oder erwartete Größe des Datensatzes?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>radio</widget_type>
<value_type>float</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets>
<optionset dc:uri="https://rdmorganiser.github.io/terms/options/dataset_size_options"/>
</optionsets>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/size/rate">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>rate</key>
<path>spokencorpus_dfg_5/description/size/rate</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/rate"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/description/size"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en">Optional. This is only of concern if the data production rate reaches TB scale.</help>
<text lang="en">How much data is produced per year?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Optional. Dies ist nur relevant, wenn das Wachstum die TB-Größenordnung erreicht.</help>
<text lang="de">Wie hoch ist die erwartete Erzeugungsrate der Daten pro Jahr?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>text</widget_type>
<value_type>integer</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>docu</key>
<path>spokencorpus_dfg_5/docu</path>
<dc:comment/>
<catalog dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5"/>
<order>2</order>
<title lang="en">Documentation and data quality</title>
<title lang="de">Dokumentation und Datenqualität</title>
</section>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/documentation">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>documentation</key>
<path>spokencorpus_dfg_5/docu/documentation</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu"/>
<questionset/>
<is_collection>True</is_collection>
<order>1</order>
<title lang="en">Documentation</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "What approaches are being taken to describe the data in a comprehensible manner (such as the use of available metadata, documentation standards or ontologies)?"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Dokumentation</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "Welche Ansätze werden verfolgt, um die Daten nachvollziehbar zu beschreiben (z. B. Nutzung vorhandener Metadaten- bzw. Dokumentationsstandards oder Ontologien)?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/documentation/standards">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>standards</key>
<path>spokencorpus_dfg_5/docu/documentation/standards</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/metadata/standards"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/documentation"/>
<is_collection>True</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en">From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of corpora </a> (in German), Part 1, spoken corpora:
Careful and extensive documentation of metadata on conversation events and the speakers involved is an essential prerequisite for the integration of spoken corpora in digital infrastructures and for the archivability and reusability of the data. In general, it can therefore be recommended to allow adequate space for the systematic collection and documentation of metadata when creating spoken corpora. In particular, such metadata should be taken into account from the outset that may not appear to be of immediate interest in the investigation, but are indispensable for the subsequent reuse of the data, also and especially by people who were not involved in the original survey.
For the <i> general organization of metadata </i> for spoken corpora, there are some proven data models that are largely identical in their basic structure: they organize a corpus as a set of speech events (communications, sessions), which bundle the related recordings, transcriptions and annotations as well as a set of speakers assigned to one or more of these speech events into a unit. In some cases, the creation and management of metadata in accordance with these data models is carried out by associated tools (e.g. <a href="http://tla.mpi.nl/tools/tla-tools/arbil/" target=_blank> ARBIL</a>, <a href="http://www.exmaralda.org/" target=_blank> EXMARaLDA </a> Corpus Manager). It is advisable to adopt at least the principle of these data models, if not the specific data model itself, unless specific properties of the corpus explicitly contradict this.
<i> Which metadata </i> is specifically collected and documented within such a structure is in turn highly dependent on the specific corpus design and the associated research interests. Nevertheless, there is a range of metadata that should generally be collectable and that are of general interest for the reuse of a corpus. This includes information on the location and time of the recording, the technology used for the recording, information on any relevant additional materials, certain general sociobiographical information (gender, age, origin, role in conversation) and sociolinguistic information (e.g. which languages / dialects are actively / passively mastered and when used) to the speakers, as well as information on the privacy protection status of the recording.
For the question of how these metadata have to be allocated, i.e. which <i> vocabularies </i> have to be used, have so far only begun to be rudimentary answered by a development of procedures that go beyond individual contexts of use. Corresponding suggestions were made, for example, as part of transcription conventions (e.g. the information on the transcript header in GAT or in CHAT), as part of more general standards (e.g. <a href="https://dublincore.org/" target=_blank> DC </a> and <a href="http://www.language-archives.org/documents.html" target=_blank> OLAC</a>, but also in the <a href="https://tei-c.org/guidelines/" target=_blank>TEI guidelines</a>) or as part of standardizing metadata at data centers (e.g. <a href="http://www.mpi.nl/imdi/" target=_blank> IMDI</a>). It is recommended to use existing vocabularies that have already been used in the documentation of comparable corpora.
With the <a href="https://www.clarin.eu/content/component-metadata" target=_blank> Component MetaData Infrastructure (CMDI)</a>, a framework was developed in CLARIN that allows to put the (necessarily) existing heterogeneity in the area of metadata on a common basis. Various CMDI profiles that are suitable for describing spoken corpora are registered in the <a href="https://catalog.clarin.eu/ds/ComponentRegistry/" target=_blank> CLARIN Component Registry</a>. Ultimately, however, the specifications made by the institution that should ensure the sustainable accessibility of a resource are also decisive. Or vice versa: When choosing such an institution, you should always consider which metadata is required there and which metadata can be processed there.
Specific recommendations
- Metadata on spoken corpora should be collected as early as possible in the workflow.
- Metadata should be stored in structured text formats (i.e. usually as XML files, possibly also as a table as CSV files). The widespread practice of documenting metadata exclusively via directory structures and file names is not sufficient for the purposes of reuse and archiving.
- The meta data standards of the <a href="https://dublincore.org/" target=_blank> Dublin Core (DC) Initiative </a> and the <a href="http://www.language-archives.org/documents.html" target=_blank> Open Language Archives Community (OLAC) </a> can be used as a minimum requirement for the description and cataloging of a corpus, but are generally not sufficient to ensure adequate archiving and subsequent use.
- Ideally, metadata should be made using the <a href="https://www.clarin.eu/content/component-metadata" target=_blank> CMDI framework </a> and the <a href="https://catalog.clarin.eu/ds/ComponentRegistry/" target=_blank> CLARIN Component Registry</a>. In particular, it should be checked whether a CMDI profile already in the component registry can be used or expanded for the metadata description. The possibilities here always depend to a large extent on the data center that the resource is to accommodate.
- CMDI profiles for spoken corpora are currently e.g. from various CLARIN centers (<a href="http://www.phonetik.uni-muenchen.de/Bas/BasHomedeu.html" target=_blank> BAS München</a>, <a href="https://corpora.uni-hamburg.de/hzsk/" target=_blank> HZSK Hamburg</a>, <a href="http://agd.ids-mannheim.de/" target=_blank> IDS Mannheim</a>, <a href="https://lac.uni-koeln.de/" target=_blank> LAC Cologne </a>) and from <a href="https://www.dipf.de/de" target=_blank> DIPF </a> develops and forms the basis of the body archiving. In order to assess and, if necessary, select an existing profile, but also to provide general advice on metadata relating to spoken corpora, it is strongly recommended that you contact these centers as part of the project planning.</help>
<text lang="en">Which standards, ontologies, classifications etc. are used to describe the data?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>, Teil 1, mündliche Korpora:
Eine sorgfältige und umfangreiche Dokumentation von Metadaten zu Gesprächsereignissen und den daran beteiligten Sprechern ist eine unablässige Voraussetzung für eine Integration mündlicher Korpora in digitale Infrastrukturen und für die Archivierbarkeit und Nachnutzbarkeit der Daten. Allgemein kann daher empfohlen werden, der systematischen Erhebung und Dokumentation von Metadaten bei der Erstellung mündlicher Korpora angemessenen Raum zuzugestehen. Dabei sollten insbesondere auch solche Metadaten von Vorneherein mitberücksichtigt werden, die für die unmittelbaren Untersuchungsinteressen nicht von Belang scheinen mögen, für die spätere Nachnutzung der Daten – auch und gerade durch Personen, die an der ursprünglichen Erhebung nicht beteiligt waren – aber unverzichtbar sind.
Für die <i>allgemeine Organisation von Metadaten</i> zu mündlichen Korpora existieren einige bewährte Datenmodelle, die in ihrer Grundstruktur weitestgehend identisch sind: Sie organisieren ein Korpus als eine Menge von Sprechereignissen (Kommunikationen, Sessions), die zusammengehörige Aufnahmen, Transkriptionen und Annotationen zu einer Einheit bündeln, sowie eine Menge von Sprechern, die einem oder mehreren dieser Sprechereignisse zugeordnet sind. Teilweise wird die Erstellung und Verwaltung von Metadaten gemäß diesen Datenmodellen von zugehörigen Tools (z.B. <a href="http://tla.mpi.nl/tools/tla-tools/arbil/" target=_blank>ARBIL</a>, <a href="http://www.exmaralda.org/" target=_blank>EXMARaLDA</a> Corpus Manager) unterstützt. Es empfiehlt sich, zumindest das Prinzip dieser Datenmodelle, wenn nicht das konkrete Datenmodell selbst, zu übernehmen, sofern nicht konkrete Eigenschaften des Korpus explizit dagegen sprechen.
<i>Welche Metadaten</i> innerhalb einer solchen Struktur konkret erhoben und dokumentiert werden, ist wiederum in hohem Maße vom spezifischen Korpusdesign und den damit verbundenen Untersuchungsinteressen abhängig. Dennoch gibt es eine Reihe von Metadaten, die generell erhebbar sein sollten und auch von generellem Interesse für die Nachnutzung eines Korpus sind. Dazu gehören Angaben zu Ort und Zeitpunkt der Aufnahmen, die zur Aufnahme verwendete Technik, Angaben zu gegebenenfalls relevanten Zusatzmaterialien, gewisse allgemeine soziobiographische (Geschlecht, Alter, Herkunft, Rolle im Gespräch) und soziolinguistische Angaben (z.B. welche Sprachen/Dialekte werden aktiv/passiv beherrscht und wann verwendet) zu den Sprechern, sowie Informationen zum datenschutzrechtlichen Status der Aufnahme.
Für die Frage, wie, d.h. mit welchen <i>Vokabularen</i>, solche Metadaten zu beschreiben sind, haben sich bislang erst ansatzweise Verfahren herausgebildet, die über individuelle Verwendungskontexte hinausgehen. Entsprechende Vorschläge wurden beispielsweise als Bestandteil von Transkriptionskonventionen (z.B. die Angaben zum Transkriptkopf in GAT oder in CHAT), als Bestandteil allgemeinerer Standards (z.B. <a href="https://dublincore.org/" target=_blank>DC</a> und <a href="http://www.language-archives.org/documents.html" target=_blank>OLAC</a>, aber auch in den <a href="https://tei-c.org/guidelines/" target=_blank>Richtlinien der TEI</a> oder im Rahmen einer Vereinheitlichung von Metadaten an Datenzentren (z.B. <a href="http://www.mpi.nl/imdi/" target=_blank>IMDI</a>) formuliert. Es empfiehlt sich, vorhandene Vokabulare, die bei der Dokumentation vergleichbarer Korpora bereits verwendet wurden, als Orientierung für die Dokumentation des eigenen Korpus heranzuziehen.
Mit der <a href="https://www.clarin.eu/content/component-metadata" target=_blank>Component MetaData Infrastructure (CMDI)</a> wurde in CLARIN ein Framework entwickelt, das es erlaubt, die (notwendigerweise) vorhandene Heterogenität im Bereich der Metadaten auf eine gemeinsame Grundlage zu stellen. In der <a href="https://catalog.clarin.eu/ds/ComponentRegistry/" target=_blank>CLARIN Component-Registry</a> sind verschiedene CMDI-Profile registriert, die sich für die Beschreibung mündlicher Korpora eignen. Letztlich entscheidend sind aber dann auch die Vorgaben, die die Institution macht, die für die nachhaltige Zugänglichkeit einer Ressource sorgen soll. Oder umgekehrt: Bei der Auswahl einer solchen Institution sollte immer bedacht werden, welche Metadaten dort verlangt und welche Metadaten dort verarbeitet werden können.
Konkrete Empfehlungen
- Metadaten zu mündlichen Korpora sollten zum frühestmöglichen Zeitpunkt im Arbeitsablauf erhoben werden.
- Metadaten sollten in strukturierten Textformaten (d.h. in der Regel als XML-Dateien, evtl. alternativ auch tabellarisch als CSV-Dateien) abgelegt werden. Die weit verbreitete Praxis, eine Dokumentation von Metadaten ausschließlich über Verzeichnisstrukturen und Dateibenennungen vorzunehmen, ist für Zwecke der Nachnutzung und Archivierung nicht ausreichend.
- Die Metadatenstandards der <a href="https://dublincore.org/" target=_blank>Dublin Core (DC) Initiative</a> und der <a href="http://www.language-archives.org/documents.html" target=_blank>Open Language Archives Community (OLAC)</a> können als Mindestanforderung für die Beschreibung und Katalogisierung eines Korpus genutzt werden, sind in aller Regel aber alleine nicht ausreichend, um eine adäquate Archivierung und Nachnutzung sicherzustellen.
- Metadaten sollten idealerweise unter Zuhilfenahme des <a href="https://www.clarin.eu/content/component-metadata" target=_blank>CMDI-Frameworks</a> und des <a href="https://catalog.clarin.eu/ds/ComponentRegistry/" target=_blank>CLARIN Component-Registry</a> beschrieben werden. Insbesondere sollte geprüft werden, ob ein bereits in der Component-Registry vorhandenes CMDI-Profil für die Metadaten-Beschreibung genutzt oder erweitert werden kann. Die Möglichkeiten hier hängen immer wesentlich vom Datenzentrum ab, welches die Ressource aufnehmen soll.
- CMDI-Profile für mündliche Korpora werden derzeit z.B. von verschiedenen CLARIN-Zentren (<a href="http://www.phonetik.uni-muenchen.de/Bas/BasHomedeu.html" target=_blank>BAS München</a>, <a href="https://corpora.uni-hamburg.de/hzsk/" target=_blank>HZSK Hamburg</a>, <a href="http://agd.ids-mannheim.de/" target=_blank>IDS Mannheim</a>, <a href="https://lac.uni-koeln.de/" target=_blank>LAC Köln</a>) und vom <a href="https://www.dipf.de/de" target=_blank>DIPF</a> entwickelt und bilden dort die Basis der Korpusarchivierung. Zur Beurteilung und ggf. Auswahl eines vorhandenen Profils, aber auch zu einer allgemeinen Beratung im Hinblick auf Metadaten zu mündlichen Korpora, wird nachdrücklich empfohlen, diese Zentren schon im Zuge der Projektplanung zu kontaktieren.</help>
<text lang="de">Welche Standards, Ontologien, Klassifikationen etc. werden zur Beschreibung der Daten genutzt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>checkbox</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets>
<optionset dc:uri="https://rdmorganiser.github.io/terms/options/metadata_standards"/>
</optionsets>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/documentation/documentation">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>documentation</key>
<path>spokencorpus_dfg_5/docu/documentation/documentation</path>
<dc:comment>Eine Dokumentation wird vom Fachkollegium „Erziehungswissenschaft“ der DFG für solche Forschungsdaten gefordert, die bereitgestellt werden sollen, 'Bereitstellung und Nutzung quantitativer Forschungsdaten in der Bildungsforschung: Memorandum des Fachkollegiums „Erziehungswissenschaft“ der DFG', https://www.dfg.de/download/pdf/foerderung/antragstellung/forschungsdaten/richtlinien_forschungsdaten_bildungsforschung.pdf. Das Fachkollegium „Wirtschaftswissenschaften“ fordert sogar „die Bereitstellung der verwendeten Programme und eine aussagekräftige Beschreibung“ aller Forschungsdaten, die Grundlage einer Publikation sind, siehe 'Management von Forschungsdaten: Was erwartet das Fachkollegium 112 „Wirtschaftswissenschaften“ von Antragstellenden? (Stand November 2018)', https://www.dfg.de/download/pdf/foerderung/antragstellung/forschungsdaten/fachkollegium112_forschungsdatenmanagement_1811.pdf. Frage und Attribut wurden deshalb aufgenommen.</dc:comment>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/documentation"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/documentation"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>4</order>
<help lang="en">From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of writing corpora </a> (in German), Part 1, Spoken Corpora:
It is recommended to consider the relevance of any additional materials at the start of the project, to develop appropriate declarations of consent for the authors, to determine suitable formats for storage and to document the existence and type of additional materials collected in the metadata.
The original recordings (raw data) should be kept for archive purposes at least for the duration of the project, even if the actual transcription and analysis is based on edited (e.g. cut or converted) versions (primary data). If such processing is carried out, it is advantageous for archiving purposes if the reference to the original recording is documented in a comprehensible manner (e.g. “The primary data X were cut out from the raw data Y as sections 5:11 to 20:45”).</help>
<text lang="en">Which components of the data documentation are available together with the dataset?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>, Teil 1, mündliche Korpora:
Es wird empfohlen, bereits bei Projektbeginn die Relevanz etwaiger Zusatzmaterialien zu bedenken, entsprechende Einverständniserklärungen für die Autorinnen und Autoren zu entwickeln, geeignete Formate für die Speicherung festzulegen und das Vorhandensein und die Art der erhobenen Zusatzmaterialien in den Metadaten zu dokumentieren.
Die Originalaufnahmen (Rohdaten) sollten zumindest für die Projektlaufzeit zu Archivzwecken behalten werden, auch wenn die eigentliche Transkription und Analyse anhand bearbeiteter (z.B. geschnittener oder konvertierter) Fassungen (Primärdaten) erfolgt. Erfolgt eine solche Bearbeitung, so ist es für Zwecke der Archivierung vorteilhaft, wenn der Bezug zur Originalaufnahme nachvollziehbar dokumentiert wird (z.B. “Die Primärdaten X wurden als Abschnitt 5:11 bis 20:45 von den Rohdaten Y herausgeschnitten”).</help>
<text lang="de">Welche Komponenten der Datendokumentation stehen zusammen mit dem Datensatz zur Verfügung?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/quality">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>quality</key>
<path>spokencorpus_dfg_5/docu/quality</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu"/>
<questionset/>
<is_collection>True</is_collection>
<order>2</order>
<title lang="en">Data quality</title>
<help lang="en"/>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Datenqualität</title>
<help lang="de"/>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/quality/measures">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>measures</key>
<path>spokencorpus_dfg_5/docu/quality/measures</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/quality_assurance"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/quality"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>7</order>
<help lang="en"/>
<text lang="en">What measures are being adopted to ensure high data quality? Are quality controls in place and if so, how do they operate?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Welche Maßnahmen werden getroffen, um eine hohe Qualität der Daten zu gewährleisten? Sind Qualitätskontrollen vorgesehen und wenn ja, auf welche Weise?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/data-tools">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>data-tools</key>
<path>spokencorpus_dfg_5/docu/data-tools</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu"/>
<questionset/>
<is_collection>True</is_collection>
<order>3</order>
<title lang="en">Tools</title>
<help lang="en"/>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Werkzeuge</title>
<help lang="de"/>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/data-tools/usage_technology">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>usage_technology</key>
<path>spokencorpus_dfg_5/docu/data-tools/usage_technology</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/usage_technology"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/docu/data-tools"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en">To be able to re-use data (e.g. to replicate studies, for meta analysis or to solve new research questions), along with the data the software, equipment and knowledge about special methods to use the data are required. Just as with the formats, the recommendation is: the more standardised, open and established, the better for re-use.</help>
<text lang="en">Which digital methods and tools (e.g. software) are required to use the data?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Um Daten nachnutzen zu können, bspw. für die Replikation von Studien, Metaanalysen oder die Beantwortung neuer Forschungsfragen, werden neben den Daten selbst auch die Software, Geräte etc. und das Wissen über spezielle Verfahren zur Nutzung benötigt. Ebenso wie bei den Formaten gilt hier: je standardisierter, offener und etablierter diese sind, desto einfacher ist i.d.R. eine Nachnutzung möglich.</help>
<text lang="de">Welche digitalen Methoden und Werkzeuge (z. B. Software) sind zur Nutzung der Daten erforderlich?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>saving</key>
<path>spokencorpus_dfg_5/saving</path>
<dc:comment/>
<catalog dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5"/>
<order>3</order>
<title lang="en">Storage and technical archiving the project</title>
<title lang="de">Speicherung und technische Sicherung während des Projektverlaufs</title>
</section>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/storage">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>storage</key>
<path>spokencorpus_dfg_5/saving/storage</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving"/>
<questionset/>
<is_collection>True</is_collection>
<order>1</order>
<title lang="en">Storage</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "How is the data to be stored and archived throughout the project duration"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Speicherung</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "Auf welche Weise werden die Daten während der Projektlaufzeit gespeichert und gesichert?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/storage/type">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>type</key>
<path>spokencorpus_dfg_5/saving/storage/type</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/storage/type"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/storage"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en"/>
<text lang="en">Where is the dataset stored during the project?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wo wird der Datensatz während der Projektlaufzeit gespeichert?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/storage/backups">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>backups</key>
<path>spokencorpus_dfg_5/saving/storage/backups</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/data_security/backups"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/storage"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en">This question refers to backups while the data is being worked with. Questions of long-term preservation will be adressed in the respective section.
From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of corpora </a> (in German), Part 1, spoken corpora:
Recordings should be transferred from the recording device to a computer as soon as possible after the survey and should be converted into open standard formats if appropriate. A basic backup must be guaranteed.</help>
<text lang="en">How and how often will backups of the data be created?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Die Frage bezieht sich auf Backups während der Zeit, in denen mit den Daten gearbeitet wird. Fragen der Langzeitarchivierung werden gesondert im entsprechenden Abschnitt behandelt.
Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>, Teil 1, mündliche Korpora:
Aufnahmen sollten möglichst unmittelbar nach der Erhebung vom Aufnahmegerät auf einen Rechner überspielt und ggf. in offene Standard-Formate konvertiert werden. Ein grundständiges Backup muss gewährleistet sein.</help>
<text lang="de">Wie und wie oft werden Backups der Daten erstellt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/data-security">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>data-security</key>
<path>spokencorpus_dfg_5/saving/data-security</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving"/>
<questionset/>
<is_collection>True</is_collection>
<order>2</order>
<title lang="en">Security</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "What is in place to secure sensitive data throughout the project duration (access and usage rights)?"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Sicherheit</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "Wie wird die Sicherheit sensibler Daten während der Projektlaufzeit gewährleistet (Zugriffs- und Nutzungsverwaltung)?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/data-security/access_permissions">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>access_permissions</key>
<path>spokencorpus_dfg_5/saving/data-security/access_permissions</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/data_security/access_permissions"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/data-security"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en"/>
<text lang="en">Who is allowed to access the dataset?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wer darf auf den Datensatz zugreifen?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/data-security/security_measures">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>security_measures</key>
<path>spokencorpus_dfg_5/saving/data-security/security_measures</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/data_security/security_measures"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/saving/data-security"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>4</order>
<help lang="en"/>
<text lang="en">Which measures or provisions are in place to ensure data security (e.g. protection against unauthorized access, data recovery, transfer of sensitive data)?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Welche Maßnahmen zur Gewährleistung der Datensicherheit werden getroffen (z. B. Schutz vor unbefugtem Zugriff, Datenwiederherstellung, Übertragung sensibler Daten)?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/legal">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>legal</key>
<path>spokencorpus_dfg_5/legal</path>
<dc:comment/>
<catalog dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5"/>
<order>4</order>
<title lang="en">Legal obligations and conditions</title>
<title lang="de">Rechtliche Verpflichtungen und Rahmenbedingungen</title>
</section>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/legal/general-legal-issues-international_yesno">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>general-legal-issues-international_yesno</key>
<path>spokencorpus_dfg_5/legal/general-legal-issues-international_yesno</path>
<dc:comment/>
<attribute/>
<section dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/legal"/>
<questionset/>
<is_collection>False</is_collection>
<order>10</order>
<title lang="en">General legal issues</title>
<help lang="en">Because of the complexity of the legal questions to be considered, the original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a> "What are the legal specifics associated with the handling of research data in your project?" is divided up into the next six subsections.</help>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<title lang="de">Recht allgemein</title>
<help lang="de">Wegen der Komplexität der zu beachtenden Rechtsfragen wird die Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG "Welche rechtlichen Besonderheiten bestehen im Zusammenhang mit dem Umgang mit Forschungsdaten in Ihrem Projekt?" auf die nächsten sechs Unterabschnitte aufgeteilt.</help>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/legal/general-legal-issues-international_yesno/international_yesno">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>international_yesno</key>
<path>spokencorpus_dfg_5/legal/general-legal-issues-international_yesno/international_yesno</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/legal_aspects/international_yesno"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/legal/general-legal-issues-international_yesno"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>0</order>
<help lang="en">If you answer this question with "Yes", please get in touch with the legal department or a respective contact person at your institution to clarify if this has consequences for the project and its data management and if yes, what
consequences these are.</help>
<text lang="en">Does the legal situation of different countries have to be considered?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Falls Sie diese Frage mit "Ja" beantworten, setzen Sie sich bitte mit der Rechtsabteilung bzw. einem/r entsprechenden Ansprechpartner/in an Ihrer Institution in Verbindung, um zu klären, ob sich daraus Konsequenzen für Ihr Projekt
ergeben und wenn ja, welche dies sind.</help>
<text lang="de">Muss die rechtliche Situation verschiedener Länder berücksichtigt werden?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>yesno</widget_type>
<value_type>boolean</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/spokencorpus_dfg_5/legal/sensitive-data-personal_data_yesno">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>sensitive-data-personal_data_yesno</key>
<path>spokencorpus_dfg_5/legal/sensitive-data-personal_data_yesno</path>