Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Validering av DIAS i .tar og utpakket struktur (ønske om ny funksjonalitet) #162

Open
solfeggietto opened this issue Mar 15, 2023 · 7 comments

Comments

@solfeggietto
Copy link
Collaborator

solfeggietto commented Mar 15, 2023

Arkade 5 v2.9.1 er no meget god på på pakking av SIP/AIP, test av Noark 5 (og SIARD via DBPTK), verktøy for PRONOM filformat-analyse med Gyldig/Ikke gyldig arkivformat, Validering av arkivformat PDF/A og Lag metadata-eksempelfil.

Validering av DIAS i .tar og upakket struktur er en STOR mangel i statlig og kommunal produksojnslinje for bevaring av digitalt skapt arkivmateriale!

Ønske om ny funksjonalitet:
Arkade 5 verktøy for validering av DIAS som format

  • Kan lese DIAS både som DIAS .tar fil og som utpakket DIAS mappestruktur
  • Validere for alle obligatoriske og valgfrie elementer
  • Kontrollere alle filpekere inklusiv sjekksummer
  • Annet?

Viktigheten av å validere DIAS-pakker, gjør at Arkivverket burde prioritere å få dette med som en del av Arkade 5-produktet!

@erikaaberg
Copy link

Ang. punkter over.

1: Arkade kan nå validere DIAS inne i en tar. Men da kun som mappe/filstruktur
2: Vi er litt usikre på hva som menes med "alle" elementer, men se nedenfor
3: Filpekere og sjekksummer er mulig, men krever en del utvikling
4: Tja - si det

Generelt - vi vurderer om vi kan unngå å pakke ut tar-filer før vi tester - og evt produserer IP-er. Dette
kan gjøres ved å "streame" data i stedet for å pakke ut til disk. Men det er et godt stykke arbeid, så
en beslutning er foreløpig ikke tatt.

@solfeggietto
Copy link
Collaborator Author

solfeggietto commented Mar 31, 2023

Spørsmål til Erik sin kommentar under.

Først vil jeg nevne no at vi har akkurat en case hvor et uttrekk Arkivuttrekk.tar er levert inn, testet med Arkade 5 og pakket som DIAS tar med Arkade 5, bare for å oppdage at UUID ikke er en uuid i metadata i uttrekket, men UUID = Arkivuttrekk. Dette fordi Arkade 5 v2.9.1 leste inn Arkivuttrekk.tar som ikke var i DIAS-format, men bare et Noark 5-uttrekk i undermapper. Arkade 5 fant Noark 5-uttrekket der nede, testet uttrekket til 100% gyldig, og pakket det inn med metadata. Men da feilet, det er ikke en DIAS tar hvis det ikke er en unuk UUID for denne SIP-pakken som skal bevares for evigheten i et depotforvaltningssystem.

  1. Nøyaktig hva validerer Arkade 5 av DIAS inne i en tar, når du sier mappe/filstruktur?

  2. Alle elementer er, eksempel SIP som laget av Arkade 5 (AIP kan ha med mer under administrative_metadata tester m.m.)
    DIAS rotmappe: dias-mets.xml, dias-mets.xsd, log.xml
    DIAS rotmappe hovedmapper content, administrative_metadata, descriptive_metadata
    administrative_metadata\ addml.xsd, arkivuttrekk.xml, dias-premis.xml, dias-preis.xsd (for et noark 5-uttrekk eksempel)
    descriptive_metadata\ ingen obligatoriske elementer, depot kan legge til innhold etter ønske/behov
    content\ Noark 5-uttrekk med xml og xsd's og dokumenter\ fagsystem og siard etter behov/ønske

  3. Ja, hvordan kan vi stole på et arkiv bevart i f. eks. Digitalarkivet Depotforvaltningssystem som et Trusted Digital Repository, hvis DIAS-pakkene, eller hva som helst av pakkeformat lagret der IKKE er validert før bevaring? Om vi om 50 år tar ut en pakke kan et verktøy som pakket innholdet ha feilet underveis. Filer kan ha blitt korrumpert. Det MÅ valideres underveis.

@solfeggietto
Copy link
Collaborator Author

solfeggietto commented Mar 31, 2023

Presiserer at jeg snakker kun om IP-pakkeformatet som DIAS SIP og DIAS AIP er. Hvis det er snakk om å validerere innholdet av pakken, f. eks. Noark 5-validering, så er det ikke en del av selve DIAS valideringen. Man må skille pakkelaget til IP-pakkestrukturene med innholdet som er pakket inn.

@joergen-vs
Copy link
Contributor

Notert som Arkad Jira issue 710, skal se hva av innholdet dette feiler på.

@erikaaberg
Copy link

Svarer på 1 her: Det sjekkes kun at påkrevde filer i henhold til DIAS finnes - og ligger på riktig sted i strukturen. Vi er litt usikre på om vi skal gå lenger/dypere/bredere her.

@solfeggietto
Copy link
Collaborator Author

solfeggietto commented Apr 24, 2023

Når en pakke Arkivuttrekk.tar kun har en hovedmappe, med en undermappe som igjen inneholdert et Noark 5-uttrekk

  • Hva er da testet av påkrevde filer i en DIAS IP .tar og hvor dokumenteres dette?
  • Jeg får det ikke helt til å stemme at Arkade 5 v2.9.1 sjekker DIAS struktur i det hele tatt, og i så fall hvor resultatet av denne sjekken finnes?

Svarer på 1 her: Det sjekkes kun at påkrevde filer i henhold til DIAS finnes - og ligger på riktig sted i strukturen. Vi er litt usikre på om vi skal gå lenger/dypere/bredere her.

@erikaaberg
Copy link

Fra: http://docs.arkade.arkivverket.no/no/latest/Brukerveiledning.html#verktoy-menuitem-tools

• DIAS
Validering av en valgt SIP eller AIP som tar-fil eller katalog. Validatoren kontrollerer om informasjonspakken har en fil- og katalogstruktur som er iht. spesifikasjonen for DIAS. (Filinnhold blir ikke kontrollert.) Enkelte spesielle avvik fra standarden blir akseptert av Arkivverket. Det framgår av valideringsresultatet om pakkens struktur er gyldig (uten mangler), ugyldig (mangelfull) eller akseptabel (har aksepterte mangler).

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants