Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Baza de date nouă. #13

Open
necenzurat opened this issue Sep 12, 2019 · 11 comments
Open

Baza de date nouă. #13

necenzurat opened this issue Sep 12, 2019 · 11 comments
Labels
RFC Request for comments.

Comments

@necenzurat
Copy link
Member

Pentru ca sunt multe bube cu asta, ce parere aveti sa ii facem un update cu cea de la INSSE?

Vreun format preferat?

JSON
XML???WHY?!!!
CSV
TSV
SQL?

@necenzurat necenzurat pinned this issue Sep 12, 2019
@necenzurat necenzurat added the RFC Request for comments. label Sep 12, 2019
@SchnWalter
Copy link

Cred că cel mai accesibil format este CSV-ul, oricine are o aplicație pentru spreadsheet-uri.

@necenzurat
Copy link
Member Author

eu renunt la: http://colectaredate.insse.ro/senin/classifications.htm?selectedClassification=SIRUTA_S1_2019&action=download
sunt MDB-uri si nu am idee de un proces automat de a le face frumoase.

@sergiubologa
Copy link

Trebuie ales un singur format? Ar fi greu de mentinut un JSON si un CSV?

@SchnWalter
Copy link

Wow, arhivă RAR? N-am mai văzut așa ceva de prin 2008.

Aș fi curios care este legea care îi obligă să publice acele infromații. Dacă o găsesc, am să le scriu ca să îi trag de urechi, nu de alta, dar RAR este un format proprietar foarte rar folosit (pun intended), și pe lângă asta, ei sigur nu au licentă pentru așa ceva și fiind format privat dubios, nici nu este accesibil tuturor. Am să le sugerez să publice în format ZIP.

Iar legat de MDB, chiar dacă e fechi formatul, e destul de cunoscut, sunt sigur că există zeci de librării pentru diferite limbaje. Am să verific.

-- dar nu vă țineți respirația, că o să dureze puțin până reușesc să îmi fac timp.

@necenzurat
Copy link
Member Author

am verificat eu.
.mdb - nope
.dbf - e ok, dar nu au diacritice
.rtf - fisierul este RTF, are diacritice dar se va ca un 💩

image

@SchnWalter
Copy link

@necenzurat
Copy link
Member Author

am folosit http://mdbtools.sourceforge.net dar rezulta toate numerele in float, cel putin pe mac.

@SchnWalter
Copy link

SchnWalter commented Oct 8, 2019

N-am chinuit azi câteva ore bune să deschid acea bază de date cu Python și n-am reușit. Dar până la urmă am reușit cu DataGrip-ul celor de la JetBrains. Ulterior am reușit să deschid și în DB explorer-ul din PyCharm.

Acum am toate informațiile necesare ca să fac să meargă script-ul de Python, folosind driverul de DB de java (folosit și de DataGrip/PyCharm). Pe săptămâna viitoare sper să avem un script simplu care rulează într-un Python Virtualenv (și folosește Java Runtime). Am să fac un MR când e gata.

Și să ști ca ăștia folosesc diacriticele comuniștilor, care au fost schimbate în 1999. Am să integrez și conversia asta în script; până acum am identificat 3 litere:

$ echo -n 'ÃãŞşŢţ' | hexdump
0000000 83c3 a3c3 9ec5 9fc5 a2c5 a3c5
000000c


$ echo -n 'ĂăȘșȚț' | hexdump
0000000 82c4 83c4 98c8 99c8 9ac8 9bc8
000000c

Aici ai conținutul raw al bazei de date, convertit într-un CSV cu UTF-8 fără BOM, deci s-ar putea să nu meargă în build-ul de MacOS al MS Office. Dar sunt sigur merge în orice altceva.

SIR_DIACRITIC--20191009-011151.utf-8.csv -- nu merge în MacOS cu MS Office

Am adăugat și versiunea cu BOM:

SIR_DIACRITIC--20191009-011151.utf-8-bom.csv

Aparent asta e singura cerință ca să nu facă figuri versiune de MS Office din MacOS.

$ file SIR_DIACRITIC--20191009-011151.utf-8.csv
SIR_DIACRITIC--20191009-011151.utf-8.csv: UTF-8 Unicode text

$ file SIR_DIACRITIC--20191009-011151.utf-8-bom.csv
SIR_DIACRITIC--20191009-011151.utf-8-bom.csv: UTF-8 Unicode (with BOM) text

L.E. Trebuie văzut ce-i cu acele caractere. Am trecut prin chardetect și nu e sigur de ce găsește acolo: Nevermind, BOM-ul era de vină.

$ chardetect SIR_DIACRITIC--20191009-011151.utf-8.csv
SIR_DIACRITIC--20191009-011151.utf-8.csv: utf-8 with confidence 0.99

$ chardetect SIR_DIACRITIC--20191009-011151.utf-8-bom.csv
SIR_DIACRITIC--20191009-011151.utf-8-bom.csv: UTF-8-SIG with confidence 1.0

@necenzurat
Copy link
Member Author

ok, cum, putem automatiza?

@SertITN
Copy link

SertITN commented May 7, 2023

Pentru ca sunt multe bube cu asta, ce parere aveti sa ii facem un update cu cea de la INSSE?

Vreun format preferat?

JSON XML???WHY?!!! CSV TSV SQL?

CSV si XML

@necenzurat
Copy link
Member Author

necenzurat commented May 7, 2023 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
RFC Request for comments.
Projects
None yet
Development

No branches or pull requests

4 participants