Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Recursos disponibles por el estado español #6

Open
rlunaro opened this issue Aug 10, 2014 · 6 comments
Open

Recursos disponibles por el estado español #6

rlunaro opened this issue Aug 10, 2014 · 6 comments

Comments

@rlunaro
Copy link

rlunaro commented Aug 10, 2014

Hola Olea:

Veo que tienes entre las tareas pendientes varias cosas que aparentemente hemos pagado con nuestros impuestos:

  1. listado de topónimos. El Instituto Geográfico Nacional publica el nomenclator geográfico nacional en formato access, que es una lista de todos los pueblos de españa, más otras entidades geográficas.
  2. listado de apellidos. El INE publica una lista de los apellidos más comunes (http://www.ine.es/apellidos/formGeneral.do?vista=1). El listado arroja 5000 apellidos, con lo que el trabajo estaría resuelto.

Por supuesto el problema está en determinar la titularidad de esos datos, si son públicos o no.

@olea
Copy link
Owner

olea commented Aug 25, 2017

Perdona por el infinito retraso en atenderte.

listado de topónimos.
desde hace mucho tiempo tengo un listado como el que dices a medio hacer. Si lo tienes listo estaré encantado de aceptar un PR.

listado de apellidos

Ídem con el PR. Mi lista de apellidos es sólo un subconjunto de la que dices.

Por supuesto el problema está en determinar la titularidad de esos datos, si son públicos o no.

Cuando se refiere a listas de palabras yo me lío la manta a la cabeza y la publico igual, obviamente indicando la fuente. Y en este caso con más énfasis por provenir de una institución pública. Si tratase con datos más elaborados sí que investigaría la licencia de explotación.

@rlunaro
Copy link
Author

rlunaro commented Aug 25, 2017 via email

@olea
Copy link
Owner

olea commented Aug 28, 2017

@rlunaro

Hola, el listado de topónimos no es que lo tenga listo... es que el instituto geográfico nacional ya lo elabora por nosotros.
Lo podrás encontrar en esta url:
http://centrodedescargas.cnig.es/CentroDescargas/equipamiento.do?method=mostrarEquipamiento

tiene buena pinta, sí

Al descargar, te informa de la licencia que es "CC-By", así que supongo que afortunadamente la maquinaria del estado ha zanjado este problema para comodidad nuestra.

ferpecto

Actualmente se distribuye en formato mdb y odb (cuando yo lo consulté sólamente era mdb). Pasar de ese formato a otros formatos (base de datos) es trivial.

sí y no. aún hay que hacer una serie de pasos de extracción y limpieza de los datos para que se quede en un formato usable (en general un puro listado de texto en UTF-8 de una entrada por línea.

yo estoy liadete estos días con varios pendientes para resolverlo ahora :-m

@zurcacielos
Copy link

hola amiguetes de la web,
parece que hay unas 580 millones de personas hablando español, un 8% del planeta.
https://es.wikipedia.org/wiki/Distribuci%C3%B3n_geogr%C3%A1fica_del_idioma_espa%C3%B1ol
La responsabilidad y/o oportunidad recaería en al menos 20 gobiernos e innumerables personas.
Será cuestión de seguir luchando con creatividad.
La gente "colabora" mas cuando le hablas en su "idioma" que es mas "idio" que "ma".
Asi que por ahi con alguna herramienta de rimas o grafos y que les hable de lo "espiritual de las palabras de su dia" o bien una de canciones para rimar, algo de NLP con AI basado en metainformacion poco tradicional de las palabras y sus efectos.

@olea
Copy link
Owner

olea commented Jun 10, 2020

Hola @zurcacielos pues ya nos comentarás de tus progresos. Estamos expectantes.

@oriolvillaret
Copy link

Hola Ismael.
Gracias por tu trabajo, es muy completo y útil. Enhorabuena!
Tengo una pregunta, en el listado de palabras general no hay femeninos, no? Por ejemplo, veo la palabra "digno", pero no "digna" y es algo generalizado creo.
¿Sabes si hay forma de obtener el mismo listado https://github.com/olea/lemarios/blob/master/lemario-general-del-espanol.txt pero que contenga las formas femeninas?
muchas gracias por adelantado!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants