-
Notifications
You must be signed in to change notification settings - Fork 0
05 Lemas
Se discute las particularidades y fuentes de lemas propios para la versión de Colombia.
Si bien el diccionario de la lengua española (DLE) de la Real Academia Española recoge lemas regionales (por ejemplo, los colombianismos figuran con Col. al inicio de la definición), no todos los regionalismos son aceptados.
Los colombianismos no aceptados por la RAE deben tener un criterio de mayor cuidado para su inclusión en el proyecto, pues muchos regionalismos no son recogidos por documentos académicos que definan su apropiado uso. Por el momento, se consideran como confiables las fuentes citadas a continuación.
- Diccionario de americanismos. Versión en línea por la Asociación de Academias de la Lengua Española. Los colombianismos son indicados como Co.
- Breve diccionario de colombianismos. Academia Colombiana de la Lengua, 2012.
- Publicaciones periódicas Boletín y Vigía del idioma de la Academia Colombiana de la Lengua.
- Diccionario comentado del idioma español actual en Colombia. Ramiro Montoya, 2006. Tercera edición.
- Diccionario de colombianismos: nueva expedición al patrimonio léxico colombiano (2015 - 2017).
La afirmación asociada a que los nombres no poseen ortografía es una afirmación medianamente cierta en el sentido de que un nombre puede ser escrito según su procedencia de varias formas (o tener derivaciones). Sin embargo, esto no hace que no cumpla unas normas establecidas acordes al lenguaje de origen.
Así, la inclusión de nombres propios puede generar una gran lista de lemas asociada a las variantes de un mismo nombre y nombres propios que incluso son extranjeros pero de uso local (como tener un diccionario para varios idiomas). Por ello, se hace necesario considerar solo algunos nombres que correspondan a casos de alta frecuencia en su registro o uso en medios.
Se debe omitir de los nombres las palabras comunes en algunos nombres como "de", "la", "del", "los" y "las". Igualmente, se valida en la generación de la lista de lemas, que los nombres propios no estén ya incluidos como topónimos (colombianos o del mundo) ni en la lista de nombres propios generales.
Partiendo de una lista de nombres compuestos en texto plano, ubicada en el directorio de la localización, se genera la lista de lemas ordenados sin repetición usando la rutina disponible en gist.
La Registraduría publica anualmente listados de nombres comunes en sus noticias de final de año, basado en los registros de dicho año. También existen publicaciones ocasionales
Se incluyen los lemas asociados a los nombres propios de personajes destacados en distintas disciplinas, de origen nacional o extranjeros que son mencionados con mucha frecuencia.
Un buen insumo para estas referencias son las búsquedas en Google acorde a categorías y tomar el registro de la barra de resumen superior. Estas muestran los 50 personajes más populares de cada categoría.
- Actores colombianos.
- Atletas profesionales colombianos.
- Artistas colombianos.
- Escritores colombianos.
- Empresarios colombianos.
- Políticos colombianos.
- Presidentes colombianos.
En el caso de los topónimos asociados a entes territoriales colombianos, es posible disponer de una fuente oficial de información para su extracción. Esto asegura contar con aquellos topónimos vigentes y además con la ortografía correcta.
Los topónimos asociados a accidentes geográficos de Colombia no se encuentran recolectados oficialmente y estos demandarán la consulta de múltiples fuentes en aquellos que no sean tan conocidos para su inclusión.
La inclusión de lemas asociados a topónimos colombianos debe cumplir con los parámetros indicados en la sección de la wiki del proyecto original, Topónimos en el diccionario.
Al concluir la lista de topónimos de una nueva categoría, validar que solo estén incluidos aquellos que no están presentes en las otras.
Las entidades territoriales en Colombia se encuentran oficialmente registradas en la Codificación de la División Político-administrativa de Colombia (Divipola), disponible en el Geoportal del DANE. La última actualización de la codificación fue el 30 de junio de 2017, pero la lista actual de lemas se basa en la actualización anterior (30 de septiembre de 2015) y están disponibles en los siguientes archivos:
toponimos-centros_poblados.txt
toponimos-departamentos.txt
toponimos-municipios.txt
La información se puede descargar libremente en formato Excel, en el cual se clasifican los entes territoriales y se listan agrupados según pertenencia a un ente de mayor orden. A partir de la descarga, el proceso siguiente es realizado por una rutina bash para la extracción y ajuste a los parámetros indicados de los lemas de topónimos. La rutina está disponible en gist (es necesario advertir que la rutina puede requerir de modificaciones para cada nueva actualización del formato del Divipola).
El departamento de Quindío por alguna razón figura sin tilde en el reporte del Divipola, pero puede constatarse que su ortografía correcta no solo por tradición, sino por información oficial del departamento es con tilde.
No se han definido las fuentes de validación y consulta.