Se discute las particularidades y fuentes de lemas propios para la versión de Colombia. # Colombianismos Si bien el _diccionario de la lengua española_ ([DLE](http://dle.rae.es/)) de la Real Academia Española recoge lemas regionales (por ejemplo, los colombianismos figuran con _Col._ al inicio de la definición), no todos los regionalismos son aceptados. Los colombianismos no aceptados por la RAE deben tener un criterio de mayor cuidado para su inclusión en el proyecto, pues muchos regionalismos no son recogidos por documentos académicos que definan su apropiado uso. Por el momento, se consideran como confiables las fuentes citadas a continuación. - [Diccionario de americanismos](http://lema.rae.es/damer/). Versión en línea por la Asociación de Academias de la Lengua Española. Los colombianismos son indicados como _Co_. - [Breve diccionario de colombianismos](http://www.academiacolombianadelalengua.co/wp-content/uploads/2016/02/BREVE-DICCIONARIO-PDF-FINAL-JUNIO-7-DE-20131.pdf). Academia Colombiana de la Lengua, 2012. - Publicaciones periódicas [Boletín](http://www.academiacolombianadelalengua.co/boletin/) y [Vigía del idioma](http://www.academiacolombianadelalengua.co/vigia-del-idioma/) de la Academia Colombiana de la Lengua. - [Diccionario comentado del idioma español actual en Colombia](https://books.google.com.co/books?id=e-fPeBQ7NxgC). Ramiro Montoya, 2006. Tercera edición. - Diccionario de colombianismos: nueva expedición al patrimonio léxico colombiano (2015 - 2017). # Personas y empresas La afirmación asociada a que los nombres no poseen ortografía es una afirmación medianamente cierta en el sentido de que un nombre puede ser escrito según su procedencia de varias formas (o tener derivaciones). Sin embargo, esto no hace que no cumpla unas normas establecidas acordes al lenguaje de origen. Así, la inclusión de nombres propios puede generar una gran lista de lemas asociada a las variantes de un mismo nombre y nombres propios que incluso son extranjeros pero de uso local (como tener un diccionario para varios idiomas). Por ello, se hace necesario considerar solo algunos nombres que correspondan a casos de alta frecuencia en su registro o uso en medios. Se debe omitir de los nombres las palabras comunes en algunos nombres como "de", "la", "del", "los" y "las". Igualmente, se valida en la generación de la lista de lemas, que los nombres propios no estén ya incluidos como topónimos (colombianos o del mundo) ni en la lista de nombres propios generales. Partiendo de una lista de nombres compuestos en texto plano, ubicada en el directorio de la localización, se genera la lista de lemas ordenados sin repetición usando la rutina disponible en [gist](https://gist.github.com/cosmoscalibur/b48bb9e15c26ef8019e14ee74a517b96). ## Registraduría Nacional del Estado Civil La Registraduría publica anualmente listados de nombres comunes en sus noticias de final de año, basado en los registros de dicho año. También existen publicaciones ocasionales ## Personajes destacados Se incluyen los lemas asociados a los nombres propios de personajes destacados en distintas disciplinas, de origen nacional o extranjeros que son mencionados con mucha frecuencia. Un buen insumo para estas referencias son las búsquedas en Google acorde a categorías y tomar el registro de la barra de resumen superior. Estas muestran los 50 personajes más populares de cada categoría. - Actores colombianos. - Atletas profesionales colombianos. - Artistas colombianos. - Escritores colombianos. - Empresarios colombianos. - Políticos colombianos. - Presidentes colombianos. # Topónimos En el caso de los topónimos asociados a entes territoriales colombianos, es posible disponer de una fuente oficial de información para su extracción. Esto asegura contar con aquellos topónimos vigentes y además con la ortografía correcta. Los topónimos asociados a accidentes geográficos de Colombia no se encuentran recolectados oficialmente y estos demandarán la consulta de múltiples fuentes en aquellos que no sean tan conocidos para su inclusión. La inclusión de lemas asociados a topónimos colombianos debe cumplir con los parámetros indicados en la sección de la wiki del proyecto original, [Topónimos en el diccionario](https://github.com/sbosio/rla-es/wiki/Top%C3%B3nimos-en-el-diccionario). Al concluir la lista de topónimos de una nueva categoría, validar que solo estén incluidos aquellos que no están presentes en las otras. ## Entidades territoriales Las entidades territoriales en Colombia se encuentran oficialmente registradas en la [Codificación de la División Político-administrativa de Colombia (Divipola)](http://geoportal.dane.gov.co:8084/Divipola/), disponible en el Geoportal del DANE. La última actualización de la codificación fue el 30 de junio de 2017, pero la lista actual de lemas se basa en la actualización anterior (30 de septiembre de 2015) y están disponibles en los siguientes archivos: ``` toponimos-centros_poblados.txt toponimos-departamentos.txt toponimos-municipios.txt ``` La información se puede descargar libremente en formato Excel, en el cual se clasifican los entes territoriales y se listan agrupados según pertenencia a un ente de mayor orden. A partir de la descarga, el proceso siguiente es realizado por una rutina *bash* para la extracción y ajuste a los parámetros indicados de los lemas de topónimos. La rutina está disponible en [gist](https://gist.github.com/cosmoscalibur/695779472fa32c16193639f96aec79b7) (es necesario advertir que la rutina puede requerir de modificaciones para cada nueva actualización del formato del Divipola). El departamento de _Quindío_ por alguna razón figura sin tilde en el reporte del Divipola, pero puede constatarse que su ortografía correcta no solo por tradición, sino por [información oficial del departamento es con tilde](http://quindio.gov.co/). ## Accidentes geográficos No se han definido las fuentes de validación y consulta.