-
Notifications
You must be signed in to change notification settings - Fork 48
Clasificación de lemas
Los archivos de lemas del proyecto RLA-ES se clasifican según varios criterios a saber:
- Fuente de los lemas.
- Distribución geográfica de uso.
- Categoría gramatical de los lemas.
En general, se debe tener en cuenta que la adición de los lemas se hace en orden alfabético por practicidad a la hora de buscar los lemas ya agregado (#38). Se puede usar la utilidad Linux sort -u
para este fin.
Los lemas en este proyecto se pueden clasificar inicialmente en dos grandes categorías según la fuente de la cual se consultan los lemas, y una tercera categoría que se opta por no considerar como perteneciente a estas.
- Directorio
RAE
: En este directorio se incluyen aquellos lemas aprobados por la Real Academia Española y que pueden consultarse en el Diccionario de la Lengua Española (DLE). - Directorio
noRAE
: En este directorio se incluyen aquellos lemas aprobados por las academias de la lengua regionales o cuyo uso sea de amplio uso verificable. Este último caso debe tomarse con precaución. Posibles fuentes de consulta:- Diccionario de americanismos (DAmer): Publicación realizada por la Asociación de Academias de la Lengua Española (ASALE).
- Diccionario Panhispánico de dudas (DPD): Publicación realizada por la Real Academia Española. Tiene acceso a la Nueva gramática de la lengua española (2009) y a la Ortografía de la lengua española (2010).
- Diccionarios de las respectivas academias regionales.
- Fundación del español urgente (Fundéu BBVA): Fundación promovida por la Agencia Efe, patrocinada por BBVA y asesorada por la RAE, cuyo objetivo es el buen uso del español en los medios de comunicación.
- Wikilengua del español: Sitio abierto y participativo para compartir información práctica sobre la norma, el uso y el estilo del español y un medio para reflejar la diversidad de una lengua hablada por cientos de millones de personas. Desarrollado por Fundéu. Usar con precaución.
- Wikcionario en español: la base de datos enlazados libres de la Fundación Wikimedia que puede ser muy interesante para generar vocabularios controlados. Usar con precaución.
- Wikipedia en español: La enciclopedia libre de la Fundación Wikimedia. Usar con precaución.
- Wikidata: la base de datos enlazados de la Fundación Wikimedia, una fuente interesante para extraer listas de palabras. Usar con precaución.
- Diccionarios técnicos: Apropiados para recolectar lemas de distintas especialidades. Usar con precaución.
- Directorio
toponimos
: Los topónimos son tipos de nombres propios asociados a lugares geográficos y por ende no se consideran como parte de los lemasRAE
onoRAE
. Se recomienda consultar los registros oficiales de cada país para la elaboración y actualización de los topónimos según la localización. Para la discusión necesaria sobre la adición de topónimos remitirse a Topónimos en el diccionario y los reportes #38 y #81. Algunas posibles fuentes de topónimos:- listados de instituciones públicas (demográficos, administrativos, geográficos, etc), teóricamente de muy alta fiabilidad pero a veces ofrecen algunos datos inexactos o no 100% congruentes con otras fuentes;
- OpenStreetMap: el mapa internacional confeccionado con datos libres. Según la región los datos pueden tener grados variables de fiabilidad;
- Wikidata: también contiene topónimos internacionales e internacionalizados. Usar con precaución, especialmente con datos extraídos automáticamente Geonames;
- Geonames es una base de datos geográficos internacional. Debe usarse con mucha precaución porque está mantenida automáticamente y puede ofrecer datos inexactos.
No todos los vocablos (lemas) de la lengua española tienen un uso universal así puedan ser entendidos eventualmente. Si un lema es de uso "global" en la lengua española, se ubicará en los archivos que hay inmediatamente bajo los directorios mencionados en la clasificación anterior (RAE/*.txt
, noRAE/*.txt
y toponimos/*.txt
).
Si el lema posee un uso regional, este deberá ubicarse en los directorios l10n/es_XX
que se encontrarán bajo los directorios mencionados anteriormente. Aquí, XX
debe ser reemplazado por el código asociado a la región, en general país, registrado en el Unicode Common Locale Data Repository (CLDR). A continuación la equivalencia correspondiente según las abreviaturas o formas recopiladas en DLE y DAmer.
País | DLE | DAmer | XX |
---|---|---|---|
Argentina | Arg. | Ar | AR |
Bolivia | Bol. | Bo | BO |
Chile | Chile | Ch | CL |
Colombia | Col. | Co | CO |
Costa Rica | C. Rica | CR | CR |
Cuba | Cuba | Cu | CU |
Ecuador | Ec. | Ec | EC |
El Salvador | El Salv. | ES | SV |
España | Esp. | ES | |
Estados Unidos | EE. UU. | EU | US |
Filipinas | Filip. | PH | |
Guatemala | Guat. | Gu | GT |
Guinea Ecuatorial | GQ | ||
Honduras | Hond. | Ho | HN |
México | Méx. | Mx | MX |
Nicaragua | Nic. | Ni | NI |
Panamá | Pan. | Pa | PA |
Paraguay | Par. | Py | PY |
Perú | Perú | Pe | PE |
Puerto Rico | P. Rico | PR | PR |
República Dominicana | R. Dom. | RD | DO |
Uruguay | Ur. | Ur | UY |
Venezuela | Ven. | Ve | VE |
Algunas abreviaturas adicionales y su correspondencia a localizaciones son:
- Á. Andes: Colombia, Venezuela, Ecuador, Perú, Bolivia, Argentina y Chile.
- Am.: Argentina, Bolivia, Chile, Colombia, Costa Rica, Cuba, República Dominicana, Ecuador, El Salvador, Guatemala, Honduras, México, Nicaragua, Paraguay, Perú, Panamá, Puerto Rico, Estados Unidos, Uruguay y Venezuela.
- Am. Cen.: Costa Rica, Cuba, República Dominicana, El Salvador, Guatemala, Honduras, Nicaragua, Panamá y Puerto Rico.
- Ant. (Antillas): Cuba, Puerto Rico, República Dominicana.
- And. (Andalucía), Ar. (Aragón), Áv. (Ávila), Bil. (Bilbao), Burg. (Burgos), Can. (Canarias), Các. (Cáceres), Gal. (Galicia), Mad. (Madrid), Mal. (Málaga), Man. (La Mancha), Nav. (Navarra), Sal. (Salamanca), Seg. (Segovia), Sev. (Sevilla), Tol. (Toledo), Val. (Valencia), Vall. (Valladolid), Zam. (Zamora), Zar. (Zaragoza): España
Si bien para la mayor parte de los lemas será de uso directo su clasificación en los archivos acorde a la categoría gramatical, algunos casos resultan confusos. Estos casos confusos son aquellos que se explicarán en detalle en esta sección. Para los demás, bastará con saber lo que significa la abreviatura respectiva.
Categoría | Abreviatura (DLE/DAmer) |
---|---|
Adjetivos | adj. |
Adverbios | adv. |
Artículos | art. |
Conjunciones | conj. |
Contracciones | contracc. |
Expresiones | expr. |
Interjecciones | interj. |
Locuciones | loc. |
Nombres femeninos | f. |
Nombres masculinos | m. |
Onomatopeyas | onomat. |
Preposiciones | prep. |
Pronombres | pron. |
Verbos intransitivos | intr. |
Verbos pronominales | prnl. |
Verbos transitivos | tr. |
Algunas acepciones de los lemas en el DLE terminan con la mención "U. t. c." o "U. m. c." seguida de una de las abreviaturas mencionadas, indicando que también es válido su uso con dicha categoría gramatical. La mención "s. m." es equivalente a la categoría "m." y la mención "s. f." es equivalente a la categoría "f.". Para más información puede consultar la sección de notas de uso de la RAE.
Los lemas con la indicación de desuso o poco usado ("desus." o "p. us.") se añaden a los archivos con extensión *.old
en lugar de *.txt
.
Respecto a las indicaciones de número y género de los adjetivos y nombres en ocasiones es necesario leer las aclaraciones que aparecen antes de las acepciones.
Es necesario aclarar que los lemas se deben incluir en todas las categorías gramaticales que le apliquen (aclaración realizada por @sbosio en #138).
Respecto al uso de los afijos (banderas que acompañan los lemas), revisar la sección de la wiki Añadir afijos a una palabra.
La clasificación de los lemas de nombres según el género lleva al uso de cinco archivos. Si el lema presenta morfema de número se indica la bandera S
.
-
NombresMasculinos.txt
: Son los lemas de nombres cuya acepción en cuestión es masculina exclusivamente. En DLE y DAmer figuran con la abreviatura de "m.". -
NombresFemeninos.txt
: Son los lemas de nombres cuya acepción en cuestión es femenina exclusivamente. En DLE y DAmer figuran con la abreviatura "f.". -
NombresMasculinosFemeninos.txt
: Son los lemas de nombres cuya acepción en cuestión corresponde a los dos géneros con variación del morfema de género. En este caso los lemas deben incluirse en su forma masculina y acompañarse de la banderaG
para la creación de la variante femenina. Figuran con la abreviatura "m. y f.". pero el lema indica la variación del morfema. -
NombresComunes.txt
: Son los lemas de nombres cuya acepción corresponde a los dos géneros sin presentar morfema de género y cuyo uso aplica para personas. Figuran con la abreviatura "m. y f.". pero el lema no indica la variación del morfema. -
NombresAmbiguos.txt
: Son los lemas de nombres cuya acepción corresponde a los dos géneros sin presentar morfema de género y cuyo uso aplica para cosas y conceptos. Figuran con la abreviatura "m. o f.".
Los últimos tres casos figuran en las acepciones del DLE como "m. y f." (en DAmer "m-f") y distinguir el archivo depende del contexto del significado y de la indicación del lema (si hay indicación de morfema de género).
De los cinco archivos de nombres, solo en el archivo de NombresMasculinosFemeninos.txt
debe figurar la bandera G
, la cual debe estar en todos sus lemas.
Discusiones relacionadas son #138 y #142.
Igualmente existe el archivo NombresCompuestos.txt
para aquellos lemas que no poseen valor gramatical de manera independiente. Estos casos son los lemas que el DLE redirige solo a formas compuestas y no da una definición del lema individual. Una discusión relacionada es #140.
La clasificación de los verbos según la forma de la acción lleva a la generación de archivos individuales y combinados de las tres clasificaciones: transitivos ("tr."), intransitivos ("intr.") y pronominales ("prnl.").
Los casos combinados se producen si el verbo posee múltiples acepciones con la misma distribución geográfica de uso usando las distintas formas o si la misma acepción posee la indicación de las otras formas (en DLE aparece al final de la acepción "U. t. c." o "U. m. c." seguido de la abreviatura de la clase de verbo o en DAmer las clases verbales están separadas por /
).
Actualmente se presenta un caso que se reconoce como error pero no se arreglara por las modificaciones que los casos de sufijos que representa, y es la presencia como palabras válidas verbos únicamente pronominales sin enclítico. La discusión relacionada se encuentra en #116. Una breve discusión de las banderas aplicables a los verbos se encuentra en #6.
Actualmente se discute en #139 pero se recomiendan los siguientes artículos del sitio de la RAE para su discusión: