-
Notifications
You must be signed in to change notification settings - Fork 49
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Compendio de palabras faltantes de la Wikipedia en castellano #24
Comments
La idea es muy buena y el trabajo para llevarla a cabo seguro que ha sido grande así que muchas gracias. |
alguien se anima a incluir las primeras 193 de la lista para la proxima version del diccionario. con eso cubriríamos el 90% de la totalidad de las palabras que aparecen en Wikipedia |
Yo tenía pensado ponerme con ello. Si alguien más se anima buscamos un método para coordinarnos. |
¡es genial! 2015-04-09 13:27 GMT+02:00 eksperimental [email protected]:
Ismael Olea |
Dejo aquí las primeras propuestas por si alguien las quiere repasar Hab → hab (en noRAE/Abreviaturas.txt) Fuera de la lista de palabras elimino especialista/S de RAE/NombresComunes.txt por estar repetido. |
Supongo que querías decir "cápita como tal...". Se podría añadir en noRAE/NombresFemeninos.txt, pero a mí no me importaría que no se añadiera para que el redactor le eche un ojo y compruebe que está usando la construcción correcta (quien sepa usar "per cápita" sabrá cuándo lo está escribiendo y usando bien aunque el corrector se lo marque, y entenderá que no es una palabra en español).
Pues yo, la verdad, no la añadiría. No me parece una abreviatura de uso tan común y puede ocultar errores tipográficos al escribir "del".
Esta está en desuso. ¿Seguro que merece la pena añadirla? El resto de las que propones añadir me parecen bien. Me fío de ti en lo de desambiguar, que son muchos modificadores para revisarlos uno a uno. 😄 De todas formas, estaba esperando a ver si nos solucionan al menos el problema de incluir el diccionario genérico en el paquete de idioma de LibreOffice para dar por cerrada la 2.0 (ya, falta OpenOffice, pero no está en nuestra mano solucionarlo) antes de comenzar a añadir cosas, y pensaba que lo mejor sería comenzar con los PR pendientes, ¿no? |
Con respecto a dello y cápita me parece bien que no estén en el diccionario. Por último, ¿a qué te refieres con PR? |
Por cierto, si no añadimos dello yo eliminaría na que también está en desuso y está como contracción. |
Añado nuevas palabras que he revisado. pedanía → pedanía/S (en RAE/NombresFemeninos.txt) Por el camino me he encontrado: |
PR es "pull request" en terminología de GitHub. 😄 Feliz año a todos, por cierto. |
De acuerdo. |
Tenemos uno para micro, pero no para macro. Tampoco tenemos uno para maxi. Hay varias posibilidades: crear tres prefijos, añadir los tres prefijos nuevos bajo el mismo afijo de mini, o incluso crear otro afijo más y reunir en el de mini también maxi, y en el nuevo afijo micro y macro. El problema de las opciones que agrupan es que pueda haber palabras que no acepten de manera natural los cuatro prefijos. Por ejemplo, "macrofiesta" está bien, pero "microfiesta" no parece muy natural. Añadir los prefijos no es tampoco tema baladí. Ahora tenemos que añadirlos en todos los archivos de afijos y, además, añadirlos no significa que se comiencen a usar inmediatamente: luego tendríamos que revisar todas las palabras que están añadidas con los prefijos incluidos.
Si no me equivoco, si se añade una palabra en minúsculas se considera válida también en mayúsculas, pero no al contrario, por lo que tendría que ir en minúscula. La cuestión es: ¿es una palabra de uso habitual? Yo jamás la había oído.
No sé, solo veo cinco adjetivos que comiencen por neo añadidos ahora mismo (hay otras cuatro, pero para mí no están usando el prefijo, sino que es parte de su raíz, como neoyorquino o neolítoco).
No tenemos variante para Estados Unidos; para el resto, me parece bien.
De acuerdo.
Esto lo hemos pensado varias veces, pero nunca lo hemos hecho. Lo de los afijos lo tendríamos que pensar en un issue separado, en mi opinión. Lo que no pongo es porque estoy de acuerdo también. |
Añado las siguientes palabras que he revisado. für → no existe en español. Además hay que revisar en el fichero de afijos la regla A ya que con sustituir forma sustituición en vez de sustitución. |
El problema está en esta línea:
La razón por la que nuestro corrector no admite como válida "sustituición" es porque el afijo A no está añadido al verbo sustituir. No obstante, he buscado en el diccionario de la RAE (ahora se puede) todas las palabras que acaban en ~uir y salen unas cuantas (he marcado con un asterisco las que pueden derivar una acción):
A continuación abriré un issue separado para esto y lo referenciaré aquí. |
No había revisado tu última lista de palabras:
No es que crea que se vaya a usar mucho pero ¿no sería posible encontrar biodiversidades, en plural?
Yo hay días que no la uso. 😉 Pero, bueno, si se añade (377.000 resultados en Google), sería en noRAE/NombresFemeninos.txt como sismicidad/S (de nuevo, a lo mejor nos podemos ahorrar el plural).
Estas dos podrían derivarse de los respectivos verbos, una vez arreglemos lo del sufijo -ción. Estoy viendo la lista y es enoooooooorme. Para que puedas ir incorporando los cambios sin retener nuevas versiones, ¿no convendría dividir el issue en varios, de acuerdo a porcentajes? Por ejemplo, ahora estás en el 87,16 %. Podrías cubrir hasta el 88 % en este issue y abrir otro para continuar, de manera que podamos incluir el resultado de este en la próxima versión. |
Mi idea era hacer un primer bloque de 100. Después podemos abrir otro reporte con las 93 siguientes y con esto dice @eksperimental que quedaría cubierto el 90% de los casos. |
Mando el último grupo de palabras para completar las 100 primeras il → no existe en español. Además he eliminado taus y lo he cambiado por tau/S |
-mente ya estaba en el issue #60, y acabo de añadir ex- en el comentario inicial. Pero los afijos no nos da tiempo a tenerlos antes de la 2.1, así que, o bien omites los ex- y -mente, o bien los añades y luego, si añadimos los afijos, vamos quitando lo que se convierta en redundante con los respectivos afijos. Si se añade el prefijo ex-, entiendo que no haría falta añadir exjugador en noRAE. Tenemos jugador/GS como adjetivo, así que solo haría falta añadir el prefijo en ese lema. Por cierto, felicidades por acabar un trabajo tan grande. 👍 |
Creo que he subido los cambios correctamente pero si alguien lo puede revisar se lo agradecería. Quedan pendiente de solucionar las siguientes palabras: densamente y presumiblemente quedan a la espera de cerrar el bug #60 Además habría que modificar |
Yo no la añadiría; al menos, de momento no creo que podamos añadir expresiones.
En CORPES aparecen 133 entradas distribuidas en muchos países distintos, por lo que habría que añadirla con carácter general, como sismicidad/S en NombresFemeninos.txt (aunque lo del sufijo de plural podríamos omitirlo porque no creo que vaya a usarse mucho).
Sin duda, en NombresMasculinos.txt, como derrape/S. ¿Puedes hacerlo tú? Mañana es 27 y estaría bien que pudiéramos cerrar lo que queda abierto. Habría que abrir otro issue con las palabras que faltan de aquí, asignar este a la versión 2.1 y cerrarlo. |
Ahora no estoy en casa. Lo puedo añadir mañana por la mañana pero si quieres ir cerrar cosas puedes añadirlas tú sin problema. |
Añado las últimas palabras y doy por cerrado este hilo. |
Una pregunta sobre este issue. ¿No se supone que ibas a añadir las primeras 100 palabras y moverías el resto a otro issue separado? Lo digo porque no he visto que hayas creado otro issue con el resto. ¿Al final has incluido todas? |
Mi idea es pedirle a @eksperimental que vuelva a generar el fichero eliminando las 100 primeras palabras que ya hemos revisado en este issue. @eksperimental ¿puedes volver a generar un nuevo fichero de palabras? Si no podemos seguir con las siguientes palabras de la lista. |
@Almorca no puedo hacerlo en estos dias. |
@eksperimental Por mí no corre prisa y tampoco creo que nadie más se vaya a poner inmediatamente a revisarlo teniendo más issues por cerrar. Lo que sí, si no es mucha molestia, creo que es más útil partir de una nueva lista actualizada que no de ésta que ya tiene un año. Si no te ves con tiempo abrimos un nuevo issue con las palabras que faltan de esta lista y punto. |
El proyecto que se encarga de generar este lista se encuentra compartido en |
Buenas a todos:
Hace un tiempo largo que he estado trabajando en un proyecto que se encarga en utilizar a la Wikipedia en castellano como un corpus. Extraer todas las palabras, hacer una limpieza, y realizar un gran análisis.
Me di cuenta viendo su proyecto, de la necesidad de tener conocimiento de cuáles son las palabras más frecuentes, para de ese modo darle prioridad a las faltantes.
El proyecto en cuestión se encuentra casi listo, pero por cuestiones de tiempo se ha demorado demasiado su publicación. Será software libre y espero sirva para muchos fines, entre ellos, a las personas que se dedican a crear correctores ortográficos, como es el caso de ustedes. Así que antes que deje correr más tiempo, vengo a ofrecerles de momento, un compendio de las palabras mas frecuentes, que no son detectadas por su diccionario.
La lista solamente incluye las primeras 1.872 palabras (la lista completa son algo más de 144.000). Incluyendo estas 1.872 palabras su diccionario estaría cubriendo el 95% de todas las palabras en Wikipedia. Este porcentaje se basa en la cantidad de palabras totales, y no únicas; por lo que toma en consideración su frecuencia. (y agregando solamente 193 palabras cubrirían el 90% de las palabras más populares)
Pueden ver la lista aquí: https://gist.github.com/eksperimental/acfc34a7bed80b967a42
Paso a explicar lo que significa cada columna:
La lista se encuentra ordenada por orden de frecuencia:
Cabe destacar que he eliminado todas las palabras faltantes, que coincidían con el diccionario en ingles de Openoffice, ya que hay una gran cantidad de palabras en ingles en Wikipedia), así que habrá varias que se escriben igual en castellano y en ingles, y que están faltantes en su diccionario, que no aparecen aquí. habría que hacer una revisión manual (puede proveerles la lista completa con las palabras en ingles si así lo desean)
Palabras en total analizadas luego de eliminar hacer una limpieza y eliminar las que tenían muy pocas ocurrencias:
Total de palabras: 360.308.743
Palabras únicas: 686.257
Agradecería que a medida que revisan la lista las palabras que consideren que desean excluir del diccionario, si las pueden agrupar por categorías ya sea por error ortográfico como "despues", o por ser abreviaciones como "msnm", o por cualquier otro motivo. Las agregaría a una lista negra entonces ya no aparecerían en los reportes.
Cualquier duda, no duden en consultar. espero que les sea de ayuda.
-- Eksperimental
Actualización: El proyecto se encuentra disponible en: https://github.com/eksperimental/qorpora
The text was updated successfully, but these errors were encountered: