Compendio de palabras faltantes de la Wikipedia en castellano #24

eksperimental · 2015-04-09T11:27:47Z

Buenas a todos:
Hace un tiempo largo que he estado trabajando en un proyecto que se encarga en utilizar a la Wikipedia en castellano como un corpus. Extraer todas las palabras, hacer una limpieza, y realizar un gran análisis.
Me di cuenta viendo su proyecto, de la necesidad de tener conocimiento de cuáles son las palabras más frecuentes, para de ese modo darle prioridad a las faltantes.

El proyecto en cuestión se encuentra casi listo, pero por cuestiones de tiempo se ha demorado demasiado su publicación. Será software libre y espero sirva para muchos fines, entre ellos, a las personas que se dedican a crear correctores ortográficos, como es el caso de ustedes. Así que antes que deje correr más tiempo, vengo a ofrecerles de momento, un compendio de las palabras mas frecuentes, que no son detectadas por su diccionario.

La lista solamente incluye las primeras 1.872 palabras (la lista completa son algo más de 144.000). Incluyendo estas 1.872 palabras su diccionario estaría cubriendo el 95% de todas las palabras en Wikipedia. Este porcentaje se basa en la cantidad de palabras totales, y no únicas; por lo que toma en consideración su frecuencia. (y agregando solamente 193 palabras cubrirían el 90% de las palabras más populares)

Pueden ver la lista aquí: https://gist.github.com/eksperimental/acfc34a7bed80b967a42

Paso a explicar lo que significa cada columna:
La lista se encuentra ordenada por orden de frecuencia:

Position: Es lugar en la lista total e palabras (por ejemplo la primera en la lista es la 610va palabra más popular)
Matches: Cuantas veces se encontró esta palabra
Frequency: 1 en X, en el primer caso la palabra aparece 1 vez en 7.096 palabras
Top%_: es el porcentaje de las palabras mas populares,
Word: es la palabra en cuestión

Cabe destacar que he eliminado todas las palabras faltantes, que coincidían con el diccionario en ingles de Openoffice, ya que hay una gran cantidad de palabras en ingles en Wikipedia), así que habrá varias que se escriben igual en castellano y en ingles, y que están faltantes en su diccionario, que no aparecen aquí. habría que hacer una revisión manual (puede proveerles la lista completa con las palabras en ingles si así lo desean)

Palabras en total analizadas luego de eliminar hacer una limpieza y eliminar las que tenían muy pocas ocurrencias:
Total de palabras: 360.308.743
Palabras únicas: 686.257

Agradecería que a medida que revisan la lista las palabras que consideren que desean excluir del diccionario, si las pueden agrupar por categorías ya sea por error ortográfico como "despues", o por ser abreviaciones como "msnm", o por cualquier otro motivo. Las agregaría a una lista negra entonces ya no aparecerían en los reportes.

Cualquier duda, no duden en consultar. espero que les sea de ayuda.
-- Eksperimental

Actualización: El proyecto se encuentra disponible en: https://github.com/eksperimental/qorpora

Almorca · 2015-04-09T12:23:33Z

La idea es muy buena y el trabajo para llevarla a cabo seguro que ha sido grande así que muchas gracias.
En cuanto empiece con los cambios para la versión 0.9 empezaré por aquí.

eksperimental · 2015-11-19T15:02:27Z

alguien se anima a incluir las primeras 193 de la lista para la proxima version del diccionario. con eso cubriríamos el 90% de la totalidad de las palabras que aparecen en Wikipedia

Almorca · 2015-11-19T15:24:23Z

Yo tenía pensado ponerme con ello. Si alguien más se anima buscamos un método para coordinarnos.

olea · 2015-11-19T18:43:18Z

¡es genial!

2015-04-09 13:27 GMT+02:00 eksperimental [email protected]:

Buenas a todos:
Hace un tiempo largo que he estado trabajando en un proyecto que se
encarga en utilizar a la Wikipedia en castellano como un corpus. Extraer
todas las palabras, hacer una limpieza, y realizar un gran análisis.
Me di cuenta viendo su proyecto, de la necesidad de tener conocimiento de
cuáles son las palabras más frecuentes, para de ese modo darle prioridad a
las faltantes.

El proyecto en cuestión se encuentra casi listo, pero por cuestiones de
tiempo se ha demorado demasiado su publicación. Será software libre y
espero sirva para muchos fines, entre ellos, a las personas que se dedican
a crear correctores ortográficos, como es el caso de ustedes. Así que antes
que deje correr más tiempo, vengo a ofrecerles de momento, un compendio de
las palabras mas frecuentes, que no son detectadas por su diccionario.

La lista solamente incluye las primeras 1.872 palabras (la lista completa
son algo más de 144.000). Incluyendo estas 1.872 palabras su diccionario
estaría cubriendo el 95% de todas las palabras en Wikipedia. Este
porcentaje se basa en la cantidad de palabras totales, y no únicas; por lo
que toma en consideración su frecuencia. (y agregando solamente 193
palabras cubrirían el 90% de las palabras más populares)

Pueden ver la lista aquí:
https://gist.github.com/eksperimental/acfc34a7bed80b967a42

Paso a explicar lo que significa cada columna:
La lista se encuentra ordenada por orden de frecuencia:

Position: Es lugar en la lista total e palabras (por ejemplo la
primera en la lista es la 610va palabra más popular)

Matches: Cuantas veces se encontró esta palabra

Frequency: 1 en X, en el primer caso la palabra aparece 1 vez en
7.096 palabras

Top%_: es el porcentaje de las palabras mas populares,

Word: es la palabra en cuestión

Cabe destacar que he eliminado todas las palabras faltantes, que
coincidían con el diccionario en ingles de Openoffice, ya que hay una gran
cantidad de palabras en ingles en Wikipedia), así que habrá varias que se
escriben igual en castellano y en ingles, y que están faltantes en su
diccionario, que no aparecen aquí. habría que hacer una revisión manual
(puede proveerles la lista completa con las palabras en ingles si así lo
desean)

Palabras en total analizadas luego de eliminar hacer una limpieza y
eliminar las que tenían muy pocas ocurrencias:
Total de palabras: 360.308.743
Palabras únicas: 686.257

Agradecería que a medida que revisan la lista las palabras que consideren
que desean excluir del diccionario, si las pueden agrupar por categorías ya
sea por error ortográfico como "despues", o por ser abreviaciones como
"msnm", o por cualquier otro motivo. Las agregaría a una lista negra
entonces ya no aparecerían en los reportes.

Cualquier duda, no duden en consultar. espero que les sea de ayuda.

Eksperimental

—
Reply to this email directly or view it on GitHub
#24.

Ismael Olea

http://olea.org/diario/

Almorca · 2015-12-23T16:17:02Z

Dejo aquí las primeras propuestas por si alguien las quiere repasar

Hab → hab (en noRAE/Abreviaturas.txt)
cápita → de per cápita. ápita como tal no se acepta por la RAE así que esto no sé como añadirlo.
Von → no existe en español.
Msnm → no existe en español.
Du → no existe en español.
Br → no existe en español.
Tribus → tribu/S (en RAE/NombresFemeninos.txt)
desambiguación → desambiguar/REDAÀÄÌ (en RAE/VerbosTransitivosPronominales.txt)
der → der (en noRAE/Abreviaturas.txt)
ó → ó (en RAE/Conjunciones.txt)
baterista → baterista/S (en RAE/NombresComunes.txt)
goleador → goleador/GS (en RAE/NombresMasculinosFemeninos.txt)
subespecie, subespecies → especie/sGS (en RAE/NombresFemeninos.txt)
subcampeón → campeón/sGS (en RAE/NombresMasculinosFemeninos.txt)
und → no existe en español.
Subtropicales → tropical/sSl (en RAE/Adjetivos.txt)
comune → no existe en español.
autoría → ya en el diccionario
internacionalmente → internacionalmente (en noRAE/Adverbios.txt)
krai → no existe en español.
Nominación → nominación/S (en RAE/NombresFemeninos.txt)
coleoptera → no existe en español.
Remodelación → remodelación/S (en RAE/NombresFemeninos.txt)
ábside → ya en el diccionario
raión → no existe en español.
Della → dello/G (en RAE/Contracciones.txt)
franquista → franquista/S (en RAE/Adjetivos.txt)
codice → no existe en español.
Monotípico → monotípico/S (en noRAE/Adjetivos.txt)
ibn→ no existe en español.
Centrocampista → centrocampista/S (en RAE/NombresComunes.txt)
óblast→ no existe en español.
nominaciones → ya corregido anteriormente
finalización → finalización/S (en RAE/NombresFemeninos.txt)
cantautor → cantautor/GS (en RAE/NombresMasculinosFemeninos.txt)
mediocampista → mediocampista/S (en noRAE/NombresComunes.txt)

Fuera de la lista de palabras elimino especialista/S de RAE/NombresComunes.txt por estar repetido.

RickieES · 2015-12-24T11:29:04Z

cápita → de per cápita. ápita como tal no se acepta por la RAE así que esto no sé como añadirlo.

Supongo que querías decir "cápita como tal...". Se podría añadir en noRAE/NombresFemeninos.txt, pero a mí no me importaría que no se añadiera para que el redactor le eche un ojo y compruebe que está usando la construcción correcta (quien sepa usar "per cápita" sabrá cuándo lo está escribiendo y usando bien aunque el corrector se lo marque, y entenderá que no es una palabra en español).

der → der (en noRAE/Abreviaturas.txt)

Pues yo, la verdad, no la añadiría. No me parece una abreviatura de uso tan común y puede ocultar errores tipográficos al escribir "del".

Della → dello/G (en RAE/Contracciones.txt)

Esta está en desuso. ¿Seguro que merece la pena añadirla?

El resto de las que propones añadir me parecen bien. Me fío de ti en lo de desambiguar, que son muchos modificadores para revisarlos uno a uno. 😄

De todas formas, estaba esperando a ver si nos solucionan al menos el problema de incluir el diccionario genérico en el paquete de idioma de LibreOffice para dar por cerrada la 2.0 (ya, falta OpenOffice, pero no está en nuestra mano solucionarlo) antes de comenzar a añadir cosas, y pensaba que lo mejor sería comenzar con los PR pendientes, ¿no?

Almorca · 2016-01-01T20:35:52Z

Con respecto a dello y cápita me parece bien que no estén en el diccionario.
En cuanto a der tengo mis dudas ya que yo sí creo que der se usa bastante para abreviar derecha.

Por último, ¿a qué te refieres con PR?

Almorca · 2016-01-01T22:16:47Z

Por cierto, si no añadimos dello yo eliminaría na que también está en desuso y está como contracción.

Almorca · 2016-01-01T23:18:38Z

Añado nuevas palabras que he revisado.

pedanía → pedanía/S (en RAE/NombresFemeninos.txt)
rapero → rapero/GS (en RAE/Adjetivos.txt)
rap → rap/S (en RAE/NombresMasculinos.txt)
miniserie → miniserie/S (en RAE/NombresFemeninos.txt) Habría que ver si merece la pena crear un afijo para mini-.
Náhuatl → Náhuatl (en RAE/Adjetivos.txt)
neoclásico → neoclásico/SG (en RAE/Adjetivos.txt). abría que ver si merece la pena crear un afijo para neo-.
Destacable → destacable/S (en RAE/Adjetivos.txt)
congresional → Usado en Antillas (yo entiendo que aquí entra Cuba, República dominicana y Puerto rico), Colombia, Estados Unidos y Nicaragua
congresional/S (en RAE/l10n/es_CO/Adjetivos.txt)
clado → palabra que no está en la RAE y que es usada en biología. Yo opto por no incluirla.
Densamente → hay muchas palabras terminadas en -mente que son de uso común y no aparecen en la RAE. Creo que en este caso si es necesario un afijo -mente.
Necrópolis → necrópolis (en RAE/NombresFemeninos.txt)
subcampeonato → no está en la RAE pero es de uso común. campeonato/sS (añado s a campeonato/S en RAE/NombresMasculinos.txt)

Por el camino me he encontrado:
rape/gS → tiene la bandera g para formar derrape. Deberíamos eliminar esta bandera añadir aparte la palabra derrape.

RickieES · 2016-01-02T12:46:56Z

Por último, ¿a qué te refieres con PR?

PR es "pull request" en terminología de GitHub. 😄

Feliz año a todos, por cierto.

RickieES · 2016-01-02T12:47:56Z

Por cierto, si no añadimos dello yo eliminaría na que también está en desuso y está como contracción.

De acuerdo.

RickieES · 2016-01-02T13:26:25Z

miniserie → miniserie/S (en RAE/NombresFemeninos.txt) Habría que ver si merece la pena crear un afijo para mini-.

Tenemos uno para micro, pero no para macro. Tampoco tenemos uno para maxi. Hay varias posibilidades: crear tres prefijos, añadir los tres prefijos nuevos bajo el mismo afijo de mini, o incluso crear otro afijo más y reunir en el de mini también maxi, y en el nuevo afijo micro y macro. El problema de las opciones que agrupan es que pueda haber palabras que no acepten de manera natural los cuatro prefijos. Por ejemplo, "macrofiesta" está bien, pero "microfiesta" no parece muy natural.

Añadir los prefijos no es tampoco tema baladí. Ahora tenemos que añadirlos en todos los archivos de afijos y, además, añadirlos no significa que se comiencen a usar inmediatamente: luego tendríamos que revisar todas las palabras que están añadidas con los prefijos incluidos.

Náhuatl → Náhuatl (en RAE/Adjetivos.txt)

Si no me equivoco, si se añade una palabra en minúsculas se considera válida también en mayúsculas, pero no al contrario, por lo que tendría que ir en minúscula. La cuestión es: ¿es una palabra de uso habitual? Yo jamás la había oído.

neoclásico → neoclásico/SG (en RAE/Adjetivos.txt). Habría que ver si merece la pena crear un afijo para neo-.

No sé, solo veo cinco adjetivos que comiencen por neo añadidos ahora mismo (hay otras cuatro, pero para mí no están usando el prefijo, sino que es parte de su raíz, como neoyorquino o neolítoco).

congresional → Usado en Antillas (yo entiendo que aquí entra Cuba, República dominicana y Puerto rico), Colombia, Estados Unidos y Nicaragua
congresional/S (en RAE/l10n/es_CO/Adjetivos.txt)

No tenemos variante para Estados Unidos; para el resto, me parece bien.

clado → palabra que no está en la RAE y que es usada en biología. Yo opto por no incluirla.

De acuerdo.

Densamente → hay muchas palabras terminadas en -mente que son de uso común y no aparecen en la RAE. Creo que en este caso si es necesario un afijo -mente.

Esto lo hemos pensado varias veces, pero nunca lo hemos hecho. Lo de los afijos lo tendríamos que pensar en un issue separado, en mi opinión.

Lo que no pongo es porque estoy de acuerdo también.

Almorca · 2016-01-24T20:15:40Z

Añado las siguientes palabras que he revisado.

für → no existe en español.
iraní → ya en el diccionario
porteño → porteño/GS (en RAE/Adjetivos.txt)
biodiversidad → biodiversidad (en RAE/NombresFemeninos.txt)
liguilla → liga/NS (en RAE/NombresFemeninos.txt)
impactos → impacto/S (en RAE/NombresMasculinos.txt)
reestructuración → estructuración/pS (en RAE/NombresFemeninos.txt)
historiografía → historiografía/S (en RAE/NombresFemeninos.txt)
mánager → mánager (en RAE/NombresMasculinosFemeninos.txt)
sismicidad → No aparece en la RAE pero si parece bastante usada. Yo la añadiría.
disquera → disquera/S (en noRAE/NombresFemeninos.txt para CU,VE,UY)
señalización → señalización/S (en RAE/NombresFemeninos.txt)
neutrones → neutrón/S (en RAE/NombresMasculinos.txt)
franquismo → franquismo (en RAE/NombresMasculinos.txt)
futbolística → futbolístico/GS (en RAE/Adjetivos.txt)
destitución → destitución/S (en RAE/NombresFemeninos.txt)
reedición → edición/pS (en RAE/NombresFemeninos.txt)
á → error de escritura
finlandés → ya en el diccionario

Además hay que revisar en el fichero de afijos la regla A ya que con sustituir forma sustituición en vez de sustitución.

RickieES · 2016-01-30T20:25:10Z

Además hay que revisar en el fichero de afijos la regla A ya que con sustituir forma sustituición
en vez de sustitución.

El problema está en esta línea:

SFX A r         ción/S       [^c]ir

La razón por la que nuestro corrector no admite como válida "sustituición" es porque el afijo A no está añadido al verbo sustituir. No obstante, he buscado en el diccionario de la RAE (ahora se puede) todas las palabras que acaban en ~uir y salen unas cuantas (he marcado con un asterisco las que pueden derivar una acción):

afluir
* atribuir
capitidisminuir
circuir
concluir
confluir
confuir
* conseguir
* constituir
* construir
* contribuir
* deconstruir
defuir
delinquir
derelinquir
derrelinquir
derruir
* desobstruir
* destituir
* destruir
difluir
diluir1; diluir2
* diminuir
* disminuir
* distinguir
* distribuir
efluir
eluir
erguir
esmuir
estatuir
excluir
* extinguir
extruir
faquir
fluir
fruir
fuir
gruir
huir
* imbuir
incluir
influir
inmiscuir
* instituir
* instruir
* intuir
irruir
jaquir
luir1; luir2
muir
muquir
* obstruir
* ocluir
* perseguir
precluir
proseguir
* prostituir
protruir
recluir
* reconstituir
* reconstruir
* redistribuir
refluir
rehuir
reseguir
* restituir
* retribuir
seguir
sostituir
* subdistinguir
subseguir
* substituir
* sustituir
tribuir

A continuación abriré un issue separado para esto y lo referenciaré aquí.

RickieES · 2016-01-31T18:34:08Z

No había revisado tu última lista de palabras:

biodiversidad → biodiversidad (en RAE/NombresFemeninos.txt)

No es que crea que se vaya a usar mucho pero ¿no sería posible encontrar biodiversidades, en plural?

sismicidad → No aparece en la RAE pero si parece bastante usada. Yo la añadiría.

Yo hay días que no la uso. 😉 Pero, bueno, si se añade (377.000 resultados en Google), sería en noRAE/NombresFemeninos.txt como sismicidad/S (de nuevo, a lo mejor nos podemos ahorrar el plural).

destitución → destitución/S (en RAE/NombresFemeninos.txt)
reedición → edición/pS (en RAE/NombresFemeninos.txt)

Estas dos podrían derivarse de los respectivos verbos, una vez arreglemos lo del sufijo -ción.

Estoy viendo la lista y es enoooooooorme. Para que puedas ir incorporando los cambios sin retener nuevas versiones, ¿no convendría dividir el issue en varios, de acuerdo a porcentajes? Por ejemplo, ahora estás en el 87,16 %. Podrías cubrir hasta el 88 % en este issue y abrir otro para continuar, de manera que podamos incluir el resultado de este en la próxima versión.

Almorca · 2016-02-01T08:35:37Z

Estoy viendo la lista y es enoooooooorme. Para que puedas ir incorporando los cambios sin retener nuevas versiones, ¿no convendría dividir el issue en varios, de acuerdo a porcentajes? Por ejemplo, ahora estás en el 87,16 %. Podrías cubrir hasta el 88 % en este issue y abrir otro para continuar, de manera que podamos incluir el resultado de este en la próxima versión.

Mi idea era hacer un primer bloque de 100. Después podemos abrir otro reporte con las 93 siguientes y con esto dice @eksperimental que quedaría cubierto el 90% de los casos.

Almorca · 2016-03-22T22:26:51Z

Mando el último grupo de palabras para completar las 100 primeras

il → no existe en español.
Dei → no existe en español.
destacables → ya en el diccionario
vikingos → vikingo/GS (en RAE/Adjetivos.txt)
teclista → teclista/S (en RAE/NombresMasculinosFemeninos.txt)
tau
taus
tipología → tipología/S (en RAE/NombresFemeninos.txt)
iconografía → iconografía/S (en RAE/NombresFemeninos.txt)
pretemporada → temporada/nS (añado n en RAE/NombresFemeninos.txt)
ou → no existe en español.
Exfutbolista → no tenemos afijo para ex- (sería exfutbolista/S en NoRAE/NombresComunes.txt)
torreta → torreta/S (en RAE/NombresFemeninos.txt)
presumiblemente → en CORPES XXI aparecen 595 casos en 512 documentos. Yo lo añadiría y -mente pide a gritos su inclusión en el fichero de afijos.
Vikingo → vikingo/GS (en RAE/Adjetivos.txt)
dia → no existe en español. Problablemente sea un problema de que falte la tilde por lo que se podría reportar a la Wikipedia para que lo revisen.
Narcotráfico → narcotráfico (en RAE/NombresMasculinos.txt)
dels → no existe en español.
Peronismo → peronismo (en RAE/NombresMasculinos.txt)
cirílico → cirílico/GS (en RAE/Adjetivos.txt)
nazismo → nazismo (en RAE/NombresMasculinos.txt)
delimitación → delimitar/REDAÀ (añado A en RAE/VerbosTransitivos.txt)
cofundador → cofundador/GS (en RAE/Adjetivos.txt)
superhéroes → héroe/tS (añado t en RAE/NombresMasculinos.txt)
protagónico → protagónico/S (en RAE/Adjetivos.txt)
pseudónimo → pseudónimo/S (en RAE/Adjetivos.txt)
exjugador → exjugador/S (en NoRAE/NombresMasculinos.txt aunque aquí dudo de si meterlo en RAE) ex- también pide estar en afijos.
Guardameta → guardameta/S (en RAE/NombresMasculinosFemeninos .txt)
hemiptera → es una palabra latina. En español es hemíptero que sí lo tenemos
Geógrafo → geógrafo/GS (en RAE/NombresMasculinosFemeninos.txt)
aprox → aprox (en noRAE/Abreviaturas.txt)
ecorregión → ecorregión/S (en RAE/NombresFemeninos.txt)
pívot → pívot (en RAE/NombresMasculinosFemeninos.txt)
protones → protón/S (en RAE/NombresMasculinos)

Además he eliminado taus y lo he cambiado por tau/S

RickieES · 2016-03-23T18:42:32Z

-mente ya estaba en el issue #60, y acabo de añadir ex- en el comentario inicial. Pero los afijos no nos da tiempo a tenerlos antes de la 2.1, así que, o bien omites los ex- y -mente, o bien los añades y luego, si añadimos los afijos, vamos quitando lo que se convierta en redundante con los respectivos afijos.

Si se añade el prefijo ex-, entiendo que no haría falta añadir exjugador en noRAE. Tenemos jugador/GS como adjetivo, así que solo haría falta añadir el prefijo en ese lema.

Por cierto, felicidades por acabar un trabajo tan grande. 👍

Almorca · 2016-03-26T18:36:49Z

Creo que he subido los cambios correctamente pero si alguien lo puede revisar se lo agradecería.

Quedan pendiente de solucionar las siguientes palabras:
cápita → de per cápita. cápita como tal no se acepta por la RAE así que esto no sé como añadirlo.
sismicidad → No aparece en la RAE pero si parece bastante usada. Yo la añadiría.

densamente y presumiblemente quedan a la espera de cerrar el bug #60

Además habría que modificar
rape/gS → tiene la bandera g para formar derrape. Deberíamos eliminar esta bandera añadir aparte la palabra derrape.

RickieES · 2016-03-26T18:56:40Z

Quedan pendiente de solucionar las siguientes palabras:
cápita → de per cápita. cápita como tal no se acepta por la RAE así que esto no sé
como añadirlo.

Yo no la añadiría; al menos, de momento no creo que podamos añadir expresiones.

sismicidad → No aparece en la RAE pero si parece bastante usada. Yo la añadiría.

En CORPES aparecen 133 entradas distribuidas en muchos países distintos, por lo que habría que añadirla con carácter general, como sismicidad/S en NombresFemeninos.txt (aunque lo del sufijo de plural podríamos omitirlo porque no creo que vaya a usarse mucho).

Además habría que modificar
rape/gS → tiene la bandera g para formar derrape. Deberíamos eliminar esta
bandera añadir aparte la palabra derrape.

Sin duda, en NombresMasculinos.txt, como derrape/S.

¿Puedes hacerlo tú? Mañana es 27 y estaría bien que pudiéramos cerrar lo que queda abierto. Habría que abrir otro issue con las palabras que faltan de aquí, asignar este a la versión 2.1 y cerrarlo.

Almorca · 2016-03-26T19:24:40Z

Ahora no estoy en casa. Lo puedo añadir mañana por la mañana pero si quieres ir cerrar cosas puedes añadirlas tú sin problema.

Almorca · 2016-03-27T10:36:54Z

Añado las últimas palabras y doy por cerrado este hilo.

RickieES · 2016-03-27T15:31:22Z

Una pregunta sobre este issue. ¿No se supone que ibas a añadir las primeras 100 palabras y moverías el resto a otro issue separado? Lo digo porque no he visto que hayas creado otro issue con el resto. ¿Al final has incluido todas?

Almorca · 2016-03-27T22:00:33Z

Mi idea es pedirle a @eksperimental que vuelva a generar el fichero eliminando las 100 primeras palabras que ya hemos revisado en este issue.

@eksperimental ¿puedes volver a generar un nuevo fichero de palabras? Si no podemos seguir con las siguientes palabras de la lista.

eksperimental · 2016-03-28T17:52:24Z

@Almorca no puedo hacerlo en estos dias.
Cuando lo haga puedo cerrar este issue. Sino pueden editarla manualmente, en caso q no lo pueda subir la semana entrante

Almorca · 2016-03-28T19:53:51Z

@eksperimental Por mí no corre prisa y tampoco creo que nadie más se vaya a poner inmediatamente a revisarlo teniendo más issues por cerrar. Lo que sí, si no es mucha molestia, creo que es más útil partir de una nueva lista actualizada que no de ésta que ya tiene un año.

Si no te ves con tiempo abrimos un nuevo issue con las palabras que faltan de esta lista y punto.

eksperimental · 2017-06-25T01:32:23Z

El proyecto que se encarga de generar este lista se encuentra compartido en
https://github.com/eksperimental/qorpora

Almorca self-assigned this Apr 9, 2015

RickieES modified the milestone: Después Jun 10, 2015

RickieES mentioned this issue Jan 30, 2016

El sufijo -ción (bandera A) no trata bien ciertos casos #55

Open

edittler added the mejora label Mar 20, 2016

Almorca added a commit that referenced this issue Mar 26, 2016

Cambios bug #24. Palabras faltantes en la Wikipedia

126ca50

Almorca added a commit that referenced this issue Mar 26, 2016

Cambios bug #24. Palabras faltantes en la Wikipedia

a17f240

Almorca added a commit that referenced this issue Mar 26, 2016

Cambios bug #24. Palabras faltantes en la Wikipedia. Últimas palabras.

34a1aae

Almorca added a commit that referenced this issue Mar 26, 2016

Cambios bug #24. Palabras faltantes en la Wikipedia

7d2d837

Almorca added a commit that referenced this issue Mar 27, 2016

#24 Añado las palabras sismicidad, derrape

3c97fd7

Almorca closed this as completed Mar 27, 2016

edittler modified the milestones: Versión 2.1, Después Mar 27, 2016

Almorca mentioned this issue Mar 27, 2016

Publicación de la versión 2.1 #74

Closed

Almorca mentioned this issue Nov 30, 2016

Compendio de palabras faltantes de la Wikipedia en castellano #95

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Compendio de palabras faltantes de la Wikipedia en castellano #24

Compendio de palabras faltantes de la Wikipedia en castellano #24

eksperimental commented Apr 9, 2015 •

edited

Loading

Almorca commented Apr 9, 2015

eksperimental commented Nov 19, 2015

Almorca commented Nov 19, 2015

olea commented Nov 19, 2015

Almorca commented Dec 23, 2015

RickieES commented Dec 24, 2015

Almorca commented Jan 1, 2016

Almorca commented Jan 1, 2016

Almorca commented Jan 1, 2016

RickieES commented Jan 2, 2016

RickieES commented Jan 2, 2016

RickieES commented Jan 2, 2016

Almorca commented Jan 24, 2016

RickieES commented Jan 30, 2016

RickieES commented Jan 31, 2016

Almorca commented Feb 1, 2016

Almorca commented Mar 22, 2016

RickieES commented Mar 23, 2016

Almorca commented Mar 26, 2016

RickieES commented Mar 26, 2016

Almorca commented Mar 26, 2016

Almorca commented Mar 27, 2016

RickieES commented Mar 27, 2016

Almorca commented Mar 27, 2016

eksperimental commented Mar 28, 2016

Almorca commented Mar 28, 2016

eksperimental commented Jun 25, 2017

Compendio de palabras faltantes de la Wikipedia en castellano #24

Compendio de palabras faltantes de la Wikipedia en castellano #24

Comments

eksperimental commented Apr 9, 2015 • edited Loading

Almorca commented Apr 9, 2015

eksperimental commented Nov 19, 2015

Almorca commented Nov 19, 2015

olea commented Nov 19, 2015

Almorca commented Dec 23, 2015

RickieES commented Dec 24, 2015

Almorca commented Jan 1, 2016

Almorca commented Jan 1, 2016

Almorca commented Jan 1, 2016

RickieES commented Jan 2, 2016

RickieES commented Jan 2, 2016

RickieES commented Jan 2, 2016

Almorca commented Jan 24, 2016

RickieES commented Jan 30, 2016

RickieES commented Jan 31, 2016

Almorca commented Feb 1, 2016

Almorca commented Mar 22, 2016

RickieES commented Mar 23, 2016

Almorca commented Mar 26, 2016

RickieES commented Mar 26, 2016

Almorca commented Mar 26, 2016

Almorca commented Mar 27, 2016

RickieES commented Mar 27, 2016

Almorca commented Mar 27, 2016

eksperimental commented Mar 28, 2016

Almorca commented Mar 28, 2016

eksperimental commented Jun 25, 2017

eksperimental commented Apr 9, 2015 •

edited

Loading