Team Leader: @rgs1
Co-leader: @martinezlucas98
En este proyecto vamos a prototipar la siguiente generación de buscadores. Usaremos el dominio *.uc.edu.py, como testing input.
- 🧑🎨 Frontend: puede ser web o línea de comando (o ambos!)
- 🤔 Query understanding: tokenizer básico o NLP o ML (o todos!)
- 📚 Backend online serving: recibe query interpretado o estructurado y devuelve resultados rankeados por relevancia (rápidamente!)
- 🕷 Backend offline: araña/crawler utilizando scrapy para poder descubrir y visitar todo el contenido de *.uc.edu.py
- 📇 Backend índice: crear índice de búsqueda a partir de lo que devuelve la araña
Python 3, librerías NLP, scrappy para crawling, algún framework para la interfaz, tal vez ML.
Como mínimo, el buscador debe poder generar respuestas relevantes para el set de preguntas incluídos en el set de preguntas de pruebas.
Rúbrica de puntajes para la contribución (2nda y 3era fase):
El buscador genera respuesta para el set de preguntas de pruebas Cobertura de testing Generación de stats