Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Vendo appunti troppo specifico #126

Open
ali-benny opened this issue Nov 7, 2023 · 13 comments · Fixed by #156
Open

Vendo appunti troppo specifico #126

ali-benny opened this issue Nov 7, 2023 · 13 comments · Fixed by #156
Assignees
Labels
bug Something isn't working good first issue Good for newcomers

Comments

@ali-benny
Copy link
Member

Necessario avere un raggio più ampio per la vendita di appunti
image

@ali-benny ali-benny added bug Something isn't working good first issue Good for newcomers labels Nov 7, 2023
@samuelemusiani samuelemusiani changed the title Vende pochi appunti Vendo appunti troppo specifico Nov 7, 2023
@samuelemusiani
Copy link
Member

Per ora il bot risponde soltanto se nel messaggio si trova la combinazione di parole vendo appunti. Se cambia anche solo leggermente, come riportato nell'esempio sopra, il bot non viene più triggerato. Sarebbe quindi carino espandere l'euristica per fare in modo che il bot riconosca anche altre frasi

@Flecart
Copy link
Member

Flecart commented Jan 3, 2024

Si potrebbe pensare di chiederlo a un modello xD?
image

Forse si può trainare un embedding ad hoc e comparare una sorta di distanza!?. Non so se esistono metodi che danno una sorta di distanza semantica fra frasi...

@samuelemusiani
Copy link
Member

È abbastanza divertente come venga scritto qualcosa solo quando la issue è stata chiusa ahahah. Comunque a parte gli scherzi: da un certo punto di vista sono consapevole che un AI sia decisamente meglio dell'euristica implementata da me per riconoscere variazioni della stessa frase. Allo stesso tempo però mi vengono un po' di dubbi:

  1. Questo modello come lo vorresti creare? Sarebbe integrato direttamente nella repo del bot? Sarebbe parte del bot stesso o opzionale?
  2. Quante risorse potrebbe chiedere il modello per girare e riconoscere questo tipo di frasi?
  3. Come facciamo a trainarlo se la frase che abbiamo in input nelle autoreplies è solo "vendo appunti"? Se ne aggiungiamo un'altra non dovrebbe essere necessario rifare il training giusto?

@Flecart
Copy link
Member

Flecart commented Jan 4, 2024

Dovrei fare delle ricerche, per rispondere a 1, sarebbe direttamente dentro al bot, come dipendenza per fare questa operazione.
2. Sicuramente il modello in immagine è out of scope per noi.

Per il punto 3 anche questo si dovrebbe andare a cercare.
A pancia dovremmo trovare qualcosa che semplicemente faccia un embedding per il contesto, e poi lo andiamo a confrontare con quanto è distante rispetto a "vendo appunti".
Word2Vec fa embedding, ma non lo conosco bene e non so se si può adattare a questi usi, dovrei leggere qualcosina per risponderti bene.

@samuelemusiani
Copy link
Member

Allora se hai voglia puoi guardarci, appena hai una idea di come potremmo fare ci risentiamo

@bogo8liuk
Copy link
Contributor

Buongiorno ragazzi @Flecart @samuelemusiani , io e un mio collega della magistrale volevamo estendere la funzionalità proprio con un modello (volevamo portare avanti questa cosa come progetto dell'esame di IA per la magistrale). Se volete si può iniziare una collaborazione o, se qualcuno ci sta già lavorando, provare a vedere i modelli più precisi, il tutto con una sana competizione :)

@samuelemusiani
Copy link
Member

Ciao @bogo8liuk! Io non ci sto lavorando quindi aspetterei una risposte di @Flecart per capire se lui ha già iniziato a fare qualcosa. Comunque per me potete tranquillamente lavorarci anche per vedere cosa viene fuori. Alcuni dubbi però mi rimangono in base a come gestire la cosa a livello del bot:

  1. Quante risorse potrebbe chiedere il modello per girare e riconoscere questo tipo di frasi?
  2. Come facciamo a trainarlo se la frase che abbiamo in input nelle autoreplies è solo "vendo appunti"? Se ne aggiungiamo un'altra non dovrebbe essere necessario rifare il training giusto?

@Flecart
Copy link
Member

Flecart commented Jan 21, 2024

Per me ok @bogo8liuk! Fai pure.

@bogo8liuk
Copy link
Contributor

@samuelemusiani per rispondere alle tue domande:

  1. Quante risorse potrebbe chiedere il modello per girare e riconoscere questo tipo di frasi?

Questo sarà probabilmente il punto più critico da verificare, nel senso che purtroppo non lo so ancora. Io e il mio collega non utilizzeremo modelli come code-llama o simili; quello che cercheremo di fare sarà di creare un modello "quasi da zero".

  1. Come facciamo a trainarlo se la frase che abbiamo in input nelle autoreplies è solo "vendo appunti"? Se ne aggiungiamo un'altra non dovrebbe essere necessario rifare il training giusto?

Noi andremo a misurare proprio la similarità (qualunque cosa voglia dire) con "vendo appunti". Tuttavia, ciò che ci interessa individuare in un messaggio è il concetto di vendita di risorse didattiche, quindi al momento ti direi che non è necessario.

@bogo8liuk
Copy link
Contributor

Comunque direi che si può riaprire la issue

@bogo8liuk bogo8liuk self-assigned this Jan 23, 2024
@ali-benny ali-benny reopened this Jan 24, 2024
@github-project-automation github-project-automation bot moved this from Done to Todo in Sviluppatori Bot Jan 24, 2024
@samuelemusiani
Copy link
Member

Perfetto @bogo8liuk, aspetteremo tue notizie

@Flecart
Copy link
Member

Flecart commented Jan 28, 2024

@bogo8liuk https://arxiv.org/abs/1607.01759?
Mi sembra sia figo questo, permette anche classificazione con training ez e supporta italiano, huggingface lo ha senza problemi, ci sono già word embedding in italiano per dire https://huggingface.co/facebook/fasttext-it-vectors

https://github.com/facebookresearch/fastText?tab=readme-ov-file#text-classification (questo dovrebbe essere allenato da zero credo !?)

@bogo8liuk
Copy link
Contributor

@bogo8liuk https://arxiv.org/abs/1607.01759? Mi sembra sia figo questo, permette anche classificazione con training ez e supporta italiano, huggingface lo ha senza problemi, ci sono già word embedding in italiano per dire https://huggingface.co/facebook/fasttext-it-vectors Se ho tempo stasera lo provo.

https://github.com/facebookresearch/fastText?tab=readme-ov-file#text-classification (questo dovrebbe essere allenato da zero credo !?)

Uh sembra molto carino, inoltre utilizza veramente poche risorse, lo terrò in considerazione.
Io sto utilizzando la libreria spaCy https://spacy.io/ , che fa una cosa abbastanza simile a quello che hai proposto e ha anche il supporto per l'italiano.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working good first issue Good for newcomers
Projects
Archived in project
Development

Successfully merging a pull request may close this issue.

4 participants