This repository has been archived by the owner on Nov 29, 2022. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Ch.10_Introduction.tex
15 lines (11 loc) · 3.09 KB
/
Ch.10_Introduction.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
\chapter{Johdanto\label{intro}}
Koneoppimisen käyttötarkoitusten määrä kasvaa vuosi vuodelta suuremmaksi. Tätä teknologiaa voidaan hyödyntää muun muassa ihmisten puhuman kielen käsittelyyn. Luonnollisen kielen käsittely (eng. Natural Language Processing, NLP) on alati kasvavassa kuluttajakäytössä johtuen seuraavista syistä:
\begin{itemize}
\item laskentatehon kasvu
\item suurien tietomäärien saatavuus
\item onnistuneiden koneoppimismenetelmien kehitys
\item sekä laajempi ihmiskielen ymmärrys ja sen käyttö eri konteksteissa \citep{doi:10.1126/science.aaa8685}.
\end{itemize}
Luonnollisen kielen käsittelyä hyödynnetään kaupallisella puolella, esimerkiksi kohdennetussa mainonnassa. Analysoimalla NLP-luokittimen avulla esimerkiksi käyttäjien lähettämiä viestejä toisilleen, voidaan saada selville tuote, jota kannattaa mainostaa yksilöllle. Viesti ystävälle viestipalvelussa antaa työstettävän datan NLP-luokittimelle: ``Mikä elokuva meidän pitäisi katsoa viikonloppuna? `` NLP-luokittimen avulla automaattinen mainostaja ymmärtää mainostaa kyseiselle käyttäjälle esimerkiksi suoratoistopalvelua tai sarjalippuja mainostavaa elokuvateatteria. Tämän tiedon löytäminen suuresta määrästä dataa luonnollisen kielen käsittelyllä edellyttää kaikkia neljää aikaisemmin mainittua teknologista edistystä kultakin osa-alueelta. Tutkielmassa käydään läpi muitakin käyttökohteita kohdennetun mainonnan lisäksi.
Kaikkien neljän osa-alueen kehittyminen mahdollistaa luonnollisen kielen käsittelyn yleistymisen. Ihmiskielen ymmärtäminen tietokoneen tasolla on kehittynyt huomattavasti, kun ihmisen käyttämää kieltä, virkkeitä ja sanoja on alettu pilkkomaan helpommin ymmärrettäviksi paloiksi \citep{https://doi.org/10.1002/aris.1440370103}. Jotta luonnollisen kielen käsittelyn malli olisi rakennettu älykkäästi, tarvitsemme edistyneitä koneoppimismetodeita. Tämä on tullut kehityksen saatossa mahdolliseksi \citep{jordan2015machine}. Koska datan määrä on kasvanut ja dataa on helpompaa hankkia \citep{gopalakrishnan2018deep}, pystymme kouluttamaan mallin toimimaan mahdollisimman monessa eri tilanteessa. Laskentatehon huomattava kasvu vuosien mittaan \citep{moore1965cramming} on alkanut mahdollistaa suurempien datamäärän käsittelyä kuin aikaisemmin.
Tässä tutkielmassa tarkastellaan NLP-hyökkäysten käyttökohteita. Tähän kuuluuvat hyökkäystyypit, puolustusmenetelmät sekä NLP-luokittimien sekä niihin kohdistuvien hyökkäysten tulevaisuus. Hyökkäystyypeissä käymme läpi erilaisia tapoja hyökätä NLP\- malleja vastaan, hyökkäysten tarkoituksiin ja onnistumisen todennäköisyyksiin. Puolustusmenetelmät ovat tärkeässä osassa, jotta haavoittuvuuteen kohdistuvat yritykset saavat ohjeita vahingon mitigointiin ja ennaltaehkäisyyn. On tärkeää myös spekuloida mahdollisia kehityksiä koneoppimisessa sekä tästä syntyviä haavoittuvuuksia. Lopuksi käymme läpi mahdollisia luonnollisen kielen käyttökohteita tulevaisuudessa sekä näistä aiheutuvia seurauksia eri osa-alueisiin sekä akateemisella että kaupallisella puolella.