From 0a46b5f7f817fb639b8491b84fdeb09feed69232 Mon Sep 17 00:00:00 2001 From: Linas Date: Wed, 11 Jan 2023 23:07:12 +0200 Subject: [PATCH] ADD: Token/tokenizer/tokenization #1 --- README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/README.md b/README.md index f8e57a5..8d8504d 100644 --- a/README.md +++ b/README.md @@ -32,6 +32,7 @@ Arba kreiptis el.paštu: linas.petkevicius@mif.vu.lt | Capsule neural network | Kapsulinis neuroninis tinklas | | | Cascade Classifier | Pakopinis klasifikatorius | | | Causal inference | Priežastingumo analizavimas | Tai procesas nustatyti priežastingumo ryšius. Nemaišyti su koreliacija, jei dydžiai koreliuoti, nebūtinai jie įtakoja vienas kitą. | +|Character-based tokenization | Teksto skaidymas į teksto vienetus procesas teksto vienetams priskiriant unikalius teksto simbolius.|| | Cyclic consistency | Cikliškai pastovus | | | Computer vision | Kompiuterinės regos | | | Confidence map | Pasikliovimo žemėlapis | | @@ -239,6 +240,7 @@ Jei tyrinėjantis algoritmas suteikia atlygį naujiems (prieštai nebandytiems) | Stride | Žingsnis | | | Structural similarity index | Struktūrinis panašumas | | | Sub-level structural similarity index | Struktūrinis subintensivumų panašumas | | +|Subword tokenization | Teksto skaidymas į teksto vienetus procesas teksto vienetams priskiriant unikalias teksto dalis.|| | Sum pooling layer | Telkimo sumuojant sluoksnis | | | Supervised learning | Prižiūrimas mokymas | | | Swish activation function | Švituojanti aktivacijos funkcija | $$\sigma(x) = \frac{x}{1 + e^{-x}} = x \sigma(x)$$ žr. Pasvertas sigmoidinis tiesinis vienetas | @@ -254,6 +256,9 @@ Jei tyrinėjantis algoritmas suteikia atlygį naujiems (prieštai nebandytiems) | Training data | Apmokymo duomenys | | | Transformation network | Transformacinis tinklas | | | Trial-and-error search | Paieška bandymų-klaidų būdu | | +| Token | Teksto vienetas | Teksto vienetas tai skaitinė reikšmė - indeksas nusakantis fiksuotą simbolį, žodžio dalį arba žodį. | +| Tokenization | Teksto skaidymas į teksto vienetus | Teksto skaidymas į teksto vienetus vienareikšmiškai priskiria duotam tekstui sąrašą teksto vienetų (indeksų). | +| Tokenizer | Teksto skaidymo į teksto vienetus modelis/transformacija| | | Unpooling | Atspaudimas | | | Validation data | Validavimo duomenys | | | Vanishing gradient problem | Nykstančių gradientų problema | Vertinant nežinomus parametrus gradientiniais metodais, kai turime sudėtingą modelį taikome diferenciavimo taisyklę $$ \begin{eqnarray*} \frac{\partial \mathcal{L}}{\partial \theta_{k}^1} = \frac{\partial \mathcal{L}}{\partial \theta_{z}^L} \frac{\partial \theta_{z}^L}{\partial \theta_{z}^{L-1}} \cdot \cdot \cdot \frac{\partial \theta_{z}^{1}}{\partial \theta_{k}^1} \end{eqnarray*}$$, tačiau jei narių skaičius didelis, ir apskaičiuotos dalinių išvestinių reikšmės mažos, galutinė reikšmė greitai nyksta. Tai ir vadinama nykstančių gradientų problema. | @@ -267,5 +272,6 @@ Jei tyrinėjantis algoritmas suteikia atlygį naujiems (prieštai nebandytiems) | Weighted entropy-variance method | Pasvertas entropijos-dispersijos metodas | | | Weight matrix | Parametrų matrica | | | Weight update | Parametrų atnaujinimas | | +| Word tokenization | Teksto skaidymas į teksto vienetus tai procesas teksto vienetams priskiriant unikalius teksto žodžius. || | Zoneout | Atsitiktinio išlaikymo transformacija | žr. Atsitiktinio išlaikymo transformacija | | Zero padding | Papildymas nuliais | |