Sentence Piece Encoder

This is pure go implementation of the sentencepiece encoder. Create an encoder for the given sentencepiece model and then use use the Tokenize function to split the input text into tokens.

Example:

import "github.com/vikesh-raj/go-sentencepiece-encoder/sentencepiece"

text := "This is a sample text"
spm, _ := sentencepiece.NewSentencepieceFromFile("spm.model", false)
tokens := spm.Tokenize(text)

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.github/workflows		.github/workflows
cmd/dumpspm		cmd/dumpspm
sentencepiece		sentencepiece
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
go.mod		go.mod
go.sum		go.sum

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sentence Piece Encoder

About

Releases 1

Packages

Languages

License

vikesh-raj/go-sentencepiece-encoder

Folders and files

Latest commit

History

Repository files navigation

Sentence Piece Encoder

About

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages