Tokenizzazione

Con il termine tokenizzazione si intende la riduzione di un testo in unità semantiche fondamentali chiamate tokens. Nella stragrande maggioranza delle applicazioni i token corrispondono alle parole (word tokenization), ma in casi particolari possono essere anche sillabe, frasi, paragrafi o…