Definición
La tokenización es el proceso de dividir un texto en unidades más pequeñas, como: palabras, frases o subpalabras.
Importancia
La tokenización es un paso fundamental en el PLN, al permitirle a las máquinas procesar el lenguaje humano de manera más eficiente.

Ejemplo:
- La frase "El perro ladra" se tokeniza en las palabras "El", "perro" y "ladra".