Saltar la navegación

Tokenización: Proceso de convertir texto en unidades significativas

Definición

La tokenización es el proceso de dividir un texto en unidades más pequeñas, como: palabras, frases o subpalabras.

Importancia

La tokenización es un paso fundamental en el PLN, al permitirle a las máquinas procesar el lenguaje humano de manera más eficiente.

Ejemplo:
  • La frase "El perro ladra" se tokeniza en las palabras "El", "perro" y "ladra".