Investigando acerca de la librería NLTK, he aprendido métodos tales como nltk.tokenize import sent_tokenize. En este proceso puedo tokenizar oraciones o párrafos. A su vez "word_tokenize" funciona como un tokenizador de palabras de una oración o párrafos.
Para tokenizar textos que no están en ingles se agrega un parámetro donde se indique el idioma que se quiera utilizar.
El método wordnet es una base de datos para el procesamiento del lenguaje natural donde incluye sinónimos y una definición.
No hay comentarios:
Publicar un comentario