NLTK

Para practicar con un proyecto propio Java a fondo (el críptico libro del argentino Pablo Sznajdleder) estuve buscando las bases de datos de las Percepciones Acumuladas Anuales (2003). Tropecé con los archivos de NLTK. ¡Por ahí una universidad subió el libro completo de O’Reilly en pdf! (500 y pico de páginas de la primera edición 2007, que yo tuve el cuidado de imprimir en la oficina en 2010). Los tres investigadores -Steven Bird, Ewan Klein, and Edward Loper- usan Python. Hay un paquete python-nltk para Debian, aunque parece que un tanto abandonado. Las instrucciones para instalar NLTK en Debian tampoco son muy claras, pero haciendo una mixtura con la documentación oficial, sobre todo respecto a pip, el asunto camina (eso sí, desapareció de mis Aplicaciones el icono de Python 2.7.9 y se quedó el de Python 3.4.2). Tengo que leer un archivo de errores:

Command python setup.py egg_info failed with error code 1 in /tmp/pip-build-8fp3G5/numpy

installing NLTK on Debian

Storing debug log for failure in /root/.pip/pip.log

NLTK 3.1 is now available

Entiendo que la tercera edición de Natural Language Processing with Python (2016) viene con Python3 y NLTK3, pero no consigo el archivo pip install http://nltk.org/nltk3-alpha/nltk-3.0a4.tar.gz, quizá se pueda desde Github, pero no sé cómo (NLTK 3.1 is now available). Luego de la instalación, mi NLTK ha quedado en /usr/local/lib/python2.7/dist-packages/nltk, sigue la descarga del corpus, tienen varios, todos en lengua inglesa. He bajado los que corresponden a los ejemplos del libro. Aunque quizá convenga el de Twitter Samples, que ya lo han trabajado en México los colegas de la UAM-Cuajimalpa: Sistema automático para la visualización de relaciones de opiniones producidas en Twitter.

//platform.twitter.com/widgets.js

python3-nltk

python3-nltk
installing python3-nltk

Captura de pantalla de 2015-10-16 12:04:08 Captura de pantalla de 2015-10-16 12:04:31 Captura de pantalla de 2015-10-16 12:07:25