¿Te entiende Google? Web semántica y PLN

A Google no le interesa entenderme, le basta con dominar el mundo.

Conspiranoias aparte, un buen profesor mío, Jesús Soto, ha publicado recientemente un artículo titulado “¿Te entiende Google?” en la revista universitaria de la UCAM. El artículo en cuestión viene a explicar la necesidad de las tecnologías de procesamiento del lenguaje natural en las búsquedas por Internet. Ejemplifica el problema con las herramientas de traducción automáticas Google y Babelfish y el motor de búsqueda de Google, en los que se obtienen resultados inesperados al traducir “mosca” del español al inglés y viceversa (la traducción de mosca, “fly”, significa también volar), y también al buscar “mosca” (páginas sobre el insecto, la pesca con mosca, etc).

Los dos problemas que plantea son muy diferentes, aunque tienen en común la necesidad del PLN (procesamiento del lenguaje natural). No voy a discutir esta necesidad, ni tampoco los importantes avances que la investigación está logrando. De lo que voy a hablar es sobre web semántica (cómo no).

Señor Soto: de poco vale el maravilloso PLN en un buscador si no hay web semántica. Es muy sencilo: si entre nosotros y el contenido que buscamos está el buscador, debe haber un “protocolo” de comunicación entre nosotros y el buscador (PLN), pero también entre el buscador y el contenido. Dicho de otra manera, con el PLN el buscador entenderá qué es lo que queremos buscar, pero sin web semántica no podrá entender qué es lo que hay en la web. O al menos en el ideal escenario de ese futurista mundo de los agentes inteligentes que nos buscan el vuelo más barato o realizan investigaciones científicas.

Y digo poco porque efectivamente, sí hay lugar para el PLN en las búsquedas sin web semántica. Un pequeño lugar en el que el PLN es utilizado para “entender” el contenido de una web no semántica, una comprensión que se complementa con estadísticas de uso (cuántas más veces se haga click en tal enlace al buscar tal palabra, más cercano semánticamente se considera de los términos buscados) y algoritmos como PageRank. Efectivamente, ese pequeño lugar se llama Google, el buscador que el 96% de los españoles usan.

Podemos considerar esta cuestión como las dos caras de una misma moneda: si la web está escrita en lenguaje natural, y los buscadores son máquinas, o bien hacemos que los buscadores entiendan el lenguaje natural (pero no de cara al usuario, sino de cara al contenido) o que la web se adapte al lenguaje de las máquinas. Los esfuerzos de la investigación actual sobre la web semántica se centran en la realización y despliegue de tecnologías que permitan adaptar el contenido de la web actual a lenguajes formales, procesables por máquinas.

Uno pueda pensar que es mejor hacer que las máquinas comprendan el lenguaje, antes que adaptar los billones de páginas web a esta nueva tecnología. Efectivamente, las tecnologías de PLN tienen una importante función en la web semántica, sin ir más lejos adaptar parcial o totalmente los sitios web actuales a la web semántica. O, de cara al usuario, permitir búsquedas (y no sólo búsquedas, lo que suena más futurista es la idea de agente inteligente) más refinadas. Pero las apariencias engañan: cuando hemos visto a los ordenadores hacer cosas geniales es cuando hemos entendido que la máquina trabaja con una representación parcial del universo en su propio lenguaje. Por ejemplo, la programación.

Limitar la web inteligente al PLN significaría “construir sobre arena”, ya que tendríamos que estar remodelando los algoritmos continuamente, y las aplicaciones de usuario final avanzarían de forma mucho más lenta.

Tareas en GMail, un gran avance

Tareas en GMailEstos días se comenta el lanzamiento de los gadgets de Calendar y tareas para GMail. Y como buen early adopter, me he lanzado a probarlos con una muy buena impresión. Estos pequeños complementos son un gran avance para la productividad personal, ya que permiten centralizar muchas de las operaciones que bastante gente utiliza como núcleo de su trabajo. Junto con las “superstars” son las dos principales innovaciones de GMail con respecto a otros sistemas de gestión del email, tanto en línea (Hotmail, Yahoo!, etc) como offline (Outlook, Thunderbird…).

Aun recuerdo los comienzos de GMail (ojo, que aún hoy sigue en BETA), cuando nos peleábamos por una invitación para poder disfrutar de los 2GB de almacenamiento y sus suculentos 15MB de adjuntos por cada mensaje. Hoy, esas características nos parecen básicas, pero más novedoso parecen, por ejemplo, las opciones de adjuntos como leer en línea documentos en PDF, escuchar los archivos MP3 que nos envían, descargar en distintos formatos los textos recibidos, o mismamente poder chatear desde nuestro cliente de correo electrónico.

Personalmente, soy (mejor dicho, era) usuario de GMail Agenda, un script para Greasemonkey que permite integrar Google Calendar en GMail, así como el propio para Remember The Milk, el más famoso gestor de tareas de la web. Ambas extensiones ya están eliminadas de mi Firefox en favor de los gadgets de GMail. Indudablemente se plantean otras cuestiones típicamente escépticas, como los peligros del monopolio de Google o la privacidad al utilizar un servicio más de Google. Seré franco: aunque no me gusta alabar a Google, con GMail están innovando y para bien. Punto positivo para GMail ;-)