¿Qué estás buscando?

ESTILO, Manual de estilo para los nuevos medios

Una guía viva en la red sobre los nuevos usos

Borrador

Procesamiento del lenguaje natural

por José Calvo Tello

En las últimas semanas se está hablando mucho de Knowledge Graph, un nuevo proyecto de Google. Como probablemente ya habremos visto en sus vídeos de presentación, parece que su objetivo es organizar la información de personas, lugares, instituciones u otras entidades de manera más estructurada, similar a como los biólogos ordenan en ontologías a los seres vivos y sus características.
Por fin el buscador de buscadores trata de ir más allá de las palabras clave y las cadenas de caracteres y aborda el significado de las cosas. Mientras esperamos a poder trastear con el nuevo juguete, haremos bien en recordar que el significado ha sido el centro de interés (y también de problemas) de muchos enfoques y disciplinas.

Uno de estos enfoques es la web semántica o internet 3.0, la tierra que la informática nos prometió hace más de una década y que sigue siendo eso, una promesa. Para ello se crearon lenguajes informáticos con estructuras más humanas y se subrayó la importancia de la metainformación y la etiquetación semántica. Es decir, como las máquinas no saben interpretar los textos, las personas tenían que ponérselo fácil y dejar marcados con etiquetas los conceptos importantes.

Sin embargo este enfoque dejó sin cubrir aspectos clave del significado: las relaciones complejas entre palabras (¿cómo delimitamos exactamente amigo, noviete, pareja, novio, amante…?), la sinonimia (listo e inteligente significan lo mismo: ¿pongo las dos como etiquetas?), la perífrasis (listo significa ‘no ser tonto’, ¿pongo los dos como etiquetas?), la sinonimia parcial (botón e interruptor pueden ser sinónimos, pero mi camisa no tiene interruptores) o la polisemia (¿cuántas cosas significa la palabra caña? ¿Tiene sentido que la use como etiqueta?).

No solo eso, sino que además olvidaron la importancia que tienen otros aspectos de la lengua que también influyen en el significado: fui es una palabra, también es una forma del verbo ir así como del verbo ser; todas esas relaciones son tratadas por la morfología. Las oraciones «mi hijo no estudia en la Universidad» y «mi hijo sí estudia en la Universidad» contienen la misma cantidad de palabras y coinciden casi todas, sin embargo significan lo contrario; la negación debe ser analizada también por la sintaxis…

Frente a las ontologías de origen filosófico y utilizadas por la biología, o frente a la solución rápida de la web semántica, desde hace años se desarrolla el procesamiento del lenguaje natural, o, como lo llamamos los que trabajamos en él, PLN. Este enfoque de investigación, intersección entre la lingüística, la informática, la estadística y la inteligencia artificial, ha tratado de buscar soluciones a cada parte de la lengua. Para cada una de ellas desarrolla diferentes tipos de herramientas: transcriptores, que convierten las cadenas de texto en representaciones del sonido; conjugadores, que consiguen flexionar los verbos a todas sus formas; lematizadores, que tratan de agrupar las diferentes formas de una palabra en un solo lema; parsers, que analizan la sintaxis de las oraciones; o diccionarios, que estructuran las palabras y relacionan sus significados.

Y todo esto, ¿para qué? De eso hablaremos en nuestro siguiente artículo.

REFERENCIAS

Si te gustó este artículo, quizá te interese ¿Qué nos aporta el procesamiento del lenguaje natural?

SOBRE EL AUTOR/A

José Calvo Tello trabaja como experto en lexicografía en Molino de Ideas, empresa que se dedica al procesamiento del lenguaje natural. Le interesan los proyectos donde se encuentran las lenguas, la literatura y las nuevas tecnologías. Puedes encontrarlo en @eumanismo o en @MolinodeIdeas.

ETIQUETAS:

  • Dilver

    Pues creo que Google va por el camino correcto. Modelar los objetos (vértices) y sus relaciones (aristas) para darle significado a las cosas. Agregaría una dimensión más: contexto.

  • http://twitter.com/OjoPiojo Rodrigo Guaiquil

    El procesamiento de lenguaje natural es complementario al trabajo semántico. Probablemente al igual que la web semántica, tendrán que pasar años antes de que los expertos pase a la gente común y se desarrollen aplicaciones para el común de los mortales.

    Por mi lado, trabajo con un grupo de periodistas chilenos en el desarrollo de un sistema que nos permita establecer las relaciones y conflictos de interés entre los miembros de la elite chilena. El proyecto Poderopedia.com, ganador del Knight News Challenge 2011, utiliza tecnologías semánticas para establecer algo que se menciona en este post, las “relaciones complejas” entre personas y de estas con empresas y organizaciones mediante una ontología única para resolver este tema.
    Probablemente sea el primer camino para sacar la web semántica de los expertos y transformarla en una herramienta de participación ciudadana, que permita mayor transparencia en nuestro país. Para conocer más lean el artículo en http://poderopedia.tumblr.com/

  • http://www.imprentaampra.com/ Tarjetas de visita

    muy buen post es importante que don  google modele sus  objetos