Saltar al contenido
Noticias de tecnologia

Todo lo que quería saber sobre la tecnología semántica, pero tenía miedo de preguntar (en SemTech 09)

Hakia se relanza con 'sitios creíbles'

Nota del editor: Ofrecemos a nuestros patrocinadores a largo plazo la oportunidad de escribir “Publicaciones de patrocinadores” y contar su historia. Estas publicaciones están claramente marcadas como escritas por patrocinadores, pero también queremos que estén útil e interesante a nuestros lectores. Esperamos que le gusten las publicaciones y le animamos a que apoye a nuestros patrocinadores probando sus productos. Éste es de Hakia, uno de los participantes en la reciente Conferencia de Tecnología Semántica de 2009.

Los participantes de la Conferencia de Tecnología Semántica de 2009 se retiraron considerando cuestiones fundamentales sobre qué es y qué no es tecnología semántica. Con suerte, la relevancia del título de esta publicación quedará clara al final para aquellos de ustedes, lectores traviesos que pueden haberse topado con él con otras ideas. La conferencia fue un gran evento bien organizado en San José, California. Uno de los aspectos más destacados fue el panel de Keynote de búsqueda semántica, con todos los actores principales en el escenario (Ask, Bing, Google, Hakia, TrueKnowledge y Yahoo!), como se ve en la imagen de abajo.

Tenga en cuenta que la tecnología semántica puede ser tan pesada y sofocante para cualquier audiencia como lo puede ser la investigación con células madre para los estudiantes de secundaria. Pero Carla Thompson de Guidewire hizo un excelente trabajo al proponer temas de discusión y moderar el panel. Todos sobrevivieron a la terrible experiencia sin ningún signo de adormecimiento.

A pesar del resultado positivo, algunas respuestas de los panelistas me hicieron preguntarme si deberíamos volver a la pregunta básica “¿Qué es la búsqueda semántica?” O, mejor aún, qué no es búsqueda semántica? Aquí está mi lista:

Datos estructurados

Amigos, la tecnología semántica no son datos estructurados. Una base de datos que pueda, dada la consulta “consumo social”, obtener una lista de marcas de cerveza, sus fabricantes y su información de contacto no tiene nada que ver con la semántica. Algunas personas parecen tener la impresión de que un motor de búsqueda utiliza de alguna manera tecnología semántica si recupera datos estructurados para sus resultados. Es un truco tan antiguo como los antiguos egipcios que usaban ritmos para organizar la información de recolección. La información organizada no es información semántica.

Morfología

Si un motor de búsqueda es robusto y devuelve los mismos resultados para la consulta “top ten” que para “top 10” (es decir, reconoce que “diez” significa 10 “), llamar al motor de búsqueda semántica sería una exageración. Cualquiera podría crear una lista de sustitución como esta sin una gota de conocimiento lingüístico. De manera similar, distinguir el nombre “Fisher” del sustantivo “pescador” detectando las mayúsculas de la primera letra no va más allá de la aplicación de reglas lingüísticas simples. Estas capacidades no son capacidades de búsqueda semántica.

Sintaxis

Se puede salvar una cierta cantidad de información semántica de la sintaxis. Desafortunadamente, si la sintaxis fuera suficiente para que podamos detectar el significado del texto, entonces se podría esperar que un niño de 8 años con una capacidad de lectura perfecta (es decir, que sea capaz de analizar sintácticamente cadenas de letras en inglés) comprenda el significado de las palabras de Shakespeare. trabajos. La diferencia entre leer y comprender es la diferencia entre sintaxis y semántica. El primero requiere la habilidad de analizar las cosas, mientras que el segundo requiere una gran cantidad de conocimiento asociativo.

Estadísticas

Un número infinito de monos escribiendo en un número infinito de teclados eventualmente llegaría al texto completo de la Declaración de Independencia. Esta es una declaración científica; no es una broma. Sin embargo, si se espera que un motor de búsqueda sea semánticamente relevante usando algoritmos estadísticos, habría que esperar hasta que los monos terminen su trabajo. Las estadísticas no tienen cabida en la tecnología semántica. Una simple prueba lo revelaría. Por ejemplo, su cerebro es capaz de comprender una secuencia única de palabras que nunca antes había visto, como “Los osos polares no comen huevos de caimán antes del amanecer”. Si la semántica se basara en estadísticas, las computadoras y los algoritmos no entenderían esto y miles de millones de otras oraciones.

Escalabilidad

La escalabilidad es el estrecho puente entre la ciencia y la tecnología. Lo que puede llevar de la ciencia a la tecnología a través de este puente determina el nivel de capacidades en el mundo real. La ciencia de la semántica es enorme y proviene de las raíces de la filosofía. Pero la búsqueda en la Web es un problema muy particular con estrictas restricciones (un puente estrecho). Diseñar algoritmos semánticos para impulsar un motor de búsqueda web es como caminar sobre cáscaras de huevo y requiere un enfoque completamente nuevo. Por lo tanto, un algoritmo de búsqueda semántica podría ser muy sofisticado pero aún no adecuado para la Web.

Estas cinco áreas cubren lo que no es búsqueda semántica y debería ayudar a los lectores a comprender las preguntas que surgieron de la Conferencia de Tecnología Semántica. Los datos estructurados, la morfología, la sintaxis, las estadísticas y la escalabilidad son áreas clave para analizar el avance. Por supuesto, contrariamente al título de esta publicación, nadie tenía miedo de hacer estas preguntas. Pero si captó la referencia en el título, ese era su cerebro semántico en acción, un último ejemplo de lo que es tecnología semántica.