Saltar al contenido
Noticias de tecnologia

Búsqueda y rescate: 6 enfoques para la recopilación de datos semánticos

Búsqueda y rescate: 6 enfoques para la recopilación de datos semánticos

Han pasado más de diez años desde que Tim Berners-Lee habló por primera vez sobre la web semántica y las computadoras que indexan todos los datos basados ​​en la web. Dijo: “Los mecanismos diarios del comercio, la burocracia y nuestra vida diaria serán manejados por máquinas que hablan con máquinas. Los ‘agentes inteligentes’ que la gente ha promocionado durante siglos finalmente se materializarán “. Desde entonces, un puñado de empresas ha intentado abordar el problema de la indexación y la interpretación de idiomas basadas en máquinas. Ninguno de ellos es perfecto. A continuación se muestran 6 enfoques únicos para la recopilación de datos semánticos.

Este sitio fue uno de los primeros en aplicar públicamente el procesamiento de lenguaje natural basado en máquinas a un motor de búsqueda de consumidores. Sin embargo, debido a que las expectativas del público eran tan altas, cuando Powerset lanzó una versión beta exclusiva de Wikipedia,

los críticos fueron duros.

El sitio fue adquirido por Microsoft poco después del lanzamiento inicial y el equipo ha sido discreto desde entonces. Si bien Powerset es uno de los motores semánticos definitivos que existen, Microsoft se está concentrando actualmente en utilizar la tecnología de Powerset para indexar las páginas de Wikipedia en Bing. Las páginas de resultados de búsqueda de Powerset en realidad contienen una nota de “Prueba esto en Bing Reference” en la barra lateral del sitio.

Este equipo promocionó su producto de procesamiento de lenguaje como mucho más rápido para indexar páginas que Google; sin embargo, los consumidores rara vez prefieren la velocidad a la calidad y el sitio

fue criticado desde el principio

. Las expectativas no se cumplieron ya que la afirmación de Cuil de que 120 mil millones de páginas indexadas no coincidían con los resultados de

Google reportó 1 billón de URL únicas.

Sin embargo, lo que Cuil hizo bien fue separar los resultados de búsqueda relacionados de los resultados web habituales. Dicho esto, sin ninguna intervención humana, los resultados relacionados son a menudo extraños e irrelevantes. Por ejemplo, mi nombre produce la clasificación de Ultimate Fighting Challenge Champions.

Este es un motor de búsqueda de lenguaje natural donde los resultados patrocinados, los resultados web regulares y los resultados web “creíbles” se dividen visualmente en categorías separadas. Similar a Wikipedia, Hakia

emplea un sistema de monitoreo comunitario para la credibilidad

y los resultados “creíbles” deben ser revisados ​​por pares y aparentemente libres de intereses corporativos. Una de las grandes características de Hakia es que los usuarios pueden navegar por el sitio para mostrar solo imágenes o noticias.

Worio se considera un “motor de descubrimiento”, ya que técnicamente no es un sitio de destino de motor de búsqueda. Si bien los usuarios aún deben visitar el

Destino Worio

, la búsqueda en realidad está impulsada por Yahoo, Google o Windows Live Search. Los resultados web regulares aparecen en la columna más grande del lado izquierdo y los “descubrimientos” basados ​​en el lenguaje natural aparecen a la derecha. Estos descubrimientos se refinan aún más mediante marcadores personales y relevancia compartida con amigos de Facebook.

Ubicuidad para Firefox de Aza Raskin en Vimeo.

La ubicuidad es quizás lo opuesto a un motor web semántico, pero tiene una función similar para aquellos que buscan agregar datos útiles. El complemento de Firefox permite a los usuarios crear líneas de comando que incorporan la búsqueda en lenguaje natural con una serie de mashups. Los usuarios pueden combinar datos relevantes de Craigslist, herramientas de traducción, mapas, reseñas y redes sociales para una fácil visualización del usuario. Si bien el producto final es un documento extremadamente útil, es posible que los usuarios no estén preparados para el drástico cambio de comportamiento que implica el uso de líneas de comando para la recopilación de datos semánticos.

Desde el punto de vista del consumidor, Semanti se encuentra en algún lugar del espectro entre Worio y Ubiquity. ReadWriteWeb

revisó el producto a principios de esta semana

y al igual que Ubiquity, es un complemento de Firefox en lugar de un sitio de destino. Sin embargo, al igual que Worio, emplea los principales motores de búsqueda, marcadores y amigos de Facebook para producir resultados. La diferencia clave de Semanti es que pide a los usuarios que elijan entre múltiples definiciones antes de completar la búsqueda. La toma de decisiones es en realidad impulsada por humanos en lugar de impulsada por máquinas. El director ejecutivo, Bruce Johnson, dijo: “Probé el etiquetado semántico basado en máquinas, pero mi prioridad siempre ha sido una experiencia de búsqueda más rápida”. Si bien este no es el “uso de agentes inteligentes” que sugirió Berners-Lee, es una herramienta “semántica” que ayuda al usuario a extraer el significado y la relevancia del lenguaje.

Si tiene más ejemplos de herramientas de recopilación de datos semánticos, indíquelas en los comentarios a continuación.