Saltar al contenido
Noticias de tecnologia

Una nueva ontología comercial de Hakia

Hakia se relanza con 'sitios creíbles'

Nota del editor: Ofrecemos a nuestros patrocinadores a largo plazo la oportunidad de escribir “Publicaciones de patrocinadores” y contar su historia. Estas publicaciones están claramente marcadas como escritas por patrocinadores, pero también queremos que estén útil e interesante a nuestros lectores. Esperamos que le gusten las publicaciones y le animamos a que apoye a nuestros patrocinadores probando sus productos.

En Hakia estamos orgullosos de anunciar nuestra próxima ontología comercial, quizás la primera del mundo. ¿Qué es una ontología comercial? Si está haciendo esta pregunta, acaba de mencionar una distinción importante: fantasía versus realidad. En el contexto de la Web, una ontología comercial es una versión realista de una ontología, como explicamos a continuación.

Realidades de la Web

Hakia ha logrado dos innovaciones importantes en la construcción de su ontología comercial (CO): primero, el desarrollo de conceptos y léxicos que siguen pautas estrictas sobre las realidades de las operaciones web. ¿Cuáles son estas realidades? La mayoría de las consultas de búsqueda en la Web reflejan una única dimensión de intención, casi exclusivamente relevante para temas comerciales. Los “temas comerciales” aquí deben tomarse en el sentido más amplio posible. Por ejemplo, si estuviera buscando “los beneficios del masaje de pies” o “el director de la película El último emperador”, sus consultas caerían en un patrón comercial. Una distinción particular del patrón comercial es que vienen en paquetes cortos, que incluyen un nombre (onomasticon) o se refieren a algo vendido, comprado, visto, escuchado, etc.

Por el contrario, muchas (si no todas) ontologías que se han construido hasta la fecha (o que se afirma que existen) se centran en el uso del lenguaje en el sentido general, pero no en el sentido de patrones comerciales en la Web. Por lo tanto, su utilidad a la hora de abordar consultas de búsqueda web se ve muy comprometida, a veces hasta el punto de un fracaso absoluto. Si tal ontología pudiera eliminar la ambigüedad de una docena de sentidos diferentes de la palabra “matar”, sería una triste noticia si las últimas 100.000 consultas en los registros de búsqueda no incluyeran una sola aparición de la palabra “matar”. Al igual que ahogarse en agua de dos pulgadas de profundidad, estas ontologías no utilizan sus capacidades de desambiguación para casi el 80% de las consultas porque las consultas no incluyen nada más que onomasticones o son demasiado cortas (poco articuladas).

El enfoque de secuencia

La segunda innovación utilizada en el CO es el uso de secuencias en lugar de palabras simples. Una sola palabra, como “matar”, es el estado de información más ambiguo y apenas se usa en la comunicación humana sin un contexto implícito fuerte. Como resultado, la construcción de sistemas de procesamiento de lenguaje natural (PNL) tomando palabras individuales como unidades de cálculo es una invitación al desastre.

Por el contrario, las secuencias de palabras (dos o más palabras) son intrínsecamente seguras y altamente descriptivas. Tome “atropello”, por ejemplo. Esta secuencia describe el cadáver de un animal muerto en la carretera por un vehículo que pasaba. Si un sistema de procesamiento del lenguaje toma la secuencia de palabras como una unidad de cálculo, el 99% del problema de ambigüedad desaparece. No es necesario procesar las palabras “matar” y “camino” por separado, rastrear sus sentidos y localizar la convergencia para identificar el significado de “atropello” si puede tomar la secuencia “atropello” en sí misma como su unidad de cálculo para mapeo. Esto se muestra a continuación:

Tenga en cuenta el número de trazas necesarias en un enfoque de ontología convencional en comparación con el enfoque de secuencia. El enfoque de secuencia requiere una gran cantidad de espacio de almacenamiento de datos (que es muy barato), mientras que el enfoque de ontología convencional requiere una gran cantidad de CPU para una tarea de mapeo simple (que es costosa). Pero las malas noticias no terminan ahí. Las rutas de seguimiento en la ontología convencional requieren trabajo manual (imposible de automatizar), mientras que la ontología basada en secuencias se puede construir fácilmente mediante la automatización.

Quizás no todos comprendan el segundo punto anterior. Sin embargo, la escalabilidad y el rendimiento del producto final hablarán por sí mismos cuando Hakia ponga la plataforma de prueba en línea.

Uso de la ontología comercial

El uso inmediato del CO es para consultas de búsqueda o caracterizaciones de documentos, no vinculado a ninguna publicidad en los sistemas convencionales. Este dominio no reconocido de consultas de búsqueda y caracterizaciones significa una pérdida de ingresos. El CO de Hakia está diseñado para llenar este vacío. Por ejemplo, si la consulta de búsqueda o la caracterización de la página es “generación de ritmo”, el CO puede asignarla a “literatura” sobre la marcha. Como resultado, los sistemas que utilizan el CO tendrán una comprensión mucho más profunda de los términos entrantes y, por lo tanto, podrán reconocer la intención subyacente más allá del valor nominal de las palabras. La misma capacidad se puede utilizar en varios lugares distintos de la publicidad con el mismo efecto.

Estén atentos al lanzamiento de la primera versión de la ontología comercial de Hakia.