Saltar al contenido
Noticias de tecnologia

Etiquetas hasta donde alcanza la vista: el New York Times publicará el índice como datos vinculados

Times Open: los desarrolladores se reúnen para discutir las API del New York Times

Hoy, en la Conferencia de Tecnología Semántica, Rob Larson y Evan Sandhaus de la New York Times anunciaron juntos que el Times pronto publicará su copioso índice como Linked Data.

los VecesLos datos se unirán al contenido del Proyecto Gutenberg, una vasta biblioteca en línea de texto de libros de dominio público, datos del censo de EE. UU. e información de muchas otras entidades formativas y vitales en el espacio web semántico. Larson y su equipo tienen la intención de poner a disposición cientos de miles de etiquetas para contenido que se remonta a 1851. Esto proporcionará a los desarrolladores una hoja de ruta invaluable y automáticamente navegable para el vasto directorio de conocimiento de la publicación y vinculará esos datos a páginas, personas y contenido en la web.

En su discurso de apertura, Larson enfatizó “Cuán profundamente [at the Times] se preocupan por los metadatos “.

“Ha sido fundamental para lo que hacemos durante mucho tiempo. Creemos que somos buenos en eso, pero nuestro contenido es una isla … queremos anunciar nuestra intención de publicar nuestro diccionario de sinónimos a la comunidad bajo una licencia que le permitirá usarlo y contribuir con sus mejoras … Los resultados de este esfuerzo serán con el tiempo toman la forma del Times entrando en esta nube de Datos Vinculados. Esto es totalmente coherente con nuestra estrategia abierta … para facilitar el acceso a fragmentos de nuestros datos para aquellos que quieran incluirlos en sus aplicaciones “.

Larson comparó el Veces corpus a una cantera de datos. Dijo que la API del periódico proporcionó los picos y las palas para extraer los datos, y la iniciativa Linked Data sería el mapa.

El tiempo, las licencias, el formato y otros factores del proyecto aún no se han determinado.

Este anuncio se produce inmediatamente después de la asociación de CNET con Reuters para publicar datos en la nube Linked Data. Además, hace exactamente un mes, escribimos que Linked Data era un concepto “cuyo momento ha llegado” y ofrecimos una descripción completa de los conceptos y estándares que conlleva, para lectores curiosos que quisieran profundizar en el tema.

En otra entrevista reciente, Sandhaus detalló el proceso de etiquetado para el Veces‘corpus, tanto para artículos impresos como en línea:

“Hay dos tipos de etiquetado que se llevan a cabo en ese momento … Todos los días, los indexadores toman el documento y van artículo por artículo y asocian cada artículo con palabras clave temáticas. Luego lo resumen manualmente. Es como una lista de Google, pero en forma de árbol muerto.

Otro tipo de etiquetado que hacemos es … cuando un artículo va de la sala de redacción a la web, un productor lo coloca allí y aumentará el artículo con cualquier cantidad de características enriquecidas como imágenes, multimedia … y palabras clave de temas. A diferencia de los indexadores, que hacen esto completamente a mano, los productores son asistidos en su etiquetado por un sistema de clasificación automatizado que sugiere etiquetas para ser aplicadas a los datos y que finalmente son aprobadas por el productor ”.

Se espera un anuncio oficial en el Veces‘Abrir blog mañana, con detalles sobre el proyecto a seguir.