Saltar al contenido
Noticias de tecnologia

Minería de datos y programación de Taco Bell

Minería de datos y programación de Taco Bell

El programador Ted Dziuba sugiere una alternativa al programa tradicional que llamó “Programación de Taco Bell”. La cadena Taco Bell crea varios elementos de menú a partir de aproximadamente ocho ingredientes diferentes. Dziuba quiere poder crear muchas aplicaciones con combinaciones de aproximadamente ocho comandos de shell diferentes.

Aquí hay un ejemplo de Dziuba:

Aquí hay un ejemplo concreto: suponga que tiene millones de páginas web que desea descargar y guardar en el disco para su posterior procesamiento. ¿Cómo lo haces? La respuesta de cool-kids es escribir un rastreador distribuido en Clojure y ejecutarlo en EC2, entregando trabajos con una cola de mensajes como SQS o ZeroMQ.

¿La respuesta de Taco Bell? xargs y wget. En el raro caso de que sature la conexión de red, agregue algunos split y rsync. Un “rastreador distribuido” es en realidad solo como 10 líneas de script de shell.

Dziuba da otro ejemplo. En lugar de usar Hadoop para procesar esos datos una vez que los tenga, puede usar:

encontrar crawl_dir / -type f -print0 | xargs -n1 -0 -P32 ./process

“Es una forma viable de lidiar con problemas masivos de datos, al menos para trabajos puntuales”, dice el experto en Big Data y colaborador de ReadWriteWeb, Pete Warden, sobre el concepto de programación Taco Bell de Dziuba. “Está intercambiando la capacidad de administrar y controlar estrictamente el proceso con la velocidad de desarrollo”.

¿Tienes algún truco favorito como este?