Saltar al contenido
Noticias de tecnologia

Un lenguaje de programación visual gratuito para Big Data

Un lenguaje de programación visual gratuito para Big Data

Hasta los últimos años, el procesamiento de datos a gran escala era algo que solo las grandes empresas podían permitirse. A medida que ha surgido Hadoop, ha puesto el poder del enfoque MapReduce de Google en manos de simples mortales. El mayor desafío es que todavía requiere una buena cantidad de conocimientos técnicos para configurarlo y usarlo. Iniciativas como Hive y Pig tienen como objetivo hacer que Hadoop sea más accesible para los usuarios de bases de datos tradicionales, pero siguen siendo bastante abrumadoras.

Eso es lo que hace que el lanzamiento de hoy de una nueva edición gratuita del sistema de procesamiento de big data Greenplum de EMC sea tan interesante. Se basa en ideas de la revolución de MapReduce, pero su ascendencia definitivamente se encuentra en el mundo de las bases de datos empresariales tradicionales. Esto significa que está diseñado para ser utilizado por analistas y estadísticos familiarizados con enfoques de alto nivel para el procesamiento de datos, en lugar de requerir un conocimiento profundo de programación. Entonces, ¿qué significa eso en la práctica?

La programación visual puede ser una forma muy eficaz de trabajar con canalizaciones de flujo de datos, como demuestra Quartz Composer de Apple en el mundo de las imágenes. EMC tiene un entorno llamado Alpine Miner que le permite construir su procesamiento como un gráfico de operaciones conectadas por conductos de datos. Esto ofrece a los estadísticos un campo de juego para experimentar rápidamente y crear prototipos de nuevos enfoques. Gracias a la tecnología de base de datos subyacente, pueden ejecutar los resultados en conjuntos de datos masivos. Este enfoque nunca reemplazará las secuencias de comandos para los programadores incondicionales, pero la capacidad de descubrimiento y el diseño intuitivo de la canalización de procesamiento lo harán popular entre una audiencia más amplia.

Como complemento de Alpine Miner, se encuentra el marco de código abierto MADlib. Se describe a sí mismo como surgido de “discusiones entre desarrolladores de motores de base de datos, científicos de datos, arquitectos de TI y académicos que estaban interesados ​​en nuevos enfoques para análisis escalables y sofisticados en bases de datos”, es esencialmente una biblioteca de código SQL para realizar estadísticas comunes y aprendizaje automático. Tareas.

La belleza de combinar esto con Alpine Miner es que convierte técnicas como la clasificación de Bayes, la agrupación de k-medias y la regresión multilineal en herramientas que puede arrastrar y soltar para construir su canal de procesamiento.

Tradicionalmente, implementar esos algoritmos en grandes conjuntos de datos ha sido un trabajo de desarrollo intensivo, pero ahora están al alcance de los analistas sin necesidad de recursos de ingeniería. Aún mejor, porque los usuarios de código abierto de otros sistemas de bases de datos pueden aprovechar el código, aunque no se beneficiarán del motor de procesamiento subyacente de Greenplum.

Esta versión de EMC solo es gratuita para uso que no sea de producción y la mayoría del producto no es de código abierto, por lo que definitivamente no es una amenaza inmediata para la adopción de Hadoop. Sin embargo, es una señal de que el mundo empresarial tradicional está comenzando a prestar atención al mundo en general, y demuestra algunas de las áreas donde faltan soluciones gratuitas, especialmente en términos de su facilidad de uso.

El motor es una herramienta extremadamente poderosa para el aprendizaje automático a gran escala, como demuestra este ejemplo de Roger Magoulas de O’Reilly. ¿Abrirá este tipo de herramientas empresariales a un conjunto completamente nuevo de usuarios académicos y de inicio?