Saltar al contenido
Noticias de tecnologia

Google adquiere reCAPTCHA para combatir el spam y mejorar el OCR de Google Books

ReCAPTCHA presenta CAPTCHA de audio mejorados para transcribir programas de radio antiguos

Google acaba de anunciar que ha adquirido reCAPTCHA, uno de los principales proveedores de CPATCHA, los acertijos difíciles de leer que a menudo tiene que resolver antes de poder suscribirse a un nuevo servicio web. Google, por supuesto, no está tan interesado en poseer software que pueda generar CAPTCHA, que es un problema fácil de resolver, pero está considerando reCAPTCHA como una forma de mejorar el software de reconocimiento óptico de caracteres (OCR) que usa para texto a gran escala. escanear proyectos como Google Books y Google News Archive Search.

Según Google, reCAPTCHA se utiliza actualmente en más de 100.000 sitios web para prevenir el spam y el fraude. el equipo de reCAPTCHA, que actualmente tiene su sede en la Universidad Carnegie Mellon, se unirá a Google.

Resolver CAPTCHA para transcribir libros

Analizamos detalladamente reCAPTCHA y cómo funciona en septiembre pasado y principios de 2007. En resumen, reCAPTCHA ha encontrado una forma ingeniosa de realizar transcripciones de libros mediante crowdsourcing. Cuando los usuarios resuelven un CAPTCHA a través de reCAPTCHA, el software les dará dos palabras: una con una respuesta conocida (la palabra de control) y otra en la que el software OCR no estaba muy seguro de cuál era la palabra. Una vez que un cierto número de usuarios ha resuelto la palabra sospechosa con el mismo resultado, se convierte en una palabra de control en sí misma y el software OCR puede aprender esta palabra.

Ahora, Google podrá utilizar esta misma tecnología para mejorar sus propios esfuerzos de OCR. Actualmente, Google hace que más de 1 millón de libros sin derechos de autor estén disponibles para su descarga a través de Google Books y uno de los principales argumentos en contra de estos libros ha sido el hecho de que estos textos no están editados e incluyen muchos errores de OCR. Con reCAPTCHA, Google podría reducir drásticamente la tasa de error y hacer que Google Libros sea aún más útil.