Google ofrece un software OCR gratuito

5 09 2006

ScannerTesseract OCR es otro de esos llamativos lanzamientos de Google. La licencia de código abierto que se ha utilizado permite distribuirlo libremente. La pregunta es ¿realmente vale la pena?

El origen de este software lo encontramos en HP, y cuando se lanzó por primera vez era el verdadero líder del mercado. De hecho, en 1995 se le colocó entre los tres mejores softwares de reconocimiento óptico del mercado. 

Sin embargo, HP perdió interés en la tecnología, y de hecho parece que la ha abandonado en alguna estantería para que cogiese polvo. HP decidió abrir el código fuente y ofrecérselo al Information Science Research Institute en la UNLV para que sacase partido de él. La UNLV se lo cedió a Google para que lo hiciese estable y aquí lo tenemos.

La aplicación, eso sí, tiene muchas limitaciones. Para empezar sólo da soporte al idioma inglés, no puede trabajar con documentos multi-columna y los textos con escalas de grises o colores son indescifrables para ella. Y evidentemente, no es tan precisa en sus resultados como otros paquetes disponibles comercialmente.

Sin embargo, tiene algunas ventajas. En primer lugar, es gratuita. En segundo, es mucho mejor que cualquier otro paquete OCR Open Source.

Google ha dicho que quiere contratar a algunon ingenieros en OCR para ayudar a que el proyecto siga creciendo.


Acciones

Informes

Links en Technorati que enlazan con Sin Anestesia

Dejar un comentario

Puedes utilizar estas etiquetas : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>




Sin Anestesia © 2008 Un Blog para Gente Despierta donde esta Prohibido Dormirse :)