40 páginas de PDF leídas de un solo vistazo
Baidu acaba de publicar un modelo OCR que lee documentos enteros de una vez, sin trucos por páginas, con licencia libre y mejor que Gemini 2.5 Pro.
Un modelo pequeño que lee como una persona
Imagina darle a alguien un contrato largo y pedirle que lo transcriba entero. La mayoría de herramientas lo hacen página a página, perdiendo el hilo cada vez que paran. Baidu acaba de publicar algo que funciona más como una persona que lee todo el documento antes de ponerse a escribir.
Se llama Unlimited-OCR. Salió la semana pasada, es gratuito, y puede procesar más de 40 páginas de un PDF de una sola vez — sin trocear el documento ni volver a pegarlo. El resultado es texto más limpio y preciso que el de muchos servicios de pago.
Lo sorprendente: en pruebas directas, supera a modelos ochenta veces más grandes — incluido Gemini 2.5 Pro de Google. Ser pequeño no significa ser peor cuando el diseño es genuinamente inteligente.
Por qué le importa a tu negocio
Si trabajas con documentos — facturas, contratos, formularios, informes — esta clase de herramienta es la puerta de entrada a todo el proceso. Cuanto mejor lee, mejor funciona todo lo que viene después.
Ahora mismo hay desarrolladores construyendo herramientas de revisión de contratos, asistentes de contabilidad y sistemas de búsqueda documental sobre APIs de OCR de pago. Esto les da — y te da a ti — una alternativa gratuita y de calidad que puede funcionar en privado, en tus propios servidores si hace falta.
Vale la pena preguntarle a tu persona técnica si los documentos son un cuello de botella en algún proceso.
Palabras que conviene conocer
OCR — Reconocimiento óptico de caracteres. La tecnología que convierte una página escaneada o una foto de un documento en texto que el ordenador puede leer y buscar.
Código abierto — El código es público y gratuito. Cualquiera puede usarlo, inspeccionarlo o construir sobre él, sin suscripción.
Ventana de contexto — Cuánto texto puede tener en mente una IA a la vez. Una ventana más grande significa que puede leer documentos más largos sin perder el hilo.
Pipeline RAG — Un sistema donde una IA busca dentro de tus propios documentos para responder preguntas. Como darle a tu IA un archivador con el conocimiento de tu propio negocio.