· Notas de Campo23 de junio de 2026

40 páginas de PDF leídas de un solo vistazo

Baidu acaba de publicar un modelo OCR que lee documentos enteros de una vez, sin trucos por páginas, con licencia libre y mejor que Gemini 2.5 Pro.

open-sourceAItoolsworkflowvia github · @baidu

Un modelo pequeño que lee como una persona

Imagina darle a alguien un contrato largo y pedirle que lo transcriba entero. La mayoría de herramientas lo hacen página a página, perdiendo el hilo cada vez que paran. Baidu acaba de publicar algo que funciona más como una persona que lee todo el documento antes de ponerse a escribir.

Se llama Unlimited-OCR. Salió la semana pasada, es gratuito, y puede procesar más de 40 páginas de un PDF de una sola vez — sin trocear el documento ni volver a pegarlo. El resultado es texto más limpio y preciso que el de muchos servicios de pago.

Lo sorprendente: en pruebas directas, supera a modelos ochenta veces más grandes — incluido Gemini 2.5 Pro de Google. Ser pequeño no significa ser peor cuando el diseño es genuinamente inteligente.

Por qué le importa a tu negocio

Si trabajas con documentos — facturas, contratos, formularios, informes — esta clase de herramienta es la puerta de entrada a todo el proceso. Cuanto mejor lee, mejor funciona todo lo que viene después.

Ahora mismo hay desarrolladores construyendo herramientas de revisión de contratos, asistentes de contabilidad y sistemas de búsqueda documental sobre APIs de OCR de pago. Esto les da — y te da a ti — una alternativa gratuita y de calidad que puede funcionar en privado, en tus propios servidores si hace falta.

Vale la pena preguntarle a tu persona técnica si los documentos son un cuello de botella en algún proceso.

Palabras que conviene conocer

OCR — Reconocimiento óptico de caracteres. La tecnología que convierte una página escaneada o una foto de un documento en texto que el ordenador puede leer y buscar.

Código abierto — El código es público y gratuito. Cualquiera puede usarlo, inspeccionarlo o construir sobre él, sin suscripción.

Ventana de contexto — Cuánto texto puede tener en mente una IA a la vez. Una ventana más grande significa que puede leer documentos más largos sin perder el hilo.

Pipeline RAG — Un sistema donde una IA busca dentro de tus propios documentos para responder preguntas. Como darle a tu IA un archivador con el conocimiento de tu propio negocio.

Ver el proyecto →

Escrito por David en AC0.AI. Sígueme en @ac0hero

Field Notes en tu bandeja

Las herramientas y movimientos de IA que de verdad uso para ganar más negocio. Un par por semana, nada que no haya probado yo mismo.

session0
histórico0
Pulsado0