Esta página descreve o fluxo para solicitação, preparação, desenvolvimento e implementação de novos modelos de extração de dados, também chamados de SmartDocs. O objetivo é orientar o envio de documentos e garantir que a extração e a classificação mantenham altos níveis de assertividade por meio de melhoria contínua, governança de dados e monitoramento de performance.
Como solicitar um novo SmartDoc#
O ciclo de vida de um novo modelo de extração inicia-se pela demanda do cliente.Para garantir rastreabilidade, priorização adequada e alinhamento entre as equipes envolvidas, a inclusão de novos SmartDocs deve ocorrer por meio de uma requisição formal:
E-mail
Envie a solicitação por e-mail, diretamente para a equipe de suporte.
Help Desk
Abra um chamado na plataforma de Help Desk para registrar a demanda.
Time Comercial
Alinhe a necessidade diretamente com o time Comercial.Preparação e envio dos documentos#
Para desenvolver um modelo com alta precisão, é necessário avaliar o tipo de documento e receber uma amostragem representativa. Quanto melhor forem a qualidade, a variedade e a clareza das amostras enviadas, maior será a capacidade de identificar padrões, variações de layout e campos críticos para extração.Categorias de documentos#
Documentos com padrão fixo e regiões definidas para a disposição dos dados. Em alguns casos, podem ocorrer alterações proporcionais de posicionamento, ou seja, quando uma região se movimenta, as demais são afetadas na mesma proporção.Exemplos comuns incluem documentos de identificação, boletos bancários e formulários com layout padronizado.
Requisitos de envio#
1
Enviar a amostragem
Encaminhe entre 10 a 20 imagens distintas, com boa qualidade, legíveis e sem cortes, dobras ou obstruções relevantes. As amostras devem representar, sempre que possível, as principais variações esperadas em produção.
2
Mapear os campos desejados
Indique claramente quais dados deverão ser extraídos. Essa indicação pode ser feita por texto ou por marcação visual em uma imagem de exemplo, conforme demonstrado na Figura 1.
3
Incluir casos especiais
Envie exemplos que contenham variações relevantes, como tabelas dinâmicas, campos opcionais, mudanças de layout ou seções que possam aparecer em posições diferentes, conforme ilustrado nas Figuras 2 e 3.
Amostras ilegíveis, cortadas, dobradas, com baixa resolução ou sem diversidade de layouts podem comprometer a assertividade do modelo e aumentar o prazo necessário para análise, ajuste e validação.
Exemplos visuais#
Nosso fluxo de ModelOps#
Após o registro da demanda, o processo segue uma esteira técnica de ModelOps. Essa esteira organiza a entrada dos documentos, permite o desenvolvimento ou refinamento dos modelos, estabelece critérios de validação e garante que a publicação em produção ocorra com governança adequada.
Triagem e clusterização
Organizamos o fluxo de entrada e agrupamos automaticamente documentos similares. Os arquivos são processados em ambiente controlado e efêmero para assegurar conformidade, privacidade e rastreabilidade durante a análise.
Desenvolvimento e refino no SmartDoc Studio
Mapeamos novos layouts ou realizamos o fine-tuning de modelos existentes quando há baixa confiança de extração (score reduzido ou necessidade de adaptação a novas variações de layout).
Garantia de qualidade com Ground Truth
Criamos uma base canônica por conferência manual, chamada de Ground Truth, para validar a assertividade do modelo. A extração automática é comparada contra essa base antes da promoção para produção.
Implementação e governança
O modelo aprovado é promovido para produção. Os dados são mantidos temporariamente para fins de auditoria de treino e, posteriormente, descartados conforme as políticas de governança de dados sensíveis.
O modelo somente segue para produção após validação da assertividade contra a base canônica definida durante a etapa de Ground Truth.
Prazos e rotas utilizadas#
Novos SmartDocs são integrados às rotas de extração correspondentes ao tipo de documento. A rota adequada depende do nível de estrutura do documento, da previsibilidade do layout e da natureza dos dados que precisam ser retornados.| Tipo de documento | Prazo estimado | Rota recomendada |
|---|
| Estruturado | 10 dias úteis* | content-extraction |
| Semi-estruturado | 10 dias úteis | content-extraction ou multipage-content-extraction |
| Não estruturado | 10 dias úteis | generative-content-extraction |
Para modelos estruturados, a entrega pode ocorrer nos primeiros 5 dias úteis, dependendo da especificação dos campos, da qualidade dos exemplos enviados e da complexidade das variações identificadas.
Este serviço tem foco na extração de dados brutos. Para aplicação de regras de negócio, validações personalizadas, cálculos ou fluxos automatizados após a extração, recomenda-se a utilização do serviço Connect, que é a solução dedicada para essas integrações.