Tecnologia de OCR

27 08 2008

Longe de ser novidade no mercado de TI, as tecnologias de captura de dados ICR (Inteligent Character Recognition) e OCR (Optical Character Recognition) finalmente chegaram a um estágio de maturidade e excelente relação custo benefício. Este mercado, com suas necessidades e tendências, cada vez mais voltadas ao uso de GED (Gerenciamento Eletrônico de Documentos), Content Management e eliminação/redução na utilização de documentos em papel e captura de dados com rapidez, eficiência, confiabilidade, além de custos atraentes, passou a ser um requerimento bastante popular e constante em grande número de RFP´s no Brasil e no mundo. Optical Character Recognition, normalmente abreviado como OCR, é a tradução mecânica ou eletrônica de imagens de textos manuscritos ou impressos (usualmente capturados por um scanner) em texto eletrônico editável.

Outras nomenclaturas são utilizadas para variações desta tecnologia. Alguns exemplos são: ICR (Intelligent Character Recognition) que se aplica normalmente a reconhecimento de caracteres manuscritos. OMR (Optical Mark Recogntion) para reconhecimento de marcas tipicamente usadas em formulários com múltiplas opções de escolha. Documentos e Aplicações Podemos classificar as aplicações de captura de documentos sob três grandes categorias no que se refere à tecnologia de OCR. Esta classificação está diretamente conectada aos tipos de documentos candidatos à captura de seus dados ou conteúdo de forma manual ou automática, ou seja, com o uso de OCR. Documento Estruturado É o tipo de documento mais comumente chamado de formulário.

Para um documento ser considerado estruturado, seu formato deve ser fixo, incluindo seus campos e a localização de toda informação a ser capturada. Exemplos típicos deste tipo de documento são: formulários de imposto de renda, formulários de coleta de dados para o censo, formulários de aplicação para abertura de conta corrente e cadastramentos em geral, boletos de pagamento, DARFs, GAREs e etc. Mesmo que não sejam formulários típicos, se o documento tiver um padrão constante que possibilite a localização dos campos a serem capturados, ele pode ser considerado estruturado. Em outras palavras, nas aplicações consideradas estruturadas, sabemos que dados devemos capturar e onde estão localizados estes dados em cada documento.

Documento Semi-estruturado É o tipo de documento que contém campos conhecidos porém dispostos de maneira completamente variável de documento para documento, tipicamente pela diversificação de origem dos mesmos. Exemplos clássicos destes documentos são notas fiscais e relatórios de formato variável. Mais recentemente difundidas no mercado, as aplicações de captura de dados em documentos semi-estruturados chegaram para facilitar, reduzir custos e agilizar as aplicações de Contas a Pagar e Receber, integradas ou não aos sistemas ERP das empresas. Simplificando, a exemplo do que fizemos para as aplicações consideradas estruturadas, as semi estruturadas são aquelas em que sabemos o que devemos capturar, porém não sabemos onde estão localizados estes dados em cada documento. Neste caso, a solução é acrescentar uma etapa ao processo, onde todo o documento é “lido” (full text OCR) e, por intermédio de scripts, algoritmos sofisticados, palavras chave, topografia, mecanismos de aprendizado e etc, primeiramente localizamos os dados candidatos à captura para depois reconhecê-los campo a campo.

Documento não-estruturado São todos os tipos de documento que não se encaixam nas definições acima. São várias aplicações candidatas a uso de OCR para este tipo de documento. As mais popularizadas e utilizadas no mundo são as de “Classificação de Documentos”. Documentos não-estruturados podem ser processos administrativos, emails, correspondência ou qualquer informação que necessite ser capturada ou armazenada baseada em seu conteúdo e forma. Aplicações também chamadas de “full-text OCR” são tipicamente associadas a documentos não estruturados. Jornais, revistas, Diários Oficiais, pastas de RH e etc, serão “lidos” pelos motores de OCR e seu conteúdo será capturado e/ou classificado de acordo com a definição e necessidade da aplicação.

Tendências e Plataforma única Uma das tendências importantes que o mercado já reconhece e que a evolução da tecnologia já permite é a “mistura” de documentos de diversos tipos e formas dentro da mesma aplicação. Desta forma, a necessidade de preparação, separação ou classificação dos documentos de forma manual é eliminada. Portanto, um requisito bastante importante quando analisando uma solução de OCR para as necessidades de sua empresa é o conceito de Plataforma Única. Ou seja, a mesma solução tecnológica resolvendo seus problemas de captura em documentos estruturados, semi-estruturados e não-estruturados.

Fonte: Document Management

Caso tenha interesse em conversar com nossos especialistas em Document Imaging clique AQUI, ou acesse nosso portal www.datasul.com.br/franquias/ecm


Ações

Information

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s




%d blogueiros gostam disto: