Tecnologia de OCR

27 08 2008

Longe de ser novidade no mercado de TI, as tecnologias de captura de dados ICR (Inteligent Character Recognition) e OCR (Optical Character Recognition) finalmente chegaram a um estágio de maturidade e excelente relação custo benefício. Este mercado, com suas necessidades e tendências, cada vez mais voltadas ao uso de GED (Gerenciamento Eletrônico de Documentos), Content Management e eliminação/redução na utilização de documentos em papel e captura de dados com rapidez, eficiência, confiabilidade, além de custos atraentes, passou a ser um requerimento bastante popular e constante em grande número de RFP´s no Brasil e no mundo. Optical Character Recognition, normalmente abreviado como OCR, é a tradução mecânica ou eletrônica de imagens de textos manuscritos ou impressos (usualmente capturados por um scanner) em texto eletrônico editável.

Outras nomenclaturas são utilizadas para variações desta tecnologia. Alguns exemplos são: ICR (Intelligent Character Recognition) que se aplica normalmente a reconhecimento de caracteres manuscritos. OMR (Optical Mark Recogntion) para reconhecimento de marcas tipicamente usadas em formulários com múltiplas opções de escolha. Documentos e Aplicações Podemos classificar as aplicações de captura de documentos sob três grandes categorias no que se refere à tecnologia de OCR. Esta classificação está diretamente conectada aos tipos de documentos candidatos à captura de seus dados ou conteúdo de forma manual ou automática, ou seja, com o uso de OCR. Documento Estruturado É o tipo de documento mais comumente chamado de formulário.

Para um documento ser considerado estruturado, seu formato deve ser fixo, incluindo seus campos e a localização de toda informação a ser capturada. Exemplos típicos deste tipo de documento são: formulários de imposto de renda, formulários de coleta de dados para o censo, formulários de aplicação para abertura de conta corrente e cadastramentos em geral, boletos de pagamento, DARFs, GAREs e etc. Mesmo que não sejam formulários típicos, se o documento tiver um padrão constante que possibilite a localização dos campos a serem capturados, ele pode ser considerado estruturado. Em outras palavras, nas aplicações consideradas estruturadas, sabemos que dados devemos capturar e onde estão localizados estes dados em cada documento.

Documento Semi-estruturado É o tipo de documento que contém campos conhecidos porém dispostos de maneira completamente variável de documento para documento, tipicamente pela diversificação de origem dos mesmos. Exemplos clássicos destes documentos são notas fiscais e relatórios de formato variável. Mais recentemente difundidas no mercado, as aplicações de captura de dados em documentos semi-estruturados chegaram para facilitar, reduzir custos e agilizar as aplicações de Contas a Pagar e Receber, integradas ou não aos sistemas ERP das empresas. Simplificando, a exemplo do que fizemos para as aplicações consideradas estruturadas, as semi estruturadas são aquelas em que sabemos o que devemos capturar, porém não sabemos onde estão localizados estes dados em cada documento. Neste caso, a solução é acrescentar uma etapa ao processo, onde todo o documento é “lido” (full text OCR) e, por intermédio de scripts, algoritmos sofisticados, palavras chave, topografia, mecanismos de aprendizado e etc, primeiramente localizamos os dados candidatos à captura para depois reconhecê-los campo a campo.

Documento não-estruturado São todos os tipos de documento que não se encaixam nas definições acima. São várias aplicações candidatas a uso de OCR para este tipo de documento. As mais popularizadas e utilizadas no mundo são as de “Classificação de Documentos”. Documentos não-estruturados podem ser processos administrativos, emails, correspondência ou qualquer informação que necessite ser capturada ou armazenada baseada em seu conteúdo e forma. Aplicações também chamadas de “full-text OCR” são tipicamente associadas a documentos não estruturados. Jornais, revistas, Diários Oficiais, pastas de RH e etc, serão “lidos” pelos motores de OCR e seu conteúdo será capturado e/ou classificado de acordo com a definição e necessidade da aplicação.

Tendências e Plataforma única Uma das tendências importantes que o mercado já reconhece e que a evolução da tecnologia já permite é a “mistura” de documentos de diversos tipos e formas dentro da mesma aplicação. Desta forma, a necessidade de preparação, separação ou classificação dos documentos de forma manual é eliminada. Portanto, um requisito bastante importante quando analisando uma solução de OCR para as necessidades de sua empresa é o conceito de Plataforma Única. Ou seja, a mesma solução tecnológica resolvendo seus problemas de captura em documentos estruturados, semi-estruturados e não-estruturados.

Fonte: Document Management

Caso tenha interesse em conversar com nossos especialistas em Document Imaging clique AQUI, ou acesse nosso portal www.datasul.com.br/franquias/ecm





Captura distribuída no contexto dos negócios

20 08 2008

O termo “capturar” , em português, ou “capture” , em inglês, vai além da digitalização de documentos, pois engloba um conjunto de tecnologias que são capazes de inserir documentos e dados no contexto dos negócios, com soluções adequadas a cada necessidade e cenário.

Tradicionalmente, a captura centralizada exige o envio dos documentos para os locais onde o trabalho é realizado. Por outro lado, a captura distribuída possibilita que o trabalho seja feito nas “pontas”, onde o documento é criado. Como exemplo, podemos citar os correspondentes bancários fechando operações de empréstimo na casa do seu cliente.

As soluções de captura distribuída têm evoluído, pois muitas empresas precisam trazer imagens e documentos para dentro do processo desde sua criação, com o intuito de fechar negócios com maior segurança, agilidade e confiança.

A necessidade crescente por agilidade, somada à redução de custos, tem levado as empresas com múltiplas unidades a transferirem os profissionais com conhecimento no negócio, reunindo-os em CSC – Centro de Serviços Compartilhados que presta serviços para diversas áreas da empresa como: Administração de Portarias de Fábricas, Aprovação de Crédito, Administração de RH e Análise de despesas de Viagem, entre outros. Desse modo, reduzem-se recursos humanos e expertise nos demais pontos da empresa, e o CSC passa a trabalhar com dados e documentos eletrônicos no momento em que eles chegam. Uma solução importante nestes casos é a captura distribuída integrada com tecnologia de Workflow, que garante redução de custos sem perda de ritmo, controle e agilidade na execução dos serviços consumidos pelos departamentos da empresa.

Impulsionadas pelo mercado, a indústria de hardware e software cria soluções voltadas para o negócio. Aqui se encaixam os equipamentos multifuncionais e scanners mais simples que serão utilizados para digitalização descentralizada. Os recursos passam a ser consumidos de maneira diferente, tais como a necessidade de banda para trafegar os documentos para o servidor central e o uso das tecnologias aplicadas em momentos diferentes dos processos tradicionais de digitalização centralizada. Neste ponto, destacam-se o uso de soluções baseadas na WEB, agentes de upload para sincronização de dados e documentos, Web Services, Workflow para controle dos processos, etc. Na digitalização distribuída, a aplicação dos recursos está totalmente ligada à necessidade do negócio. Considerando uma financeira que trabalhe com o conceito de análise centralizada das propostas de crédito, além de ter o resultado das pesquisas feitas junto aos órgãos de proteção ao crédito, é importante poder exercer análise visual nos documentos apresentados. Nesses casos, os analistas têm a capacidade de interpretar os documentos em busca de indícios de fraudes (como uma troca de fotografia), o que seria impossível de ser feito caso o documento fosse digitalizado e salvo em preto e branco, antes da análise.

A utilização do fax encaixa-se também como captura distribuída e pode ser considerada uma solução nos casos em que não é possível (ou viável) uma infra-estrutura com scanners, banda larga, etc. A integração de servidores de fax com soluções automáticas de importação e tratamento de imagens e sua inserção no processo de negócio torna possível controlar o que deve ser feito com cada documento recebido.

As soluções de captura devem tratar a diversidade de tipos de documentos, origens, formatos e qualidade, e essas diferenças devem ser previstas no projeto, para a escolha da tecnologia mais indicada para cada fase do processo.

Os projetos que consideram a captura distribuída precisam prever a possibilidade da queda ou restrição de link com o servidor, que pode resultar em atraso no processo e no trabalho de digitalização e análise dos documentos. Para isso, há soluções para os usuários trabalharem desconectados do Servidor Central, até o restabelecimento da conexão, quando é realizado o upload.

O importante para executar o trabalho da melhor maneira, independentemente da opção, é observar os conceitos e as boas práticas e considerar o negócio em que se insere o documento, pois o contexto e a realidade do tipo de negócio é que definem a solução aplicada.

Fonte: CENADEM

Quer saber mais sobre nossas soluções de ECM? Entre em contato conosco agora mesmo e descubra muito mais! Ou acesse nosso portal www.datasul.com.br/franquias/ecm