quinta-feira, 2 de abril de 2015

Fazendo OCR (Optical Character Recognition) no Salix 14.1

O tesseract é um software Open Source de OCR para reconhecimento óptico de caracteres, sendo o melhor software para esta finalidade no mundo GNU/Linux, principalmente com caracteres acentuados para o idioma português e tendo também versões para Windows e Mac OS X.
Instale os seguintes pacotes nesta ordem, onde estou presumindo que você tenha o pacote sbopkg instalado para isto e que saiba utilizá-lo.

$ sudo sbopkg -i leptonica
$ sudo sbopkg -i tesseract

Agora vamos fazer o download do pacote para caracteres acentuados em português.

https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.por.tar.gz

Após baixado pelo seu navegador ou usando o wget, descompacte o pacote  tesseract-ocr-3.02.por.tar.gz .

Numa janela de terminal faça:

$ tar -xzvf tesseract-ocr-3.02.por.tar.gz 
$ cd tesseract-ocr/tessdata 
$ sudo cp -v por.traineddata /usr/share/tessdata

Agora é só escanear o documento desejado no seu escâner utilizando o xsane ou outra aplicação para isto e salvar no formato tif ou png que são os formatos suportados pelo tesseract da versão 3.02.

Depois com imagem salva, fazemos o OCR com o tesseract.

$ tesseract doc.tif doc -l por

Onde:
-l  = para especificar a linguagem dos caracteres, caso não especifique o default será o inglês 

por = para especificar a linguagem português a ser aplicar nos caracteres.

Será criado o arquivo doc.txt no diretório corrente, note que não necessário especificar a extensão txt para o arquivo de saída.

Notas:
  • Ao fazer escanear o documento, escolha sempre linhas ou texto dependo da aplicação e use resolução de no mínimo 300dpi.

  • Abra o arquivo txt com seu processador de texto para corrigir pequenos erros ortográficos de interpretação do OCR utilizando o seu verificador ortográfico.

  • Se você utiliza outra distro GNU/Linux e não existir o tesseract no repositório da mesma você pode baixar o mesmo em:
 https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz

  • E o pacote da leptonica em:
http://www.leptonica.com/source/leptonica-1.71.tar.gz

  • Após baixado os pacotes citados, você deverá descompactar os mesmos e compilar.

  • Dependendo da distro ou de como foi instalado o tesseract o mesmo somente funciona como root ou usando o sudo.


  • O mesmo procedimento de instalação do tesseract citado neste tutorial também se aplica ao Slackware e outras distros derivadas do mesmo.

Um comentário:

  1. if you like tesseract ocr, you may like this free online ocr tool using tesseract ocr 3.02

    ResponderExcluir