O tesseract é um software Open Source de OCR para reconhecimento óptico de caracteres, sendo o melhor software para esta finalidade no mundo GNU/Linux, principalmente com caracteres acentuados para o idioma português e tendo também versões para Windows e Mac OS X.
Instale os seguintes pacotes nesta ordem, onde estou presumindo que você tenha o pacote sbopkg instalado para isto e que saiba utilizá-lo.
$ sudo sbopkg -i leptonica
$ sudo sbopkg -i tesseract
Agora vamos fazer o download do pacote para caracteres acentuados em português.
https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.por.tar.gz
Após baixado pelo seu navegador ou usando o wget, descompacte o pacote tesseract-ocr-3.02.por.tar.gz .
Numa janela de terminal faça:
$ tar -xzvf tesseract-ocr-3.02.por.tar.gz
$ cd tesseract-ocr/tessdata
$ sudo cp -v por.traineddata /usr/share/tessdata
Agora é só escanear o documento desejado no seu escâner utilizando o xsane ou outra aplicação para isto e salvar no formato tif ou png que são os formatos suportados pelo tesseract da versão 3.02.
Depois com imagem salva, fazemos o OCR com o tesseract.
$ tesseract doc.tif doc -l por
Onde:
-l = para especificar a linguagem dos caracteres, caso não especifique o default será o inglês
por = para especificar a linguagem português a ser aplicar nos caracteres.
Será criado o arquivo doc.txt no diretório corrente, note que não necessário especificar a extensão txt para o arquivo de saída.
Notas:
- Ao fazer escanear o documento, escolha sempre linhas ou texto dependo da aplicação e use resolução de no mínimo 300dpi.
- Abra o arquivo txt com seu processador de texto para corrigir pequenos erros ortográficos de interpretação do OCR utilizando o seu verificador ortográfico.
- Se você utiliza outra distro GNU/Linux e não existir o tesseract no repositório da mesma você pode baixar o mesmo em:
- E o pacote da leptonica em:
- Após baixado os pacotes citados, você deverá descompactar os mesmos e compilar.
- Dependendo da distro ou de como foi instalado o tesseract o mesmo somente funciona como root ou usando o sudo.
- O mesmo procedimento de instalação do tesseract citado neste tutorial também se aplica ao Slackware e outras distros derivadas do mesmo.
Nenhum comentário:
Postar um comentário