setup diary

ドイツ語の書類を読む必要があって、どうしようかと思ったが、スキャナーで取り込んで、OCRにかけて、google翻訳することにした。OCRソフトは、tesseractというのを使うと良いようなので、どのドイツ語対応のtesseract-ocr-deuをaptでインストールした。そして、スキャナで取り込んだpdfをpngに変換する。そして、tesseract -l deu+eng image.png tax-0 txtとしたら、それなりに認識してくれた。嬉しいのは、ウムラウトなどもきちんと認識してくれた点だ。ずいぶん前に別の方法でやった時には、ウムラウトやエスツェットが駄目で、手直しの必要があって苦労した覚えがある。画像が乱れているところは、うまく認識できない場合があったが、gimpで調整したら、読み取れるようになった。やはり、アルファベットは種類が少ないので、OCR向けかな。

[ツッコミを入れる]