2021年
6月
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30

setup diary

2007|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|06|08|11|
2015|01|02|03|04|05|06|07|08|10|11|12|
2016|01|02|03|04|05|06|07|08|09|10|11|12|
2017|01|02|03|04|05|06|07|08|09|10|11|12|
2018|01|02|03|04|05|06|07|08|09|10|11|12|
2019|01|02|03|04|05|06|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|09|10|11|

2021-06-12 ドイツ語のocr

_ ウムラウトも大丈夫

ドイツ語の書類を読む必要があって、どうしようかと思ったが、スキャナーで取り込んで、OCRにかけて、google翻訳することにした。OCRソフトは、tesseractというのを使うと良いようなので、どのドイツ語対応のtesseract-ocr-deuをaptでインストールした。そして、スキャナで取り込んだpdfをpngに変換する。そして、tesseract -l deu+eng image.png tax-0 txtとしたら、それなりに認識してくれた。嬉しいのは、ウムラウトなどもきちんと認識してくれた点だ。ずいぶん前に別の方法でやった時には、ウムラウトやエスツェットが駄目で、手直しの必要があって苦労した覚えがある。画像が乱れているところは、うまく認識できない場合があったが、gimpで調整したら、読み取れるようになった。やはり、アルファベットは種類が少ないので、OCR向けかな。