25 lines
1.3 KiB
Markdown
25 lines
1.3 KiB
Markdown
|
|
# tesseract
|
|||
|
|
|
|||
|
|
> Движок оптического распознавания символов (OCR).
|
|||
|
|
> Больше информации: <https://github.com/tesseract-ocr/tesseract/blob/main/doc/tesseract.1.asc>.
|
|||
|
|
|
|||
|
|
- Распознать текст на изображении и сохранить его по указанному пути (расширение `.txt` добавляется автоматически):
|
|||
|
|
|
|||
|
|
`tesseract {{путь/к/изображению.png}} {{путь/к/выходному_файлу}}`
|
|||
|
|
|
|||
|
|
- Указать язык ([l]anguage) (по умолчанию английский), используя код ISO 639-2 (например, deu = Deutsch = Немецкий):
|
|||
|
|
|
|||
|
|
`tesseract -l deu {{путь/к/изображению.png}} {{путь/к/выходному_файлу}}`
|
|||
|
|
|
|||
|
|
- Вывести список кодов ISO 639-2 установленных языков:
|
|||
|
|
|
|||
|
|
`tesseract --list-langs`
|
|||
|
|
|
|||
|
|
- Указать режим сегментации страницы ([p]age [s]egmentation [m]ode) (по умолчанию 3):
|
|||
|
|
|
|||
|
|
`tesseract --psm {{0..13}} {{путь/к/изображению.png}} {{путь/к/выходному_файлу}}`
|
|||
|
|
|
|||
|
|
- Вывести список режимов сегментации страниц и их описания:
|
|||
|
|
|
|||
|
|
`tesseract --help-psm`
|