4.2.1. Распознавание

Распознавание содержимого страниц браузеров и текста на графических файлах.

Содержание

CaptchaSolver, распознавание кода картинки Web страницы

Посредством сервиса rucaptcha.com.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

CloudVision, описание изображений

Поможет распознать текст с изображения, описать происходящее на фотографии, примерно определить возраст человека.

Python Код основан на дополнении ImageDescriber, так что отключите или удалите его, если оно у Вас установлено. Или просто поменяйте вызов горячей клавиши в Настройках жестов NVDA.

Настройки находятся по пути: Параметры, Настройки, от них стрелку вверх — настройки CloudVision. Тут можно поднять все флажки.

Установите навигатор на интересующий объект и нажмите CTRL+NVDA+I, клавиши можно изменить в настройках Жесты,

Если нажать дважды, результат откроется в окне виртуального просмотрщика, можно будет перемещаться стрелками, выделять, копировать.

Для экрана компьютера на момент распознавания для лучшей работы нельзя включать затемнение или снижение яркости.

Можно открывать и переводить текстовые документы. Перевод делается с помощью Яндекса.

Источник: сайт автора visionbot.ru, а ещё с Яндекс-диска.

Lion, распознавание субтитров

В менеджере дополнений отображается как LION — Live, intelligent OCR for NVDA.

LION — это надстройка, которая выполняет автоматическое распознавание определенных участков экрана с определенным интервалом. Почему я говорю, что это умно? Нет, не потому, что я это написал, и не потому, что буква «i» является хорошей аббревиатурой. Поскольку он выполняет оптическое распознавание одной и той же части экрана несколько раз, обычно он будет читать один и тот же текст несколько раз, что не очень приятно. Итак, я реализовал механизм, позволяющий не говорить о тексте, если он кажется похожим на ранее распознанный текст.

Основная причина, по которой я написал его, — это читать субтитры. Из-за того, как он работает, он может читать любые субтитры на экране, включая Youtube, Netflix и другие онлайн-видеосайты, субтитры, встроенные в файлы AVI, и даже прямое телевидение!

Обязательно установите видео в полноэкранный режим при его использовании, так как оно работает так же, как и зрячие глаза. Для лучшей производительности требуется большой текст. Качество не будет идеальным, попробуйте установить как можно больший шрифт субтитров, если у вас есть такая возможность, и используйте экран с высоким разрешением. Используемый механизм OCR несовершенен. На некоторых изображениях он может иметь худшие результаты.

Помимо этого, его можно использовать для отслеживания любого недоступного текста на экране, например, меню видеоигр. К сожалению, он не скажет вам выделенный текст.

Как его использовать? Чтобы запустить его с параметрами по умолчанию, просто нажмите NVDA + alt + l. LION запускает OCR всего экрана с интервалом в 1 секунду, говоря только при изменении текста. С надеждой. 🙂 Если вы хотите настроить его поведение, перейдите в меню NVDA, Настройки, настройки LION. Например, видеофайл может иметь логотип в верхнем левом углу, который читается вместе с субтитрами и мешает восприятию. В следующем разделе мы увидим, как это исправить.

LION имеет следующие настройки:

1. Интервал OCR: как часто программа выполняет OCR. Принимает значения от 0,1 секунды до 10 секунд

2. Цель OCR: указывает часть экрана для OCR. Возможные варианты: текущий элемент управления, текущее окно, объект навигатора и полноэкранный режим

3. Обрезка пикселей сверху, снизу, справа, слева. В полноэкранном режиме эти четыре поля позволяют обрезать части экрана, которые не будут сканироваться. Эти настройки работают только в полноэкранном и текущем оконных режимах.

Чем полезен этот параметр? Вспомним пример логотипа выше. Просто обрежьте 10% или около того сверху, чтобы пропустить логотип, и вы его не услышите. На самом деле, чтобы сделать распознавание более быстрым и менее ресурсоемким, вы можете обрезать примерно 70% сверху, поскольку субтитры обычно находятся в нижней трети экрана. Что за новая версия 1.11 Исправлена ??ошибка, в основном наблюдаемая в полноэкранном режиме youtube. Версия 1.11. настройки кадрирования также влияют на текущий режим окна 2. реализована установка порога схожести, в основном полезная в играх. LION всегда сравнивает текущий текст с тем, который был произнесен ранее. Если он думает, что текст не изменился, он не говорит. Этот параметр определяет, насколько агрессивен LION при сравнении текстов. 0 означает, что все тексты идентичны, что практически делает надстройку непригодной для использования. 1 прочту все тексты, даже если они такие же. По умолчанию — 0.5. Версия 1.0 начальная версия Кто это написал, как часто я буду видеть обновления? Меня зовут Стефан Моисей, слепой программист, пытающийся выжить в восточноевропейской стране, Румынии, у которого есть многое, чтобы наверстать упущенное, чтобы добраться до западный уровень. LION и другое специальное программное обеспечение для слепых — это просто хобби для меня, разрабатываемое в свободное время. Так что, боюсь, обновления будут приходить не слишком часто. Но если вы умеете программировать, это NVDA, так что исходный код тут же. 🙂

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

nao, распознавание файлов

Nao — это надстройка, улучшающая стандартные возможности распознавания текста, которые NVDA предоставляет в современных версиях Windows. В то время как стандартная команда NVDA использует Windows OCR для распознавания экрана, NAO может выполнять OCR для файлов, сохраненных на вашем жестком диске или USB-устройствах. Используйте NVDA-Shift-R для распознавания любых изображений и PDF-файлов! Просто установите фокус / курсор на желаемый файл, не открывайте его, а нажмите NVDA-Shift-r. Документ будет распознан, и появится простое текстовое поле редактирования, позволяющее прочитать все содержимое. Nao может обрабатывать также многостраничный PDF-файл, поэтому, если у вас есть недоступный документ, не волнуйтесь, Windows OCR сможет выполнить всю вашу работу.

Надстройка работает в системах Windows 10 и Windows 11, поскольку они имеют встроенные возможности распознавания текста. Nao совместим с NVDA версии 2021.2, поэтому не используйте старые версии программы чтения с экрана. Обратите внимание, что Nao работает с проводником Windows, на рабочем столе или с файловым менеджером Total Commander; не используйте другое программное обеспечение, например 7zip или Winrar, так как они не поддерживаются.

Возможности и команды

• NVDA + Shift + R: распознавать любые виды изображений и pdf из файловой системы;

? PgUp / PgDown: перемещайте курсор между реальными страницами многостраничного документа.

? NVDA + Shift + P: номер страницы отчета, связанный с положением курсора, в многостраничном документе.

• NVDA + Shift + Ctrl + R: сделать полноэкранный снимок и распознать его.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

Ocr, оптическое распознавание символов

Для извлечения текста из объекта, который недоступен. Используется движок Tesseract

Tesseract (с англ. — «тессеракт») — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[3][4]) осуществляется с помощью дополнительных модулей.

Жест ввода находится в ветке Разное, Распознать текст используя tesseract. Он совпадает с встроенным в NVDA жестом, который также может распознавать с помощью компонента Windows 10 OCR. Так что нужно будет удалить или изменить жест в одной из этих веток.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

sibiac_ocr, OCR module for SIBIAC add-on, модуль для распознавани текста

Пакет включает в себя двоичную версию Tesseract OCR, скомпилированную с использованием GCC. Соответствующие файлы лицензий можно найти в подкаталоге tesseract.

ЗЫ. Как это работает, я не разобрался.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

tesseractOCR, офлайн распознавание

Использует бесплатный и открытый движок распознавания Tesseract OCR engine для выполнения оптического распознавания символов в файле изображения, PDF, JPG, TIF или другом, без необходимости его открытия. Он также может сканировать и распознавать бумажный документ с помощью сканера, совместимого с WIA. Русский есть среди языков распознавания.

По сравнению с NAO, он имеет следующие отличия:

1 — Использование Tesseract OCR вместо Windows OCR, и для меня это лучше…;

2 — Другое отображение результатов, текстовый формат вместо определенного интерфейса;

3 — TesseractOCR не выполняет распознавание текста на экране;

4 — TesseractOCR может выполнять распознавание текста из бумажного документа с помощью сканера, совместимого с WIA.

Он настолько велик из-за необходимости в файлах, нужных для распознавания всех поддерживаемых языков…

Windows+Control+r — для распознавания выбранный документ;

Windows+Control+Shift+r — для сканирования и распознавания документа с помощью сканера.

Тогда просто подождите, что ocr.txt откроется с распознанным текстом.

Если хотите сохранить распознанный текст, не забудьте сохранить документ под другим именем и в другом месте, так как все файлы во временном каталоге удаляются при запуске следующего процесса распознавания!

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

4.2.1. Распознавание: 7 комментариев

  1. здравствуйте, Иван. пожалуйста, на яндекс диске обновите дополнение NEO до самой последней версии. спасибо!

  2. здравствуйте, Иван! пожалуйста, обновите на яндекс диске дополнение CloudVision до версии 3.0.0.2. эта версия совместима теперь только с NVDA2021.1 и позже. спасибо!

  3. здравствуйте, Иван. что касается дополнения OnlineOcr, то оно не работает с NVDA2022.1beta3. я уже его протестировал. когда я пытаюсь открыть его настройки, NVDA проигрывает звук ошибки и не открывает диалог настроек дополнения. если автор не будет поддерживать это дополнения или кто-то другой за него не возьмёться, его придётся удалить из данного раздела. остальные дополнения из этого раздела вроде работают с NVDA2022.1beta3. спасибо!

  4. что касается дополнения OnlineOcr, как я уже писал, будет не корректно работать в 2022.1, если отредактировать манифест. невозможно открыть диалог настроек дополнения. если автор больше не будет над ним работать, то наверное его следует удалить из данного раздела. а дополнения Lion и Ocr, работают в 2022.1, если отредактировать манифест. спасибо!

  5. здравствуйте, Иван. в данный раздел можно было бы добавить ещё одно дополнение это TesractOcr. оно было недавно разработано Ruifontes. скоро оно должно появится на сайте nvda-addons.org. спасибо!

    1. Да, Павел, на Яндекс-диск уже добавил, но описания на сайте буду обновлять не чаще раза в неделю, итак много редакций одних и тех же страниц накопилось.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.