4.2.1. Распознавание

Распознавание содержимого страниц браузеров.

Содержание

CaptchaSolver, распознавание кода картинки Web страницы

Посредством сервиса rucaptcha.com.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

CloudVision, описание изображений

Поможет распознать текст с изображения, описать происходящее на фотографии, примерно определить возраст человека.

Python Код основан на дополнении ImageDescriber, так что отключите или удалите его, если оно у Вас установлено. Или просто поменяйте вызов горячей клавиши в Настройках жестов NVDA.

Настройки находятся по пути: Параметры, Настройки, от них стрелку вверх — настройки CloudVision. Тут можно поднять все флажки.

Установите навигатор на интересующий объект и нажмите CTRL+NVDA+I, клавиши можно изменить в настройках Жесты,

Если нажать дважды, результат откроется в окне виртуального просмотрщика, можно будет перемещаться стрелками, выделять, копировать.

Для экрана компьютера на момент распознавания для лучшей работы нельзя включать затемнение или снижение яркости.

Можно открывать и переводить текстовые документы. Перевод делается с помощью Яндекса.

Источник: сайт автора visionbot.ru, а ещё с Яндекс-диска.

Lion, распознавание субтитров

В менеджере дополнений отображается как LION — Live, intelligent OCR for NVDA.

LION — это надстройка, которая выполняет автоматическое распознавание определенных участков экрана с определенным интервалом. Почему я говорю, что это умно? Нет, не потому, что я это написал, и не потому, что буква «i» является хорошей аббревиатурой. Поскольку он выполняет оптическое распознавание одной и той же части экрана несколько раз, обычно он будет читать один и тот же текст несколько раз, что не очень приятно. Итак, я реализовал механизм, позволяющий не говорить о тексте, если он кажется похожим на ранее распознанный текст.

Основная причина, по которой я написал его, — это читать субтитры. Из-за того, как он работает, он может читать любые субтитры на экране, включая Youtube, Netflix и другие онлайн-видеосайты, субтитры, встроенные в файлы AVI, и даже прямое телевидение!

Обязательно установите видео в полноэкранный режим при его использовании, так как оно работает так же, как и зрячие глаза. Для лучшей производительности требуется большой текст. Качество не будет идеальным, попробуйте установить как можно больший шрифт субтитров, если у вас есть такая возможность, и используйте экран с высоким разрешением. Используемый механизм OCR несовершенен. На некоторых изображениях он может иметь худшие результаты.

Помимо этого, его можно использовать для отслеживания любого недоступного текста на экране, например, меню видеоигр. К сожалению, он не скажет вам выделенный текст.

Как его использовать? Чтобы запустить его с параметрами по умолчанию, просто нажмите NVDA + alt + l. LION запускает OCR всего экрана с интервалом в 1 секунду, говоря только при изменении текста. С надеждой. 🙂 Если вы хотите настроить его поведение, перейдите в меню NVDA, Настройки, настройки LION. Например, видеофайл может иметь логотип в верхнем левом углу, который читается вместе с субтитрами и мешает восприятию. В следующем разделе мы увидим, как это исправить.

LION имеет следующие настройки:

1. Интервал OCR: как часто программа выполняет OCR. Принимает значения от 0,1 секунды до 10 секунд

2. Цель OCR: указывает часть экрана для OCR. Возможные варианты: текущий элемент управления, текущее окно, объект навигатора и полноэкранный режим

3. Обрезка пикселей сверху, снизу, справа, слева. В полноэкранном режиме эти четыре поля позволяют обрезать части экрана, которые не будут сканироваться. Эти настройки работают только в полноэкранном и текущем оконных режимах.

Чем полезен этот параметр? Вспомним пример логотипа выше. Просто обрежьте 10% или около того сверху, чтобы пропустить логотип, и вы его не услышите. На самом деле, чтобы сделать распознавание более быстрым и менее ресурсоемким, вы можете обрезать примерно 70% сверху, поскольку субтитры обычно находятся в нижней трети экрана. Что за новая версия 1.11 Исправлена ??ошибка, в основном наблюдаемая в полноэкранном режиме youtube. Версия 1.11. настройки кадрирования также влияют на текущий режим окна 2. реализована установка порога схожести, в основном полезная в играх. LION всегда сравнивает текущий текст с тем, который был произнесен ранее. Если он думает, что текст не изменился, он не говорит. Этот параметр определяет, насколько агрессивен LION при сравнении текстов. 0 означает, что все тексты идентичны, что практически делает надстройку непригодной для использования. 1 прочту все тексты, даже если они такие же. По умолчанию — 0.5. Версия 1.0 начальная версия Кто это написал, как часто я буду видеть обновления? Меня зовут Стефан Моисей, слепой программист, пытающийся выжить в восточноевропейской стране, Румынии, у которого есть многое, чтобы наверстать упущенное, чтобы добраться до западный уровень. LION и другое специальное программное обеспечение для слепых — это просто хобби для меня, разрабатываемое в свободное время. Так что, боюсь, обновления будут приходить не слишком часто. Но если вы умеете программировать, это NVDA, так что исходный код тут же. 🙂

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

nao, распознавание файлов

Nao — это надстройка, улучшающая стандартные возможности распознавания текста, которые NVDA предоставляет в современных версиях Windows. В то время как стандартная команда NVDA использует Windows OCR для распознавания экрана, NAO может выполнять OCR для файлов, сохраненных на вашем жестком диске или USB-устройствах. Используйте NVDA-Shift-R для распознавания любых изображений и PDF-файлов! Просто установите фокус / курсор на желаемый файл, не открывайте его, а нажмите NVDA-Shift-r. Документ будет распознан, и появится простое текстовое поле редактирования, позволяющее прочитать все содержимое. Nao может обрабатывать также многостраничный PDF-файл, поэтому, если у вас есть недоступный документ, не волнуйтесь, Windows OCR сможет выполнить всю вашу работу.

Надстройка работает в системах Windows 10 и Windows 11, поскольку они имеют встроенные возможности распознавания текста. Nao совместим с NVDA версии 2021.2, поэтому не используйте старые версии программы чтения с экрана. Обратите внимание, что Nao работает с проводником Windows, на рабочем столе или с файловым менеджером Total Commander; не используйте другое программное обеспечение, например 7zip или Winrar, так как они не поддерживаются.

Возможности и команды

• NVDA + Shift + R: распознавать любые виды изображений и pdf из файловой системы;

? PgUp / PgDown: перемещайте курсор между реальными страницами многостраничного документа.

? NVDA + Shift + P: номер страницы отчета, связанный с положением курсора, в многостраничном документе.

• NVDA + Shift + Ctrl + R: сделать полноэкранный снимок и распознать его.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

Ocr, оптическое распознавание символов

Для извлечения текста из объекта, который недоступен. Используется движок Tesseract

Tesseract (с англ. — «тессеракт») — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[3][4]) осуществляется с помощью дополнительных модулей.

Жест ввода находится в ветке Разное, Распознать текст используя tesseract. Он совпадает с встроенным в NVDA жестом, который также может распознавать с помощью компонента Windows 10 OCR. Так что нужно будет удалить или изменить жест в одной из этих веток.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

onlineOCR, извлекает текст из изображения

Отображается как Online Image describer. Этот аддон направлен на добавление движков онлайн-распознавания изображений в NVDA.

Есть два типа двигателей. Оптическое распознавание текста и описатель изображений. OCR извлекает текст из изображения.

Описатель изображения описывает визуальные особенности изображения в текстовой форме. Например, общее описание, ориентиры цветового типа и т. Д.

Скачать можно с официального сайта или с сайта NVDA.RU , а ещё с Яндекс-диска.

4.2.1. Распознавание: 4 комментария

  1. здравствуйте, Иван. пожалуйста, на яндекс диске обновите дополнение NEO до самой последней версии. спасибо!

  2. здравствуйте, Иван! пожалуйста, обновите на яндекс диске дополнение CloudVision до версии 3.0.0.2. эта версия совместима теперь только с NVDA2021.1 и позже. спасибо!

  3. здравствуйте, Иван. что касается дополнения OnlineOcr, то оно не работает с NVDA2022.1beta3. я уже его протестировал. когда я пытаюсь открыть его настройки, NVDA проигрывает звук ошибки и не открывает диалог настроек дополнения. если автор не будет поддерживать это дополнения или кто-то другой за него не возьмёться, его придётся удалить из данного раздела. остальные дополнения из этого раздела вроде работают с NVDA2022.1beta3. спасибо!

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.