4.2.1. Распознавание

Распознавание содержимого страниц браузеров.

Содержание

CaptchaSolver, распознавание кода картинки Web страницы

Посредством сервиса rucaptcha.com.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

CloudVision, описание изображений

Поможет распознать текст с изображения, описать происходящее на фотографии, примерно определить возраст человека.

Python Код основан на дополнении ImageDescriber, так что отключите или удалите его, если оно у Вас установлено. Или просто поменяйте вызов горячей клавиши в Настройках жестов NVDA.

Настройки находятся по пути: Параметры, Настройки, от них стрелку вверх — настройки CloudVision. Тут можно поднять все флажки.

Установите навигатор на интересующий объект и нажмите CTRL+NVDA+I, клавиши можно изменить в настройках Жесты,

Если нажать дважды, результат откроется в окне виртуального просмотрщика, можно будет перемещаться стрелками, выделять, копировать.

Для экрана компьютера на момент распознавания для лучшей работы нельзя включать затемнение или снижение яркости.

Можно открывать и переводить текстовые документы. Перевод делается с помощью Яндекса.

Источник: сайт автора visionbot.ru, а ещё с Яндекс-диска.

Lion, распознавание субтитров

В менеджере дополнений отображается как LION — Live, intelligent OCR for NVDA.

LION — это надстройка, которая выполняет автоматическое распознавание определенных участков экрана с определенным интервалом. Почему я говорю, что это умно? Нет, не потому, что я это написал, и не потому, что буква «i» является хорошей аббревиатурой. Поскольку он выполняет оптическое распознавание одной и той же части экрана несколько раз, обычно он будет читать один и тот же текст несколько раз, что не очень приятно. Итак, я реализовал механизм, позволяющий не говорить о тексте, если он кажется похожим на ранее распознанный текст.

Основная причина, по которой я написал его, — это читать субтитры. Из-за того, как он работает, он может читать любые субтитры на экране, включая Youtube, Netflix и другие онлайн-видеосайты, субтитры, встроенные в файлы AVI, и даже прямое телевидение!

Обязательно установите видео в полноэкранный режим при его использовании, так как оно работает так же, как и зрячие глаза. Для лучшей производительности требуется большой текст. Качество не будет идеальным, попробуйте установить как можно больший шрифт субтитров, если у вас есть такая возможность, и используйте экран с высоким разрешением. Используемый механизм OCR несовершенен. На некоторых изображениях он может иметь худшие результаты.

Помимо этого, его можно использовать для отслеживания любого недоступного текста на экране, например, меню видеоигр. К сожалению, он не скажет вам выделенный текст.

Как его использовать? Чтобы запустить его с параметрами по умолчанию, просто нажмите NVDA + alt + l. LION запускает OCR всего экрана с интервалом в 1 секунду, говоря только при изменении текста. С надеждой. 🙂 Если вы хотите настроить его поведение, перейдите в меню NVDA, Настройки, настройки LION. Например, видеофайл может иметь логотип в верхнем левом углу, который читается вместе с субтитрами и мешает восприятию. В следующем разделе мы увидим, как это исправить.

LION имеет следующие настройки:

1. Интервал OCR: как часто программа выполняет OCR. Принимает значения от 0,1 секунды до 10 секунд

2. Цель OCR: указывает часть экрана для OCR. Возможные варианты: текущий элемент управления, текущее окно, объект навигатора и полноэкранный режим

3. Обрезка пикселей сверху, снизу, справа, слева. В полноэкранном режиме эти четыре поля позволяют обрезать части экрана, которые не будут сканироваться. Эти настройки работают только в полноэкранном и текущем оконных режимах.

Чем полезен этот параметр? Вспомним пример логотипа выше. Просто обрежьте 10% или около того сверху, чтобы пропустить логотип, и вы его не услышите. На самом деле, чтобы сделать распознавание более быстрым и менее ресурсоемким, вы можете обрезать примерно 70% сверху, поскольку субтитры обычно находятся в нижней трети экрана. Что за новая версия 1.11 Исправлена ??ошибка, в основном наблюдаемая в полноэкранном режиме youtube. Версия 1.11. настройки кадрирования также влияют на текущий режим окна 2. реализована установка порога схожести, в основном полезная в играх. LION всегда сравнивает текущий текст с тем, который был произнесен ранее. Если он думает, что текст не изменился, он не говорит. Этот параметр определяет, насколько агрессивен LION при сравнении текстов. 0 означает, что все тексты идентичны, что практически делает надстройку непригодной для использования. 1 прочту все тексты, даже если они такие же. По умолчанию — 0.5. Версия 1.0 начальная версия Кто это написал, как часто я буду видеть обновления? Меня зовут Стефан Моисей, слепой программист, пытающийся выжить в восточноевропейской стране, Румынии, у которого есть многое, чтобы наверстать упущенное, чтобы добраться до западный уровень. LION и другое специальное программное обеспечение для слепых — это просто хобби для меня, разрабатываемое в свободное время. Так что, боюсь, обновления будут приходить не слишком часто. Но если вы умеете программировать, это NVDA, так что исходный код тут же. 🙂

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

Ocr, оптическое распознавание символов

Для извлечения текста из объекта, который недоступен. Используется движок Tesseract

Tesseract (с англ. — «тессеракт») — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[3][4]) осуществляется с помощью дополнительных модулей.

Жест ввода находится в ветке Разное, Распознать текст используя tesseract. Он совпадает с встроенным в NVDA жестом, который также может распознавать с помощью компонента Windows 10 OCR. Так что нужно будет удалить или изменить жест в одной из этих веток.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

onlineOCR, извлекает текст из изображения

Отображается как Online Image describer. Этот аддон направлен на добавление движков онлайн-распознавания изображений в NVDA.

Есть два типа двигателей. Оптическое распознавание текста и описатель изображений. OCR извлекает текст из изображения.

Описатель изображения описывает визуальные особенности изображения в текстовой форме. Например, общее описание, ориентиры цветового типа и т. Д.

Скачать можно с официального сайта или с сайта NVDA.RU , а ещё с Яндекс-диска.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.