4.2.1. Распознавание

Распознавание содержимого страниц браузеров и графических файлов.

Содержание

AIContentDescriber, описатель контента с использованием ИИ

Позволяет описать объект фокусировки, объект навигатора или экран с помощью популярного GPT4 vision artificial intelegence LLM.

Хотя описания содержимого достаточно подробны, они не всегда могут быть полностью точными или отражать реальную информацию.

Скачать можно с сайта nvda-addons.ru, а ещё с Яндекс-диска.

CaptchaSolver, распознавание кода картинки Web страницы

Посредством сервиса rucaptcha.com.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

CloudVision, описание изображений

Поможет распознать текст с изображения, описать происходящее на фотографии, примерно определить возраст человека.

Python Код основан на дополнении ImageDescriber, так что отключите или удалите его, если оно у Вас установлено. Или просто поменяйте вызов горячей клавиши в Настройках жестов NVDA.

Настройки находятся по пути: Параметры, Настройки, от них стрелку вверх — настройки CloudVision. Тут можно поднять все флажки.

Установите навигатор на интересующий объект и нажмите CTRL+NVDA+I, клавиши можно изменить в настройках Жесты,

Если нажать дважды, результат откроется в окне виртуального просмотрщика, можно будет перемещаться стрелками, выделять, копировать.

Для экрана компьютера на момент распознавания для лучшей работы нельзя включать затемнение или снижение яркости.

Можно открывать и переводить текстовые документы. Перевод делается с помощью Яндекса.

Источник: сайт автора visionbot.ru, а ещё с Яндекс-диска.

Lion, распознавание субтитров

В менеджере дополнений отображается как LION — Live, intelligent OCR for NVDA.

LION — это надстройка, которая выполняет автоматическое распознавание определенных участков экрана с определенным интервалом. Почему я говорю, что это умно? Нет, не потому, что я это написал, и не потому, что буква «i» является хорошей аббревиатурой. Поскольку он выполняет оптическое распознавание одной и той же части экрана несколько раз, обычно он будет читать один и тот же текст несколько раз, что не очень приятно. Итак, я реализовал механизм, позволяющий не говорить о тексте, если он кажется похожим на ранее распознанный текст.

Основная причина, по которой я написал его, — это читать субтитры. Из-за того, как он работает, он может читать любые субтитры на экране, включая Youtube, Netflix и другие онлайн-видеосайты, субтитры, встроенные в файлы AVI, и даже прямое телевидение!

Обязательно установите видео в полноэкранный режим при его использовании, так как оно работает так же, как и зрячие глаза. Для лучшей производительности требуется большой текст. Качество не будет идеальным, попробуйте установить как можно больший шрифт субтитров, если у вас есть такая возможность, и используйте экран с высоким разрешением. Используемый механизм OCR несовершенен. На некоторых изображениях он может иметь худшие результаты.

Помимо этого, его можно использовать для отслеживания любого недоступного текста на экране, например, меню видеоигр. К сожалению, он не скажет вам выделенный текст.

Как его использовать? Чтобы запустить его с параметрами по умолчанию, просто нажмите NVDA + alt + l. LION запускает OCR всего экрана с интервалом в 1 секунду, говоря только при изменении текста. С надеждой. 🙂 Если вы хотите настроить его поведение, перейдите в меню NVDA, Настройки, настройки LION. Например, видеофайл может иметь логотип в верхнем левом углу, который читается вместе с субтитрами и мешает восприятию. В следующем разделе мы увидим, как это исправить.

LION имеет следующие настройки:

1. Интервал OCR: как часто программа выполняет OCR. Принимает значения от 0,1 секунды до 10 секунд

2. Цель OCR: указывает часть экрана для OCR. Возможные варианты: текущий элемент управления, текущее окно, объект навигатора и полноэкранный режим

3. Обрезка пикселей сверху, снизу, справа, слева. В полноэкранном режиме эти четыре поля позволяют обрезать части экрана, которые не будут сканироваться. Эти настройки работают только в полноэкранном и текущем оконных режимах.

Чем полезен этот параметр? Вспомним пример логотипа выше. Просто обрежьте 10% или около того сверху, чтобы пропустить логотип, и вы его не услышите. На самом деле, чтобы сделать распознавание более быстрым и менее ресурсоемким, вы можете обрезать примерно 70% сверху, поскольку субтитры обычно находятся в нижней трети экрана. Что за новая версия 1.11 Исправлена ??ошибка, в основном наблюдаемая в полноэкранном режиме youtube. Версия 1.11. настройки кадрирования также влияют на текущий режим окна 2. реализована установка порога схожести, в основном полезная в играх. LION всегда сравнивает текущий текст с тем, который был произнесен ранее. Если он думает, что текст не изменился, он не говорит. Этот параметр определяет, насколько агрессивен LION при сравнении текстов. 0 означает, что все тексты идентичны, что практически делает надстройку непригодной для использования. 1 прочту все тексты, даже если они такие же. По умолчанию — 0.5. Версия 1.0 начальная версия Кто это написал, как часто я буду видеть обновления? Меня зовут Стефан Моисей, слепой программист, пытающийся выжить в восточноевропейской стране, Румынии, у которого есть многое, чтобы наверстать упущенное, чтобы добраться до западный уровень. LION и другое специальное программное обеспечение для слепых — это просто хобби для меня, разрабатываемое в свободное время. Так что, боюсь, обновления будут приходить не слишком часто. Но если вы умеете программировать, это NVDA, так что исходный код тут же. 🙂

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

nao, распознавание файлов

Nao — это надстройка, улучшающая стандартные возможности распознавания текста, которые NVDA предоставляет в современных версиях Windows. В то время как стандартная команда NVDA использует Windows OCR для распознавания экрана, NAO может выполнять OCR для файлов, сохраненных на вашем жестком диске или USB-устройствах. Используйте NVDA-Shift-R для распознавания любых изображений и PDF-файлов! Просто установите фокус / курсор на желаемый файл, не открывайте его, а нажмите NVDA-Shift-r. Документ будет распознан, и появится простое текстовое поле редактирования, позволяющее прочитать все содержимое. Nao может обрабатывать также многостраничный PDF-файл, поэтому, если у вас есть недоступный документ, не волнуйтесь, Windows OCR сможет выполнить всю вашу работу.

Надстройка работает в системах Windows 10 и Windows 11, поскольку они имеют встроенные возможности распознавания текста. Nao совместим с NVDA версии 2021.2, поэтому не используйте старые версии программы чтения с экрана. Обратите внимание, что Nao работает с проводником Windows, на рабочем столе или с файловым менеджером Total Commander; не используйте другое программное обеспечение, например 7zip или Winrar, так как они не поддерживаются.

Возможности и команды

• NVDA + Shift + R: распознавать любые виды изображений и pdf из файловой системы;

? PgUp / PgDown: перемещайте курсор между реальными страницами многостраничного документа.

? NVDA + Shift + P: номер страницы отчета, связанный с положением курсора, в многостраничном документе.

• NVDA + Shift + Ctrl + R: сделать полноэкранный снимок и распознать его.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

Ocr, оптическое распознавание символов

Для извлечения текста из объекта, который недоступен. Используется движок Tesseract

Tesseract (с англ. — «тессеракт») — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[3][4]) осуществляется с помощью дополнительных модулей.

Жест ввода находится в ветке Разное, Распознать текст используя tesseract. Он совпадает с встроенным в NVDA жестом, который также может распознавать с помощью компонента Windows 10 OCR. Так что нужно будет удалить или изменить жест в одной из этих веток.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

onlineOCR, извлекает текст из изображения, 2021

Отображается как Online Image describer. Этот аддон направлен на добавление движков онлайн-распознавания изображений в NVDA.

Есть два типа двигателей. Оптическое распознавание текста и описатель изображений. OCR извлекает текст из изображения.

Описатель изображения описывает визуальные особенности изображения в текстовой форме. Например, общее описание, ориентиры цветового типа и т. Д.

Скачать можно с официального сайта или с сайта NVDA.RU , а ещё с Яндекс-диска.

scanvox, сканирование и чтение бумажных документов

Позволяет читать бумажные документы с помощью программы Scanvox.

Чтобы воспользоваться им, перейдите в меню NVDA,Сервис подменю и выберите пункт Scanvox или нажмите сочетание клавиш NVDA+Alt+S.

В этом диалоге вы можете начать сканирование, нажав на кнопку Сканировать.

Начало сканирования займет несколько секунд, а по окончании процесса сканирования отсканированный текст будет автоматически зачитан вслух. Нажимайте эту кнопку до тех пор, пока не будут отсканированы все страницы. После завершения сканирования вы можете сохранить файл или открыть его непосредственно в Блокноте с помощью соответствующих кнопок.

Если вы хотите удалить отсканированные страницы, чтобы отсканировать новый документ, вы можете нажать кнопку для отмены всех отсканированных страниц. При выходе из Scanvox все отсканированные страницы будут удалены.

Чтобы использовать это дополнение, к вашему компьютеру должен быть подключен USB-сканер, совместимый с TWAIN или WIA, что характерно для большинства сканеров.

Скачать можно с сайта nvda-addons.ru, а ещё с Яндекс-диска.

tesseractOCR, офлайн распознавание

Использует бесплатный и открытый движок распознавания Tesseract OCR engine для выполнения оптического распознавания символов в файле изображения, PDF, JPG, TIF или другом, без необходимости его открытия. Он также может сканировать и распознавать бумажный документ с помощью сканера, совместимого с WIA. Русский есть среди языков распознавания.

По сравнению с NAO, он имеет следующие отличия:

1 — Использование Tesseract OCR вместо Windows OCR, и для меня это лучше…;

2 — Другое отображение результатов, текстовый формат вместо определенного интерфейса;

3 — TesseractOCR не выполняет распознавание текста на экране;

4 — TesseractOCR может выполнять распознавание текста из бумажного документа с помощью сканера, совместимого с WIA.

Он настолько велик из-за необходимости в файлах, нужных для распознавания всех поддерживаемых языков…

Windows+Control+r — для распознавания выбранный документ;

Windows+Control+Shift+r — для сканирования и распознавания документа с помощью сканера.

Тогда просто подождите, что ocr.txt откроется с распознанным текстом.

Если хотите сохранить распознанный текст, не забудьте сохранить документ под другим именем и в другом месте, так как все файлы во временном каталоге удаляются при запуске следующего процесса распознавания!

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

XPoseImage Captioner, создавать подписи с помощью искусственного интеллекта к изображениям в формате JPEG и PNG

Из проводника Windows, Microsoft Edge, Google Chrome и Firefox.

Сначала выберите изображение с помощью навигационного курсора, затем нажмите NVDA +x, чтобы активировать дополнение. Аддон скажет «Субтитры, пожалуйста, подождите», когда искусственный интеллект подпишет изображение. Этот процесс займет от одной до пяти секунд в зависимости от скорости процессора вашего компьютера. Окно откроется после того, как искусственный интеллект завершит создание подписи, показывающей текст

заголовок и текст подписи будут прочитаны. Вы можете закрыть окно заголовка, нажав клавишу Escape.

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

xyOCR, автономное и онлайн-распознавание текста

Автономное распознавание разработано на основе компонента PaddleOCR_json.В настоящее время это дополнение предоставляет автономный механизм распознавания OCR от PaddleOCR_json и онлайн-версию Baidu general и точную версию механизма распознавания. После установки дополнения компонент PaddleOCR_json будет установлен автоматически. В будущем постепенно будут подключены другие автономные и онлайн-системы распознавания текста OCR.Дополнение

Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.

4.2.1. Распознавание: 10 комментариев

  1. здравствуйте, Иван. пожалуйста, на яндекс диске обновите дополнение NEO до самой последней версии. спасибо!

  2. здравствуйте, Иван! пожалуйста, обновите на яндекс диске дополнение CloudVision до версии 3.0.0.2. эта версия совместима теперь только с NVDA2021.1 и позже. спасибо!

  3. здравствуйте, Иван. что касается дополнения OnlineOcr, то оно не работает с NVDA2022.1beta3. я уже его протестировал. когда я пытаюсь открыть его настройки, NVDA проигрывает звук ошибки и не открывает диалог настроек дополнения. если автор не будет поддерживать это дополнения или кто-то другой за него не возьмёться, его придётся удалить из данного раздела. остальные дополнения из этого раздела вроде работают с NVDA2022.1beta3. спасибо!

  4. что касается дополнения OnlineOcr, как я уже писал, будет не корректно работать в 2022.1, если отредактировать манифест. невозможно открыть диалог настроек дополнения. если автор больше не будет над ним работать, то наверное его следует удалить из данного раздела. а дополнения Lion и Ocr, работают в 2022.1, если отредактировать манифест. спасибо!

  5. здравствуйте, Иван. в данный раздел можно было бы добавить ещё одно дополнение это TesractOcr. оно было недавно разработано Ruifontes. скоро оно должно появится на сайте nvda-addons.org. спасибо!

    1. Да, Павел, на Яндекс-диск уже добавил, но описания на сайте буду обновлять не чаще раза в неделю, итак много редакций одних и тех же страниц накопилось.

  6. здравствуйте, Иван. что касается дополнения OnlineOcr, то оно было обновлено до верии 0.23, которая работает с NVDA2023.1RC1. но это не официальная версия, и находится она на сайте nvda.ru в разделе локализация дополнений. правда, она пока без русификации. может быть пока не следует её снова добавлять в данный раздел, а подождать, пока Валентин переведёт это дополнение на русский, но это неизвестно ещ,, когда будет, может скоро, а может только через три месяца. спасибо!

  7. здравствуйте, Иван. я только не понял одного, почему дополнение OpenAi включено не в этот раздел, а в раздел работа с текстом на веб-страницах. ведь это же дополнение для распознавания. я считаю, что его следует включить в этот раздел, так как с помощью него можно распознавать текст не только на веб-страницах, но и на экране. спасибо!

Добавить комментарий для павел Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.