Распознавание содержимого страниц браузеров и графических файлов.
Содержание
- CaptchaSolver, распознавание кода картинки Web страницы
- CloudVision, распознавание изображений
- Lion, распознавание субтитров
- nao, распознавание файлов
- Ocr, оптическое распознавание символов
- onlineOCR, извлекает текст из изображения
- tesseractOCR, офлайн распознавание
- XPoseImage Captioner, создавать подписи с помощью искусственного интеллекта к изображениям в формате JPEG и PNG
- xyOCR, автономное и онлайн-распознавание текста
CaptchaSolver, распознавание кода картинки Web страницы
Посредством сервиса rucaptcha.com.
Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.
CloudVision, описание изображений
Поможет распознать текст с изображения, описать происходящее на фотографии, примерно определить возраст человека.
Python Код основан на дополнении ImageDescriber, так что отключите или удалите его, если оно у Вас установлено. Или просто поменяйте вызов горячей клавиши в Настройках жестов NVDA.
Настройки находятся по пути: Параметры, Настройки, от них стрелку вверх — настройки CloudVision. Тут можно поднять все флажки.
Установите навигатор на интересующий объект и нажмите CTRL+NVDA+I, клавиши можно изменить в настройках Жесты,
Если нажать дважды, результат откроется в окне виртуального просмотрщика, можно будет перемещаться стрелками, выделять, копировать.
Для экрана компьютера на момент распознавания для лучшей работы нельзя включать затемнение или снижение яркости.
Можно открывать и переводить текстовые документы. Перевод делается с помощью Яндекса.
Источник: сайт автора visionbot.ru, а ещё с Яндекс-диска.
Lion, распознавание субтитров
В менеджере дополнений отображается как LION — Live, intelligent OCR for NVDA.
LION — это надстройка, которая выполняет автоматическое распознавание определенных участков экрана с определенным интервалом. Почему я говорю, что это умно? Нет, не потому, что я это написал, и не потому, что буква «i» является хорошей аббревиатурой. Поскольку он выполняет оптическое распознавание одной и той же части экрана несколько раз, обычно он будет читать один и тот же текст несколько раз, что не очень приятно. Итак, я реализовал механизм, позволяющий не говорить о тексте, если он кажется похожим на ранее распознанный текст.
Основная причина, по которой я написал его, — это читать субтитры. Из-за того, как он работает, он может читать любые субтитры на экране, включая Youtube, Netflix и другие онлайн-видеосайты, субтитры, встроенные в файлы AVI, и даже прямое телевидение!
Обязательно установите видео в полноэкранный режим при его использовании, так как оно работает так же, как и зрячие глаза. Для лучшей производительности требуется большой текст. Качество не будет идеальным, попробуйте установить как можно больший шрифт субтитров, если у вас есть такая возможность, и используйте экран с высоким разрешением. Используемый механизм OCR несовершенен. На некоторых изображениях он может иметь худшие результаты.
Помимо этого, его можно использовать для отслеживания любого недоступного текста на экране, например, меню видеоигр. К сожалению, он не скажет вам выделенный текст.
Как его использовать? Чтобы запустить его с параметрами по умолчанию, просто нажмите NVDA + alt + l. LION запускает OCR всего экрана с интервалом в 1 секунду, говоря только при изменении текста. С надеждой. 🙂 Если вы хотите настроить его поведение, перейдите в меню NVDA, Настройки, настройки LION. Например, видеофайл может иметь логотип в верхнем левом углу, который читается вместе с субтитрами и мешает восприятию. В следующем разделе мы увидим, как это исправить.
LION имеет следующие настройки:
1. Интервал OCR: как часто программа выполняет OCR. Принимает значения от 0,1 секунды до 10 секунд
2. Цель OCR: указывает часть экрана для OCR. Возможные варианты: текущий элемент управления, текущее окно, объект навигатора и полноэкранный режим
3. Обрезка пикселей сверху, снизу, справа, слева. В полноэкранном режиме эти четыре поля позволяют обрезать части экрана, которые не будут сканироваться. Эти настройки работают только в полноэкранном и текущем оконных режимах.
Чем полезен этот параметр? Вспомним пример логотипа выше. Просто обрежьте 10% или около того сверху, чтобы пропустить логотип, и вы его не услышите. На самом деле, чтобы сделать распознавание более быстрым и менее ресурсоемким, вы можете обрезать примерно 70% сверху, поскольку субтитры обычно находятся в нижней трети экрана. Что за новая версия 1.11 Исправлена ??ошибка, в основном наблюдаемая в полноэкранном режиме youtube. Версия 1.11. настройки кадрирования также влияют на текущий режим окна 2. реализована установка порога схожести, в основном полезная в играх. LION всегда сравнивает текущий текст с тем, который был произнесен ранее. Если он думает, что текст не изменился, он не говорит. Этот параметр определяет, насколько агрессивен LION при сравнении текстов. 0 означает, что все тексты идентичны, что практически делает надстройку непригодной для использования. 1 прочту все тексты, даже если они такие же. По умолчанию — 0.5. Версия 1.0 начальная версия Кто это написал, как часто я буду видеть обновления? Меня зовут Стефан Моисей, слепой программист, пытающийся выжить в восточноевропейской стране, Румынии, у которого есть многое, чтобы наверстать упущенное, чтобы добраться до западный уровень. LION и другое специальное программное обеспечение для слепых — это просто хобби для меня, разрабатываемое в свободное время. Так что, боюсь, обновления будут приходить не слишком часто. Но если вы умеете программировать, это NVDA, так что исходный код тут же. 🙂
Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.
nao, распознавание файлов
Nao — это надстройка, улучшающая стандартные возможности распознавания текста, которые NVDA предоставляет в современных версиях Windows. В то время как стандартная команда NVDA использует Windows OCR для распознавания экрана, NAO может выполнять OCR для файлов, сохраненных на вашем жестком диске или USB-устройствах. Используйте NVDA-Shift-R для распознавания любых изображений и PDF-файлов! Просто установите фокус / курсор на желаемый файл, не открывайте его, а нажмите NVDA-Shift-r. Документ будет распознан, и появится простое текстовое поле редактирования, позволяющее прочитать все содержимое. Nao может обрабатывать также многостраничный PDF-файл, поэтому, если у вас есть недоступный документ, не волнуйтесь, Windows OCR сможет выполнить всю вашу работу.
Надстройка работает в системах Windows 10 и Windows 11, поскольку они имеют встроенные возможности распознавания текста. Nao совместим с NVDA версии 2021.2, поэтому не используйте старые версии программы чтения с экрана. Обратите внимание, что Nao работает с проводником Windows, на рабочем столе или с файловым менеджером Total Commander; не используйте другое программное обеспечение, например 7zip или Winrar, так как они не поддерживаются.
Возможности и команды
• NVDA + Shift + R: распознавать любые виды изображений и pdf из файловой системы;
? PgUp / PgDown: перемещайте курсор между реальными страницами многостраничного документа.
? NVDA + Shift + P: номер страницы отчета, связанный с положением курсора, в многостраничном документе.
• NVDA + Shift + Ctrl + R: сделать полноэкранный снимок и распознать его.
Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.
Ocr, оптическое распознавание символов
Для извлечения текста из объекта, который недоступен. Используется движок Tesseract
Tesseract (с англ. — «тессеракт») — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[3][4]) осуществляется с помощью дополнительных модулей.
Жест ввода находится в ветке Разное, Распознать текст используя tesseract. Он совпадает с встроенным в NVDA жестом, который также может распознавать с помощью компонента Windows 10 OCR. Так что нужно будет удалить или изменить жест в одной из этих веток.
Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.
onlineOCR, извлекает текст из изображения, 2021
Отображается как Online Image describer. Этот аддон направлен на добавление движков онлайн-распознавания изображений в NVDA.
Есть два типа двигателей. Оптическое распознавание текста и описатель изображений. OCR извлекает текст из изображения.
Описатель изображения описывает визуальные особенности изображения в текстовой форме. Например, общее описание, ориентиры цветового типа и т. Д.
Скачать можно с официального сайта или с сайта NVDA.RU , а ещё с Яндекс-диска.
tesseractOCR, офлайн распознавание
Использует бесплатный и открытый движок распознавания Tesseract OCR engine для выполнения оптического распознавания символов в файле изображения, PDF, JPG, TIF или другом, без необходимости его открытия. Он также может сканировать и распознавать бумажный документ с помощью сканера, совместимого с WIA. Русский есть среди языков распознавания.
По сравнению с NAO, он имеет следующие отличия:
1 — Использование Tesseract OCR вместо Windows OCR, и для меня это лучше…;
2 — Другое отображение результатов, текстовый формат вместо определенного интерфейса;
3 — TesseractOCR не выполняет распознавание текста на экране;
4 — TesseractOCR может выполнять распознавание текста из бумажного документа с помощью сканера, совместимого с WIA.
Он настолько велик из-за необходимости в файлах, нужных для распознавания всех поддерживаемых языков…
Windows+Control+r — для распознавания выбранный документ;
Windows+Control+Shift+r — для сканирования и распознавания документа с помощью сканера.
Тогда просто подождите, что ocr.txt откроется с распознанным текстом.
Если хотите сохранить распознанный текст, не забудьте сохранить документ под другим именем и в другом месте, так как все файлы во временном каталоге удаляются при запуске следующего процесса распознавания!
Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.
XPoseImage Captioner, создавать подписи с помощью искусственного интеллекта к изображениям в формате JPEG и PNG
Из проводника Windows, Microsoft Edge, Google Chrome и Firefox.
Сначала выберите изображение с помощью навигационного курсора, затем нажмите NVDA +x, чтобы активировать дополнение. Аддон скажет «Субтитры, пожалуйста, подождите», когда искусственный интеллект подпишет изображение. Этот процесс займет от одной до пяти секунд в зависимости от скорости процессора вашего компьютера. Окно откроется после того, как искусственный интеллект завершит создание подписи, показывающей текст
заголовок и текст подписи будут прочитаны. Вы можете закрыть окно заголовка, нажав клавишу Escape.
Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.
xyOCR, автономное и онлайн-распознавание текста
Автономное распознавание разработано на основе компонента PaddleOCR_json.В настоящее время это дополнение предоставляет автономный механизм распознавания OCR от PaddleOCR_json и онлайн-версию Baidu general и точную версию механизма распознавания. После установки дополнения компонент PaddleOCR_json будет установлен автоматически. В будущем постепенно будут подключены другие автономные и онлайн-системы распознавания текста OCR.Дополнение
Скачать можно с сайта NVDA.RU , а ещё с Яндекс-диска.
здравствуйте, Иван. пожалуйста, на яндекс диске обновите дополнение NEO до самой последней версии. спасибо!
здравствуйте, Иван! пожалуйста, обновите на яндекс диске дополнение CloudVision до версии 3.0.0.2. эта версия совместима теперь только с NVDA2021.1 и позже. спасибо!
Хорошо, Павел, обновил.
здравствуйте, Иван. что касается дополнения OnlineOcr, то оно не работает с NVDA2022.1beta3. я уже его протестировал. когда я пытаюсь открыть его настройки, NVDA проигрывает звук ошибки и не открывает диалог настроек дополнения. если автор не будет поддерживать это дополнения или кто-то другой за него не возьмёться, его придётся удалить из данного раздела. остальные дополнения из этого раздела вроде работают с NVDA2022.1beta3. спасибо!
что касается дополнения OnlineOcr, как я уже писал, будет не корректно работать в 2022.1, если отредактировать манифест. невозможно открыть диалог настроек дополнения. если автор больше не будет над ним работать, то наверное его следует удалить из данного раздела. а дополнения Lion и Ocr, работают в 2022.1, если отредактировать манифест. спасибо!
здравствуйте, Иван. в данный раздел можно было бы добавить ещё одно дополнение это TesractOcr. оно было недавно разработано Ruifontes. скоро оно должно появится на сайте nvda-addons.org. спасибо!
Да, Павел, на Яндекс-диск уже добавил, но описания на сайте буду обновлять не чаще раза в неделю, итак много редакций одних и тех же страниц накопилось.
здравствуйте, Иван. что касается дополнения OnlineOcr, то оно было обновлено до верии 0.23, которая работает с NVDA2023.1RC1. но это не официальная версия, и находится она на сайте nvda.ru в разделе локализация дополнений. правда, она пока без русификации. может быть пока не следует её снова добавлять в данный раздел, а подождать, пока Валентин переведёт это дополнение на русский, но это неизвестно ещ,, когда будет, может скоро, а может только через три месяца. спасибо!