Поиск паспорта

Программе на вход подаётся некоторый графический файл, содержащий изображение паспорта. Но совсем необязательно, чтобы паспорт занимал 100% площади изображения.

При использовании сканера паспорт занимает лишь часть формируемого изображения, а если изображение паспорта получается посредством фотоаппарата или веб-камеры, то на снимок могут попасть лишние предметы. Сам паспорт может быть повёрнут на некоторый угол или наклонён по отношению к плоскости камеры. Поэтому прежде всего необходимо найти паспорт на изображении.

Специальный алгоритм определяет тип и качество изображения, по которым происходит выделение области в распознаваемом документе.

1-Passport-Find-Crop
 

 
2-Zones

Поиск зон

На изображении паспорта необходимо найти зоны с целевой информацией. Задача осложняется тем, что в большинстве паспортов надписи размещаются не по ГОСТу: они могут быть смещены относительно стандартных позиций или расположены под углом. Программа учитывает различные характеристики искомых зон и старается максимально точно определить их границы.

 

 

Улучшение качества

Для получения высокого качества распознавания необходимо обеспечить высокое качество исходного изображения паспорта. К сожалению, это далеко не всегда возможно: паспорта могут иметь физические повреждения, в процессе оцифровки могут получиться искажения из-за неисправного сканера и так далее.

Особые проблемы возникают при использовании фотоаппарата или веб-камеры: появление бликов, наклонное положение паспорта, низкая разрешающая способность устройства могут значительно усложнить распознавание. Поэтому перед непосредственной обработкой к изображению паспорта необходимо применить многостадийный процесс устранения дефектов с помощью применения специальных фильтров.

Полученное изображение подвергается бинаризации — преобразуется в черно-белое изображение.

passport_MRZ-filters
 

 
passport_MRZ-noise

Удаление шума

Помимо распознаваемой информации на изображении присутствует большое количество посторонних объектов: гербовый фон, горизонтальные линии, подписи реквизитов, различные дефекты использования, голографические изображения герба и надписи РФ, окантованные шестнадцатиконечной звездой и так далее.

Необходимо удалить все подобные артефакты, для чего используется адаптивный алгоритм: программа анализирует особенности конкретного паспорта и соответствующим образом подстраивает параметры метода удаления шума.

В результате мы получаем двухцветное изображение, содержащее только текст с персональными данными.

 

 

Поиск и классификация слов

После графической обработки проводится поиск отдельных слов. Для каждого слова необходимо определить реквизит паспорта, которому оно принадлежит.

Ситуация осложняется смещением позиций отдельных слов, а также кратким или избыточным заполнением некоторых полей. Корректная классификация достигается за счёт анализа геометрических характеристик найденных слов.

5-Classification
 

 
6-Recognize

Распознавание слов

Далее наступает этап непосредственного распознавания: слова делятся на символы, а изображение каждого символа сопоставляется с его текстовым эквивалентом. Процесс распознавания учитывает особенности различных семейств шрифтов, начертаний и насыщенности символов. Благодаря самообучению результат распознавания улучшается от паспорта к паспорту.

 

 

Семантический анализ

Несмотря на многостадийную обработку изображения, в распознанных данных могут возникать ошибки. Поэтому полученные данные дополнительно корректируются на основе сопоставления одних полей с другими.

Например, если не удалось распознать пол, то его можно предположить, зная ФИО (У Марии Викторовны пол женский).

Серия паспорта связана с его датой выдачи (в 2008-ом году не выдавали паспорта серии 01 09), а код подразделения связан с конкретным местом выдачи.

Анализ подобных правил позволяет не только исправить ошибки распознавания, но и дополнить паспортные данные пропущенными сведениями в случае физического повреждения документа.

7-Semantic-Analysis
 

 
7-Verification

Верификация данных

Некоторые символы PassportVision считает «сомнительными», т.к. из-за плохого качества изображения не всегда есть полная уверенность, что символ распознался правильно. В большинстве случаев все ошибки попадают под сомнение и подсвечиваются красным цветом. Интеллектуальная система навигации по ошибкам позволит оператору очень быстро «пробежать» по всем подозрительным местам и вручную проверить данные.

Сверка текста с исходным изображением происходит практически мгновенно благодаря продуманной системе фокусировки внимания: рядом с полем помещается соответствующий фрагмент документа, на котором подсвечивается выделенный фрагмент текста.

 

 

Результат

В итоге программа выдаёт распознанные данные паспорта высокого уровня точности для дальнейшего их использования в Ваших информационных системах, базах данных и документах:

Done