Как технология распознавания текста избавила нас от ручного набора

Представьте: Россия, 1994 год. На рынке вот-вот столкнутся лбами две команды гениев. С одной стороны — выпускники легендарного Физтеха, собиравшие прототипы едва ли не в общаге. С другой — блестящие ученые из Академии наук, ветераны искусственного интеллекта. Их оружие? Технология OCR — распознавание текста. Что из этого вышло и кто правит балом сегодня, в эпоху нейросетей? Давайте разберемся, это же настоящая tech-сага!

Знаете, Арлазаров — это тот самый человек, чья команда создала «Каиссу», первую в мире чемпионку среди шахматных программ. Он же стоял у истоков теоремы «четырех русских» и советского аналога Microsoft — СУБД ИНЕС. Талант, что называется, универсальный. Но хватит интриговать, поехали к истокам.

Первые шаги на пути «OCRизации»

Задумывались ли вы, как часто вас выручает магия распознавания текста? Сфотографировали меню, чтобы перевести — это она, OCR. Отсканировали QR-код для оплаты — снова она. А уж штраф с камеры фиксации — это вообще классика жанра: безжалостный алгоритм высмотрел номер вашей машины. Технология избавила нас от каторжного перепечатывания страниц, ускорила регистрацию в аэропортах и банках. Мы просто принимаем это как данность, не правда ли? А ведь когда-то это была задача почти фантастическая.

Первая попытка автоматизировать чтение случилась еще в 1932-м! Инженер Агапов сконструировал устройство для ввода цифр. Принцип был до смешного прост: символ сравнивался с набором эталонов и получал звание той цифры, на которую больше всего походил. Гениально и незамысловато, как и всё по-настоящему прорывное.

Но настоящий рывок случился лишь на рубеже 80-х и 90-х, и вот почему:

Во-первых, появились ПК с мозгом, достаточно мощным для сложных вычислений.
А во-вторых, на сцену вышли сканеры, способные быстро «загружать» в компьютер целые библиотеки изображений.

Именно тогда в России и началась гонка за создание первой настоящей OCR. Причем стартовали одновременно в двух, казалось бы, несовместимых местах: в серьезной лаборатории искусственного интеллекта РАН и... в коридорах общежития МФТИ. Вот уж где история с характером!

Приключения шахматного короля, или история про укрощение тигра

Давайте начнем с Академии наук. В конце 80-х разработку первой коммерческой OCR возглавил Владимир Арлазаров — живая легенда, пионер ИИ и создатель той самой шахматной «Каиссы». У человека за плечами был колоссальный опыт в интеллектуальных системах.

Как технология распознавания текста избавила нас от ручного набора

На рубеже десятилетий команде поступил необычный заказ от Всероссийского общества слепых: создать технологию для оцифровки книг с их последующим переводом на шрифт Брайля. Почти одновременно «Художественная литература» попросила помочь с переизданием старых книг. Задача ясна — нужен был надежный инструмент распознавания.

И тут советское наследие сыграло на руку: раз печатали книги всего несколькими шрифтами, то и обучать программу нужно было лишь ограниченному набору символов. Так появилась возможность просто сунуть страницу в сканер и почти мгновенно получить редактируемый текст. Программу назвали грозно — OCR Tiger, а для ее продаж в 1993 году создали компанию «Когнитивные технологии». Руководили ею сам Арлазаров и Ольга Ускова — дочь его коллеги, одного из создателей «Каиссы».

Расправьте клинья! Как появилась программа CuneiForm

Часть команды уехала в США и создала Cognitive Technologies Inc., где в 1992 году выпустила англоязычную CuneiForm для Windows. На ее основе в Москве сделали многоязычную версию. В чем была фишка? CuneiForm не зависела от конкретных шрифтов — она анализировала саму структуру символов. Это позволяло работать со сложными страницами, где в одной строке уживалось несколько начертаний и размеров шрифта.

Система понимала 18 языков на основе кириллицы и латиницы, справлялась даже со смешанными текстами вроде русско-английских. Обновленную версию даже встроили в культовый графический редактор CorelDRAW — вот это было признание!

Скорость впечатляла: книжная страница распознавалась менее чем за 10 секунд с 1-2 ошибками. По тем временам — почти волшебство, и все благодаря хитрым алгоритмам, а не грубой силе.

Программа из «общаги»

Пока в «Когнитивных технологиях» работали над Tiger и CuneiForm, параллельно зарождался будущий гигант — ABBYY. История началась с того, что выпускник МФТИ Давид Ян и программист Александр Москалев задумали создать электронный русско-английский словарь. Мысль о компьютерном помощнике для изучения языков не давала Яну покоя. Летом 1989-го он решил действовать.

План казался простым: найти команду для оцифровки словарной базы и разработчика для софта, а самому быть идейным вдохновителем. Ожидали управиться за несколько месяцев и заработать фантастические по тем временам пять тысяч рублей на брата. «Казалось, стоим на пороге студенческого богатства», — вспоминал Ян. Реальность, как часто бывает, внесла коррективы: первые три копии словаря Lingvo продали только в мае следующего года.

К 1992-93 годам компания BIT Software (будущая ABBYY) уже внедрила корректор орфографии и представила свою знаменитую программу FineReader, работающую на 189 языках. Хотя она вышла на полгода позже CuneiForm, именно эти две программы стали старейшими российскими OCR-системами. И между их создателями разгорелась нешуточная борьба.

Пик противостояния

Противоборство «Когнитивных технологий» и ABBYY, начавшееся в начале 90-х, растянулось почти на десятилетие и по сути поделило между ними весь рынок. Судьбы компаний сложились любопытно: ABBYY к середине 2000-х превратилась в международную корпорацию, а в 2022 году официально сосредоточилась на зарубежных проектах.

«Когнитивные технологии», выпустив бесплатную версию CuneiForm и открыв исходный код, ушли от распознавания документов к созданию роботизированных систем для сельхозтехники. А команда, которая занималась непосредственно документами, не остановилась. Внук основателя, Владимир Арлазаров, создал компанию Smart Engines, где продолжает научные разработки в области OCR нового поколения. Их алгоритмы распознают документы из 220 стран, счета, банковские карты и штрихкоды.

Новые вызовы: что умеет современная OCR?

Возможности современных систем поражают. Они работают на любых смартфонах, даже самых простых, и умеют не просто обрабатывать сканы, но и «читать» текст прямо в видеопотоке. В 2015 году Smart Engines первой показала распознавание паспорта в реальном времени на обычном телефоне. За 1-3 секунды система анализирует несколько кадров подряд, извлекая данные. Теперь не нужен сканер — достаточно камеры телефона или даже веб-камеры.

«О том, что бумажные документы скоро исчезнут, говорят столько, сколько я работаю над OCR. Но бумаг только прибавляется, — говорил Владимир Арлазаров. — Сейчас задача не просто в символах, а в сложных структурах, таблицах, рукописном тексте. Мы много сделали, но вызовов еще предостаточно».

Пока вокруг нас существуют бумаги, автоматизация их обработки невозможна без качественной OCR. А появляются и новые задачи — например, распознавание рукописного номера телефона при оплате. Так что гонка технологий продолжается. Интересно, какой поворот будет следующим?