Как технология распознавания текста избавила нас от ручного набора
Первые шаги на пути «OCRизации»
Задумывались ли вы, как часто вас выручает магия распознавания текста? Сфотографировали меню, чтобы перевести — это она, OCR. Отсканировали QR-код для оплаты — снова она. А уж штраф с камеры фиксации — это вообще классика жанра: безжалостный алгоритм высмотрел номер вашей машины. Технология избавила нас от каторжного перепечатывания страниц, ускорила регистрацию в аэропортах и банках. Мы просто принимаем это как данность, не правда ли? А ведь когда-то это была задача почти фантастическая.
Первая попытка автоматизировать чтение случилась еще в 1932-м! Инженер Агапов сконструировал устройство для ввода цифр. Принцип был до смешного прост: символ сравнивался с набором эталонов и получал звание той цифры, на которую больше всего походил. Гениально и незамысловато, как и всё по-настоящему прорывное.
Но настоящий рывок случился лишь на рубеже 80-х и 90-х, и вот почему:
- Во-первых, появились ПК с мозгом, достаточно мощным для сложных вычислений.
- А во-вторых, на сцену вышли сканеры, способные быстро «загружать» в компьютер целые библиотеки изображений.
Именно тогда в России и началась гонка за создание первой настоящей OCR. Причем стартовали одновременно в двух, казалось бы, несовместимых местах: в серьезной лаборатории искусственного интеллекта РАН и... в коридорах общежития МФТИ. Вот уж где история с характером!
Приключения шахматного короля, или история про укрощение тигра
Давайте начнем с Академии наук. В конце 80-х разработку первой коммерческой OCR возглавил Владимир Арлазаров — живая легенда, пионер ИИ и создатель той самой шахматной «Каиссы». У человека за плечами был колоссальный опыт в интеллектуальных системах.

На рубеже десятилетий команде поступил необычный заказ от Всероссийского общества слепых: создать технологию для оцифровки книг с их последующим переводом на шрифт Брайля. Почти одновременно «Художественная литература» попросила помочь с переизданием старых книг. Задача ясна — нужен был надежный инструмент распознавания.
И тут советское наследие сыграло на руку: раз печатали книги всего несколькими шрифтами, то и обучать программу нужно было лишь ограниченному набору символов. Так появилась возможность просто сунуть страницу в сканер и почти мгновенно получить редактируемый текст. Программу назвали грозно — OCR Tiger, а для ее продаж в 1993 году создали компанию «Когнитивные технологии». Руководили ею сам Арлазаров и Ольга Ускова — дочь его коллеги, одного из создателей «Каиссы».

Расправьте клинья! Как появилась программа CuneiForm
Часть команды уехала в США и создала Cognitive Technologies Inc., где в 1992 году выпустила англоязычную CuneiForm для Windows. На ее основе в Москве сделали многоязычную версию. В чем была фишка? CuneiForm не зависела от конкретных шрифтов — она анализировала саму структуру символов. Это позволяло работать со сложными страницами, где в одной строке уживалось несколько начертаний и размеров шрифта.
Система понимала 18 языков на основе кириллицы и латиницы, справлялась даже со смешанными текстами вроде русско-английских. Обновленную версию даже встроили в культовый графический редактор CorelDRAW — вот это было признание!

Скорость впечатляла: книжная страница распознавалась менее чем за 10 секунд с 1-2 ошибками. По тем временам — почти волшебство, и все благодаря хитрым алгоритмам, а не грубой силе.
Программа из «общаги»
Пока в «Когнитивных технологиях» работали над Tiger и CuneiForm, параллельно зарождался будущий гигант — ABBYY. История началась с того, что выпускник МФТИ Давид Ян и программист Александр Москалев задумали создать электронный русско-английский словарь. Мысль о компьютерном помощнике для изучения языков не давала Яну покоя. Летом 1989-го он решил действовать.
План казался простым: найти команду для оцифровки словарной базы и разработчика для софта, а самому быть идейным вдохновителем. Ожидали управиться за несколько месяцев и заработать фантастические по тем временам пять тысяч рублей на брата. «Казалось, стоим на пороге студенческого богатства», — вспоминал Ян. Реальность, как часто бывает, внесла коррективы: первые три копии словаря Lingvo продали только в мае следующего года.

К 1992-93 годам компания BIT Software (будущая ABBYY) уже внедрила корректор орфографии и представила свою знаменитую программу FineReader, работающую на 189 языках. Хотя она вышла на полгода позже CuneiForm, именно эти две программы стали старейшими российскими OCR-системами. И между их создателями разгорелась нешуточная борьба.
Пик противостояния
Противоборство «Когнитивных технологий» и ABBYY, начавшееся в начале 90-х, растянулось почти на десятилетие и по сути поделило между ними весь рынок. Судьбы компаний сложились любопытно: ABBYY к середине 2000-х превратилась в международную корпорацию, а в 2022 году официально сосредоточилась на зарубежных проектах.
«Когнитивные технологии», выпустив бесплатную версию CuneiForm и открыв исходный код, ушли от распознавания документов к созданию роботизированных систем для сельхозтехники. А команда, которая занималась непосредственно документами, не остановилась. Внук основателя, Владимир Арлазаров, создал компанию Smart Engines, где продолжает научные разработки в области OCR нового поколения. Их алгоритмы распознают документы из 220 стран, счета, банковские карты и штрихкоды.
Новые вызовы: что умеет современная OCR?
Возможности современных систем поражают. Они работают на любых смартфонах, даже самых простых, и умеют не просто обрабатывать сканы, но и «читать» текст прямо в видеопотоке. В 2015 году Smart Engines первой показала распознавание паспорта в реальном времени на обычном телефоне. За 1-3 секунды система анализирует несколько кадров подряд, извлекая данные. Теперь не нужен сканер — достаточно камеры телефона или даже веб-камеры.
«О том, что бумажные документы скоро исчезнут, говорят столько, сколько я работаю над OCR. Но бумаг только прибавляется, — говорил Владимир Арлазаров. — Сейчас задача не просто в символах, а в сложных структурах, таблицах, рукописном тексте. Мы много сделали, но вызовов еще предостаточно».
Пока вокруг нас существуют бумаги, автоматизация их обработки невозможна без качественной OCR. А появляются и новые задачи — например, распознавание рукописного номера телефона при оплате. Так что гонка технологий продолжается. Интересно, какой поворот будет следующим?