Пятигорский Государственный Технологический Университет
РЕФЕРАТ на тему:
«Автоматизация, обработка документов, распознавание документов»
Выполнил:
Проверил: студент 1-го курса Санкин
А.В. юридического факультета группы ЮП-011
Пилипенко Александр
Пятигорск
2001 год
В настоящее время наиболее известными программами для обработки и распознавания текстов являются соответственно Word и Fine Reader.
В данной работе я хочу рассмотреть Word 97, как самый надежный; и
сравнить Fine Reader 5.0 и Cuneiform 2000, как конкурирующие программы.
Рассмотрим их по порядку.
Общие положения
Программа Microsoft Word является многофункциональной системой
обработки текстов. Поскольку текстовый процессор Word работает в среде
Windows то на первом месте среди ее достоинств стоит исключительная
дружественность пользователю.
Управление всеми пунктами меню и командами может выполняться как с
помощью мыши, так и с помощью горячих клавиш (Short-Cuts), для экономии
времени пользователя на выполнение определенного набора операций.
Представление WYSIWYG (Wat You See Is What You Get) позволяет просмотреть
на экране готовый к печати документ не затрачивая время и бумагу на
распечатку пробных страниц. Форматирование символов, например курсивное или
жирное имеет адекватное представление на экране. И это справедливо для
любых гарнитур и кеглей.
Редактор Microsoft Word так же как и Microsoft Wondows разработаны
одной корпорацией. Это позволяет обеспечить максимальную согласованность
этих систем друг с другом, а так же с другими программами совместимыми с
Microsoft Windows. Тексты и иллюстрации многих форматов могут быть
импортированы в Word непосредственно из других программ и встроены в текст
документа. В результате такой процедуры они становятся частью текстового
файла WinWord или продолжают при этом существовать отдельно благодаря
механизму объективного связывания и встраивания (Objekt Linking And
Embeding).
Так же присутствует ряд хорошо зарекомендовавших себя функций, такие как возможность не прерывая работу с документом распечатать некоторые страницы. В этом случае программа управления печатью с буферизацией берет на себя наблюдение за печатью на заднем плане.
Письма и факсы, записки и отчеты, публикации и web страницы – вот далеко не полный перечень документов с над которыми пользователь имеет возможность работать используя текстовый процессор Word.
Автоматизация выполнения задач и получение помощи
В Word 97 имеется широкий выбор средств автоматизации, упрощающих выполнение типичных задач.
Автозамена
Ниже перечислены некоторые типы ошибок, которые могут быть исправлены автоматически при вводе:
Последствия случайного нажатия клавиши CAPS LOCK (впервые появилась в
Word 95). Например, в начале предложения слово эТОТ автоматически
заменяется на Этот, а режим ввода прописных букв (соответствующий нажатой
клавише CAPS LOCK) автоматически отключается.
Типичные опечатки в словосочетаниях. Например, слова почтовы йадрес автоматически заменяются словами почтовый адрес.
Грамматически не сочетаемые пары слов. Например, слова этот слово автоматически заменяются словами это слово.
Автоформат при вводе
В Word предусмотрена возможность автоматического форматирования текста при вводе.
Автоматическое создание нумерованных и маркированных списков (впервые появилось в Word 95). Например, если в начале первого элемента списка ввести звездочку, будет создан маркированный список.
Автоматическое создание границ (впервые появилось в Word 95). Например, если ввести три и большее число дефисов (-) или знаков равенства (=) подряд, а затем нажать клавишу ENTER, будет автоматически создана одинарная или двойная граница.
Автоматическое присвоение тексту встроенных стилей (впервые появилось в
Word 95). Например, если завершить строку текста не знаком препинания, а
двойным нажатием клавиши ENTER, ей будет автоматически присвоен стиль
“Заголовок 1”.
Автоматическое форматирование порядковых номеров и дробей (впервые появилось в Word 95; применимо только к английскому тексту). Например, сочетание “1st” автоматически заменяется сочетанием , а дробь “1/4” — символом ј.
Автоматическое оформление сетевых путей и адресов Интернета (например,
ReportsMayWeek1.doc и http://www.microsoft.com/) как гиперссылок. При
выборе гиперссылки на адрес Интернета автоматически запускается имеющееся
средство просмотра Web и открывается указанная Web-страница. При выборе
гиперссылки на сетевой путь автоматически запускается программа,
необходимая для открытия файла назначения, и открывается указанный файл.
· Автоматическое применение форматирования, используемого для оформления начала первого элемента списка, к началу последующих элементов этого списка. Например:
1. Word 97 выполнит всю работу за вас.
2. Word 97 сделает ваши документы красивыми.
· Автоматическое изменение начертания символов. Например, текст
*Жирный* автоматически преобразуется в Жирный, а _Курсив_ — в Курсив.
· Автоматическое преобразование последовательности плюсов и дефисов (+--
--+----+) в таблицу. Каждой паре плюсов (+) соответствует один столбец.
· Автоматическая замена пробелов в начале элемента маркированного или нумерованного списка соответствующим отступом слева.
Автозаполнение
Автоматическое предложение полного варианта слова или фразы после ввода
нескольких первых букв. Чтобы принять предложенный вариант, нажмите клавишу
ENTER. Ниже перечислены некоторые элементы, к которым применимо
автозаполнение:
. · текущая дата;
. · дни недели;
. · названия месяцев;
. · имя автора и название организации;
. · элементы списка автотекста.
Автореферат
В Word 97 появилась возможность выполнения статистического и лингвистического анализа документа с целью выделения его ключевых положений. На основании этого анализа составляется реферат. Таким образом можно выделить ключевые положения в электронном документе и просматривать его с разной степенью детализации или поместить автоматически составленный реферат в отдельный документ. Размер реферата устанавливается пользователем и может варьироваться.
При составлении рефератов необходимо соблюдать законы об авторском
праве. Ответственность за точность реферата возлагается не на программу, а
на пользователя.
Автоматическое создание и предварительный просмотр стилей
При работе со стилями в Word 97 используйте следующие новые возможности:
. · В случае применения нового форматирования к тексту автоматически создается новый стиль.
. · В случае изменения форматирования текста соответствующие изменения автоматически вносятся в определение стиля.
. · Список стилей на панели форматирования содержит образцы стилей.
Мастер писем
Мастер писем позволяет легко и быстро создать нужное письмо путем выбора готовых элементов письма. Кроме того, раз введенные сведения об адресате (имя, фамилия, адрес, должность и т. п.) автоматически сохраняются. При создании следующего письма этому адресату достаточно будет выбрать его имя из списка; все остальные данные будут добавлены автоматически.
Помощник
Новое средство Office 97 — помощник — использует технологию
IntelliSense. Его основное назначение — автоматическое предоставление
советов и справочных сведений, которые могут понадобиться по ходу
выполнения задачи. Например, если помощник решит, что вы собираетесь
приступить к созданию письма, то предложит запустить мастера писем.
Помощник является основным средством получения справочных сведений о работе
в Word 97, а также советов по повышению эффективности работы, наглядных
примеров и пошаговых инструкций по выполнению конкретных задач.
Проверка правописания
Ниже перечислены основные средства проверки правописания и правки текста, используемые в Word 97.
1. Проверка орфографии при вводе
Проверка на наличие орфографических ошибок по ходу ввода текста и выделение возможных ошибок прямо в документе (впервые появилось в Word 95).
2. Проверка грамматики при вводе
Проверка на наличие грамматических ошибок по ходу ввода текста и выделение возможных ошибок прямо в документе. Как и при автоматической проверке орфографии, при проверке грамматики автоматически предлагаются возможные варианты правильного написания. Для вывода списка вариантов следует щелкнуть выделенный текст правой кнопкой мыши.
3. Пропуск определенных элементов текста при проверке правописания
· По желанию пользователя при проверке орфографии пропускаются слова, состоящие из прописных букв и/или содержащие цифры.
· Пропуск имен файлов и адресов Интернета.
4. Проверка грамматики
Выделение ошибок и автоматическое предложение вариантов правильного написания позволяет существенно сократить время правки. По сравнению с предыдущими версиями улучшен синтаксический анализ, более точными стали предлагаемые варианты правильного написания, а также расширен набор грамматических и стилистических правил.
5. Совместная проверка орфографии и грамматики
В тексте одновременно выполняется поиск и орфографических, и грамматических ошибок. Все ошибки устраняются за один сеанс проверки.
Таблицы, границы и заливка
В Word 97 появились следующие средства, упрощающие работу с таблицами, границами и заливкой.
Таблицы
1. Рисование таблиц
Позволяет создавать таблицы — столбцы, строки и ячейки, — рисуя их с помощью мыши, как карандашом. Теперь отдельные ячейки таблицы могут иметь любую ширину и высоту.
2. Ластик
Позволяет легко удалить границу любой ячейки, строки или столбца таблицы, что дает тот же эффект, что и объединение ячеек. В предыдущих версиях Word можно было объединять только ячейки, находящиеся в одной строке. В Word 97 можно объединять любые соседние ячейки — как по вертикали, так и по горизонтали.
3. Выравнивание по вертикали
Позволяет быстро выровнять содержимое выделенных ячеек таблицы по верхнему или нижнему краю либо по середине ячейки, используя кнопки выравнивания, расположенные на панели инструментов. Если текст в ячейках ориентирован вертикально, назначение этих кнопок меняется автоматически: используйте их для выравнивания по верхнему или нижнему краю либо по центру ячейки.
4. Вертикальная ориентация текста
Позволяет расположить вертикально (с поворотом на 90 градусов) текст в ячейках таблиц, надписях и рамках. Это средство может оказаться очень полезным при создании наклеек, а также печатных документов, содержащих сведения об авторских правах и т. п., расположенные вертикально.
5. Изменение размера строки таблицы
Позволяет регулировать высоту любой строки непосредственно в таблице посредством перетаскивания границы строки вверх или вниз подобно тому, как можно изменить ширину столбца. Если при перетаскивании удерживать нажатой клавишу ALT, на вертикальной линейке будет показана фактическая высота строки.
Границы
1. Новые типы границ
Для оформления документов предлагается более 150 различных типов границ, в том числе объемные границы и границы, состоящие из нескольких линий, которые особенно популярны в профессиональных документах.
2. Границы страниц
Позволяет создать границу вокруг каждой страницы. В дополнение к 150 новым типам границ предлагаются более 160 типов графических границ страницы. Также существует возможность настройки границ страниц. Например, можно:
· задать свой тип границы для каждого края страницы;· поместить колонтитулы внутрь границы;
· оформить первую страницу не так, как остальные.
3. Границы текста
Позволяет применить границы к отдельным словам и символам внутри абзаца. При этом можно использовать любые имеющиеся типы границ. Например, это существенно упрощает создание границ вокруг заголовков.
Заливка
1. Заливка текста
Позволяет выделить наиболее важные фрагменты документа, к которым следует привлечь внимание других пользователей. В Word 97 заливку можно применить не только ко всему абзацу, но и к отдельным словам и символам внутри абзаца. При этом можно использовать любые имеющиеся типы заливки.
Рисование
В Word 97 предлагается новый набор графических средств, с помощью которых можно легко украсить текст и рисунки путем добавления объема, тени, текстурных и прозрачных заливок, а также автофигур.
Графический редактор Office Предоставляет большое число разнообразных
инструментов рисования, расположенных на панели инструментов Рисование. Для
украшения текста и рисунков предлагаются 100 настраиваемых автофигур, 4
вида заливки (многоцветная градиентная, узорная, прозрачная и рисунком), а
также добавление тени и объема. Графический редактор Office обладает
мощными и разнообразными возможностями, он заменил графический редактор
Word и применяется во всех приложениях Microsoft Office.
Рисунки
Графический редактор Office обеспечивает всю гибкость, необходимую для успешной работы с рисунками, например:· размещение рисунков в любом месте документа, в том числе встраивание их в строку текста, путем обычного перетаскивания;· изменение относительного расположения текста и рисунков, в том числе создание подложек и фоновых рисунков с помощью команды Поместить за текстом.
Надписи
Надписи используются вместо рамок; к ним применимы все возможности графического редактора Office, в том числе добавление объема, заливки и фона, а также вращение, изменение размеров и обрезка.
Связанные надписи Для организации перетекания текста между несколькими позициями в документе следует разместить надписи, а затем установить между ними связи. При добавлении строк в связанную надпись текст автоматически перетекает в следующую надпись. При удалении строк из надписи в нее перетекает текст из следующей надписи. Документ может содержать несколько составных цепочек надписей. Связи не обязательно должны быть расставлены в прямом направлении.
Обтекание текстом любых объектов
Существует возможность обтекания текстом объектов любой формы и размеров. Текст может обтекать объект непосредственно по его контуру.
Web и Internet
В Word 97 имеется набор разнообразных средств, предназначенных для работы с Web и Интернетом.
Связь с Web
Эта функция, общая для всех программ Microsoft Office, служит для создания и просмотра гипертекстовых документов в сети интранет и Web.
1. Гиперссылки
Установка связи с любым файлом — файлом Microsoft Office, файлом в формате HTML или другим файлом, — расположенным на любом внутреннем или внешнем Web-узле или файловом сервере. Чтобы перейти к месту назначения, достаточно щелкнуть гиперссылку. Word автоматически распознает сетевые пути, а также адреса электронной почты и Интернета, и форматирует их как гиперссылки.
2. Панель Web
Служит для быстрого открытия, поиска и просмотра любых документов, в том числе Web-страниц. Панель предоставляет возможность перехода от одного документа или узла к другому, перемещения вперед и назад по открытым документам, а также помещения важных документов, обнаруженных в Web, в папку “Избранное”, что позволяет быстро вернуться к ним.
3. Сжатие рисунков
Автоматическое сжатие рисунков и иллюстраций, вставленных в документ.
Рисунки в формате JPEG не преобразуются, а все растровые рисунки
преобразуются в новый формат сжатых изображений PNG.
Редактирование Web-страниц
1. Мастер Web-страниц
Автоматизация создания Web-страниц. Мастер предоставляет уже настроенные шаблоны Web- страниц, которые можно легко изменить в соответствии с задачей. На выбор предлагаются разнообразные шаблоны, соответствующие наиболее часто используемым видам Web-страниц, например, образцы начальных страниц. Кроме того, для создаваемых страниц можно выбрать наиболее подходящие стили оформления, каждый из которых включает в себя цвета фона, маркеры, горизонтальные линии и другие элементы.
2. Звуковое оформление
Размещение файлов звукозаписи на Web-страницах. Для этого необходимо иметь средство просмотра Web, предусматривающее обработку файлов звукозаписи. В документе можно указать место расположения файла звукозаписи, а также число повторений записи.
3. Видеозапись
Размещение файлов видеозаписи на Web-страницах. При вставке в документ файла видеозаписи следует указать нужный файл, режим воспроизведения — “при открытии” и/или “при установке указателя” — и, как и для звукозаписи, число повторений записи. Для тех средств просмотра, которые не позволяют просматривать файлы видеозаписи, в документ можно ввести заменяющий ее текст с иллюстрациями.
4. Рисунок
Размещение рисунков на Web-страницах, как в обычном документе Word.
5. Бегущая строка
Размещение бегущей строки на Web-страницах. Введите текст бегущей строки, а затем задайте нужные параметры: эффект анимации, направление и скорость движения, цвет фона и размер текста.
6. Маркеры
Позволяют разнообразить графическое оформление Web-страниц. В Word имеется набор многоцветных графических изображений, которые можно использовать в качестве маркеров на Web-страницах.
7. Горизонтальные линии
Размещение на Web-страницах разноцветных графических горизонтальных линий, улучшающих оформление Web-страниц. Эти линии являются дополнением функций встроенных границ и заливки в Word.
8. Формы HTML
Создание одинаковых форм в документах Word и на Web-страницах. HTML предоставляет полный набор элементов управления Visual Basic, дополненный специальными элементами управления кодами HTML.
9. Коды HTML
Упрощают создание Web-страниц. Word обеспечивает точное отображение (в режиме WYSIWYG) наиболее часто используемых кодов HTML (более 80): таблиц, шрифтов, фоновых звуков и т. п.
Электронные средства
На Web-узле Word имеется большой выбор различных средств редактирования
Web-страниц в Word 97. Этот набор средств регулярно обновляется согласно
последним технологическим и стилистическим тенденциям.
1. ClipArt Collection Online
Содержит последние, самые свежие графические элементы для Web-страниц.
Clip Gallery Live, электронная коллекция файлов для Word, включает
различные легко загружаемые образцы элементов оформления Web-страниц: фоны,
маркеры, кнопки, значки, горизонтальные линии, файлы видеозаписи и звуки.
2. Templates Online
Содержит новые шаблоны Web-страниц с обычными для Web-страниц стилями оформления.
3. AutoUpdate Web Tools
Содержит самую последнюю версию средств редактирования Web-страниц в
Word. Обновление вашей системы может быть выполнено автоматически или
вручную.
Просмотр электронных документов
В Word 97 имеется набор разнообразных средств, упрощающих просмотр электронных документам.
1. Режим электронного документа
Оптимальный режим для просмотра электронных документов на экране. Для изображения текста документа используется более крупный шрифт, а слова переносятся по границе окна.
2. Схема документа
Позволяет мгновенно получить доступ к любой части документа. Окно
документа разделяется на две области: в левой части отображается схема
документа, а в правой части — текст документа. Схема документа представляет
собой изображение структуры документа, составленной по заголовкам. Она
позволяет быстро просмотреть структуру документа, перейти к нужной части
документа одним щелчком мыши и определить свое положение в документе.
Текущее положение в документе выделено на схеме документа контрастным
цветом.
3. Гиперссылки
Установка связи с любым файлом — файлом Microsoft Office, файлом в формате HTML или другим файлом, — расположенным на любом внутреннем или внешнем Web-узле или файловом сервере. Чтобы перейти к месту назначения, достаточно щелкнуть гиперссылку. Word автоматически распознает сетевые пути, а также адреса электронной почты и Интернета, и форматирует их как гиперссылки.
4. Перекрестные гиперссылки
Создание в документе, предназначенном для просмотра на экране, “живых”
перекрестных ссылок путем преобразования перекрестных ссылок в гиперссылки.
Чтобы перейти к тексту, на который указывает гиперссылка, не нужно
прокручивать весь документ. Теперь для этого достаточно щелкнуть
перекрестную ссылку и перемещаться вперед и назад по связанным абзацам с
помощью панели Web.
5. Фон документа
Чтобы сделать документы Word и Web-страницы более привлекательными, используйте различные виды фона, в том числе текстурную заливку. Фон, добавленный с помощью команды Фон (меню Формат), отображается только в режиме электронного документа и не выводится на печать.
6. Анимация текста
Добавление эффектов анимации к тексту.
7. Переход по объектам
Перемещение по объектам, расположенным в документе, с помощью полосы прокрутки. При этом можно выбрать тип объектов, по которым следует осуществлять перемещение: страницы, разделы, примечания, обычные и концевые сноски, поля, таблицы, рисунки, заголовки и исправления. Например, чтобы просмотреть все таблицы в документе, следует выбрать режим Переход по таблицам.
8. Устройство Microsoft IntelliMouse
Microsoft IntelliMouse — это устройство типа “мышь”, позволяющее выполнять прокрутку и изменение масштаба документа. Кроме того, с его помощью можно изменять степень детализации при просмотре документа в режиме структуры или автореферата.
Редактирование сообщений электронной почты
Существует возможность использовать Word 97 для создания и редактирования сообщений электронной почты в Exchange и Outlook.
1. Автоматическое создание гиперссылок
Автоматическое форматирование сетевых путей, а также адресов электронной почты и Интернета — например, http://www.microsoft.com/ — как гиперссылок при вводе. Щелкнув гиперссылку, можно перейти к указанному месту назначения — в данном примере, к основной Web-странице Microsoft.
2. Авторы сообщений на схеме документа
Автоматическое выявление длинных сообщений, содержащих реплики нескольких авторов, и указание имени автора каждой части сообщения на схеме документа. Щелкнув имя автора, можно мгновенно перейти к соответствующей части документа.
3. Доступ к данным адресной книги, относящимся к указанному в сообщении имени
Поиск в адресной книге сведений о любом отправителе или получателе сообщения при чтении или написании сообщения. Щелкните имя правой кнопкой мыши и выберите команду Сведения об адресе в контекстном меню.
4. Автоматическое форматирование неформатированных сообщений WordMail
Автоматическое форматирование неформатированных входящих сообщений электронной почты при первом открытии. Это упрощает последующий обмен сообщениями: для оформления заголовков используются определенные стили, к репликам добавляются отступы, сообщения разных авторов выделяются разными цветами и т. п.
5. Шаблоны WordMail
Быстрое составление сообщения электронной почты. Предлагается 10 шаблонов сообщений с различными стилями оформления. Например, с помощью шаблона срочного сообщения можно составить срочное сообщение электронной почты.
Совместная работа нескольких пользователей
В Word 97 появились новые возможности и средства, повышающие производительность и эффективность работы членов рабочих групп.
1. Создание версий
Ведение истории работы над документом. Это дает возможность точно
определить время, характер и автора изменений, внесенных в документ. Кроме
того, к каждой версии документа могут быть добавлены произвольные заметки.
Все сведения о версиях документа хранятся в самом документе, что избавляет
от необходимости хранить несколько копий документа. Кроме того, можно
установить режим автоматического сохранения текущей версии документа в
конце каждого сеанса работы с ним. Это позволяет определить автора любой
версии документа.
2. Слияние документов
Объединение всех изменений и примечаний, внесенных несколькими рецензентами, в один документ с помощью одной простой операции. Нескольким рецензентам можно предоставить для проверки отдельные копии документа, после чего все исправленные копии объединяются в итоговый документ. Или, например, можно унести домой копию документа, исправить ее там, а затем вернуть исправленную копию и автоматически объединить внесенные изменения с исходным документом.
3. Примечания и всплывающие подсказки
Быстрый просмотр на экране примечаний любых рецензентов непосредственно в документе без открытия отдельной области. Примечания легко обнаружить в документе — текст, снабженный примечанием, выделяется желтым цветом. При установке указателя на этот текст над ним появляется всплывающая подсказка, содержащая текст примечания и имя рецензента.
4. Панель рецензирования
Теперь все обычные средства рецензирования документа находятся на одной панели инструментов: запись и просмотр изменений, вставка и просмотр примечаний, выделение текста цветом, сохранение версий и отправка документа по электронной почте.
Многоязыковая поддержка
В Word 95 было реализовано автоматическое переключение шрифта и языка при переключении клавиатуры, что сделало возможным использование текста на нескольких языках в документе и некоторых диалоговых окнах. В Word 97 еще более упростились создание и просмотр документов, содержащих текст на различных европейских языках. Кроме того, предусмотрена возможность просмотра документов, созданных с помощью дальневосточных версий Word, в американской версии Word.
1. Переключение клавиатуры
Автоматическое переключение шрифтов в документе при переключении клавиатуры (набор используемых шрифтов определяется текущей раскладкой клавиатуры). Переключение клавиатуры вызывает также переключение языка и, следовательно, обеспечивает проверку текста на другом языке, например, греческом, средствами проверки именно этого языка.
2. Поддержка текстов на нескольких языках в диалоговых окнах
Стали возможными редактирование и просмотр текста на нескольких языках в локализованных версиях Word. Например, в качестве условия поиска файлов в диалоговом окне Поиск файлов можно указать греческое имя автора.
3. Открытие документов с текстом на нескольких языках в локализованной версии Word
Правильное отображение текста документа, созданного в локализованной версии Word, при наличии в системе соответствующих шрифтов. Например, документы, созданные в японской версии Word, можно открывать и просматривать в американской версии Word. Следует отметить, что эта возможность не распространяется на языки, в которых направление письма может меняться (иврит, арабский и т. п.).
4. Копирование и вставка текста в формате Unicode
Существует возможность копирования текста на греческом, русском или любом другом европейском языке из американской версии Word и вставка его в лист Microsoft Excel. Кроме того, допускается копирование и вставка текста в формате Unicode в поля некоторых диалоговых окон (Найти, Заменить и т. п.).
5. Сортировка
Существует возможность указать язык и, тем самым, порядок сортировки, который следует использовать при сортировке текста в документе. Например, двойные буквы венгерского языка, такие как “cz”, правильно сортируются в американской версии Word, если в качестве языка сортировки указан венгерский.
6. Вставка символов
Для получения возможности вставки символов и букв, используемых в
конкретном языке, достаточно выбрать соответствующий набор символов шрифта
Unicode в диалоговом окне Символ (меню Вставка). Например, чтобы вставить в
текст русские буквы, следует выбрать набор “Кириллица”.
Рассмотрев Word, давайте сравним программы для распознавания текста.
В последние несколько лет стали очень популярны программы распознавания
текста. Используются они не только в офисах для перевода документов в
электронный вид, но и дома для распознавания различного вида текстов для
написания рефератов и курсовых, что облегчает жизнь студентам и научным
сотрудникам. Проблема выбора программного продукта для решения какой-либо
задачи всегда стояла перед пользователем. Для того чтобы разрешить ее,
необходимо было сравнить хотя бы несколько программ одного назначения. При
этом тратились время и деньги, и достаточно часто выбор был далеко не
оптимальным. На данный момент всего два программных продукта - Fine Reader
5.0 и Cuneiform 2000 - предлагают решение данной проблемы. Рассмотрим их.
| |
| |
| |
| Рис. 1. Fine Reader 5.0 после запуска. Если нажать на кнопку Scan&Read, |
|то автоматически запустится мастер сканирования и распознавания. |
| Рис. 2. Cuneiform 2000 готов к работе. Как и в Fine Reader 5.0, первая |
|большая кнопка вызывает мастер сканирования и распознавания. |
| |
Обе программы предлагают несколько дополнительных возможностей помимо
распознавания текста:
. проверка орфографии для различных языков;
. сканирование;
. сохранение в различных форматах и передача в другие программы распознанного документа;
. обработка картинок;
. пакетная обработка множества изображений;
. форматирование текста.
Но нас интересуют не столько предлагаемые функции (они практически
одинаковые), сколько отличия для пользователя в работе данных программ. Для
этого мы проведем исследование по пунктам, которые являются основными для
пользователя.
Скорость и качество
Эти характеристики являются одними из самых критичных в применении данных
программ, т. к. распознавание должно экономить время, затраченное на
страницу текста, а складывается оно в итоге из скорости и качества.
Скорость - это время, необходимое самой программе на распознавание, а от
качества зависит, придется ли вам исправлять полученный текст и насколько
время исправления меньше времени набора того же самого текста. Как
показывает опыт, качество напрямую зависит от исходного материала, а также
от уровня интеллекта программы распознавания.
Для начала мы посмотрим, как программы будут распознавать страницу, не
содержащую ничего, кроме обычного текста. Затем рассмотрим несколько
вариантов различной сложности.
Для этого мы берем лист формата А4 с текстом, распечатанным на лазерном
принтере, сканируем его в черно-белом режиме с разрешением 300 точек на
дюйм и сохраняем в формате TIFF (с этими параметрами будут отсканированы и
остальные образцы, взятые для тестов).
| |
| |
| Рис. 3. Вот так выглядит взятый для проверки текст. Здесь нет каких-либо |
|трудностей для распознавания, однако… |
| |
Теперь мы открываем это изображение в Fine Reader 5.0, выделяем область для
распознавания и нажимаем кнопку "Распознать". На этот процесс у программы
уходит около 4 с. Производим подобную операцию в Cuneiform 2000 и спустя 8
с получаем распознанный текст.
Таким образом, Fine Reader 5.0 работает быстрее, чем Cuneiform 2000. Теперь
о качестве: первая программа совершила только одну ошибку (рис. 4), ну а
вторая ошиблась только поставив ненужный пробел (рис. 5).
| |
| |
| |
| Рис. 4. Распознанная страница в программе Fine Reader 5.0. Теперь, нажав |
|на кнопку «Проверить», вы можете вручную исправить имеющиеся ошибки или |
|просто просмотреть места, которые распознались «неуверенно». |
| Рис. 5. Распознанная страница в программе Cuneiform 2000. Прежде чем |
|переходить к следующему изображению, необходимо сохранить или передать в |
|другую программу полученный текст. |
| |
Теперь давайте посмотрим, какая картина будет, если мы возьмем для
распознавания разворот учебника с формулами.
| |
| |
| Рис. 6. Пример для распознавания учебника. Прежде чем распознавать, эту |
|картинку пришлось поворачивать. Такую операцию не обязательно проводить |
|средствами Photoshop, с ней легко справляются наши программы. |
| |
Производим распознавание и видим, что Fine Reader затратил около 43 с, а
Cuneiform - порядка 18 с.
Интересно: Fine Reader здесь показал не лучший результат по скорости, но по
качеству - у него преимущество. Судите сами: в основном ошибки
распознавания оказались только в формулах, а Cuneiform умудрился совершить
их и в тексте.
| |
| |
| |
| Рис. 7. Это распознанная страница учебника в Cuneiform. Да-с… придется |
|еще постараться для того, чтобы «довести до ума» этот материал. |
| Рис. 8. Типичная картина после распознавания текста. Опять эти формулы |
|писать… |
| |
Другой не менее интересный тест на скорость и качество - распознавание
ксерокса учебника, причем для него мы возьмем два варианта: хорошего и
плохого качества.
При распознавании хорошего ксерокса (рис. 9) Fine Reader вновь оказался
впереди - 4 с, а Cuneiform - 5 с.
| |
| |
| Рис. 9. Так выглядит образец хорошего ксерокса. Чтобы его получить, надо |
|либо пользоваться хорошей аппаратурой, либо настроить ее на нужный |
|контраст. |
| |
Посмотрев на распознанный текст, можно сказать, что Fine Reader не на
много, но все же лучше справился с задачей. Cuneiform не смог распознать
правильно букву "Ц", а цифру ноль посчитала буквой "О".
| |
| |
| |
| Рис. 10. Стоит исправить две-три ошибки, и текст готов. Fine Reader 5.0 |
|неплохо поработал. |
| Рис. 11. Такого типа ошибки, как сейчас совершил Cuneiform 2000 Master, |
|раньше были у Fine Reader 4.0. |
| |
Теперь давайте посмотрим, какие результаты у нас получатся, если
распознавать ксерокс плохого качества.
| |
| |
| Рис. 12. Так выглядит наш образец плохого ксерокса. Имея достаточно |
|терпения и знания, его можно было бы улучшить, используя возможности |
|Photoshop. |
| |
Fine Reader - 1 мин 48 с, а Cuneiform - около 30 с. Тут явно проиграл Fine
Reader. Посмотрим, что же удалось распознать нашим участникам. Картина явно
меняется: Cuneiform за 30 с со всей страницы едва ли распознал правильно
более одного-двух десятков слов. С Fine Reader, несмотря на плохое качество
исходного материала, было получено максимальное количество распознанного
текста, который, имея оригинал, можно было бы привести в нормальный вид. А
пользователям Cuneiform пришлось бы набирать весь текст вручную. Тише едешь
- дальше будешь.
| |
| |
| |
| Рис. 13. Cuneiform не справился с задачей, и такой текст нельзя считать |
|распознанным. |
| Рис. 14. Сравните этот текст с текстом, полученным в Cuneiform 2000, и вы|
|поймете, насколько лучше Fine Reader справился с таким нелегким делом. |
| |
Итак, показатель времени распознавания у программ совершенно разный, и
сказать, какой из них быстрее, довольно сложно. Однако нельзя не заметить,
что у Fine Reader 5.0 время распознавания напрямую зависит от качества
оригинала: она старается распознать максимально много и поэтому затрачивает
больше времени на распознавание изображения плохого качества. Ну а у
Cuneiform 2000 время распознавания не настолько зависит от качества
оригинала, поэтому распознавание занимает меньше времени, но из-за этого
страдает качество. Вывод: Fine Reader 5.0 лучше всего использовать при
распознавании как хорошего, так и плохого исходного материала. Ну, а
Cuneiform 2000 в лучшем свете выглядит при распознавании среднего и чуть
выше среднего качества оригиналов, т. к. при этом он тратит время на
распознавание гораздо меньше, а качество лишь немного уступает победителю
данного теста - Fine Reader.
Таблицы и формы
На этом этапе мы рассмотрим, насколько точно будет производиться
определение таблиц и форм. Для того чтобы провести его более точно, мы
возьмем два основных вида таблиц и один документ договора.
| |
| |
| Рис. 15. Пример простой таблицы. Такого типа таблицы очень часто |
|встречаются в экономической литературе и справочниках. |
| |
Для первого примера мы используем небольшую таблицу (рис. 15).
| |
| |
| |
| Рис. 16. Результат распознавания Fine Reader 5.0 — здесь требуется |
|доработка. |
| Рис. 17. Результат распознавания Cuneiform 2000 наиболее близок к |
|оригиналу. |
| |
Таким образом, мы получили две идентичные таблицы (за исключением
форматирования), недостатки которых в наших программах следующие: в Fine
Reader 5.0 каждая ячейка заканчивается ненужным вводом (рис. 16), а
Cuneiform 2000 (рис. 17) сохраняет разбивку на строки за счет вставки
символа "конец строки" (Shift+Enter в MS Word).
Теперь можно взять более сложную таблицу (рис. 18).
| |
| |
| Рис. 18. Сложная таблица — линии в ней не все явно заданы. |
| |
При попытке разметить ее автоматически только Fine Reader нашла здесь какое-
то подобие таблицы, ну а Cuneiform 2000 вообще решил, что здесь находится
только текст. И только после того как вручную выделили табличный блок,
программы решили распознавать таблицу.
Результаты распознавания мы видим на рис. 19, 20. Наиболее точно и близко к
оригиналу у нас оказался Fine Reader 5.0, но все же не совсем так, как бы
хотелось. Cuneiform 2000 вообще решил, что в таблице вся сетка должна быть
полностью видимой - после таких распознаваний придется еще повозиться с
таблицей достаточно основательно. Тем более Cuneiform 2000 ещ