Анализ неструктурированных электронных документов как средство оптимизации корпоративной информационной системы



страница4/12
Дата24.04.2018
Размер1.08 Mb.
1   2   3   4   5   6   7   8   9   ...   12

Семантические технологии в КИС


Основное направление данной работы – это переход от стандартных методов обработки электронных документов (создание документа, поиск по ключевым словам, редактирование) к методам работы с семантикой (обнаружение смысловых связей, формирование аннотаций) ЭД. Методы работы с семантикой, а также их программная реализация, называются семантическими технологиями. Использование семантических технологий в архитектуре КИС рассматривается в качестве средства повышения качества обработки электронных документов, увеличение функциональности проектируемой архитектуры КИС.

Обзор литературных источников по проблеме проектирования и создания КИС [8,9,18], а также по интеллектуальным методам извлечения знаний из неструктурированных документов [11,22,31] обнаруживает два значительно отличающихся друг от друга подхода к проектированию архитектуры КИС и ее функционалу.

Первый подход – классический, строится на основе комбинирования существующих технологий для поддержки различных процессов работы с документами. К таким технологиям относятся корпоративные порталы, форумы, системы управления документами. Второй подход – семантический, основан на использовании методов и технологий работы со смыслом, семантикой данных, информации и документов (системы, основанные на технологии построения онтологий предметной области, системы поддержки принятия решений, экспертные системы, в которых реализован семантический поиск, автоматическое аннотирование).

Оба подхода не противоречат друг другу, и в рамках данной работы будут использоваться совместно. В настоящем разделе рассмотрим, чем каждый из подходов может быть полезен в процессе совершенствования архитектуры КИС, в рамках ЭДО.


  1. Обзор технологий классического подхода для проектирования архитектуры КИС


В качестве технологий, принадлежащих первому подходу (классическому), целесообразно рассмотреть такие технологии, которые являются составляющими комплексной системы автоматизации документооборота. Рассмотрим СЭД как композицию из трех информационных технологий, реализующих работу с ЭД, таких как:

  • корпоративный информационный портал;

  • система управления документами;

  • WorkFlowсистема (система автоматизации бизнес-процессов).

Корпоративный информационный портал (Enterprise Information Portal, EIP) – это информационная автоматизированная система, предоставляющая сотрудникам компании в едином порядке необходимые ресурсы. Первое определение термина «Корпоративные информационные порталы» позволяет отметить назначение, для которого порталы созданы: «Корпоративные информационные порталы – это приложения, которые позволяют раскрывать информацию, хранящуюся внутри и вне организации и предоставить каждому пользователю единую точку доступа к предназначенной для него информации, необходимой для принятия обоснованных управленческих решений» [30].

Порталы первого периода использовались в качестве инструмента для публикации информации от руководства для сотрудников компании. На корпоративном портале можно было ознакомиться с последними организационными изменениями, новостями. Кроме того, портал выполнял функции просто файлового хранилища.

С развитием технологий функции порталов расширялись. Порталы стали использоваться для поиска необходимой информации, таким образом, портальные решения стали развиваться в направлении структурирования и классификации данных, а также повышения скорости и эффективности поиска необходимой информации. Основываясь на вышеописанных задачах, корпоративные порталы стали выполнять функции баз знаний в различных предметных областях связанных с деятельностью компании.

Решая ряд самостоятельных задач, корпоративные информационные порталы являются также ключевым элементом рынка средств управления корпоративным контентом, обеспечивая функции коллективной работы и поддержки документно-ориентированных бизнес-процессов. Упрощенно процесс работы корпоративного портала можно разбить на несколько этапов:



  1. В портал из различных источников поступает информация.

  2. Портал производит первичное распознание информации и предоставляет ей доступ.

  3. При использовании систем управления знанием формируются метаданные.

  4. Метаданные проходят через «фильтр», установленный пользователем, при этом ненужные данные отбрасываются.

  5. После этого, отфильтрованные данные передаются пользователю.

Кроме того, корпоративный портал обычно разделен на две части:

  • Внутренний портал (интранет), в котором расположена защищенная информация, предназначенная для использования ограниченным числом пользователей (здесь используется внутренняя интрасеть).

  • Внешний портал, который доступен для общественного использования и в котором расположена публичная информация (здесь используется глобальная сеть Интернет).

Таким образом, можно сделать вывод о том, что современные корпоративные порталы – это мультифункциональные системы, решающие множество технологических и деловых задач. Однако, несмотря на то, что порталы предоставляют возможность оперативного поиска информации и дают эффективные инструменты работы с электронными документами в рамках взаимодействия сотрудников компании, данная технология не обеспечена интеллектуальными средствами для работы с электронными документами.

Система управления документами (Document Management System, DMS) –это информационная система, использующаяся для хранения и отслеживания электронных документов или образов бумажных документов.

Первоначально системы управления документами предназначались для обеспечения несложных функций хранения файлов документов, таких как: хранение и доступ к файлам, просмотр документов, разграничение прав доступа к фалам, ведение протокола доступа к фалам, отслеживание истории обработки документов, управление версиями.

С развитием ИТ, к вышеописанным функциям добавились следующие:


  • ведение картотеки документов и инструменты быстрой разработки электронных форм;

  • поддержка справочников с информацией для заполнения карточек;

  • описание процесса обработки документов (фиксированных маршрутов);

  • навигация и организация представления учётной информации о документах;

  • свободная маршрутизация документов и поддержка персональных очередей пользователей;

  • описание жизненного цикла обработки документа;

  • управление маршрутизацией и средствами мониторинга процессов.

Наличие подобных средств управления процессами контроля, движения и обработки документов делает систему применимой для решения гораздо более широкого круга задач, нежели только ведение архива документов. Именно функциональность систем управления документами позволяет добавить в СЭД столь необходимые функции обработки слабоструктурированных данных.

Несмотря на то, что системы управления документами в общем случае предоставляют возможности хранения, версионирования, пометку метаданными и безопасность по отношению к документам, а также индексирование и развитие возможности поиска документа, они так же, как и корпоративные порталы оперируют электронными документами, как единым объектом, не беря во внимание содержание документа, логические связи элементов документа, смысл.



WorkFlowсистема (система автоматизации бизнес-процессов) – это информационная система, предоставляющая средства для автоматизации деловых процедур, включая разработку маршрутов, контроль исполнения и пр.

Концепция WorkFlow-системы была предложена компанией Staffware около 20 лет назад. Данная концепция рассматривает весь комплекс задач автоматизации бизнеса как совокупность бизнес-процессов. Инструменты, предоставляемые WorkFlow-системой, обеспечивают формирование описаний процессов, данных, а также содержат средства описания электронных форм для обработки этих данных. Технология WorkFlow подразумевает чёткое исполнение процесса согласно его описанию. Сервисы системы поддерживают реализацию бизнес-процессов, формирование и подготовку очередей заданий к обработке, автоматически обеспечивают нужную активность стадий процесса, контроль своевременности исполнения этапов процесса и различные способы реакции на возникающие проблемы.



Современная промышленная WorkFlow-система обладает гибким инструментарием моделирования процессов актуальных для компании, отслеживания состояния процессов и получения информации о несоответствии их течения, накопления статистики об отклонениях. Таким образом, WorkFlowсистема позволяет непрерывно улучшать и реструктурировать бизнес-процессы компании.

Наличие средств семантического анализа данных позволило бы такой системе существенным образом повлиять на скорость реализации бизнес-процессов, а также на производительность и качество труда сотрудников. Однако в данной концепции не предусмотрено наличие таких технологий. Для того чтобы применить в архитектуре КИС концепцию семантических технологий анализа ЭД, тем самым совершенствовать процесс ЭДО, а также повсеместного использования документов в КИС, необходимо обозначить технологии, с помощью которых можно совершенствовать архитектуру.


  1. Обзор технологий семантического подхода для проектирования архитектуры КИС


Семантические технологии представляют собой направление развития информационных технологий, основывающееся на переходе от потокового представления данных (изображения, гипертекст и пр. поточные способы представления данных) к семантическому, позволяющему определять содержание и смысл данных. Таким образом, основная идея семантических технологий сводится к тому, чтобы все данные в ИС были бы пригодны для анализа.

Для того чтобы данные проанализировать и применить результаты в совершенствовании деятельности компании, необходимо определить метод представления знаний. В семантических технологиях встречается множество методов представления знаний, таких как: деревья решений, семантические сети, нейронные сети, фреймы и сети фреймов, онтологии, правила продукции и др.


В рамках данной работы, наибольший интерес представляет онтологический метод, поскольку использование именно этого подхода позволит реализовать в архитектуре КИС требуемые функциональные возможности по управлению ЭД. Следует отметить, что для машинной обработки данных, в семантическом подходе предусмотрено использование нескольких основополагающих принципов, входящих в стек понятий семантических технологий [36].

Во-первых, необходимо использование такой системы идентификации объектов, которая обеспечит однозначную и единообразную идентификацию какого-либо ресурса (документа, изображения и пр.). С такой задачей справляется глобальная схема имен (Uniform Resource Identifier, URI).

Во-вторых, данные, представленные в семантической форме, записываются в форме «субъект – отношение - объект». Такая форма представления данных называется триплетом и позволяет понять пользователю факт, который сообщает система. Например, может быть передано такое сообщение: «сотрудник имеет № банковской карты, равный 111111». Для того чтобы любую информацию можно было записать в такой форме триплетов, можно воспользоваться моделью описания данных и метаданных (Resource Description Framework, RDF), предложенную консорциумом всемирной паутины (World Wide Web Consortium, W3C).

В-третьих, необходимо установить все возможные виды объектов, их свойства и связи и утверждения в формате RDF в дальнейшем можно интерпретировать и представить в виде онтологий, описанных с помощью языка описания онтологий (Web Ontology Language, OWL).

Таким образом, основываясь на принципах семантических технологий, в данном разделе будут рассмотрены основные технологии семантического подхода:


  • системы, основанные на технологии построения онтологий предметной области;

  • экспертные системы, в которых реализован семантический поиск, автоматическое аннотирование;

  • системы управления знаниями.

А в качестве таких систем, в которых реализованы технологии семантического подхода, направленные на работу с семантикой данных ЭД будут рассмотрены:

  • портал знаний, реализованный на платформе Microsoft SharePoint;

  • портал знаний, реализованный на платформе Oracle Portal;

  • система извлечения знаний из документов «Аналитический курьер» компании «Ай-Теко».

Системы, основанные на технологии построения онтологий предметной области, проектируются при помощи онтологического моделирования. Онтологическое моделирование – это процесс построения, развития, обработки и использования онтологии предметной области. Согласно общепринятому определению под онтологией (в широком смысле) понимается база знаний специального типа, которая может «читаться» и пониматься, отчуждаться от разработчика и/или физически разделяться ее пользователями [18].

Анализ литературных источников в области онтологического моделирования показывает, что научно-техническими предпосылками данного направления являлись исследования и разработки в таких областях, как искусственный интеллект, Data Mining (интеллектуальный анализ данных), Semantic Web (семантическая паутина). Следовательно, использование онтологического моделирования, в качестве семантического подхода для проектирования архитектуры КИС будет являться способом всеобъемлющей и детальной формализации некоторой области знаний с помощью концептуальной схемы. Обычно такая схема состоит из структуры данных, содержащей все релевантные классы объектов, их связи и правила (ограничения), принятые в этой области.

Помимо стандартных ролей, онтологии могут взять на себя ещё одну роль – наполнение информацией пользовательских интерфейсов, в дополнение к стандартной роли по интеграции информации. В этой связи такие структуры называются адаптивными онтологиями. Некоторые из дополнительных применений адаптивных онтологий: названия атрибутов и подсказки, навигация и просмотр структур и деревьев, структуры меню, автоматическое завершение при вводе данных, контекстные выпадающие списки выбора, проверка правописания, и т.д. Иными словами, то, что делает онтологию адаптивной, это добавление к стандартной машиноориентированной цели онтологии дополнительных средств для понимания человеком - названий, синонимов, определений и прочего. Системы, основанные на онтологиях – это модульные приложения общего плана, предназначенные для работы в соответствии со спецификациями, содержащимися в адаптивной онтологии.

Системы, основанные на онтологиях, предназначены для выполнения конкретных общих задач: импорт и экспорт в различные форматы, создание и управление наборами данных, отчетность, просмотр, поиск, визуализации данных, распределение прав доступа пользователей, и тому подобное. Эти приложения определяют свои специфические функции в соответствии с содержащимися в онтологии спецификациями. Основным преимуществом является то, что одна система может реализовать некоторые общие функции, основанные на любой правильно построенной адаптивной онтологии.



Экспертные системы, с семантическим поиском также являются примером систем, реализующих семантический подход в работе с неструктурированными документами. Упомянутые выше адаптивные онтологии, которые предназначены именно для человеческого понимания, покрывают бизнес-терминологию конечных пользователей, включая синонимы и омонимы. Это позволяет внедрять продвинутые технологии поиска данных, такие как фасетный поиск.

Фасетный поиск – это поиск с использованием фасетной классификации (совокупность нескольких независимых классификаций, осуществляемых одновременно по различным основаниям), многочисленных фильтров, основанных на классификациях информации по различным признакам. Реализуется на основе онтологий (фасеты генерируются на основе иерархии концептов в онтологии), учитываются отношения между сущностями в онтологии [21].



Системы управления знаниями (СУЗ) существенно отличается от ИС организаций, предназначение которых эффективное хранение данных, обработка и предоставление информации. СУЗ представляет собой систему, реализующую функции увеличения объема и повышения уровня использования знаний организации, используя эффективный поиск и фильтрацию данных, знаний.

Основной объект, которым оперируют СУЗ – знания. Система управления знаниями обладает такими технологиями, с помощью которых сотрудники организации могут взаимодействовать на уровне моделирования бизнес-процессов с помощью теории, концепций, достоверных знаний сотрудников. Все это достигается за счет использования в СУЗ языка описания профессионального общения, который опирается на метаописания и онтологии предметной области. Назначение СУЗ, предложенное в [19], иллюстрирует схема, представленная на Рисунок 1.4..




  1. Назначение систем управления знаниями

Если предназначением учетной ИС является эффективное хранение, обработка и предоставление пользователям по регламенту или запросу искомой информации, то предназначением СУЗ является увеличение объема и повышение уровня использования знаний организации за счет их эффективного поиска и фильтрации, включения в коллективную память компании профессиональных знаний и опыта, в том числе хранящегося в головах специалистов. Как видно на схеме, СУЗ взаимодействует с бизнес-процессами компании, а знания накапливает из различных источников, таких как: базы знаний, базы данных, метаописания, онтологии. Особенный интерес в данных системах представляет использование онтологических моделей для представления знаний.



Портал знаний, реализованный на платформе Microsoft SharePoint, представляет собой попытку практического применения теории управления знанием. Обеспечивая прямое взаимодействие пользователей с необходимым интеллектуальным капиталом, портал знаний ускоряет обработку информации и снижает объем повторяемой работы в организации.

Каждый портал знаний может иметь иерархическую или сетевую структуру, т.е. состоять из более специализированных порталов, связанных некоторыми отношениями, например, отношением “общее-частное”. Такая архитектура делает портал знаний гибким и легко расширяемым. В основе порталов знаний лежат онтологии, содержащие описание устройства и типологии соответствующих сетевых ресурсов. Основными компонентами портала знаний являются: онтология, коллекционер онтологической информации о ресурсах, конструктор запросов и формирователь ответов.

Основная цель порталов знаний - объединение ряда возможностей по управлению знаниями в компании. Портал должен охватывать все уникальные аспекты и компоненты предприятия, позволяя отказаться от отдельных, специализированных и несовместимых порталов. Архитектура порталов знаний должна совмещать возможности различных приложений и источников информации и служить единственной точкой доступа, обеспечивая общие метаданные и уровни безопасности. Для реализации этого следует обратиться к объектно-ориентированным методам. Способность вместить и содержимое, и правила, создать специализацию посредством подклассов делает объекты безальтернативным средством представления источников, отношений и взаимодействий, содержащихся внутри портала знаний.

Существует несколько платформ, на которых ведется реализация порталов знаний. Платформа Microsoft SharePoint представляет собой рабочую платформу для предприятий и работы в сети Интернет, интегрированные функции которой предоставляют широкие возможности коммуникации между людьми. Благодаря унифицированной инфраструктуре SharePoint Server 2013 позволяет снизить расходы и дает возможность быстро реагировать на потребности предприятия независимо от способа развертывания: как на месте, так и в качестве размещенной службы. Портал знаний, реализованный на платформе SharePoint Server 2013 предназначен для:



  • общения сотрудников и обмена информацией между сообществами, что дает возможность делиться знаниями и идеями;

  • управления корпоративным содержимым и балансирование между обеспечением взаимодействия с пользователем и соответствия политике и процессу;

  • реагирования на изменение потребностей компании путем принятия решений на основе данных;

  • помощи пользователям в поиске необходимого содержимого, сведений и других пользователей с помощью поиска в корпоративной среде.

Портал знаний, реализованный на платформе Oracle Portal выполняет все те же задачи портала знаний, которые были перечислены выше. Однако платформа реализации портала Oracle Portal обладает отличными от SharePoint Server 2013 особенностями. Основные составляющие порталов знаний, реализованных на платформе Oracle Portal:

  • библиотеки готовых компонентов;

  • средства управления содержанием с поддержкой коллективной работы;

  • средства для сквозного полнотекстового поиска информации на портале, в интернет/интранет, в базах данных и в хранилищах неструктурированной информации;

  • средства интеграции внешних систем, приложений, различных видов источников данных;

  • средства для анализа бизнес-информации (BI - Business Intelligence);

  • средства однократной регистрации и управления информационной безопасностью;

  • средства поддержки мобильного беспроводного доступа;

  • интегрированное средство разработки веб-приложений.

Объединяя существующие и развивающиеся технологии совершенствования порталов знаний, вне зависимости от платформы реализации поратала, можно сказать, что корпоративные порталы знаний стремятся к интеграции таких информационных ресурсов и технологий, как: электронная почта и Интернет-ресурсы; системы управления базами данных (СУБД) и сами базы данных (БД); средства создания хранилищ данных; системы поддержки групповой работы; локальные системы автоматизации и документооборота; системы документооборота; экспертные системы и базы знаний; знания специалистов и др.

Система извлечения знаний из документов «Аналитический курьер» компании «Ай-теко» представляет собой инструмент для исследования событий, проблем или объектов путем мониторинга ресурсов сети интернет и других источников. Данная система реализует следующие возможности:

  • анализ мнений субъектов относительно объектов;

  • анализ тональности в отношении объектов;

  • анализ связей между объектами и темами в объеме всего хранилища документов;

  • выявление источников информационных кампаний и атак, поиск перепечаток;

  • мониторинг наиболее обсуждаемых тем и сюжетов в потоке поступающих документов;

  • социометрия авторов и сообщений, пространственная локализация авторов;

  • анализ динамики развития событий, частотный анализ тем;

  • прогноз появления событий нужных типов и определение их значимости;

  • тематическая классификация входных сообщений и др [14].

Система используется в области прогнозной аналитики, а инструменты семантического анализа текста в составе системы применяются для прогнозирования появления определенных событий, для выявления их информационных профилей и др. Кроме того, в состав системы входит отказоустойчивое масштабируемое хранилище Big Data, позволяющее надежно и эффективно обрабатывать миллиарды документов. Оно может использоваться отдельно от системы, входит в состав многих приложений, разработанных для различных пользователей.

Все рассмотренные в данном разделе системы, так или иначе, имеющие в своем составе семантические технологии, являются достаточно узконаправленными на применение семантических технологий и не решают весь перечень функциональных задач проектируемой КИС. Однако технологии онтологического подхода, позволяющие построить такие системы, которые основаны на онтологии предметной области или в которых реализован семантический поиск и аннотирование являются наиболее подходящими для использования в проектируемой архитектуре КИС.



Из анализа некоторых возможностей систем, реализующих семантический подход, представляется возможным сформировать сводную таблицу (см. Error: Reference source not found), отображающую применение семантических технологий в частности, использующих онтологический подход представления знаний на разных этапах ЖЦ ЭД.

  1. Задачи, решаемые семантическими технологиями
    на разных этапах ЖЦ ЭД



Этап ЖЦ ЭД

Задача

1

Ввод

  • классификация документов (тематическое индексирование) кластеризация документов

  • описание документа

  • описание элементов предметной области

2

Хранение

  • хранение элементов документа (содержимое, метаданные)

3

Обеспечение сохранности

  • оценка полноты, целостности и непротиворечивости документов

4

Управление

  • интеллектуальная интеграция информации

  • информационный поиск

  • поиск зависимостей между документами

  • обеспечение доступа к содержательным знаниям и данным из документов в ИС

  • визуализация знаний и данных

  • генерация ответа на запрос к ИС

5

Доставка

  • управление маршрутами движения документов

6

Вывод

  • экспорт в различные форматы

Применение онтологий в архитектуре КИС дает возможность выполнения большого спектра задач представления, обработки знаний, содержащихся в ЭД, а также исполнение запросов к данным, извлеченным из ЭД. Кроме онтологического подхода в архитектуре КИС, можно использовать технологии Text-Mining, непосредственно занимающиеся извлечением данных из неструктурированных документов.
  1. Применение классических и семантических технологий в КИС


На основе определенного в п. 1.2.4. ЖЦ ЭД в КИС (см. Рисунок 1.5.), обозначим классические технологии, которые применяются на каждом из этапов и определим те этапы ЖЦ ЭД, в которых применение семантических технологий позволит совершенствовать движение ЭД в КИС.


  1. Этапы жизненного цикла ЭД в КИС


Рассмотрим каждый этап ЖЦ подробно.

Этап 1. Ввод документа в ИС. На данном этапе ЖЦ информация создается или импортируется в ИС извне. С этого первого шага начинается движение информации на предприятии, и как следствие возникает задача управления ею. Условно можно выделить два класса информации: создаваемая человеком и создаваемая приложениями. К первому классу относятся бумажные и электронные документы, различные заполненные формы и анкеты, мультимедийная информация (аудио, видео, изображения и т. п.), а также информация на архивных носителях, например, на микрофильмах. Ко второму классу (информация, создаваемая приложениями) относятся данные, выгружаемые из других ИС (ERP, CRM, специализированные системы), электронные формы, электронные данные, полученные по каналам электронного обмена.

На этапе ввода используются следующие технологии:



  • Сканирование документов. Эта технология позволяет работать в системе с образами бумажных документов, что не только многократно повышает удобство работы, но и делает возможным параллельную и удаленную работу с одними и теми же документами.

  • Распознавание образов документов (технологии OCR/HCR/ICR/OMR/IDR). Это целая совокупность технологий, включающая не только оптическое распознавание символов, но и такие технологии, как интеллектуальное распознавание символов и целых документов, распознавание рукопечатных символов (используется при распознавании бумажных форм), распознавание меток.

  • Обработка форм. Формы могут быть бумажные, электронные или веб-формы. Заполненные формы пересылаются на участок обработки, где их содержимое заносится в систему.

  • Агрегация. Информация может поступать из разных источников, но в ИС она должна быть представлена как логически целая.

  • Интеграция. Информация в ИС может поступать из других ИС. Интеграционному решению необходимо решать задачи — захвата и преобразования данных и метаданных, сохранение юридической значимости информации и др.

  • Классификация. Полученная информация индексируется, классифицируется и категоризируется, получает регистрационные номера, чтобы в дальнейшем в ИС была возможность эту информацию найти, а также на нее ссылаться.

Этап 2. Хранение документа в ИС. Информация, поступившая в систему, хранится в ней в соответствии с установленными для этого класса информации политиками. Вопросы хранения могут быть рассмотрены на нескольких уровнях абстракции, от физических методов до политик и общей стратегии управления информацией на предприятии.

Технологии, применяющиеся на данном этапе:



  • SAN, NAS, CAS, магнито-оптические диски, CD/DVD, дисковые и ленточные библиотеки, SSD, RAID. Это целый парк технологий и периферийных устройств, предназначенных для хранения информации. Выбор той или иной технологии обуславливается объемом информации, сроком хранения, параметрами доступа к ней пользователей, требуемым уровнем надежности и безопасности;

  • файловые системы, CMS, базы данных, хранилища данных, репозитории. На этом уровне решаются вопросы организации хранения данных на уровне файлов, записей в базе данных, контента в хранилище и CMS.

Перечисленные технологии призваны решать следующие задачи, возникающие в процессе хранения:

  1. поиск;

  2. контроль версий;

  3. регистрация прибытия/убытия документов и информации;

  4. блокировка;

  5. аудит действий пользователей;

  6. извлечение документов и информации.

На логическом уровне можно выделить задачу управления политиками хранения.

Этап 3. Обеспечение сохранности. Этот этап ЖЦ можно также определить как отдельное направление деятельности, включающее в себя ряд задач:

  • обеспечение юридической значимости информации;

  • перевод системы в специальные режимы (аудит, проверка и т. п.);

  • восстановление информации, пострадавшей в результате катастроф природного и техногенного характера;

  • своевременный перевод в новые форматы и на новые носители (это особенно актуально при долговременном хранении информации).

Для решения этих и других задач могут быть использованы различные инструменты и технологии:

  • электронная подпись;

  • специальные архивные форматы, например PDF-A [23];

  • вывод информации на архивные носители (бумага, микрофильмы);

  • резервное копирование и восстановление информации;

  • контролируемая конвертация и перенос на другие носители.

Этап 4. Управление документом. Информация, которая обращается в организации и хранится в ИС, только абстрактно представляет собой что-то логически целое. На практике выделяют несколько классов и соответственно несколько отдельных видов деятельности или дисциплин:

  • управление документами;

  • управление информацией, значимой с точки зрения законодательства или бизнеса;

  • управление цифровыми активами;

  • управление электронной почтой;

  • управление веб-контентом;

  • организация взаимодействия;

  • управление бизнес-процессами.

Стоит отметить, что эти задачи могут пересекаться и включать в себя другие, и выделение перечисленных дисциплин носит условный характер.

Этап 5. Доставка документа. Хранение информации — не самоцель, информация постоянно используется в повседневной деятельности. Поэтому в сферу деятельности ИС входит организация ее доставки потребителям.

На этапе доставки данных можно выделить следующие задачи:



  1. Управление правами доступа. В системе, как правило, хранится информация, предназначенная для разных групп пользователей. Поэтому невозможно представить себе систему документооборота без механизма управления правами доступа.

  2. Управление отчетами, печатью и публикациями. Результатом ряда бизнес-процессов является бумажный или электронный документ, доступ к другой информации осуществляется через интернет- и интранет-порталы. Либо затребованные документы отправляются электронной почтой или по другим каналам связи.

  3. Организация доступа с мобильных устройств. Удаленная и мобильная работа с корпоративной информацией для ряда сотрудников становится не вспомогательным, а основным сценарием.

  4. Межведомственный электронный документооборот (МЭДО). Отказ от бумаги и переход на электронный документооборот между организациями помимо того, что даёт экономию на бумаге, печати и расходов на доставку, позволяет организовать совместную работу над документами, увеличить скорость и эффективность взаимодействия.

Для решения этих и других задач используются технологии:

  • управление правами доступа к цифровой информации, «водяные знаки»;

  • электронная подпись, инфраструктура публичных ключей подписи;

  • преобразование, форматирование, сжатие и объединение информации;

  • XML, JSON, SOAP, REST.

Этап 6. Вывод документа из ИС. Информация, хранящаяся в ИС, может быть отправлена в архив или удалена по истечении определенного периода времени согласна установленным нормам. Технологии, использующиеся на этапе вывода информации из ИС, связаны с организацией полного удаления данных из ИС и представляют собой встроенные в архитектуру модули вывода из ИС.

Каждый из вышеописанных этапов ЖЦ, в совокупности с технологиями, может быть дополнен возможностями семантического подхода в ключе управления ЭД. В качестве основной семантической технологии, в связи с перспективностью ее использования в архитектуре КИС, в разделе 1.3.2. определен онтологический подход. Данный подход можно использовать для реализации различных задач, перечисленных в Error: Reference source not found, например, таких как:



  • хранение элементов документа (содержимое, метаданные)

  • интеллектуальная интеграция информации;

  • информационный поиск;

  • поиск зависимостей между документами;

  • обеспечение доступа к содержательным знаниям и данным из документов в ИС;

  • визуализация знаний и данных;

  • генерация ответа на запрос к ИС.

Перспективным преимуществом при внедрении в архитектуру КИС семантических технологий является получение удобной интегрированной КИС, которая включает в себя функции существующих в настоящее время технологий классического подхода, а также проектируется с учетом применения методов семантического подхода, таких как: онтология предметной области, семантический поиск, аннотирование, классификация и др.


  1. Каталог: data -> 2014
    2014 -> Реферат Отчет с., главы, 22 рис., табл., 16 источников, прил видео стеганография, стеганография mpeg, сокрытие информации в видео, встраивание и извлечение информации, дискретное косинусное преобразование, помехоустойчивое кодирование, циклические
    2014 -> Становление футбольного клуба как бренда на примере фк
    2014 -> Проблемы и перспективы взаимодействия Европейского Союза и России по урегулированию локальных кризисов
    2014 -> Факторы формирования российского и американского экспорта вооружений в начале XXI века
    2014 -> Памятка студентам бакалавриата «Куда обращаться?»
    2014 -> «Восприятие института монархической власти в Великобритании, России и в Японии»
    2014 -> Программа краткосрочного повышения квалификации работников ниу вшэ
    2014 -> Практики краудсорсинга в прикладных социальных исследованиях


    Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   12


База данных защищена авторским правом ©vossta.ru 2019
обратиться к администрации

    Главная страница