Защита информации в компьютерных сетях

Рассмотренные выше языковые средства имеют некоторую общую часть, представленную в интерфейсе пользователя с АИС. Это операторы и синтаксические правила, которые непосредственно применяются при составлении запросов. Эти средства естественно рассматривать отдельно от конкретных типов языков, поскольку в любом сколько-нибудь дружественном интерфейсе пользователя язык запросов интегрирует средства различных ИПЯ – библиографических, классификационных и вербальных. Эти средства обычно называются языками запросов. Все перечисленные выше виды языковых средств можно с большей или меньшей степенью условности назвать языками. Однако, определив некоторый объект как язык, мы должны уметь выделять в его составе обязательные для любого языка компоненты. В любом языке выделяются знаковые единицы трех уровней:

алфавит – т. е. множество допустимых символов;

лексика – множество семантически интерпретированных знаков;

тексты (дискурс) – семантически интерпретированные знаковые единицы речи.

В любом языке также выделяются два класса правил (грамматики):

морфология – правила образования и изменения лексических единиц;

синтаксис – правила образования текстов.

Семантически интерпретированные знаковые единицы языка (лексика и тексты) согласно семиотическим представлениям обладают тремя типами отношений (свойств):

синтактика – отношения между знаками;

семантика – отношение знака к означаемому (денотату);

прагматика – отношение знака к участнику дискурса.

В теории и практике ЛО ЭБ эта схема обычно модифицируется. Алфавиты в большинстве случаев определяются программно-технологическими возможностями ЭБ и объектом проектирования в составе ЛО не являются.

Структура и особенности текстов на ИПЯ (поисковых образов документов и поисковых предписаний) обычно рассматривается как результат действий синтаксических правил, а не как самостоятельные знаки.

Под грамматикой ИПЯ обычно имеют в виду только синтаксис, морфологию ИПЯ, если она и выделяется, рассматривают на уровне лексики.

Отношения между знаками, в семиотике относимые к сфере синтактике, обычно разделяются на два типа – синтагматические (отношения знаков в тексте) и парадигматические (отношения знаков вне контекста). Поскольку парадигматические отношения в реальных языках устанавливаются на уровне лексики, конкретно в словарях или классификациях, то эти отношения рассматриваются как средство организации лексики.

Таким образом, в составе ИПЯ реально выделяются два основных компонента – лексика (в том числе организованная в словари с использованием парадигматики) и грамматика, при помощи которой порождаются тексты на этих языках.

Что же касается прагматических свойств ИПЯ, связывающих текста на ИПЯ с участником коммуникации, в данном случае поиска, то эти свойства реализуются в виде методик и алгоритмов индексирования, а также непосредственно в процессе поиска, при проектировании интерфейса, диалога пользователя с ЭБ, критериев ранжирования и выдачи результатов поиска.

Второй класс средств, входящих в состав ЛО ЭБ, не является языками. Выше мы назвали их лингвистическими процессорами. Как уже было отмечено, это достаточно широкий класс информационных и программных продуктов и технологий, но конкретно применительно к ЭБ к этим средствам мы будем относить два класса технологий: системы автоматической обработки текста и лингвистические банки данных.

Под автоматической обработкой текста понимаются процессы автоматического формирования описания текста (документа) на одном или нескольких информационных языках, включая и автоматическое индексирование, аннотирование или реферирование. В основе этих процессоров лежат конкретные лингвистические алгоритмы, прежде всего, морфологического и синтаксического анализа.

Лингвистические банки данных (ЛБД) – важный обеспечивающий компонент развитых ЛО АИС. Практически значительная доля затрат на создание и эксплуатацию ЛО – это затраты на создание и поддержание ЛБД. В этой части ЛО АИС смыкается с таким направлением информатики как компьютерная лексикография.

Итак, ЛО включает следующие виды языков и лингвистических процессоров:

1. Информационно-поисковые языки.

Системы метаданных.

Классификационные языки.

Вербальные языки. 

Фактографические (объектно-признаковые) языки.

2. Лингвистические процессоры. 

Системы автоматической обработки текста.

Лингвистические банки данных.

Классификационная схема лингвистических средств представлена на рисунке 21.

1. Информационно-поисковый язык (ИПЯ) – формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. К ИПЯ относятся:

Классификационный ИПЯ.

Предметизационный ИПЯ.

ИПЯ координатного индексирования.

Объектно-признаковые ИПЯ.

 


Рис. 21. Классификация ЛС

Классификационные ИПЯ – средство формализованного представления содержания документа, данных и информационных запросов посредством кодов или описаний классов логически упорядоченного множества понятий:

десятичная классификация Дьюи (ДКД);

универсальная десятичная классификация (УДК);

библиотечно-библиографическая классификация (ББК);

государственный рубрикатор научно-технической информации (ГРНТИ);

международный классификатор изобретений (МКИ).

Вербальный ИПЯ – информационно-поисковый язык, использующий для представления своих лексических единиц слова и выражения естественного языка в их орфографической форме.

К вербальным ИПЯ относятся:

дескрипторный язык, информационно-поисковые тезаурусы;

язык предметных рубрик.

Дескрипторный язык (от англ. слова descriptor – «описатель») – информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов или ключевых слов.

Информационно-поисковый тезаурус («тезаурус» в пер. с греч. «сокровищница», «запас», «клад») – нормативный словарь понятий и классификационных связей между ними (иерархических, т. е. родовидовых, и неиерархических).


На главную