Сборник научных трудов под редакцией доктора физико-математических наук А. Н. Горбаня красноярск кгту


МОДЕЛИРОВАНИЕ ДАННЫХ ПРИ ПОМОЩИ КРИВЫХ ДЛЯ ВОССТАНОВЛЕНИЯ ПРОБЕЛОВ В ТАБЛИЦАХ



страница2/32
Дата09.08.2018
Размер2.19 Mb.
#43456
ТипСборник
1   2   3   4   5   6   7   8   9   ...   32

МОДЕЛИРОВАНИЕ ДАННЫХ ПРИ ПОМОЩИ КРИВЫХ ДЛЯ ВОССТАНОВЛЕНИЯ ПРОБЕЛОВ В ТАБЛИЦАХ



А.А.Россиев

Институт вычислительного моделирования СО РАН

660036, Красноярск-36, ИВМ СО РАН,



E-mail: alexross@cc.krascience.rssi.ru
Предложен и реализован метод последовательного моделирования набора данных одномерными многообразиями (кривыми). Метод интерпретируется как построение конвейера нейронов для обработки данных с пробелами. Другая возможная интерпретация – итерационный метод главных компонент и нелинейный факторный анализ для данных с пробелами.

1. Общая схема метода

Для заполнения пробелов в данных в общем случае обычные уравнения регрессии практически неприменимы из-за большого разнообразия возможного расположения пропущенных данных – 2n-1 вариантов для n-мерного вектора данных. Более перспективным представляется моделирование множества данных многообразиями M малой размерности. Вектор данных x с k пробелами представляется как k-мерное линейное многообразие Lx, параллельное k координатным осям, которые соответствуют пропущенным данным. При наличии априорных ограничений на пропущенные значения место Lx занимает прямоугольный параллелепипед PxLx. Особую роль во всем дальнейшем рассмотрении играют две точки:

PrM(x) – ближайшая к x (соответственно к Lx или Px) точка M,

и для некомплектных данных – ImM(x) – ближайшая к M точка Lx (или, соответственно, Px).

С использованием этого многообразия M производятся следующие операции:

заполнение пробелов – замена x на ImM(x),

ремонт данных (замещение данных моделью) – замена x на PrM(x).

Регрессионная зависимость одной части данных от другой определяется через заполнение пробелов, соответствующих зависимым переменным, по известным значениям независимых.

Итерационный процесс моделирования данных состоит в том, что для исходных данных строится наилучшая (в определенном точном смысле) модель – многообразие M малой размерности. Далее из данных x (соответственно Lx или Px) вычитаются проекции PrM(x). Получаем уклонения от первой модели. Для этого множества уклонений снова строится простая модель и т.д., пока все уклонения не станут достаточно близки к нулю. В следующем разделе описаны простейшие линейные модели данных, которые могут интерпретироваться как сингулярные разложения таблиц с пробелами. Далее с использованием линейных моделей строятся простейшие нелинейные.



2. Итерационный метод главных компонент для данных с пропусками

Пусть задана прямоугольная таблица, клетки которой либо заполнены действительными числами или значком @, означающим отсутствие данных. Требуется правдоподобным образом восстановить отсутствующие данные. При более детальном рассмотрении возникают три задачи:



заполнить пропуски в таблице;

отредактировать таблицу – изменить значения известных данных таким образом, чтобы наилучшим образом работали модели, используемые при восстановлении пропущенных данных;

построить по таблице вычислитель, заполняющий пробелы в приходящей для анализа строке данных с пробелами (в предположении, что данные в этой строке связаны теми же соотношениями, что и в строках таблицы).

Для решения этих задач предлагается использовать метод последовательного приближения множества векторов данных (строк таблицы) прямыми.



Основная процедура – поиск наилучшего приближения таблицы с пропусками матрицей вида xiyj+bj.

Пусть задана таблица с пропусками A=(aij). Ставится задача поиска наилучшего приближения A матрицей вида xiyj+bj методом наименьших квадратов:



(1)

Если фиксированы два из трех векторов xi, yj и bj, то третий легко находится по явным формулам. Задаваясь практически произвольными начальными приближениями для двух из них, ищем значение третьего, далее, объявляем неизвестным другой вектор из трех, находим его значение, наконец, находим третий и т.д. (по кругу) – эти простые итерации, очевидно, сходятся. Более того, по фиксированному xi, можно сразу по явным формулам посчитать значения yj и bj – таким образом расщепление производится не на три, а на две составляющие.

При фиксированных векторах yj и bj значения xi, доставляющие минимум форме (1), определяются из равенств xi=0 следующим образом:

.

При фиксированном векторе xi значения yj и bj, доставляющие минимум форме (1), определяются из двух равенств yj=0 и bj=0 следующим образом:

Для каждого j имеем систему из двух уравнений относительно yj и bj:

, где , , k=0..1, l=0..1.

Выражая из первого уравнения bj и подставляя полученное значение во второе, получим:



, .

Начальные значения:



y – случайный, нормирован на 1 (т.е. )

, где (число известных данных в j-ом столбце), т.е. bj определяется как среднее значение в столбце.

Критерий остановки – малость относительно улучшения /, где  – полученное за цикл уменьшение значения , а  – само текущее значение. Второй критерий – малость самого значения . Окончательно: процедура останавливается, если  или  для некоторых , 0.

Последовательное исчерпание матрицы A.

Для данной матрицы A ищем наилучшее приближение матрицей P1 вида xiyj+bj. Далее, для A-P1 ищем наилучшее приближение этого же вида P2 и т.д. Контроль ведется, например, по остаточной дисперсии столбцов.



Q-факторное заполнение пропусков есть их определение из суммы Q полученных матриц вида xiyj+bj,

Q-факторный “ремонт” таблицы – замена ее на сумму Q полученных матриц вида xiyj+bj.

Пусть в результате описанного процесса построена последовательность матриц Pq вида xiyj+bj (), исчерпывающая исходную матрицу A с заданной точностью. Опишем операцию восстановления данных в поступающей на обработку строке aj с пробелами (некоторые aj=@). Для каждого q по заданной строке определим число xq(a) и вектор :



;

;

;

…………….. (2)



;

;

……………..


Здесь многообразие M – прямая, координаты точек на M задаются параметрическим уравнением zj=tyj+bj, а проекция PrM(a) определяется согласно (2):

Pr(a)=t(a)yj+bj;



. (3)

Для Q-факторного восстановления данных полагаем:



, . (4)

Если пробелы отсутствуют, то описанный метод приводит к обычным главным компонентам – сингулярному разложению исходной таблицы данных. В этом случае, начиная с q=2, (b=0). В общем случае это не так и центрирование к данным с пробелами неприменимо.

Также следует учесть, что при отсутствии пробелов, полученные прямые будут ортогональны, то есть получим ортогональную систему факторов (прямых). Исходя из этого, при неполных данных возможен процесс ортогонализации полученной системы факторов, который заключается в том, что исходная таблица восстанавливается при помощи полученной системы, после чего эта система пересчитывается заново, но уже на полных данных.


Каталог: Library
Library -> Аппендицит
Library -> Методические рекомендации для доаудиторной подготовки к практическим занятиям по инфекционным болезням
Library -> Нормы сроков службы стартерных свинцово-кислотных аккумуляторных батарей автотранспортных средств и автопогрузчиков
Library -> Что дает страхование ответственности перевозчика
Library -> Сообщения информационных агентств
Library -> Закон республики таджикистан о документах, удостоверяющих личность


Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   32




База данных защищена авторским правом ©vossta.ru 2022
обратиться к администрации

    Главная страница