Вопросы проверки адекватности вероятностных моделей по неполным выборкам



Скачать 404.16 Kb.
страница1/2
Дата05.03.2019
Размер404.16 Kb.
  1   2

ISSN 1814-1196 http://journals.nstu.ru/vestnik

Научный вестник НГТУ science bulletin of the NSTU

том 63, № 2, 2016, с. 70–89 Vol. 63, No. 2, 2016, pp. 70–89





ОБРАБОТКА ИНФОРМАЦИИ INFORMATION PROCESSING

УДК 004.942


Сравнительный анализ метода Розенблатта-Парзена и метода структурной минимизации риска для аппроксимации плотностей вероятностей случайных величин


С.В. Поршнев1, А.С. копосов2, Е.И. Березовик3

1 620002, РФ, г. Екатеринбург, ул. Мира, 19, ФГАОУ ВПО «Уральский Федеральный Университет имени первого Президента России Б.Н. Ельцина», доктор технических наук, профессор. Е-mail: s.v.porshnev@urfu.ru

2 620002, РФ, г. Екатеринбург, ул. Мира, 19, ФГАОУ ВПО «Уральский Федеральный Университет имени первого Президента России Б.Н. Ельцина», кандидат технических наук, старший преподаватель. Е-mail: a.s.koposov@urfu.ru

3 620002, РФ, г. Екатеринбург, ул. Мира, 19, ФГАОУ ВПО «Уральский Федеральный Университет имени первого Президента России Б.Н. Ельцина», студент 4 курса. Е-mail: miss.berezovik@mail.ru
В статье производится сравнительный анализ результатов применения методов аппроксимации Розенблатта-Парзена (АРП) и структурной минимизации риска (СМР) для аппроксимации плотностей вероятностей (ПВ) случайных величин с ограниченной областью рассеяния. Известны два подхода к решению этой задачи: параметрический и непараметрический. В соответствие с первым подходом на основе априорной информации выбирают вид ФР случайной величины, зависящей от некоторого набора параметров, и меру близости между теоретической и экспериментальной ФР. В основе непараметрической статистики лежит подход, позволяющий получать адаптивные оценки эмпирических ФР в виде некоторых функционалов, независящих от вида выбираемой на основе априорной информации ФР. В АРП метод восстановления плотности распределения экспериментальной выборки основан на предположении о том, что ФР оценивается локально в каждой точке с помощью элементов обучающей выборки из некоторой окрестности данной точки. При этом общая ФР есть некоторая линейная комбинация известных ядерных функций. В методе СМР оценка ПР ищется в виде разложения по системе тригонометрических функций. Для сравнительного анализа были использованы случайные величины с одно- двух и трехмодовыми ПВ. Для оценки качества аппроксимации анализируемых методов использовалось значение интегральной погрешности. Получены оценки точности аппроксимации и времени вычисления ПВ, каждым из выбранных методов. Для проведения анализа построены сводные таблицы точности аппроксимации и времени вычислении ПВ. Сделаны выводы о достоинствах и недостатках методов. Предложены рекомендации по использованию того или иного метода в зависимости от размера исходной выборки.

Ключевые слова: функция распределения, плотность вероятности, ограниченная область рассеяния, непараметрическая статистика, эмпирическая функция распределения, аппроксимация Розенблатта-Парзена, параметр размытости, ядерная функция, информационный функционал, метод структурной минимизации риска.
Введение

Восстановление функции распределения по выборке случайных данных, полученных в результате проведения тех или иных экспериментов, является одной из основных задач прикладной математической статистики [1], которая имеет важное практическое значение, например, при решении задач прочностной надежности элементов и объектов нефтегазового оборудования [2]. Данная задача имеет следующую постановку: по экспериментальной выборке из генеральной совокупности значений найти соответствующую функцию распределения (ФР) , связанную с ПР следующим соотношением:





(1)

соответственно,



(2)

Известны два подхода к решению этой задачи: параметрический и непараметрический. В соответствие с первым подходом на основе априорной информации выбирают вид ФР случайной величины зависящей от некоторого набора параметров, и меру близости между теоретической и экспериментальной ФР:



(3)

где функция Хэвисайда






также, вообще говоря, зависящую от вида распределения [4]. Далее находят оценки значений параметров ФР, обеспечивающих максимальную близость теоретической ФР и эмпирической ФР. Существование решения обсуждаемой задачи обеспечивает центральная теорема математической статистики, согласно которой с ростом объема выборки N функция с вероятностью, равной единице, равномерно приближается по ФР к :

В основе непараметрической статистики лежит подход, позволяющий получать адаптивные оценки эмпирических ФР в виде некоторых функционалов, независящих от вида выбираемой на основе априорной информации ФР [2]. Для этого разработан целый ряд известных методов [2,6-9], в том числе: метод гистограмм, метод «гребенка», метод ближайших соседей, метод разложения по базисным функциям, аппроксимация Розенблатта-Парзена и ряд других. Работоспособность методов непараметрической статистики и целесообразность их применения при анализе экспериментальных данных подтверждается результатами, полученными различными исследователями, см., например, [3].

Напомним, следуя [2], что данный метод восстановления плотности распределения экспериментальной выборки основан на предположении о том, что ФР оценивается локально в каждой точке с помощью элементов обучающей выборки из некоторой окрестности . При этом общая функция вероятности есть некоторая линейная комбинация известных функций:




(4)

где – ядерная функция, удовлетворяющая следующим условиям:

а) монотонно неубывающая функция, область значений которой принадлежит интервалу

б)  функция, симметричная относительно 0;

в) при



– параметр «размытости», определяющий гладкость получаемой оценки.

Соответственно, ПР вычисляется по формуле





(5)

где

На практике наиболее часто в качестве ядерных функций используются функции, представленные в таблице 1 [3].

Таблица 1. Ядерные функции, наиболее часто используемые на практике




Ядро

Формула

1

Нормальное



2

Лапласа



3

Фишера



4

Коши



5

Логистическое



6

Епанечникова



7

Равномерное



8

Треугольное



9

Квадратичное


Оптимальные значения ядерной функции и параметра h находятся из условия достижения информационным функционалом





(6)

максимального значения, которое, как очевидно, выполняется при [7,8].

Результаты исследования особенностей аппроксимации Розенблатта-Парзена в задаче аппроксимации одномодальных распределений дискретных и непрерывных случайных величин с ограниченной областью рассеяния изложены в [10] и [11], соответственно.

Также известен альтернативный подход к непараметрической аппроксимации, описанный в [15,16], в соответствие с которым неизвестная ПР предполагается непрерывной и сосредоточенной на отрезке , а оценка ПР ищется в виде разложения по системе тригонометрических функций:




(7)

где коэффициенты разложения. Здесь число тригонометрических функций N («сложность» оценки) и значения коэффициентов разложения находятся с помощью метода структурной минимизации риска [15,16].

Однако сравнительного анализа данных методов аппроксимации ПР случайных последовательностей, а также соответствующих рекомендаций по выбору используемого в конкретной ситуации метода, многочисленных публикациях по непараметрической статистике обнаружить не удается. В этой связи исследование данных методов представляет практический интерес.

В статье обсуждаются результаты сравнительного анализа оценок ПР распределений случайных последовательностей, вычисленных с помощью аппроксимации Розенблатта-Парзена и метода структурной минимизации риска, с точки зрения затрат вычислительных ресурсов (время вычисления) и точности аппроксимации ПР.


  1. Методика исследования

В качестве объекта исследования были использованы случайные числа с ограниченной областью рассеяния. Их выбор обусловлен тем, что параметры большого числа реальных технических систем относятся к данному классу случайных распределений [4].

Напомним, что физическая модель случайной величины с ограниченной областью рассеяния (СВООР) была предложена А. Эйнштейном и Смолуховским [4,5]. В соответствие с данной моделью СВООР порождают значения траектории броуновской частицы, совершающая одномерные случайные блуждания на отрезке [a, b], от границ которого она испытывает абсолютно упругие отражения. Можно показать [14], что ПР данной случайной величины вычисляется формуле





(8)

где А – нормировочный коэффициент, определяемый из условия










Из (8) видно, что ПР представляет собой линейную комбинацию плотностей нормального закона, центры распределений которых находятся по следующим формулам








где ,

Отметим, что, используя (8), можно создавать двух- и трех-модальные распределения СВООР:





(9)



(10)

Для сравнительного анализа были использованы СВООР, сгенерированные в соответствие с (8)(10). Параметры ПР выбирались аналогичные использованным ранее при исследовании сравнения точности оценивания параметров одно- и двухмодальных ПР с помощью генетических алгоритмов и аппроксимации Розенблатта-Парзена [12,13,14].

Параметры распределений, в соответствие с которыми генерировались случайные величины, представлены в таблицах 2-4.


Таблица 2. Параметры одномодальных распределений



Номер распределения









1

50

10

0

100

2

50

20

0

100

3

50

30

0

100

4

30

20

0

100

Таблица 3. Параметры двумодальных распределений



Номер распределения



















5

30

15

0

100

70

5

0

100

0,5

6

30

10

0

100

70

15

0

100

0,7

7

20

15

0

100

80

10

0

100

0,5

8

30

10

0

100

70

10

0

100

0,4

Таблица 4. Параметры трехмодального распределения

Номер распределения





















9

20

5

50

5

70

5

0

100

0,3

0,3

10

20

7

55

5

70

5

0

100

0,3

0,3

11

20

5

50

5

70

5

0

100

0,2

0,3

12

20

10

50

7

70

5

0

100

0,3

0,3

В проведенных экспериментах были использованы 12 наборов параметров по 4 набора для каждого типа распределений. Для каждого набора параметров генерировались выборки следующих размеров: 30, 50, 100, 200, 300, 500. . Для каждого набора параметров и размера выборки вычислялось количество реализаций выборки .

Для оценки качества аппроксимации анализируемых методов использовалось значение интегральной погрешности, вычисляемое относительно теоретической функции распределения случайной последовательности по следующей формуле:




(11)

Для каждой реализации вычислялась аппроксимация плотности вероятности по методу Розенблатта-Парзена и по методу структурной минимизации риска, а также соответствующие интегральные погрешности и время вычисления . Затем интегральная погрешность и время вычисления усреднялись по ансамблю реализаций.

  1. Анализ результатов

Примеры результатов оценивания ПР одномодальных, двумодальных и трехмодальных выборочных СП с ограниченной областью рассеяния для каждого из описанных выше наборов параметров представлены на рисунках 1-3.


а)


б)


в)


г)


Рисунок 1. Результаты аппроксимации одномодальной ПР СП с ограниченной областью рассеяния, размер выборки N = 500: а – СП № 1; б – СП № 2; в – СП № 3, г – СП № 4;

1 – гистограмма выборки; 2 – теоретическая ПР, 3 – аппроксимация ПР методом структурной минимизации риска; 4 – аппроксимация Розенблатта-Парзена


а)


б)


в)


г)


Рисунок 2. Результаты аппроксимации двумодальной ПР СП с ограниченной областью рассеяния, размера выборки N = 500

а – СП № 5; б – СП № 6; в – СП № 7; г – СП № 8; 1 – гистограмма выборки; 2 – теоретическая ПР, 3 – аппроксимация ПР методом структурной минимизации риска; 4 – аппроксимация Розенблатта-Парзена


а)


б)


в)


г)


Рисунок 3. Результаты аппроксимации трехмодальной ПР СП с ограниченной областью рассеяния, размера выборки N = 500

а – СП № 9; б – СП № 10; в – СП № 11; г – СП № 12; 1 – гистограмма выборки; 2 – теоретическая ПР, 3 – аппроксимация ПР методом структурной минимизации риска; 4 – аппроксимация Розенблатта-Парзена

Каталог: files -> articles
articles -> в связи с получением основного общего и среднего общего образования
articles -> Методика исчисления и уплаты ндс сквозь призму официальной позиции налоговых и судебных органов России
articles -> Закон «Об образовании в рф»
articles -> Закон «Об образовании в рф»
articles -> Применения допинга в иностраных армиях чтоб не страшно в бой идти 1 часть
articles -> Сравнительная характеристика методик учета основных средств и нематериальных активов в международной и российской практике
articles -> Силовые тренировки
articles -> Гемостаз понятие, диагностика, некоторые синдромы и болезни, препараты


Поделитесь с Вашими друзьями:
  1   2


База данных защищена авторским правом ©vossta.ru 2019
обратиться к администрации

    Главная страница