Англоязычный вариант может быть кратким или полным



страница2/4
Дата09.08.2019
Размер1.23 Mb.
#126881
1   2   3   4

Рис. 6. Пример персептрона с четырьмя входами и двумя выходами.
Если выходные нейроны персептрона – это командные нейроны, запускающие различные программы действий организма (нападение на жертву, бегство от хищника и т. п.), то можно сказать, что персептрон на основании получаемой от сенсоров информации вырабатывает решение о принятии тех или иных действий. Какие именно действия будут предприняты в ответ на те или иные ситуации зависит от значений синаптических весов нейронов и их порогов. Впрочем, пороги можно считать фиксированными, например, нулевыми, если ввести дополнительный вход с постоянным сигналом, равным -1. Влияние этого входа будет равноценно наличию у нейрона порога, равного его синаптическому весу. Соответственно, в дальнейшем мы не будем упоминать о влиянии порога на выходное значение нейрона.
Нужные значения синаптических весов могут сформироваться двумя путями.
Если речь идет о безусловном рефлексе на ситуацию, то можно предположить, что веса сформировались генетически: мутации порождали индивидуальные колебания в значениях весов, а естественный отбор выбраковывал индивидов, неадекватно реагирующих на ситуацию из-за неправильных значений весов (бегство от жертвы, нападение на хищника и т.п.).
Что касается условного рефлекса, то он может сформироваться вследствие изменения весов в соответствии с правилом Хебба, согласно которому веса синаптических связей между одновременно возбужденными нейронами увеличиваются. Рис. 7 иллюстрирует образование условного рефлекса выделения слюны в ответ на звонок на примере простейшей сети из трех входных нейронов и одного выходного.

Рис. 7. Иллюстрация хеббовского обучения персептрона с тремя входами и одним выходом условному рефлексу выделения слюны в ответ на звонок.
Еще один способ обучения (подстройки синаптических весов) персептрона состоит в том, что после каждого предъявления персептрону некоторой ситуации (образа) полученный выход сравнивается с правильным решением (которое каждый раз предполагается известным), после чего веса корректируются в направлении уменьшения расхождения (дельты) между правильным решением и полученным выходом: если отклонение произошло в большую сторону, то надо уменьшить каждый синаптический вес на величину, пропорциональную его входу, а если в меньшую, то увеличить. Этот метод (называемый дельта-правилом) применим к персептронам из нейронов как с пороговой, так с сигмоидной функцией активации, Непосредственной биологической интерпретации способу обучения с помощью дельта правила не просматривается (хотя попытки ее найти предпринимаются до сих пор), однако наличие регулярного алгоритма обучения персептрона немало способствовало его популярности, по крайней мере, среди специалистов в области технической кибернетики.
Энтузиазм, однако, сменился глубоким разочарованием, когда было показано, что круг задач, решаемых однослойным персептроном Розенблатта, довольно ограничен [Minsky, Papert, 1969; Минский, Пейперт, 1971]. Точнее, его можно научить различать лишь ситуации, линейно разделимые в пространстве признаков. Например, невозможно обучить персептрон относить к одному классу ситуации, когда сигналы на двух входах имеют либо оба низкие, либо оба высокие значения, а к другому классу – ситуации, когда сигналы имеют разные значения. Хотя было известно, что многослойные персептроны, т.е. персептроны, имеющие промежуточные слои нейронов (см. рис. 8), в принципе могут решать задачи любой сложности, в то время не имелось регулярного алгоритма обучения многослойных персептронов. Результатом было резкое снижение исследовательской активности в области нейронных сетей в семидесятые и начале восьмидесятых годов.


Рис. 8. Пример трехслойного персептрона (четыре входа, два нейрона в первом слое, два - во втором и один - в третьем).
2.1 Сети обратного распространения ошибки
Однако во второй половине восьмидесятых годов интерес к персептронам, теперь уже, главным образом, многослойным, вновь возродился. Это было связано с разработкой эффективного алгоритма обучения многослойных персептронов – метода обратного распространения ошибки [Rumelhart, Hinton, Williams, 1986]. Многослойные персептроны, обучаемые с помощью этого метода, называют сетями обратного распространения.
Метод обратного распространения ошибки является обобщением дельта-правила и применяется, в основном, к сетям, образованным из нейронов с сигмоидной функцией активации. Суть его состоит в следующем.
Сначала вычисляются выходные значения сети. Это делается последовательно: на первом шаге по входам сети вычисляются выходные значения нейронов первого слоя, после чего полученные значения принимаются за входные и по ним вычисляются значения второго слоя и т.д. Это прямой проход сети, в процессе которого меняются выходные значения нейронов. После него следует обратный проход от выходного слоя к входному, во время которого, однако, меняются не выходные значения нейронов, а веса связей. Для корректировки весов последнего слоя можно фактически применить дельта-правило, поскольку есть входные значения предпоследнего слоя, вычисленные выходные значения последнего слоя и известные правильные выходные значения. Сложнее дело обстоит с предпоследним слоем, поскольку для него неизвестны правильные значения и поэтому нельзя вычислить ошибку. Авторы алгоритма предложили ее вычислять по выходной ошибке, используя те же веса, которые применялись для пересчета значений нейронов выходного слоя, но уже в обратном направлении. А зная ошибку предпоследнего слоя и входные значения с предпредпоследнего слоя, можно, пользуясь дельта-правилом, модифицировать входные веса предпоследнего слоя. Действуя далее аналогично, можно скорректировать веса всех слоев вплоть до первого.
Основная область применения сетей обратного распространения – технические приложения. Кроме того, они стали широко использоваться в задачах анализа данных вместо классических методов регрессионного и дискриминантного анализа. Это допустимо, потому что многослойный персептрон – это просто сложное уравнение нелинейной регрессии, но вряд ли оправдано в случаях, когда из-за зашумленности трудно выявить в данных зависимости, более сложные, чем линейные.
Как модель реальной обработки информации в мозге метод обратного распространения ошибки в настоящее время имеет ограниченное распространение – более широко для этого применяются рассматриваемые в следующем разделе сети Хопфилда. Тем не менее, идеи этого метода используются для моделирования некоторых механизмов работы головного мозга [Hinton, McClelland, 1988; O'Reilly, 1996, 1998; O'Reilly, Frank, 2006].
3 Сети Хопфилда
Если открытие метода обратного распространения ошибки стимулировало, главным образом, развитие технических применений формальных нейронных сетей, то появление статьи Хопфилда [Hopfield, 1982], анализирующей свойства полносвязной сети нейронов Мак-Каллока и Питтса, сыграло ключевую роль в развитии нейросетевого моделирования биологических когнитивных процессов (в одной из аннотированных библиографий после этой статьи была лишь одна короткая фраза – «это то, с чего все началось»).
3.1 Пороговая функция активации

На рис. 9 приведен пример сети Хопфилда из четырех нейронов. Она характеризуется тем, что все нейроны связаны со всеми и есть только два ограничения на веса синаптических связей: веса прямых и обратных связей равны между собой, а вес связи нейрона с самим собой равен нулю (условие симметричности связей не является биологически мотивированным, а, скорее, является допущением, упрощающим математический анализ свойств сети). В принципе, каждый нейрон , может иметь как вход, так и выход, а его состояние задается переменной состояния , принимающей значение -1 или 1 (использование значений -1 и 1, а не 0 и 1 также мотивировано стремлением к упрощению анализа свойств сети).



Рис. 9. Пример симметричной сети Хопфилда из четырех нейронов.
Динамика сети определяется правилами изменения состояний ее нейронов и весов, соединяющих их синаптических связей.
Предположим, что веса сети и состояния всех ее нейронов в момент времени каким-то образом заданы, например, просто случайным образом. Тогда в следующий момент состояние нейрона изменится в соответствии с правилом Мак-Каллока и Питтса

где – внешний входной сигнал, а – функция сигнум (знак), равная -1 для отрицательных значений аргумента и 1 – для положительных (т.е. просто пороговая функция).


Что касается синаптических весов, то для всех они изменяются в соответствии с правилом Хебба

т.е вес увеличится на единицу, если нейроны и находятся в одинаковых состояниях (оба равны -1 или оба равны 1) и уменьшится на единицу, если – в разных (один в состоянии -1, а другой – в состоянии 1).


Определенная таким образом сеть обладает рядом интересных свойств с точки зрения ее использования как модели биологических когнитивных процессов. Рассмотрим эти свойства. Для наглядности представим, что нейроны образуют прямоугольную решетку и мы можем наблюдать их состояния в разные моменты времени, как на рис. 10, где неактивные нейроны показаны мелкими точками, а активные – крупными.
Пусть сначала все синаптические веса сети равны нулю, а на входы ее нейронов поступает некоторая конфигурация сигналов – образ. В результате нейроны установятся в состояния, соответствующие этому образу, например, букве «Е», после чего, в соответствии с правилом Хебба, сформируются новые веса сети. Можно повторно предъявить образ несколько раз – тогда значения весов кратно увеличатся. Если после этого предъявить сети любое другое сочетание сигналов и разрешить ей свободно эволюционировать во времени в соответствии с правилом Мак-Каллока и Питтса, то через небольшое число шагов состояние сети стабилизируется на ранее многократно предъявленном образе «Е». Можно сказать, что сеть «запомнила» этот образ!
Но что произойдет, если сети предъявить другие образы? Предъявление каждого из них внесет свой вклад в изменение синаптическиех весов и, оказывается, что они тоже будут «запомнены» сетью.

Рис. 10. Динамика состояния сети, обученной распознаванию образов «Е», «Н», «X» и «Y» при предъявлении различных начальных образов в момент .
На рис. 10 демонстрируется динамика сети Хопфилда из 56 нейронов, запомнившей четыре образа – «Е», «Н», «X» и «Y», в моменты времени , после того как в момент ей был предъявлен некий новый образ [Терехин, Будилова, 1995]. Показано несколько типичных примеров такой динамики. Так, первые четыре тестовых образа представляют собой искаженные вариан­ты ранее предъявляемых букв «Е», «Н», «X» и «Y». Мы видим, что всякий раз от искаженного образа сеть переходит к запомненному неискаженному образу и потом постоянно остается в этом состоянии. Таким образом, сеть может вспомнить запомненный образ, если ей предъявить похожий образ, т. е. некоторую «ассоциацию», связанную с этим образом. Другими словами, сеть Хопфилда обладает свойством ассоциативного вспоминания образов!
Последние три примера динамики на рис. 10 получены при задании случай­ных начальных образов, не похожих или не очень похожих на образы, предъяв­ленные во время обучения. Тем не менее в одном случае система переходит в состояние, соответствующее одному из этих образов — «X». Однако в двух других случаях мы получаем новые образы, которые не предъявлялись сети при ее обучении. Это говорит о том, что в числе устойчивых образов, к которым сеть стремится в режиме распознавания и которые называются ее аттракторами, кроме предъявленных при обучении образов имеются и другие. Часто их называют «ложными» и рассматривают как помехи осуществлению сетью функций ас­социативной памяти. Однако появление «ложных» образов имеет и положительный аспект, поскольку резко расширяет когнитивные свойства сетей. Действительно, можно за­метить, что последние два аттрактора на рисунке не случайны, а как бы состав­лены из частей образов, предъявленных при обучении, т. е. представляют собой своего рода химеры. Возможность появления таких химер наделяет сеть в некотором смысле способностью к «творческой фантазии» и «обобщению». Например, предпоследний химерический образ на рисунке можно рассматривать как обобщающий символ для «Е» и «Н», а последний – для «X» и «Y».
Поведение сети Хопфилда в режиме распознавания очень удобно интерпретировать в терминах так называемой функции энергии (функции Ляпунова), вид которой в момент определяется значениями весов связей и которая задается формулой

Аргументом этой функции является совокупность состояний нейронов, называемая состоянием сети, которое можно наглядно представлять в виде точки в -мерном пространстве состояний нейронов.


Можно показать, что определяемое правилом Мак-Каллока и Питтса изменение состояния сети может происходить только в направлении уменьшения функции энергии. Чтобы это показать, допустим, например, что некоторый нейрон находится в состоянии -1 и . В этом случае он должен на следующем шаге перейти в состояние 1. Соответствующее приращение энергии при этом переходе будет равно

поскольку ниже все члены в сумме по , кроме -го, в выражении для энергии в момент остаются такими же, как и в момент и поэтому взаимно уничтожаются при вычислении приращения. Так как, по предположению, , а , то, очевидно, , т.е., действительно, при изменениях состояний сети ее функция энергии может только уменьшаться.



Рис. 11. Иллюстрация аттракторного характера динамики сети Хопфилда в одномерном пространстве состояний.
Этот факт позволяет наглядно представлять изменение состояния сети как его движение по поверхности функции энергии, подобно тому как это происходит, например, с помещенным на неровную поверхность шариком, который всегда движется в направлении уменьшения своей потенциальной энергии (рис. 11). В точках пространства состояний, соответствующих образам-аттракторам (или некоторым их комбинациям), функция энергии имеет локальные минимумы, поэтому сеть, достигнув любого из таких состояний, остается в нем до тех пор, пока не будет принудительно переведена в новое начальное состояние. Все пространство состояний распадается, таким обра­зом, на области, образующие так называемые бассейны притяжения аттракторов, и динамика сети, установленной в некоторое начальное состояние, полностью зависит от того, в бассейн притяжения какого из аттракторов она попала [Веденов, 1988; Amit, 1989].
3.2 Сигмоидная функция активации
В предыдущем пункте мы рассмотрели свойства сетей Хопфилда, построенных из нейронов с пороговой функцией активации. Дополнительный анализ показывает [Hopfield, 1984], что замена пороговых нейронов на сигмоидные (п. 1.2) не меняет принципиально основных свойств сети, т.е. ее способности к хеббовскому запоминанию входных образов и их ассоциативному вспоминанию, а также к спонтанному формированию обобщенных и комбинированных образов. Сетевая модель с сигмоидными нейронами представляется более реалистичной по сравнению с сетью из пороговых нейронов, поскольку допускает значения, промежуточные между минимальным и максимальным.
3.3 Машина Больцмана и моделированный отжиг
Поведение сети Хопфилда полностью детерминировано. Однако легко получить стохастический вариант этой сети, называемый машиной Больцмана [Hinton, Sejnowski, 1986], если заменить ее пороговые нейроны на стохастические нейроны (см. 1.4), принимающие значения 1 и –1 с вероятностями

При очень больших вероятности переходов в состояния 1 или -1 слабо зависят от соответствующих этим переходам изменений энергии и примерно равны 1/2, что говорит о практической независимости динамики сети от рельефа энергетической поверхности. Наоборот, при динамика машины Больцмана совпадает с динамикой нестохастической сети Хопфилда, поскольку при и имеем и , т.е получаем тот же результат, к которому бы привело и применение детерминированного правила.


При промежуточных температурах сеть с высокой вероятностью остается в состояниях, соответствующих глубоким минимумам энергии, и относительно легко выходит из состояний, соответствующих мелким минимумам. Это означает, что благодаря введению стохастичности сеть получает способность различать локальные минимумы энергии по степени их выраженности, т. е. способность отличать надежные, многократно встреченные образы, которым соответствуют глубокие минимумы, от случайных.
Возможность свободного случайного блуждания сети в пространстве состояний расширяет возможности нахождения ею более глубоких минимумов энергии, т. е. способствует более успешному решению задач вспоминания. Эффективная процедура такого блуждания, названная «моделированным отжигом» из-за аналогии с известным способом термической обработки металла, состоит в том, что поиск начинается при высокой температуре сети, которая постепенно снижается до нуля [Kirkpatrick, Gelatt, Vecchi, 1983].

Сеть с элементами стохастичности как бы получает внутренний источник движения. Машина Больцмана, в отличие от нестохастической сети Хопфилда, достигнув ближайшего локального максимума энергии, уже не обречена находиться в нем до тех пор, пока ее состояние не будет изменено извне, а может сама выйти из этого состояния.



3.4 Запоминание последовательностей
При определении архитектуры сети Хопфилда предполагалось, что веса связей между нейронами симметричны, т. е. . Что произойдет, если это ограничение снять? Оказывается, что у асимметричной сети появляется новое полезное свойство – такая сеть может иметь не только точечные, но и циклические аттракторы и, соответственно, может запоминать не только отдельные образы, но и последовательности образов.

Для обеспечения возможности запоминания асимметричной сетью последова­тельности образов достаточно изменить правило Хебба таким образом, чтобы в весах связей фиксировались не только отношения между состояниями нейронов предъявляемого в момент образа, но и отношения между состояниями элементов образа, предъявленного в момент , и образа, предъявляемого в момент [Amari, 1972; Hopfield, 1982]. Соответствующее обучающее правило запишется следующим образом



где – константа, определяющая скорость перехода между последовательными образами.


Однако обученная описанным образом сеть может воспроизвести устойчиво лишь очень короткие последовательности. Для преодоления этого недостатка в [Kleinfeld, 1986] и [Sompolinsky, Kanter, 1986], были использованы механизмы, обеспечивающие запаздывание влияния переходной составляющей синаптических весов на динамику сети, а в ряде работ [Morita, 1993, 1994, 1996a, 1996b; Yoshizawa, Morita, Amari, 1993; Suemitsu, Morita, 2000; Morita, Murata, Morokami, 2003] для этой цели были применены нейроны с немонотонной функцией активации (п. 1.3).
Очевидно, что все ранее сказанное относительно целесообразности введения стохастичности в динамику сети в равной степени относится и к асимметричным сетям. Однако интерпретация динамики сети в терминах движения ее состояния только в направлении уменьшения функции энергии на случай асимметричной сети непосредственно не переносится. Действительно, как мы можем возвратиться в прежнее состояние, если на каждом шаге энергия может только уменьшиться?

Можно, однако, использовать другой, более общий способ наглядного описания динамических свойств сети – векторное поле скоростей изменения состояния, заданное в пространстве состояний. Это поле легко строится по функции энергии, поскольку в каждой точке пространства состояний оно равно просто антиградиенту функции энергии. Поэтому в случае симметричных сетей мы можем наряду с функцией энергии использовать для описания динамики также и поле скоростей. Однако в случае несимметричных сетей, которые могут иметь циклическую динамику, годится лишь описание в терминах поля скоростей.



Более важно, однако, подчеркнуть, что в обоих случаях пространство состо­яний делится на непересекающиеся части, соответствующие бассейнам притяжения разных аттракторов, и динамика сети определяется ее движением в соответствии с полем скоростей по направлению к аттрактору, в бассейне притяжения которого находится ее состояние.
Отметим также, что полное поле скоростей сети не исчерпывается полем скоростей в пространстве состояний нейронов. Поскольку веса связей также изменяются в зависимости от состояний нейронов (а через них, следовательно, и в зависимости от значений других весов), то в принципе можно рассматривать поле скоростей в объединенном пространстве состояний элементов и весов связей.

Поделитесь с Вашими друзьями:
1   2   3   4




База данных защищена авторским правом ©vossta.ru 2022
обратиться к администрации

    Главная страница