Математические основы радиальных сетей

Математическую основу функционирования радиальных сетей составляет теорема Т. Ковера о распознаваемости образов, в соответствии с которой нелинейные проекции образов в некоторое многомерное пространство могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью.

Если вектор радиальных функций в

$Математические основы радиальных сетей$

- мерном входном пространстве обозначить

$Математические основы радиальных сетей$

, то это пространство является нелинейно

$Математические основы радиальных сетей$

- разделяемым на два пространственных класса

$Математические основы радиальных сетей$

тогда, когда существует такой вектор весов

$Математические основы радиальных сетей$

, что

$Математические основы радиальных сетей$

Граница между этими классами определяется уравнением

$Математические основы радиальных сетей$

Доказано, что каждое множество образов, случайным образом размещенных в многомерном пространстве, является

$Математические основы радиальных сетей$

- разделяемым с вероятностью 1 при условии соответственно большой размерности этого пространства. На практике это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции

$Математические основы радиальных сетей$

, гарантирует решение задачи классификации при построении всего лишь двухслойной сети: скрытый слой должен реализовать вектор

$Математические основы радиальных сетей$

, а выходной слой может состоять из единственного линейного нейрона, который выполняет суммирование выходных сигналов от скрытых нейронов с весовыми коэффициентами, заданными вектором

$Математические основы радиальных сетей$

Простейшая нейронная сеть радиального типа функционирует по принципу многомерной интерполяции, состоящей в отображении

$Математические основы радиальных сетей$

различных входных векторов

$Математические основы радиальных сетей$

из входного

$Математические основы радиальных сетей$

-мерного пространства во множество из p чисел

$Математические основы радиальных сетей$

. Для реализации этого процесса необходимо использовать

$Математические основы радиальных сетей$

скрытых нейронов радиального типа и задать такую функцию отображения

$Математические основы радиальных сетей$

, для которой выполняется условие интерполяции

$Математические основы радиальных сетей$

Использование

$Математические основы радиальных сетей$

скрытых нейронов, соединяемых связями с весами с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Рассмотрим радиальную сеть с одним выходом и

$Математические основы радиальных сетей$

обучающими парами

$Математические основы радиальных сетей$

. Примем, что координаты каждого из

$Математические основы радиальных сетей$

центров узлов сети определяются одним из векторов

$Математические основы радиальных сетей$

, т.е.

$Математические основы радиальных сетей$

. В этом случае взаимосвязь между входными и выходными сигналами сети может быть определена системой уравнений, линейных относительно весов, которая в матричной форме имеет вид:

$Математические основы радиальных сетей$

(1)

где

$Математические основы радиальных сетей$

определяет радиальную функцию с центром в точке

$Математические основы радиальных сетей$

с вынужденным вектором

$Математические основы радиальных сетей$

.

Доказано, что для ряда радиальных функций в случае

$Математические основы радиальных сетей$

квадратная интерполяционная матрица

$Математические основы радиальных сетей$

является невырожденной и при этом неотрицательно определенной. Поэтому существует решение уравнения (1) в виде

$Математические основы радиальных сетей$

(2)

что позволяет получить вектор весов выходного нейрона сети.

Теоретическое решение проблемы, представленное выражением (2), не может считаться абсолютно истинным по причине серьезного ограничения общих свойств сети, вытекающих из сделанных вначале допущений. При очень большом количестве обучающих выборок и равном ему количестве радиальных функций проблема с математической точки зрения становится бесконечной (плохо структурированной), поскольку количество уравнений начинает превышать число степеней свободы физического процесса, моделируемого уравнением (1). Это означает, что результатом такого чрезмерного количества весовых коэффициентов станет адаптация модели к разного рода шумам или нерегулярностям, сопровождающим обучающие выборки. Как следствие, интерполирующая эти данные гиперповерхность не будет гладкой, а обобщающие возможности останутся очень слабыми.

Чтобы их усилить, следует уменьшить количество радиальных функций и получить из избыточного объема данных дополнительную информацию для регуляризации задачи и улучшения ее обусловленности.

Содержание раздела