Если не накладывать никаких ограничений на число состояний, то понятие «классификатор» фактически теряет смысл. Действительно, всякая нервная сеть сопоставляет каждому входному состоянию одно определенное выходное состояние; следовательно, каждому выходному состоянию соответствует множество входных состояний, и эти множества не пересекаются. Таким образом, всякое кибернетическое устройство с входом и выходом можно формально рассматривать как классификатор. Придавая этому понятию более узкий смысл, мы будем считать, что число выходных состояний классификатора гораздо меньше, чем число входных состояний, так что классификатор действительно «классифицирует» входные состояния (ситуации) по относительно небольшому числу больших классов.
2.3. Иерархия понятий
На рис. 2.2 приведена схема классификатора, организованного по иерархическому принципу. Иерархия вообще — это такое построение системы из подсистем, когда каждой подсистеме приписывается определенное целое число, называемое ее уровнем, причем взаимодействие подсистем существенно зависит от разности их уровней, подчиняясь некоторому общему принципу. Обычно этот принцип — передача информации в определенном направлении (сверху вниз или снизу вверх) от данного уровня к следующему. В нашем случае рецепторам приписывается нулевой уровень, и информация распространяется снизу вверх. Каждая подсистема первого уровня связана с некоторым числом рецепторов, и ее состояние определяется состояниями соответствующих рецепторов. Точно так же каждая подсистема второго уровня связана с рядом подсистем первого уровня и т. д. На высшем (на схеме — четвертом) уровне находится одна выходная подсистема, которая и выносит окончательный приговор о принадлежности ситуации к тому или иному классу.

Рис. 2.2. Иерархия классификаторов
Из этого определения, которое трудно назвать шедевром ясности мысли, можно все-таки заключить, что общие понятия, которые образуются не путем перечисления единичных объектов, входящих в него, а путем указания ряда признаков, объявляемых существенными, и отвлечения от остальных (несущественных) признаков, можно также считать абстрактными. Мы будем рассматривать только такие общие понятия и будем называть их также абстрактными. Например, абстрактный треугольник — это любой треугольник, независимо от величины его сторон и углов и его положения на экране, следовательно, это абстрактное понятие. Такое употребление термина «абстрактный» имеет место в обиходе, а также в математике. В то же время, согласно учебнику логики, «треугольник», «квадрат» и т. п. суть конкретные общие понятия, а вот «треугольность» и «квадратность», которые им свойственны, это понятия абстрактные. По существу, здесь в ранг логического возводится чисто грамматическое различие, ибо даже с точки зрения сторонника последнего варианта терминологии обладание абстрактным понятием равнозначно обладанию соответствующим общим понятием.
Все подсистемы промежуточных уровней также являются классификаторами. Непосредственным входом k-го уровня служат состояния классификаторов k-1-го уровня, совокупность которых является для него ситуацией, подлежащей классификации. В иерархической системе, содержащей более одного промежуточного уровня, можно выделить иерархические подсистемы, охватывающие несколько уровней. Например, в качестве входных ситуаций для классификатора третьего уровня можно рассматривать состояния всех связанных с ним классификаторов первого уровня. Иерархические системы можно достраивать «вширь» и «ввысь» подобно тому, как из восьми кубиков можно сложить кубик с вдвое большим ребром, а из этих кубиков — еще больший кубик и т. д.
Так как с каждым классификатором связана система понятий, иерархия классификаторов порождает иерархию понятий. Передаваясь от уровня к уровню, информация преобразуется, выражаясь в терминах все более «высокопоставленных» понятий. При этом количество передаваемой информации постепенно уменьшается за счет отбрасывания информации, несущественной с точки зрения задачи, поставленной перед «верховным» (выходным) классификатором.
Поясним этот процесс на примере картинок, изображенных на рис. 2.1. Пусть поставлена задача распознавания «домиков». Введем два промежуточных понятийных уровня. На первом разместим совокупность понятий «отрезки», на втором — понятия «многоугольники». Понятие «домик» окажется на третьем уровне.
Под понятием «отрезки» мы понимаем совокупность понятий «отрезок с координатами концов x1, y1 и x2, y2», где числа x1, y1, x2, y2 могут принимать любые совместимые с устройством экрана и системой координат значения. Чтобы быть конкретнее, допустим, что экран содержит 1000 × 1000 светочувствительных точек. Тогда координатами могут служить десятиразрядные двоичные числа (210 = 1024 > 1000), а отрезок с заданными концами требует для своей характеристики четыре таких числа, т. е. 40 двоичных разрядов. Всего, следовательно, существует 240 таких понятий. Их-то и должны различать классификаторы первого уровня.
Не надо думать, что отрезок с заданными концами — конкретное понятие, т. е. множество, состоящее из одной картинки. Классифицируя предъявленную картинку как отрезок с заданными концами, мы отвлекаемся от незначительных искривлений линии, вариаций ее толщины и т. п. (см. рис. 2.1). Критерий того, какие отклонения от нормы нам следует считать незначительными, может устанавливаться по-разному. Сейчас это нас не интересует.
Каждый классификатор первого уровня должен иметь на выходе подсистему из 40 двоичных разрядов, на которых «записаны» координаты концов отрезка. Сколько нужно классификаторов? Это зависит от того, какие картинки ожидаются на входе системы. Допустим, что для описания любой картинки достаточно 400 отрезков. Значит, достаточно 400 классификаторов. Разделим этот экран на 400 квадратов (50 × 50 точек) и свяжем с каждым квадратом классификатор, который будет фиксировать ближайший к нему, в каком-то смысле (детали разделения труда между классификаторами несущественны), отрезок. Если отрезка нет, пусть классификатор принимает какое-то стандартное «бессмысленное» состояние, например: все четыре координаты равны 1023.
Если предъявить нашей системе картинку, на которой изображено сколько-то отрезков, то соответствующее число классификаторов первого уровня укажет координаты концов отрезков, а остальные примут состояние «нет отрезка». Это и есть описание ситуации в терминах понятий «отрезки». Сравним количество информации на нулевом и на первом уровнях. На нулевом уровне нашей системы 1000 × 1000 = 106 рецепторов получают информацию в миллион бит. На первом уровне 400 классификаторов, каждый из которых содержит 40 двоичных разрядов, т. е. 40 бит информации, всего 16 000 бит. При переходе на первый уровень количество информации уменьшилось в 62,5 раза. Система сохранила ту информацию, которую она сочла «полезной» и отбросила информацию «бесполезную» с ее точки зрения. Относительность этих понятий видна из того, что если предъявленная картинка не соответствует иерархии понятий системы распознавания, то реакция системы будет неправильной или просто бессмысленной. Если, например, на картинке более 400 отрезков, то не все отрезки будут зафиксированы, а если предъявить картинку с пятном, то реакция на нее будет такая же, как на пустую картинку.
Совокупность понятий «многоугольники», занимающую второй уровень иерархии, мы делим на две меньших совокупности: равнобедренные треугольники и параллелограммы. Из числа параллелограммов мы выделяем в особую совокупность прямоугольники. Считая, что для задания угла и длины надо столько же бит (10), как и для координаты, находим, что для задания определенного равнобедренного треугольника надо 50 бит информации, параллелограмма — 60 бит, прямоугольника — 50 бит. Соответственно этому должны быть сконструированы классификаторы второго уровня. Легко видеть, что вся нужная им информация имеется в наличии на первом уровне. Наличие многоугольника констатируется при наличии нескольких отрезков, находящихся между собой в определенных отношениях. При переходе на второй уровень происходит дальнейшее сжатие информации. Отводя из полного числа 400 отрезков по одной трети на каждый вид многоугольников, получаем систему, способную зафиксировать 44 треугольника, 33 прямоугольника и 33 параллелограмма (одновременно). Ее информационная емкость 5830 бит, т. е. почти втрое меньше, чем емкость первого уровня. Зато перед неправильным треугольником или четырехугольником система встанет в тупик!