模式识别研究的目的是利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合。机器辨别事物最基本的方法是计算,原则上是对计算机要分析的事物与标准模板的相似程度进行计算。因此首先要从度量中看出不同事物之间的差异,才能分辨当前要识别的事物。
1、模式的描述方法
在模式识别技术中,被观测的每个对象成为样品。对于每个样品来说,必须确定一些与识别有关的因素,作为研究的根据,每一个因素成为一个特征。模式就是样品所具有的特征的描述。模式的特征集又可用于同一个特征空间的特征向量表示。特征向量的每个元素称为特征,该向量也因此称为特征向量。
如果一个样品X有n个特征,则可以把X看做一个n维列向量,该向量X称为特征向量。模式识别问题就是根据X的n个特征来判别模式X属于w1,w2,…wM类中的哪一类。待识别的不同模式都在同一特征空间中考察,不同模式类由于性质上的不同,它们在各自特征取值范围内有所不同,因而会在特征空间的不同区域出现。
因此,模式识别系统的目标是在特征空间和解释空间之间找到一种映射关系。特征空间是由 从模式得到的对分类有用的度量、属性或基元 构成的空间,解释空间是由 M个所属类别的集合 构成。
2、模式识别系统
一个典型的模式识别系统如图所示,由数据获取、预处理、特征提取、分类决策及分类器设计五部分组成。一般分为上下两部分:上部分完成未知类别模式的分类;下半部分属于分类器设计的训练过程,利用样品进行训练,确定分类器的具体参数,完成分类器的设计。而分类决策在识别过程起作用,对待识别的样品进行分类决策。
1)特征提取和选择
对原始数据进行变换,得到最能反映分类本质的特征。将维数较高的测量空间(原始数据组成的空间)转变为维数较低的特征空间(分类识别赖以进行的空间)。
2)分类决策
在特征空间中用模式识别方法把被识别对象归为某一类别。
3)分类器设计
基本做法是在样品训练集基础上确定判别函数,改进判别函数和误差检验。
3、统计模式识别研究的主要问题
1)特征的选择与优化
对特征空间进行优化有两种基本方法。一种是特征选择,如果所选用的特征空间能使同类物体分布具有紧致性,可以为分类器设计提供良好的基础;反之,如果不同类别的样品在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。另一种是特征的组合优化,通过一种映射变换改造原特征空间,构造一个新的精简的特征空间。
2)分类判别
已知若干个样品的类别以及特征,例如,手写阿拉伯数字的判别是10个类的分类问题,机器首先要知道每个手写数字的形状特征,对同一个数字,不同的人有不同的写法,必须让机器知道它属于哪一类。因此对分类问题需要建立样品库。根据这些样品库建立判别分类函数,这一过程由机器来实现,成为学习过程,然后对一个未知的新对象分析它的特征,决定它属于哪一类。这是一种监督学习的方法。
3)聚类判别
移植若干对象和它们的特征,但不知道每个对象属于哪一类,而且事先并不知道究竟分成多少类,用某种相似性度量的方法,及”物以类聚,人以群分”,把特征相同的归为一类。这是一种非监督学习的方法。