第249章 离谱的技术
步态识别技术难以实现不仅是因为建立模型复杂。
当很久没见到一个人之后,特别是孩子,由于变化较大,人眼就难以识别出对方了。
在机器视觉领域其实也是如此,如果识别特征点变化太大,就会影响识别精度,比如一个人,孩提时和长大后,面部特征变化会特别明显,让人脸识别去辨认,肯定难以辨识。
对于步态识别而言,这一样适用。
如果只是几年之内的成长变化,由于特征点变化幅度不大依旧可以进行有效识别,但如果十几年的时间,特征点已经发生非常明显的改变,那将没办法有效识别。
虽然事实上,这样的使用技术在实际应用中也基本不会出现,人类使用技术来进行生产生活的目的是提高工作效率、改善生活品质,根据效益最大化的原则,人类会自发的让工具发挥最大效能。在合适的时间合适的地点合适的场景使用最合适的工具,而且是工具中最有效的那个部分,利用其所长舍弃其所短。
所以,为了机器视觉工具能够发挥最大功用,人类会根据实际需要,动态的采集信息,不断更新最新数据,以便相应技术可以达到最好的效果,促进社会生产生活的发展,否则刻舟求剑也不会成为千古笑谈。
但是系统所提供的步态识别却可以基本上一次识别之后便能通过核心计算衍生出之后这个人一生其余阶段可能拥有的步态。
对于这项骚操作章杉简直不知道该用什么形容。
最变态的是系统提供的步态识别,还兼具姿态识别功能。
步态识别是主要基于人的走路姿态(提取的特征点还包括体型特征、肌肉力量特点、头型等上百个识别要素)进行身份识别的一种生物识别技术。步态识别与身份紧密关联,可以通过步态识别目标人物身份,可应用于刑侦破案、嫌疑人检索等场景。
姿态识别可以实现人体动作、手指运动等姿态的估计,对于描述人体姿态、预测人体行为至关重要。主要基于对人体关键节点的观察,比如骨骼、关节等。姿态识别无关身份,可通过研究人的姿态应用于跌倒检测、虚拟试衣、体感游戏等场景。
这些都对深度学习有很高的要求。
深度学习(英语:deep learning)是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。
深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
表征学习的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。表示方法来自神经科学,并松散地创建在类似神经系统中的信息处理和对通信模式的理解上,如神经编码,试图定义拉动神经元的反应之间的关系以及大脑中的神经元的电活动之间的关系。
至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和循环神经网络已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
另外,“深度学习”已成为时髦术语,或者说是人工神经网络的品牌重塑。
深度学习框架,尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机,而人工神经网络的历史更为久远。1989年,扬·勒丘恩(Yann LeCun)等人开始将1974年提出的标准反向传播算法应用于深度神经网络,这一网络被用于手写邮政编码识别。尽管算法可以成功执行,但计算代价非常巨大,神经网路的训练时间达到了3天,因而无法投入实际使用。
许多因素导致了这一缓慢的训练过程,其中一种是由于尔根·施密德胡伯的学生赛普·霍克赖特于1991年提出的梯度消失问题。
最早的进行一般自然杂乱图像中自然物体识别的深度学习网络是翁巨扬(Juyang Weng)等在1991和1992发表的生长网(Cresceptron)。
它也是第一个提出了后来很多实验广泛采用的一个方法:现在称为最大汇集(max-pooling)以用于处理大物体的变形等问题。
生长网不仅直接从杂乱自然场景中学习老师指定的一般物体,还用网络反向分析的方法把图像内被识别了的物体从背景图像中分割出来。
2007年前后,杰弗里·辛顿和鲁斯兰·萨拉赫丁诺夫(Ruslan Salakhutdinov)提出了一种在前馈神经网络中进行有效训练的算法。这一算法将网络中的每一层视为无监督的受限玻尔兹曼机,再使用有监督的反向传播算法进行调优。
在此之前的1992年,在更为普遍的情形下,施密德胡伯也曾在循环神经网络上提出一种类似的训练方法,并在实验中证明这一训练方法能够有效提高有监督学习的执行速度。
自深度学习出现以来,它已成为很多领域,尤其是在计算机视觉和语音识别中,成为各种领先系统的一部分。在通用的用于检验的数据集,例如语音识别中的TIMIT和图像识别中的ImageNet, Cifar10上的实验证明,深度学习能够提高识别的精度。与此同时,神经网络也受到了其他更加简单归类模型的挑战,支持向量机等模型在20世纪90年代到21世纪初成为过流行的机器学习算法。
硬件的进步也是深度学习重新获得关注的重要因素。高性能图形处理器的出现极大地提高了数值和矩阵运算的速度,使得机器学习算法的运行时间得到了显著的缩短。
由于脑科学方面的大量研究已表明人脑网络不是一个级联的结构,深度学习网络在2001年后正逐渐被更有潜力的基于脑模型的网络所替代。
深度学习的基础是机器学习中的分散表示(distributed representation)。分散表示假定观测值是由不同因子相互作用生成。在此基础上,深度学习进一步假定这一相互作用的过程可分为多个层次,代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象。
深度学习运用了这分层次抽象的思想,更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪心算法逐层构建而成,并从中选取有助于机器学习的更有效的特征。
不少深度学习算法都以无监督学习的形式出现,因而这些算法能被应用于其他算法无法企及的无标签数据,这一类数据比有标签数据更丰富,也更容易获得。这一点也为深度学习赢得了重要的优势。
一部分最成功的深度学习方法涉及到对人工神经网络的运用。人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔(David H. Hubel)和托斯坦·威泽尔(Torsten Wiesel)提出的理论启发。休伯尔和威泽尔发现,在大脑的初级视觉皮层中存在两种细胞:简单细胞和复杂细胞,这两种细胞承担不同层次的视觉感知功能。受此启发,许多神经网络模型也被设计为不同节点之间的分层模型。
福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。扬·勒丘恩将有监督的反向传播算法应用于这一架构。
事实上,从反向传播算法自20世纪70年代提出以来,不少研究者都曾试图将其应用于训练有监督的深度神经网络,但最初的尝试大都失败。赛普·霍克赖特在其博士论文中将失败的原因归结为梯度消失,这一现象同时在深度前馈神经网络和循环神经网络中出现,后者的训练过程类似深度网络。在分层训练的过程中,本应用于修正模型参数的误差随着层数的增加指数递减,这导致了模型训练的效率低下。
为了解决这一问题,研究者们提出了一些不同的方法。于尔根·施密德胡伯于1992年提出多层级网络,利用无监督学习训练深度神经网络的每一层,再使用反向传播算法进行调优。在这一模型中,神经网络中的每一层都代表观测变量的一种压缩表示,这一表示也被传递到下一层网络。
另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络(LSTM)。
2009年,在ICDAR 2009举办的连笔手写识别竞赛中,在没有任何先验知识的情况下,深度多维长短期记忆神经网络获取了其中三场比赛的胜利。
斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型,用以解决图像重建和人脸定位的问题。
其他方法同样采用了无监督预训练来构建神经网络,用以发现有效的特征,此后再采用有监督的反向传播以区分有标签数据。杰弗里·辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。当足够多的层数被学习完毕,这一深层结构成为一个生成模型,可以通过自上而下的采样重构整个数据集。辛顿声称这一模型在高维结构化数据上能够有效地提取特征。
吴恩达和杰夫·迪恩领导的谷歌大脑团队创建了一个仅通过YouTube视频学习高层概念(例如猫)的神经网络。
其他方法依赖了现代电子计算机的强大计算能力,尤其是GPU。2010年,在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中,丹·奇雷尚(Dan Ciresan)和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。这一方法在扬·勒丘恩等人给出的手写识别MNIST数据集上战胜了已有的其他方法。
截止2011年,前馈神经网络深度学习中最新的方法是交替使用卷积层(convolutional layers)和最大值池化层(max-pooling layers)并加入单纯的分类层作为顶端。训练过程也无需引入无监督的预训练。从2011年起,这一方法的GPU实现多次赢得了各类模式识别竞赛的胜利,包括IJCNN 2011交通标志识别竞赛和其他比赛。
这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法。
深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。深度神经网络通常都是前馈神经网络,但也有语言建模等方面的研究将其拓展到循环神经网络。卷积深度神经网络(Convolutional Neural Networks, CNN)在计算机视觉领域得到了成功的应用。此后,卷积神经网络也作为听觉模型被使用在自动语音识别领域,较以往的方法获得了更优的结果。
其他神经网络模型类似,如果仅仅是简单地训练,深度神经网络可能会存在很多问题。常见的两类问题是过拟合和过长的运算时间。
深度神经网络很容易产生过拟合现象,因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。对此,权重递减或者稀疏等方法可以利用在训练过程中以减小过拟合现象。
另一种较晚用于深度神经网络训练的正规化方法是丢弃法(“dropout“ regularization),即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模。
请记住本书首发域名:www.bqg99.cc。顶点小说网手机版更新最快网址:m.bqg99.cc
当很久没见到一个人之后,特别是孩子,由于变化较大,人眼就难以识别出对方了。
在机器视觉领域其实也是如此,如果识别特征点变化太大,就会影响识别精度,比如一个人,孩提时和长大后,面部特征变化会特别明显,让人脸识别去辨认,肯定难以辨识。
对于步态识别而言,这一样适用。
如果只是几年之内的成长变化,由于特征点变化幅度不大依旧可以进行有效识别,但如果十几年的时间,特征点已经发生非常明显的改变,那将没办法有效识别。
虽然事实上,这样的使用技术在实际应用中也基本不会出现,人类使用技术来进行生产生活的目的是提高工作效率、改善生活品质,根据效益最大化的原则,人类会自发的让工具发挥最大效能。在合适的时间合适的地点合适的场景使用最合适的工具,而且是工具中最有效的那个部分,利用其所长舍弃其所短。
所以,为了机器视觉工具能够发挥最大功用,人类会根据实际需要,动态的采集信息,不断更新最新数据,以便相应技术可以达到最好的效果,促进社会生产生活的发展,否则刻舟求剑也不会成为千古笑谈。
但是系统所提供的步态识别却可以基本上一次识别之后便能通过核心计算衍生出之后这个人一生其余阶段可能拥有的步态。
对于这项骚操作章杉简直不知道该用什么形容。
最变态的是系统提供的步态识别,还兼具姿态识别功能。
步态识别是主要基于人的走路姿态(提取的特征点还包括体型特征、肌肉力量特点、头型等上百个识别要素)进行身份识别的一种生物识别技术。步态识别与身份紧密关联,可以通过步态识别目标人物身份,可应用于刑侦破案、嫌疑人检索等场景。
姿态识别可以实现人体动作、手指运动等姿态的估计,对于描述人体姿态、预测人体行为至关重要。主要基于对人体关键节点的观察,比如骨骼、关节等。姿态识别无关身份,可通过研究人的姿态应用于跌倒检测、虚拟试衣、体感游戏等场景。
这些都对深度学习有很高的要求。
深度学习(英语:deep learning)是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。
深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
表征学习的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。表示方法来自神经科学,并松散地创建在类似神经系统中的信息处理和对通信模式的理解上,如神经编码,试图定义拉动神经元的反应之间的关系以及大脑中的神经元的电活动之间的关系。
至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和循环神经网络已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
另外,“深度学习”已成为时髦术语,或者说是人工神经网络的品牌重塑。
深度学习框架,尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机,而人工神经网络的历史更为久远。1989年,扬·勒丘恩(Yann LeCun)等人开始将1974年提出的标准反向传播算法应用于深度神经网络,这一网络被用于手写邮政编码识别。尽管算法可以成功执行,但计算代价非常巨大,神经网路的训练时间达到了3天,因而无法投入实际使用。
许多因素导致了这一缓慢的训练过程,其中一种是由于尔根·施密德胡伯的学生赛普·霍克赖特于1991年提出的梯度消失问题。
最早的进行一般自然杂乱图像中自然物体识别的深度学习网络是翁巨扬(Juyang Weng)等在1991和1992发表的生长网(Cresceptron)。
它也是第一个提出了后来很多实验广泛采用的一个方法:现在称为最大汇集(max-pooling)以用于处理大物体的变形等问题。
生长网不仅直接从杂乱自然场景中学习老师指定的一般物体,还用网络反向分析的方法把图像内被识别了的物体从背景图像中分割出来。
2007年前后,杰弗里·辛顿和鲁斯兰·萨拉赫丁诺夫(Ruslan Salakhutdinov)提出了一种在前馈神经网络中进行有效训练的算法。这一算法将网络中的每一层视为无监督的受限玻尔兹曼机,再使用有监督的反向传播算法进行调优。
在此之前的1992年,在更为普遍的情形下,施密德胡伯也曾在循环神经网络上提出一种类似的训练方法,并在实验中证明这一训练方法能够有效提高有监督学习的执行速度。
自深度学习出现以来,它已成为很多领域,尤其是在计算机视觉和语音识别中,成为各种领先系统的一部分。在通用的用于检验的数据集,例如语音识别中的TIMIT和图像识别中的ImageNet, Cifar10上的实验证明,深度学习能够提高识别的精度。与此同时,神经网络也受到了其他更加简单归类模型的挑战,支持向量机等模型在20世纪90年代到21世纪初成为过流行的机器学习算法。
硬件的进步也是深度学习重新获得关注的重要因素。高性能图形处理器的出现极大地提高了数值和矩阵运算的速度,使得机器学习算法的运行时间得到了显著的缩短。
由于脑科学方面的大量研究已表明人脑网络不是一个级联的结构,深度学习网络在2001年后正逐渐被更有潜力的基于脑模型的网络所替代。
深度学习的基础是机器学习中的分散表示(distributed representation)。分散表示假定观测值是由不同因子相互作用生成。在此基础上,深度学习进一步假定这一相互作用的过程可分为多个层次,代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象。
深度学习运用了这分层次抽象的思想,更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪心算法逐层构建而成,并从中选取有助于机器学习的更有效的特征。
不少深度学习算法都以无监督学习的形式出现,因而这些算法能被应用于其他算法无法企及的无标签数据,这一类数据比有标签数据更丰富,也更容易获得。这一点也为深度学习赢得了重要的优势。
一部分最成功的深度学习方法涉及到对人工神经网络的运用。人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔(David H. Hubel)和托斯坦·威泽尔(Torsten Wiesel)提出的理论启发。休伯尔和威泽尔发现,在大脑的初级视觉皮层中存在两种细胞:简单细胞和复杂细胞,这两种细胞承担不同层次的视觉感知功能。受此启发,许多神经网络模型也被设计为不同节点之间的分层模型。
福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。扬·勒丘恩将有监督的反向传播算法应用于这一架构。
事实上,从反向传播算法自20世纪70年代提出以来,不少研究者都曾试图将其应用于训练有监督的深度神经网络,但最初的尝试大都失败。赛普·霍克赖特在其博士论文中将失败的原因归结为梯度消失,这一现象同时在深度前馈神经网络和循环神经网络中出现,后者的训练过程类似深度网络。在分层训练的过程中,本应用于修正模型参数的误差随着层数的增加指数递减,这导致了模型训练的效率低下。
为了解决这一问题,研究者们提出了一些不同的方法。于尔根·施密德胡伯于1992年提出多层级网络,利用无监督学习训练深度神经网络的每一层,再使用反向传播算法进行调优。在这一模型中,神经网络中的每一层都代表观测变量的一种压缩表示,这一表示也被传递到下一层网络。
另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络(LSTM)。
2009年,在ICDAR 2009举办的连笔手写识别竞赛中,在没有任何先验知识的情况下,深度多维长短期记忆神经网络获取了其中三场比赛的胜利。
斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型,用以解决图像重建和人脸定位的问题。
其他方法同样采用了无监督预训练来构建神经网络,用以发现有效的特征,此后再采用有监督的反向传播以区分有标签数据。杰弗里·辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。当足够多的层数被学习完毕,这一深层结构成为一个生成模型,可以通过自上而下的采样重构整个数据集。辛顿声称这一模型在高维结构化数据上能够有效地提取特征。
吴恩达和杰夫·迪恩领导的谷歌大脑团队创建了一个仅通过YouTube视频学习高层概念(例如猫)的神经网络。
其他方法依赖了现代电子计算机的强大计算能力,尤其是GPU。2010年,在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中,丹·奇雷尚(Dan Ciresan)和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。这一方法在扬·勒丘恩等人给出的手写识别MNIST数据集上战胜了已有的其他方法。
截止2011年,前馈神经网络深度学习中最新的方法是交替使用卷积层(convolutional layers)和最大值池化层(max-pooling layers)并加入单纯的分类层作为顶端。训练过程也无需引入无监督的预训练。从2011年起,这一方法的GPU实现多次赢得了各类模式识别竞赛的胜利,包括IJCNN 2011交通标志识别竞赛和其他比赛。
这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法。
深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。深度神经网络通常都是前馈神经网络,但也有语言建模等方面的研究将其拓展到循环神经网络。卷积深度神经网络(Convolutional Neural Networks, CNN)在计算机视觉领域得到了成功的应用。此后,卷积神经网络也作为听觉模型被使用在自动语音识别领域,较以往的方法获得了更优的结果。
其他神经网络模型类似,如果仅仅是简单地训练,深度神经网络可能会存在很多问题。常见的两类问题是过拟合和过长的运算时间。
深度神经网络很容易产生过拟合现象,因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。对此,权重递减或者稀疏等方法可以利用在训练过程中以减小过拟合现象。
另一种较晚用于深度神经网络训练的正规化方法是丢弃法(“dropout“ regularization),即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模。
请记住本书首发域名:www.bqg99.cc。顶点小说网手机版更新最快网址:m.bqg99.cc