《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 业界动态 > 一种基于机器学习的自动对焦算法

一种基于机器学习的自动对焦算法

2016-05-26
作者:贾海彦,赵山山,张红民
来源:2016年微型机与应用第10期

  贾海彦,赵山山,张红民

  (重庆理工大学 电子信息与自动化学院,重庆 400054)

  摘要:针对现有面阵CCD相机自动对焦算法精度比较低、易出现局部峰值的问题,提出了一种基于机器学习的自动对焦算法。采用机器学习中的决策树算法求得两个决策树,用决策树来决定镜头移动的方向及下一步的状态,进而确定了一个包含有峰值的范围,然后再用爬山算法进行局部峰值搜索,从而确定焦点峰值位置。实验结果表明,该算法把自动对焦的精确度提高了3%,且出现局部峰值的情况也得到了改善。

  关键词:自动对焦;机器学习;决策树;爬山算法

0引言

  数字成像设备针对场景目标进行快速、准确的对焦是获取清晰图像的重要手段[1]。现有面阵CCD相机的自动对焦算法主要是对焦搜索算法,但传统的对焦搜索算法精度较低且容易出现局部峰值。因此,近年来有不少学者对此进行了研究,2015年,陈浩等人提出了基于相邻像素差与NRSS的自动对焦算法[2],但该算法精度相对较低;2014年,洪裕珍等人提出了一种基于改进的离焦模糊图像清晰度评价函数的自动对焦算法[3],但还是容易出现局部峰值;2013年,郭惠楠等人提出一种基于光流场估计的自动对焦算法[4],但精度还是不够。

  本文针对现有算法的局限性,设计了机器学习搜索算法。

1算法流程

  本文提出用机器学习中的决策树算法来确定镜头移动的方向及下一步的状态,再利用爬山算法进一步确定峰值。

  1.1算法描述

001.jpg

  如图1所示,镜头处在一个任意位置,所以算法要决定镜头在寻找峰值时,向近焦的方向移动还是向远焦的方向移动[5]。本文用决策树Tα来决定镜头移动的方向,决策树Tα需要三个焦点值来确定,焦点值是通过镜头以双精步向远焦移动过程中的三个连续的镜头位置测量的。

  镜头在决策树Tα确定的方向上开始粗略搜索一个峰值。在每一步中都会用一元组(i,fi)记录下来,其中i表示搜索中的步数,fi表示相应的焦点值。一元组(0,f0)表示镜头初始位置。记录的一元组用来计算第二个带有三个标签叶的决策树Tβ,这三个标签叶分别为“继续”“返回”“成功”,每一个标签代表一种状态。

  1.2算法详细流程

  在生成决策树的过程中首先需要采集训练数据,然后用训练数据来创建一系列的特征值,最后生成两个决策树[6]。

  (1)数据采集及特征值的提取

  在机器学习算法中,成功与否的第一个重要因素是基准图像的数据[7],在数据采集过程中,基准图像来自于32个不同的日常场景,包括风景、特写、室内、静物等。本文采用CCD相机对基准图像进行采集,对每一个场景都在167个不同的镜头位置分别采集图像,图像在该位置的焦点值用平方梯度算法来计算。

  第二个重要因素是数据特征值的提取,特征值必须能够区分每一组数据的不同分类[8]。两组特征值是通过手动采集的,第一组特征值用Tα表示,该组特征值用来确定决策树Tα(即判断镜头向近焦移动还是远焦移动) ,这组特征值是布尔量,主要包括三个焦点值与不同粒度级别之间的比较。第二组特征值用Tβ表示,用来确定决策树Tβ(即判断三个状态之间的转移),这组特征值是十进制数值,包括搜索的步数、最新两个焦点值的斜率和最新焦点值与迄今为止最大焦点值之间的比率。对于机器学习算法,描述特征的特征值比焦点值本身更容易处理。但构造特征值面临的一个问题是不同相机和镜头有不同的镜头位置数Tp,这会影响采集数据的特征值。例如,如果一个相机的镜头位置数很少,则它的每一步之间的焦点值增长得很快。另一个问题是焦点值的测量是任意的,而且会受到场景细节和照明情况的影响,因此,为了确保通用性,每当它们被用作计算特征值和焦点值时,镜头的位置数都被归为[0,1]。例如特征值F代表两个焦点值(x,fx)、(y,fy)之间的斜率,则该特征值为:

  7VO]ETIR4MH%%K)DZGJZ$4Q.png

  (2)生成决策树

  数据采集完以后就预示着机器学习的训练数据已经生成[910],每一个图像的数据都对应一组特征值和代表该数据的标签,然后分别生成决策树Tα和决策树Tβ。特征值是按照步骤一中的算法生成的,第一个决策树Tα的状态是按照一个简单的规则自动生成的:如果在焦点搜索过程中最大峰值是x,那么x左边的记做“近焦”,x右边的记做“远焦”。第二个决策树Tβ是这样生成的:如果搜索过程中经过两个或更多的峰值,则状态为“成功”;如果在该方向上经过四个粗步搜索仍然没有更多的峰,则状态为“返回”;除了以上两种状态,剩下的状态则是“继续”。

002.jpg

  图2决策树图2是生成的决策树Tα,图中R表示采集的两个相邻点之间的斜率;图3是生成的决策树Tβ,图中L表示该位置到迄今为止最大焦点值之间的距离,R1表示该位置到迄今为止最大焦点值之间的斜率,R2表示迄今为止最小值与最大值之间的斜率,R3表示当前最大斜率,R4表示下降的第一个半斜率。

003.jpg

  (3)爬山算法

  当搜索进入“成功”状态时,说明镜头到达的位置是目前为止焦点值最大的地方,也就是说镜头已经处于峰值或最接近峰值的位置。这时,局部搜索即将开始,这里用到简单的爬山算法[11],镜头根据该算法找到一个焦点值不再增加的位置,即峰值。

2实验结果

  表1是在不同场景下各算法的精确度以及出现局部峰值的频率,通过对比得知,本文算法的精度得到了相对的提高且出现局部峰值的概率也相对减小。因为本文只有当粗略搜索输出“成功”时才进行局部搜索,这时镜头已经非常靠近峰值了,所以此搜索不会受到局部极值的影响。 

004.jpg

3结论

  本文把机器学习中的决策树算法应用到自动对焦算法中,实验结果表明,该算法有效提高了精度并减少了出现局部峰值的概率,具有一定的实用价值。

  参考文献

  [1] 郭晓东,陈华旺,王晨晟,等.基于红外图像边缘特征的自动对焦技术[J].光学与光电技术,2013,11(2):7982.

  [2] 陈浩,陈建,叶轻舟,等.基于相邻像素差与NRSS的自动对焦算法[J].计算机工程,2015,41(9):261265.

  [3] 洪裕珍,任国强,孙健.离焦模糊图像清晰度评价函数的分析与改进[J].光学精密工程,2014,22(12):34013408.

  [4] 郭惠楠,曹剑中,周祚峰,等.采用光流估计的数字相机自动对焦算法[J].红外与激光工程,2013,42(12):34173422.

  [5] 马鹏川,杨波,唐舰.一种自动对焦算法的优化[J].光学仪器,2013,35(2):2631.


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。