CN102592123A - 用于在图像信号中捕获文档的交互式用户接口 - Google Patents
用于在图像信号中捕获文档的交互式用户接口 Download PDFInfo
- Publication number
- CN102592123A CN102592123A CN2011102941773A CN201110294177A CN102592123A CN 102592123 A CN102592123 A CN 102592123A CN 2011102941773 A CN2011102941773 A CN 2011102941773A CN 201110294177 A CN201110294177 A CN 201110294177A CN 102592123 A CN102592123 A CN 102592123A
- Authority
- CN
- China
- Prior art keywords
- frame
- document
- image
- resolution
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00681—Detecting the presence, position or size of a sheet or correcting its position before scanning
- H04N1/00684—Object of the detection
- H04N1/00718—Skew
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/987—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00408—Display of information to the user, e.g. menus
- H04N1/0044—Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00681—Detecting the presence, position or size of a sheet or correcting its position before scanning
- H04N1/00729—Detection means
- H04N1/00734—Optical detectors
- H04N1/00737—Optical detectors using the scanning elements as detectors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00681—Detecting the presence, position or size of a sheet or correcting its position before scanning
- H04N1/00742—Detection methods
- H04N1/00748—Detecting edges, e.g. of a stationary sheet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00681—Detecting the presence, position or size of a sheet or correcting its position before scanning
- H04N1/00763—Action taken as a result of detection
- H04N1/00774—Adjusting or controlling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00795—Reading arrangements
- H04N1/00798—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity
- H04N1/00824—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity for displaying or indicating, e.g. a condition or state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/04—Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
- H04N1/393—Enlarging or reducing
- H04N1/3935—Enlarging or reducing with modification of image resolution, i.e. determining the values of picture elements at new relative positions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0081—Image reader
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0096—Portable devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0098—User intervention not otherwise provided for, e.g. placing documents, responding to an alarm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/32—Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
- H04N2201/3201—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
- H04N2201/3225—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
- H04N2201/3254—Orientation, e.g. landscape or portrait; Location or order of the image data, e.g. in memory
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/32—Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
- H04N2201/3201—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
- H04N2201/3273—Display
Abstract
涉及用于在图像信号中捕获文档的交互式用户接口。公开用于交互式用户接口的设备、方法和软件,捕获具有特征表示的图像数据帧。在实施例中,设备包括成像子系统、一个或多个存储器元件、以及一个或多个处理器。该成像子系统能够提供代表入射在所述成像子系统上的光的图像数据。该一个或多个存储器元件包括至少一个存储器元件,可操作地能够存储图像数据的输入帧。一个或多个处理器被启用来执行各种步骤。一个步骤包括从第一存储器元件接收图像数据。另一个步骤包括尝试在图形数据中识别定义候选四边形形状的线性特征。另一个步骤包括提供用户可感知暗示,用于指导用户改变设备的定位,以增强在图像数据中识别定义候选四边形形状的线性特征的能力。
Description
相关申请的交叉引用
本国家阶段申请要求2011年1月28日提交的题目为“Interactive UserInterface For Capturing A Document In An Image Signal(用于在图像信号中捕获文档的交互式用户接口)”的美国专利申请No.13/016,655的优先权。本申请还要求2010年5月21日提交的题目为“System Operative For Capture Of A Frame OfImage Data Having Representation OfA Feature(可操作用于捕获具有特征表示的图像数据帧的系统)”的美国临时专利申请No.61/347,292的优先权。以上申请的每一个的全部内容在此并入以供参考。
技术领域
本公开通常涉及数字设备,并且特别涉及具有成像子系统的数字设备。
背景技术
具有成像子系统的数字设备,例如智能电话、数字相机和便携式数据扫描终端,可以被用于捕获具有一个或多个特征的表示的图像帧。
具有数目增加的像素的较高密度图像传感器阵列的可用性,在提供某种优点的同时,可能还面临挑战。在具有增加数目的像素的图像传感器阵列的情况下,利用这种终端捕获的图像数据的帧具有增加数目的像素值。虽然更大数目的像素值通常允许捕获具有较高分辨率的帧,但是较高分辨率能够导致增加的处理延迟。图像传感器阵列可用于单色的和彩色种类;相对于单色,彩色图像传感器阵列还提供了增加的数据。
以上讨论仅仅被提供用于通常的背景信息,并不意欲用作帮助确定所要求主题的范围。
发明内容
公开了用于交互式用户接口的设备、方法和软件,用于捕获具有特征表示的图像数据的帧。在示例性实施例中,设备包括成像子系统、一个或多个存储器元件、以及一个或多个处理器。成像子系统能够提供表示在所述成像子系统上入射的光的图像数据。一个或多个存储器元件包括操作时能够存储图像数据的输入帧的至少第一存储器元件。一个或多个处理器可以被使能用来执行各种步骤。一个步骤可以包括从第一存储器元件接收图像数据。另一个步骤可以包括试图识别在图像数据中定义候选四边形形式的线性特征。另一个步骤可以包括提供用于引导用户改变该设备的定位以增强用于识别在图像数据中定义候选四边形形式的线性特征的能力的用户可感知暗示。
提供本发明内容以简化的形式引入了概念的选择,并且这在以下具体实施方式中还进一步描述。本发明内容不是旨在识别所要求主题的关键特征或必要特征,也不是旨在用来帮助确定所要求主题的范围。所要求主题并不限于解决背景技术中提到的任意或全部缺点的实施方式。
附图说明
通过参考以下描述的附图,这里所描述的特征可以更好地被理解。附图无需按比例缩放,而是通常重点放在说明本发明的原则。在附图中,相同的附图标记被用来表示全部各种视图中的相似部件。
图1描述了根据示例性实施例的系统的简化的、混合的透视图和图解视图,该系统包括具有成像子系统的数字设备。
图2描述了根据示例性实施例的具有成像子系统的数字设备的示意性框图。
图3描述了根据示例性实施例的方法的流程图。
图4-8描述了根据各种示例性实施例的用于检测和捕获文档的处理图像帧的各个方面的简化视图。
图9描述了根据示例性实施例的具有从图像信号捕获的文档的图形再现的图形用户接口应用窗口。
图10描述了根据示例性实施例的关于处理图像帧的方面的图。
图11描述了根据示例性实施例的处理图像帧的方面的视图。
图12描述了根据各种示例性实施例的图形用户接口应用窗口。
图13-16描述了根据各种示例性实施例的图形用户接口应用图标。
图17和18描述了根据各种示例性实施例的图形用户接口应用窗口。
这些附图无需按比例缩放,而是通常重点放在说明各种实施例的原则。在附图中,相同的附图标记被用来表示全部各种视图中的相似部件。
具体实施方式
图1描述了根据示例性实施例的系统5000,用于在图像信号中捕获文档110,该系统包括移动设备1000,在此以透视图描述。图1和2提供了示例性的设备和系统,其可以被用来执行文档捕获方法,而图3描述了文档捕获方法200的示例性实施例。如图1和2所示的,在这个示例性实施例中,移动设备100可以包括具有成像视场1240的成像子系统400,该成像视场可以被投射的照明场1260包围,并且其可以引导到目标文档110上。在各种实施例中,移动设备1000和/或系统5000可以示例性地被使能以在图像信号中捕获文档110,如在后续附图和后面说明中进一步概述的。
在图1的示例性实施例中,移动设备1000被描述为手持型移动计算机,并且在各种实施例中,还可以采取智能电话、移动电话、图形输入板(tablet)或笔记本计算机、膝上型计算机、电子书阅读器、标记扫描终端或具有成像子系统的任意宽范围的其它类型的数字设备的形式。在图1的示例性实施例中,移动设备1000包括用户接口元件,包括布置在手持外壳1014上的触发器1220、显示器1222、指示机构(pointer mechanism)1224、以及键盘1226。键盘1225上的两个按键被指定为扫描键1227和输入键1228,尽管可以任意选择哪些键被用于这些功能,以及它们被布置在移动设备1000上的何处,并且可以与图1中的示例性描述不同。
系统5000可以操作时用来执行多个动作,其可以包括以下例子,它们可以表征一个示例性实施例:
1)预览帧可以被显示在移动设备1000的显示器1222上,示出成像子系统400或相机查看的内容,实时更新或尽可能接近实时地可实行。预览帧可以具有比图像传感器阵列1033的分辨率较低的分辨率。
2)预览帧可以被处理来定位文档。
3)如果文档已经被定位,它的轮廓可以在预览图像中用四边形边界表示,其颜色被用来向操作者给出信息——红色边界可以指示文档已经被识别但是所得到的图像不是最佳的,绿色边界可以指示文档已经被识别并且所得到的图像是最佳的。
4)作为文档识别过程的一部分,文档的距离可以被计算,并且这个距离可以被用来设置透镜组件250的焦点,该透镜组件包括成像透镜或者相机透镜240。例如,系统5000可以是可操作地以便透镜组件250的最佳焦点设置的平面响应于到目标的距离,如根据这里提出的距离检测方法所确定的。
5)同样,作为文档识别过程的一部分,分析输入预览帧速率。帧速率根据曝光时间变化,其依次根据环境光等级而变化。因此,如果帧速率降至(dropbelow)某个阈值之下,那么相机的照明子系统800(例如,LED灯)能够自动地被激发。
6)在非最佳图像的情况下,可以在预览图像中向操作者给出另外视觉信息,来帮助它们提高图像质量——这可以采用图形“暗示”的形式,或者关于例如如何移动移动设备1000的事情给出明确指令的引导指示来完成。
7)这些暗示可能示出例如直线箭头指示哪个方向来对移动设备1000进行移动,曲线箭头指示哪个方向旋转移动设备1000,放大透视图所画的箭头指示移动设备1000要更加接近或者更加远离文档来移动,另外加上其它图形图像指示文档部分地在阴影中,或者移动设备1000没有被足够拿稳之类的事情。
8)暗示的颜色将循环以便提高它们在亮或者黑暗背景中的可见性,并且它们还可以栩栩如生。
9)当帧已经被确定为最佳时,操作者可以通过按键或者通过某一其它动作向移动设备1000发信号通知静止的图像要被捕获和保存。
10)一旦该图像已经被捕获,可以核查针对锐度来检测该图像。系统5000在一个实施例中能够是可操作的,以便仅仅当它足够尖锐时,将向操作者提供可听见和/或可视的指示:被捕获的帧已经被保存。
11)该帧可以被适当地裁切/缩放/旋转,以便只保留文档本身的图像。该过程将创建分辨率足够填满移动计算机的显示屏的文档图像,并且该文档在图象中将是垂直的,而不必考虑其原始定向。
12)被处理的帧可以显示在移动设备1000的显示器1222上用于最后操作者核准。
13)一旦图像已经被显示,裁切/缩放/旋转过程可以重复“在背景中”,这次生成适于保存的较大图像。
14)一旦这个第二次变换过程完成,操作者可以给出他们对文档图像的核准,这可以通过按压键盘1226上的按键或者通过某种其它动作来给出。
15)系统5000是可操作以便如果被核准,则文档的图像接着将被保存在移动设备1000的存储器中,例如储存存储器1084,其可以是例如通过闪存或硬盘驱动存储器提供,且文档捕获过程可能接着就完成。系统5000是可操作的以便如果操作者指示该文档没有被保存,那么该文档捕获过程将立即再次开始。
在各种实施例中,可以采用各种不同的顺序执行任意或者全部这些动作。在本公开中,这些动作的示例性方面还在其它地方被进一步详细描述。
在各种示例性实施例中,系统5000可以是可操作的以便具有流式预览图像1111的预览窗口1101可以被显示在数字设备1000的显示器1222上,如图1所示。流式预览图像1111可以示出被相机或者成像子系统400成像的图像帧的降低分辨率的实时预览。预览图像1111可以在促进成功文档捕获中用作各种有用的目的。例如,示例性文档捕获处理实施方式可以允许用户查看流式文档图像110B,示出了文档110如何正被移动设备1000成像,以及示出目标文档110何时相对平滑、亮度适中,以及包括在成像子系统400的视场1240中。示例性文档捕获处理实施方式还可以提供了一种文档简档型下拉菜单1141,允许用户选择具有特定大小和纵横比的文档简档类型。
在各种实施例中,显示器1222可以合并触摸板用于导航以及虚拟致动器选择,在该情况下移动设备1000的用户接口可以由显示器1222提供。移动设备1000的用户接口元件还可以通过将移动设备1000配置为可操作通过解码编程条码符号而再编程来提供。在另一个实施例中,移动设备可以没有显示器,并且可以采取枪风格形式因素。在各种实施例中,移动设备1000可以自己构成在图像信号中捕获文档110的系统,以及在各种实施例中,结合一个或多个外部服务器2000、3000(框图中所示)的移动设备1000(该外部服务器可以通过网络2500连接)可以一起用作在图像信号中捕获文档110的系统。在此说明中,系统5000可以被描述为被使能或者配置用于各种特征、特性或功能;并且在各种实施例中,这可能涉及单独的移动设备1000,或者与被使能或者配置用于各种特征、特性或功能的系统5000的其它元件通信或者合作的移动设备。图1的各种元件将在下面进一步描述。
图2描述了根据与图1的示例性实施例一致的示例性实施例的具有成像子系统400的移动设备1000的示意性框图。移动设备1000包括成像子系统400、一个或多个存储器元件1085以及处理器。成像子系统400能够提供表示在其上入射的光的图像数据。一个或多个存储器元件1085包括至少第一存储器元件,示例性地例如RAM 1080,其可操作能够至少临时或者瞬时存储图像数据的输入帧,同时其它存储器元件可以被用在各种实施例中。处理器1060可以与可执行指令通信连接,用于使能处理器1060执行各种步骤。根据示例性方法200,那些步骤示例性地在图3中示出,并且在那些步骤中涉及的图像处理的某些方面在图4-6中示例性地示出。图2的其它参考元件没有被介绍,并且在图3-6被进一步描述之后,图2的各种元件将被进一步描述。
根据各种示例性实施例,在各种示例性方法中,系统5000可以利用可以包括多个阶段的示例性文档检测和定位过程在图像信号中捕获文档110,这些在这里简单介绍,并且在以下进一步详细描述。每一个不同的文档类型可以具有保存诸如其边缘长度、目标颜色平衡等等之类参数的简档,并且这些参数连同固定参数组可以被用于控制该过程。在示例性实施例中如下呈现不同的步骤。
首先,图像数据的帧可以经由抓帧器从DirectShow预览流获得,或者用作抓帧器的空渲染器,例如,以及再采样为较小尺寸,被称为缩略图。接着,输入循环,其使用不同的标准来检测边缘,并选择给出最佳结果的那一个。对于循环的每次反复,可以沿着垂直和水平轴搜索缩略图用于表示文档边缘的亮度和/或颜色的变化。在示例性实施例中,注册了高达两种变化用于每个水平和垂直通道。边缘部分可以建在连续变化之外,并且接着可能属于相同边缘的部分可以被分组在一起。当沿着每个轴注册了仅仅两种变化时,最多有四组,这应该对应于文档的四边缘。直线方程可以适于四边缘组,并且然后求解联立方程对,给出四个角点。这些点接着从2D转变为3D,给出三维空间中的原始文档的角点。该文档维度接着可以被核查。此后,该文档的位置在给定的时间段可以被平滑,来去除方案中的某些不稳定。该文档接着可以被核查过多的阴影,并且其位置和方向可以被用来确定可视性暗示,这些暗示可以被提供给操作者,显示怎样移动移动设备1000,来提高图像质量。最后,一旦操作者可以开始最后的文档捕获,将在显示之前为了锐度核查所得到的图像。根据这个示例性实施例,一旦它被显示,可以执行其它的处理将它转换为矩形,降低渐晕、校正任意颜色不平衡、并使其尖锐。
例如,根据示例性实施例,图3示出了一种操作移动设备1000的方法200,其用于识别图像信号中的文档。例如,处理器1060可以与可执行指令通信连接,该可执行指令使得处理器1060能够执行方法200的步骤。如图3的示例性实施例中所示,方法200包括步骤201,用于从第一存储器元件(示例性地例如RAM1080)接收输入帧。这之后是步骤203,用于基于输入帧生成降低分辨率的帧,该降低分辨率的帧包括比输入帧更少的像素,其中降低分辨率的帧中的像素组合了来自输入帧中的两个或多个像素的信息。步骤205包括试图识别转变对,其包括在降低分辨率的帧中的临近像素对,具有在超过像素转变阈值的像素之间的差值。如果这种转变对被识别,那么可以执行步骤207,用于试图识别在降低分辨率的帧中的两个或多个识别的转变对之间的一个或多个线性特征。如果这种线性特征被识别,接着步骤209,用于提供在降低分辨率的帧中的一个或多个识别的线性特征的指示。
这种线性特征可以表示数字设备1000读取的图像信号中的矩形文档110的图像的边缘,并且可以用来在图像信号中定位或者隔离矩形文档110的图像。该图像信号可以通过移动设备1000的成像子系统400生成,并且可以包括在成像子系统400的视场1240中的全部或部分目标文档110的图像。文档110的图像可以不是矩形,即使该目标文档110是矩形的,由于在移动设备1000和文档110之间的透视角度的效果,例如倾斜的,并且这里公开的各个步骤可以被用来补偿或者校正这种倾斜。在移动设备1000和方法200的各种示例性实施例中,用于检测和捕获文档的技术典型地可以能够以小于40ms每帧在实时320×240视频流图像信号中定位文档,如示例性实施例,尽管大于和小于这个值的其它时段可应用于不同的实施例。目标文档110可以包括文档、包、其它类型基底或任何具有在其上可说明特征的基本上矩形形式,例如写入或者容易受例如解码或编译影响的其它标记形式。
图4-8图形描述了根据与图3的示例性方法200一致的示例性实施例的用于检测或识别特征的过程的方面,例如可以表示文档边缘的像素转变对和线性特征,以便在移动设备1000成像的数据301的帧中识别和捕获文档110的图像。图4-8在以下进一步描述。
在各种实施例中,图像信号处理驱动器或者应用程序可以结合在移动设备1000中。图像信号处理驱动器可以把从图像传感器阵列1033加载图像数据帧的过程指引到缓冲存储器元件,例如RAM 1080以对于处理器1060可用。这是在步骤201中准备的,用于从第一存储器元件例如RAM 1080接收输入帧。在示例性实施例中,移动设备1000可以结合Redmond Washington的微软公司的DirectShow媒体管理软件的版本。在各种其它实施例中,移动设备1000可以结合另外视频驱动器或其它图像信号驱动器。
在示例性实施例中,步骤203可以涉及通过抓帧器或空渲染器从DirectShow预览流获得的图像数据帧,且再采样为较小尺寸,被称为缩略图。在这个示例性实施例中,缩略图是基于来自预览流的图像数据的输入帧的降低分辨率的帧,缩略图包括比输入帧更少的像素。在各种示例性实施例中,生成降低分辨率的帧还可以包括将输入帧分割为像素组,并且对于每个像素组,平均像素组中的像素的一个或多个属性,并生成具有像素组的平均属性的平均像素。缩略图中的每个像素可以因此从输入帧中的两个或多个像素组合信息。作为示例性实例,初始输入帧可以在四个像素组中划分为2×2排列,并且那些2×2像素组的每一个可以被平均或者另外根据亮度、颜色或者二者,被组合成为单独表示的像素来代替原始像素组。像素组的其它大小或者用于降低初始图像帧中的像素计数或数据数量的方法,例如组合九个像素组为3×3排列,或其它分组,也可以被用于不同的实施例。
文档捕获过程的各种实施例可以利用在输入帧中的基本上全部像素组,并应用用于在缩略图中生成基本上全部像素的方法而执行,其中该过程可能包括小错误和偏差,这可能影响实质上不会充分改变该过程的多个像素中的一个。例如,根据各种示例性实施例,小错误可能由有缺陷的成像阵列像素、辐射影响、小随机下载错误、或可能干扰相对少量像素的其它小影响而产生,而不是实质上影响被处理的输入帧中的每组像素的过程,以在降低分辨率的帧中生成每个像素,可以理解,“每个”的含义是“基本上每个”,而不是“绝对的每一个”。
在查找期间,移动设备1000可以在显示器1222上显示预览流帧。系统5000可以是可操作的以便当预览流帧正在被生成和显示时,系统5000可以缓冲较高分辨率帧(例如,1600×1200、1280×1024),从其中能够导出预览流帧。响应于例如通过启动键盘1225的扫描键1227被激活来保存帧或图像(例如,文档表示)的命令,相应于用于质量检测处理的较低分辨率的帧的缓冲的较高分辨率的帧可以被处理来保存。在一个实例中,较高分辨率的帧可以具有与图像传感器阵列1033的像素计数相等的像素计数(例如,1600×1200),或者相似的较高分辨率(例如,1280×1024)。瞬时地或者另外临时地缓冲图像数据帧的任意步骤可以被理解为包括存储图像数据帧。
此外,预览流可以已经是由移动设备1000成像的全分辨率成像数据的降低分辨率的版本,以便在这个示例性实施例中,成像驱动器生成第一降低分辨率的图像帧或帧系列,同时文档识别应用程序可以生成第二级帧,其具有与来自成像驱动器的第一轮降低分辨率的图像帧进一步降低的分辨率。在各种其它实施例中,各种其它过程可以在生成降低分辨率的帧或(多个帧)中涉及,其可能仅仅涉及来自全分辨率输入帧的分辨率降低的单个步骤,或者任意数量和方式的分辨率降低步骤。
例如,在一个示例性实施例中,移动设备1000可以具有将高分辨率单色成像器与相对较低分辨率彩色图像合并在同一个成像芯片上的成像器,例如640×480像素阵列视频图形阵列(VGA)彩色成像器,如示例性实例。在这个示例性实例中,彩色成像器可以被用于流动预览显示,同时例如高分辨率成像器可以被用于最后的文档捕获。
尽管缩略图具有降低的分辨率以及与较高分辨率帧相比降低数量的数据(其基于较高分辨帧),但是这使得能够降低处理器在执行识别和捕获文档图像中涉及的后续步骤时的处理负担和持续时间,例如识别像素转变对和线性特征的步骤。
作为示例性实例,在用于文档特征检测的图像处理之前,降低分辨率的预览流图像帧可以被进一步降低。例如,在示例性实施例中,640×480VGA彩色成像器的输入可以在分辨率上被降低至四分之一以生成原始预览图像,原始成像器信号中的每组2×2像素被平均或者另外组合来生成原始预览图像中的单个像素。这个原始预览图像可以示例性地是320×240R5G6B5,但是可以在2秒内降低分辨率,在检测过程开始之前,示例性地被重新采样并且转换为160×120R8G8B8。这样的处理可以提供各种优点,例如可以更快为边缘查找这个较小尺寸的3字节每像素图像。同样,这样的处理可以从文档中移除可能误认为边缘的某些精细的细节。各种其它示例性实施例可以仅仅包括分辨率降低的一个步骤,和/或可以使用降低分辨率的其它方法,来生成快速的边缘检测帧。
例如,在一个示例性实施例中,移动设备1000可以能够生成降低分辨率线性特征检测缩略图帧,并在这些降低分辨率线性特征检测缩略图帧上执行线性特征检测和文档捕获过程的全补充,例如,以大约每秒7到10帧的帧速率。高于以及低于这个的其它降低分辨率线性特征检测帧速率可以用于其它实施例中。
在基于图像数据的输入帧创建缩略图之后,线性特征识别步骤可以在循环中被执行。这在图3中示出,其中在一个或多个查找特征被识别之前,识别步骤205和207可以继续迭代循环。每个特征查找的数量和执行查找特征的循环数量在不同实施例中可以是不同的。在各种实施例中,可以使用不同标准检测边缘,并且可以选择给出最佳结果的那个标准。
例如,识别像素转变的步骤可以涉及针对在临近像素之间的亮度和/或颜色的变化(其能够表示文档边缘)在水平和垂直方向上沿着扫描线在循环中迭代地搜索缩略图。换句话说,沿着每个扫描线的像素的每个临近像素对可以被评估以评估这对中的两个像素是否足够不同,在绝对项或者相对于缩略图中的其它临近像素对,它们在表示文档边缘上具有某一可能性。
这在图4中示例性描述,其描述了相应于从图像传感器阵列1033的部分或全部像素帧获得的图像数据的帧的图像帧301。为了清楚,在图4中仅仅示出了一些示例性的水平扫描线311和垂直扫描线313。在示例性实施例中,不超过2个候选像素转变对可以被注册用于每个水平扫描线311和每个垂直扫描线313。图4还描绘了用于表示沿水平扫描线311的识别的水平像素转变对321的白圈,以及用于表示沿垂直扫描线313的识别的垂直像素转变对323的黑圈。
如上所述,虽然降低分辨率的帧可以被用于快速检测和识别特征,例如像素转变对和线性特征,在各个实施例中表示成像的文档,但是较高分辨率的帧,例如分辨率等于图像传感器阵列1033的分辨率,或者其它更高的分辨率的帧可以被处理用于检测指示的特征,在各种实施例中,其中处理能量足够用于对较高分辨率的快速特征检测。
图5-8描述了在识别的像素转变对上建立以识别线性特征(例如,边缘段、对准的边缘段组以及可能定义文档图像的角的边缘段组的交叉)并且然后识别和补偿透视倾斜以将3D空间中2D文档的图像映射为文档的标准2D图像的另外方面。如下提供这些方面的简要概述。表示文档以及可能被检测为检测和识别文档图像的过程的一部分的各种特征(例如,像素转变对、边缘段、对齐的边缘段组和边缘段组角交叉)可以共同被称为文档表示特征或者表示特征,例如,它们表示文档的潜在特征,例如文档的边缘。在各种示例性实施例中,表示文档的任意这些特征,以及被识别的文档片段、部分识别的文档、或者识别的文档,可以共同地被认为是在降低分辨率帧中的识别的线性特征。
如图5描述的,可能是边缘段的候选线性特征可以从连续的像素转变对中被识别,并且接着对齐的并且示出属于相同边缘的可能性的边缘段可以被分组在一起。在这个示例性实施例中,由于仅仅有两个像素转变对沿着每个扫描线或轴注册,因此最大有四个对齐的边缘段组,其应该对应于文档的四个边缘。如图6所示,直线等式可以适合于四边缘组,接着被求解为联立方程的对,给出四个角点。这些点接着可以从2D转换为3D,给出在3维空间中的原始文档的角点,这将参考图7-8在下面进一步描述。
例如,然后,文档维度通过将其在像素上的外观大小与成像器透镜组件250相关,在计算其物理大小后,可以被核查。此后,文档的位置可以在给定时段上被平滑,以移除解决方案中的某一不稳定性。可以针对过多的阴影核查该文档,并且它的位置和方向可以被用来确定用户暗示,示例性地以在提高定位上给出暗示的图形图标的形式,这可以向操作者给出以显示如何移动移动设备1000以增强图像质量。最后,一旦操作者启动最后文档捕获,可以在显示之前针对锐度核查所得到的图像。一旦它被显示,可以执行进一步的处理将所得到的图像转换为矩形,降低渐晕,校正任何颜色不平衡,并使其尖锐。在一个实施例中,可以允许操作者保存图像(例如,文档表示)。这些特征在下面进一步被描述。
在各种实施例中,指示特征检测过程可以使用用于检测文档指示特征的各种算法的一种或多种。如以上参考图4所示,一种示例性的算法实施例可以涉及沿水平线311和垂直线313通过缩略图扫描,并查找包括正好两个重要像素转变的那些。另一个示例性算法实施例可以涉及在每个方向查找第一重要像素转变,从四个边缘的每一个的中心开始,并朝着缩略图的中心运作。在各种示例性实施例中,超过像素转变阈值的像素转变对可以被认作是绝对项中重要的,例如如果在像素的三色值和其临近的三色值之间的绝对差值的和大于特定值。
例如,每个像素可以用R8G8B8格式编码24位的颜色数据,以便每个像素的每个红色、绿色和蓝色强度可以在0到255的范围内,并且阈值可以是三色成分的每一个的至少64差值,如示例性的实例,或者三色成分的每一个的至少128差值的组,如另一个示例性的实例。在其它示例性实施例中,每个颜色成分的其它强度阈值,或者低于或者高于或者在这个范围内,还可以被用于像素转变阈值。在另一个示例性实施例中,颜色成分强度可以被相乘,且临近像素的颜色成分的乘积之间的差值可以被评估用于重要的像素转变。在其它示例性实施例中,像素转变对可以被认为是相对项中重要的,例如通过沿每个轴或扫描线选择具有最大差值的两个像素转变对。在各种实施例中,可以使用结合绝对和相对标准的评估。在各种实施例中,这里描述的两种算法都可以使用某些不同的转变值来查看哪一个给出了最佳的最终结果。在查找指示特征的每次尝试后,指示性特征检测过程可以继续进行来查看还有多远。如果任一核查失败,那么将尝试下个转变值和/或边缘检测算法。该过程可以继续直到已经获得了全部满意的结果,或者当两个算法都已经使用全部可应用的转变值。
实际上,可以有即使有边缘也没有发现边缘的不同数量的扫描线,即使没有实际边缘也发现“边缘”的线,以及发现水平和垂直边缘的线。
由于光亮和其它条件沿着被成像的文档的每个边缘而变化,因此指示性特征检测过程在目标文档的某些部分比其它部分执行得更好。因此,发现边缘已经被分解为若干段不是罕见的事,每一个都包括连续的或者对齐的像素转变点。可以通过将具有它们的每个水平和垂直线的第一和第二像素转变对与来自先前扫描线(如果有)的像素转变对进行比较,建立边缘段的列表,来查看它们是否大致类似,并且在相同方向上移动。如果它们是,那么这些点可以被加入到当前边缘段,否则开始新的段。可以考虑给定的错误余量,例如允许每段中的单独离群值,例如,以便不分解包括单独错误识别值的边缘段。在这个过程的最后,可以丢弃小于特定最小数量点的段,保留应该包括四个边缘的每一个的四个段集合。
在示例性实施例中,可以使用最小平方方法,将直线等式适合四个集合的每一个中的每段。每个集合可以接着被单独核查,并且可以成对测试所述段,查看它们是否可能属于相同边缘。为此,可以使用它们的两个等式通过在合适的情况下在对应于缩略图的宽度或高度的范围上对在多个位置上的线之间的距离平方求和来获得两个线之差的度量。如果这种度量小于指定值,该段可以被合并。在这个过程的最后,具有小于指定最小数量点的合并段可以被丢弃,并且在每个集合(如果有)中的最大保留合并段被选择——当水平边缘正被查找时,这将消除例如对应于垂直边缘的段。最小平方方法可以再被使用将直线适于四个边缘。
图5示出了来自从图4描绘的扫描线产生的至少近似对齐边缘段431(每个边缘段示为粗线段)(其被分组在一起并且被扩展表示合并的段线433)的单个线的可能结果。边缘段431的每一个可以从垂直像素转变对323的临近或连续集合中被聚集,垂直像素转变对323可以跨越缩略图301从垂直扫描线313生成。边缘段435还可以从垂直扫描线313生成的垂直像素转变对323的连续集合中被聚集,但是在这个示例性实施例中,扫描线的一个特定方位生成的边缘段可以被用来填充边缘段组的一个方位,作为误差约束技术。至少大体对齐的边缘段431可以被合并,同时没有对齐的边缘段435可以被丢弃,因为它没有与其它的垂直扫描生成的段对齐,并且与合并段431相比,它在垂直扫描中检测的像素转变对的数量方面是数据缺乏的(由于它更接近垂直,并且比垂直扫描线具有更多的平行组件,以及较低的垂直扫描分辨率,同时合并段431更接近水平,且每个具有比垂直扫描线更多的垂直组件,以及较高的垂直扫描分辨率)。相似的,可以进行水平扫描以仅仅检测更接近于垂直的,并且读取比垂直更高的水平扫描的分辨率的段组,并且相似的,被检测为大大强于与直角段对齐。
单独的段可能包括不准确性,但是合并段倾向于产生更多准确的组合结果,如图5的合并段线433示例性示出的。在其它示例性实施例中,来自垂直和水平扫描的信息可以被用来检测和特征化形成目标文档的四个边缘的任意部分的任意边缘段。
用于检测、特征化和合并像素转变对和/或边缘段的充分处理可以产生四个合并段线433、437、443、447,并且边缘方程可以被确定来特征化四个合并段线的每一个。在各种实施例中,在已经获得四边缘方程后,边缘方程可以接着成对检查,以核查它们相对角度至少是接近的,例如在90°的预期余量内。在各种实施例中,这种核查可以是近似的,且角度可以在稍后更加精确地被重新计算。这个目的是为了确保边缘建立过程导致能够表示2D矩形形式的边缘的图像部分,如3D空间中成像的。如图6所示,如果核查成功,则方程可以成对求解为联立方程,给出交叉合并段线433、437、443和447的四对的每一个的四个交叉定义的四个角点451、453、455和457。
这些角的解的有效性可以接着被测试高度精确性。角从应该是二维文档的二维图像导出,但是文档存在于三维空间(简称三空间),并且已经沿着x、y或者z轴旋转。沿着z轴的某个旋转量并不是个问题,因为它没有影响整个的形状几何,它仅仅降低最大可能文档图像大小。然而,任何x和/或y轴旋转将朝向目标文档的相机视线改变为倾斜的透视图,并且将相机的矩形视图改变为具有潜在四个不同侧边长度和角的角度的非矩形四边形。在各种示例性实施例中,可以更加严格地进行2空间角的角度核查,或在这个点上计算侧边的纵横比,但是这样做限制了能够容许的倾斜的量,并且还可能允许通过无效的角的解。
图7和8描述了成像这样一种倾斜的透视四边形和解释来自它的矩形文档的表示的方面。图7描述了在图像帧601中成像文档的这种倾斜的透视视图四边形611的示例性实例,其中四边形611通过四个边缘631、633、635和637以及通过上述的特征检测过程识别的四个角点651、653、655和657定义。四边形611可以代表矩形,其是下部看的并且稍微向中心的左倾,但是它还可能是它可以代表不同矩形的无效角的解,如图8中无效的解线边界711所示。如果非常严格的有效被应用于2空间角度和边长,则解释倾斜图像的范围将被太严格限制,并且四边形611将被拒绝,由于它与矩形太不相同。
识别矩形文档的处理因此可以允许明显的背离90度的候选四边形的四个角的每一个的角度的误差,和/或明显的背离相等的四边形的每对对边的长度,尽管在它们角度上距离90度的超额偏差,或者在所述对对边的长度上还是使得候选四边形不合格。实际上,无需不合格而允许多么明显的这些偏差在各个实施例中可能是不同的,并且例如在一个实施例中是可调节的。
在示例性实施例中,为了确定二维空间角是否代表了三维空间中所需大小和形状的扁平矩形,角坐标可以在进行任意其它确认之前从二维空间转换为三维空间。在通常的情况下,问题是处于约束中的,并且可能有无穷多的解答,包括在任意平面和相机顶点定义的无穷四边锥之间的全部可能的交叉,这些四个边缘的每一个通过顶点以及四个识别的角点651、653、655和657的每一个。在一个示例性实施例中,这种转变可以利用非线性编程技术实现,利用各种假设来执行。在这个例子中,可以使用以下三种假设:
1、三维空间坐标真的代表矩形,因此每个三维空间的角的角度为90°。
2、矩形的中心是在固定位置。这意味着除了四个自由变量(每个角的z坐标),还可以需要少量值,例如仅仅需要三个或者仅仅需要两个,并且例如可以计算保留的一个或两个。与第一假定一起,这避免了无穷多的解答,并且还防止了为零的所有z坐标的退化解。
3、角的z坐标是类似的——换句话说,矩形相对于相机不是非常倾斜。在这个示例性实施例中,这种假定提供一组合理的开始值给非线性解决者,以便更快找到解答。矩形到相机的距离可以根据外形尺寸来估计,且可以用作每个角的初始z坐标。
在这个示例性实施例中,利用首次假定,可以构建方程,其变量是三个自由角的三维空间z坐标,其结果代表了四个角的角度距离90°还有多远,并且利用其它两种假定,这个方程可以利用非线性编程而求解(从减少角度误差的意义上说)。作为这个示例性实施例的方程的例子可以按照如下构建,利用传统的代数符号,单独一个罗马字母表示的三维空间中的点,单独一个粗斜体字母表示的二维空间的点,示出线的终点的字母对的线,以及具有音调号(^)的单独一个字母的角度。
首先,在这个示例性实施例中,基于每个点的假定的z坐标,利用简单的透视变换,角的二维空间x和y坐标被转变为三维空间:
Ax=sAxAz Ay=sAyAz
Bx=sBxBz By=sByBz
Cx=sCxCz Cy=sCyCz
Dx=sDxDz Dy=sDyDz
其中s是将二维四边形的大小与相机的角度视场相比得到的缩放因数。在仅仅具有三个自由变量的情况下,点B、C和D的z坐标可以在求解处理期间自由变化,但是点A的z坐标是由以上第二假定限制的,并且总是等于4Rz-Bz-Cz-Dz,其中Rz是矩形中间到相机的估计距离。接着每个边和每个对角的长度的平方可以被如下计算:
SAB=(Ax-Bx)2+(Ay-By)2+(Az-Bz)2
SBC=(Bx-Cx)2+(By-Cy)2+(Bz-Cz)2
SCD=(Cx-Dx)2+(Cy-Dy)2+(Cz-Dz)2
SDA=(Dx-Ax)2+(Dy-Ay)2+(Dz-Az)2
SAC=(Ax-Cx)2+(Ay-Cy)2+(Az-Cz)2
SBD=(Bx-Dx)2+(By-Dy)2+(Bz-Dz)2
现在,随着4个角的角度更接近90°而降低的误差值可以被导出:
Aε=SDA+SAB-SBD
Bε=SAB+SBC-SAC
Cε=SBC+SCD-SBD
Dε=SCD+SDA-SAC
如果任何角是90°,那么通过Pythagoras定理,相应的误差值会是零。然而,如果角度不是90°,那么余弦规则指出该误差值,例如,对于角A,将等于:
随着趋于90°,其将趋于零。由于DA和AB趋于零,该误差值也将趋于零,随着它们的相应的z坐标趋于零,其将依次趋于零。然而,因为应用到角的限制,例如因为在当前例子中定义Az的方式,它不会和其他z坐标一样同时为零,在这个例子中。这防止了退化解AZ=BZ=CZ=DZ=0。
最后,四个误差值可以组合为单独一个值,解决者能够寻求最小化。需要一种方法,其将防止抵偿负误差的正误差,因此单独误差的平方可以求和:
在这个示例性实施例中,尽管会稍微快速地将误差的绝对值求和,而不是它们的平方,但这么做会给方程曲面引入中断,这可能降低求解的精确度。
用于以上示例性实施例的求解方法是迭代的,其通过以小德耳塔值重复改变三个自由变量和查看这些变化是否提高结果,来寻求最小化上述方程的结果。对于每次迭代,它可以计算总的误差,在一个实施例中,高达27次——这是因为它将使用每个自由变量本身,利用增加的德耳塔,以及减少的德耳塔(它可能进行小于27次计算,因为它将不重复在前次迭代中已经进行的计算)。如果给定的变化集合没有提高结果,系统5000可以确定当前结果必须是接近本地最小值,并且因此减少下次迭代的德耳塔。当德耳塔达到指定的最小值,或者达到最小德耳塔值之前,迭代的数目达到了指定的限制,该求解处理可以终止。在这个示意性实例中,这通常发生得很快,因为方程表面是连续的和相对平滑的。
在这个示例性实施例中,原始角求解的有效性接着能够通过在三维空间角上的两次简单核查被确定。首先,三维空间角度可以被核查为足够接近90°,接着矩形边的纵横比可以被核查为足够接近预期值。这些测试能够比二维空间四边形上相应的核查更加严格,例如,在示例性实施方式中,三维空间角度可以被核查在90°±0.25°范围中,纵横比在预期值的2%以内。在这个示例性实施例中,测试可以进行得甚至更加严格,没有相对接近优选平面的文档可能被拒绝。在这个例子中,如果满足两种测试,则处理可以继续。
边缘检测处理的各种实施例因此可以包括测量识别的线性特征之间的角度,评估所测量的角度是否在大约90度的受限的斜角之内,如果是,识别线性特征的交叉点为被识别的角点。在各种示意性实施例中,倾斜值可以被认为等于角度误差或者角度中的误差值,表示2D 90度角度的3D成像的倾斜效果。
结果的平滑:在这个示例性实施例中由文档检测处理返回的结果值是原始图像中的2D角位置、3D文档距离、相机轴的偏移和旋转角度、纵横比与预期值的差值、以及阴影量。在这个示例性实施例中,因为在单个边缘求解中的小变化会对最终的三维空间求解产生巨大的差值,因此这些结果可以通过计算移动均值在指定时期平滑。在这个示意性实施例中,如果该值突然以高于指定量发生改变,那么新的结果可以临时忽略,并且返回原先那个,除非所有四个角都已经变化,在这个情况下,移动均值可以被重置,因为它可能假设相机(或文档)快速移动到新位置。
图像阴影检测:还可以执行图像质量的其它检查,例如图像阴影检查和相机移动检查。文档上的阴影可以严重影响它的可读性,所以图像还可以针对额外的阴影被检查。在这个示例性实施例中,例如可以通过将组中的缩略图像素颜色求和,将值的合成列表以升序从最黑组到最亮组排序,形成近似表示原始图像亮度值的柱状图,以及在柱状图中检查百分比值-这可以支持在阴影和文档内在的对比特征之间的可靠分析-来执行例如阴影检测。
例如,在示例性实施例中,通过将10×10组中的缩略图像素颜色值求和,可以执行阴影检测。值的合成列表然后可以升序排序,以便首先是最黑的组,最后是最亮的组,形成近似表示原始图像亮度值的柱状图。然后可以检查第10和第90百分比值。在这个示意性实施例中,这是因为具有阴影的图像通常在最低值和最高值之间表示与没有阴影的图像相比明显更大的差值,但是两端的尽头可能需要被忽略。图10用图801示出了这个点,其示出了从阴影和没有阴影的相同的示例性目标文档获得的值。在图801,线811代表大约第10个百分点,线813代表大约第90个百分点,并且标记点示出阴影图像的值的较高比率。在这个示例性实施例中,阴影百分比可以计算为:
100-(第10个百分值×100)/(第90个百分值)
这个值可以接着被检查小于文档配置文件中的最大值。这个最大值需要根据文档类型设置,因为具有大面积不同颜色和/或阴影的文档将显露出这种方法,在相同的光照条件下,具有比更统一的文档更大的阴影百分比。在这个示例性实施例中,如果阴影检查失败了,可以在设备屏幕上显示图形操作者暗示图标,来通知操作者。
相机移动检查:还可以进行图像质量的其它检查,例如相机移动检查。在示例性实施例中,可以执行这种检查,当已知移动设备1000在移动时,防止用户试图捕获静止图像。在示例性实施例中,可以执行相机移动检查,当已知移动设备1000在移动时,防止用户试图捕获静止图像。在示例性实施例中,移动检查可以例如比较来自当前预览图像和前一预览图像的像素块的组,并且对像素组的全部红、绿或蓝值中的任一种进行变化已经改变得超过指定量作为相机的过度移动的指示。可以采取各种步骤来防止这些因素,例如阴影,或者妨碍文档图像捕获的相机移动,包括自动步骤和/或操作者暗示。移动检查可以例如比较来自当前预览图像和前一预览图像的4×4像素的64组。如果像素组的全部红色、绿色或蓝色值的任一种已经变化地超过指定量,那么可以在显示器1222上示出图标。
在各种示例性实施例中,系统5000可以操作以便具有流预览图像的预览窗口可以在数字设备的显示器上示出,如图1、17和18所示。系统5000可以操作以便移动设备1000可以在显示器1222上显示流预览图像1111,其中流预览图像1111示出了相机正在查看的低分辨率的实时预览。预览图像1111可以为在提高成功文档捕获中的各种有用的目的服务。例如,示例性文档捕获处理的执行可以识别多个不同标准和/或非标准文档简档类型,具有相关的文档纵横比和大小。预览窗口1101可以示出特定文档配置文件类型的表示。
例如,示例性文档捕获处理的执行可以预先选择文档简档类型。在另一个示例性实施方式中,文档简档类型可以在屏幕顶部显示,如果不是要求的那一个,那么文档简档类型下拉菜单1141可以被打开,可以选择在菜单上列出的若干可用简档中的一个,如图11所示。列出的菜单选项可以组合文档简档类型和定向,例如A5风景,A4风景,A5人像,A4人像等,如图11所示。不同的简档可以被存储用于各种标准的文档类型,每一个可以具有例如纵横比、边缘长度、目标颜色平衡等相关参数的简档。例如这些的标准参数可以结合一组固定参数一起使用来控制处理。
例如,系统5000还可以是可操作的以便该简档可以经由键盘1226、通过按压键盘1226的输入键1228打开文档简档类型下拉菜单1141、利用下箭头和/或上箭头来高亮显示所需简档、以及接着再次按压输入键1228来选择它来进行选择。在这个示例性实施例中,新的简档或者具有定向的简档的组合还可以很简单的被加入或者是现有的被修改的简档。图像简档上的额外信息可以在以下配置文件小节中提供。
操作者暗示:利用选择的正确简档,操作者可以将移动设备1000的成像系统400或者相机定位到文档110。在这点,在这个示例性实施例中,如果候选文档方案已经通过了全部测试,那么可以表示它可能代表有效文档。然而,在示例性实施例中,系统5000可以是可操作的以便在允许静止图像捕获和保存(例如捕获和保存文件表示)之前可以进行最后的一组检查。在这个示例性实施例中,这些检查保证了文档满足质量成像的某个标准,例如文档没有扩展超出如透镜组件250组合图像传感阵列1033所定义的终端或相机的视场、文档采取了视场的某个最小量、以及文档没有倾斜使得在图像转化处理期间有场深问题或者图像降级。参考图12-17中的一个或多个描述和讨论操作者暗示的各个方面。
系统5000可以是可操作的以便预览窗口可以提供操作者暗示或者指导指示,其可以采用图形操作者暗示图标和/或其它用户感知指示、图形或其它的形式,以在定位移动设备1000和/或文档110从而提高捕获文档110的高分辨率图像的成像质量中向用户提供操作引导。各种不同的操作者暗示图标可以用来指导用户采用多个类型的动作来改善文档捕获的成像质量。在各种实施例中,操作者暗示可以采取任何用户可感知形式,示例性包括声音或音频输出、触觉输出或任意类型的图形或其它视觉输出,并且可以包括输出的任意组合。
在示例性实施例中,系统5000可以是可操作的以便预览窗口可以示出在文档110处指出的具有成像子系统400的三个中的一个:没有边界的文档(即,其表示)、具有红色边界的文档,或者具有绿色边界的文档,来指示不同状态。在这个示例性实施方式中,系统5000可以是可操作的以便如果整个文档是可见的且没有边界的,程序不能检测文档的存在。例如,这可能是因为文档距离太远了,光照条件差(例如,文档部分地在强太阳光下),背景正“转移”识别处理或者部分文档延伸在相机的视场以外。
在这个示例性实施例中,系统5000可以是可操作的以便如果这些检查中的任何一个失败了,可以在显示器1222上渲染操作者暗示图标,示出操作者如何移动终端来解决成像质量标准失败。图12示出了在应用窗口1101中预览图像1111中渲染的操作者暗示图标1121的示例性的例子,作为操作者暗示图标的示例性例子。质量成像标准的失败可以在特定时段上聚集,以便操作者不以快速变化的指令来呈现。
例如,利用操作者暗示图标,用户可以例如被提示来确保文档上的光照是合理均匀的,以试着更接近文档进行移动,或者将文档放置在更加统一的背景中。系统5000可以是可操作的以便一旦文档被检测,它将示出重叠边界。例如,红色边界表示文档已经被检测了,但是将生成的图像可能由于某些原因中的一个而不是最佳的。在这种情况下,操作者暗示图标可以在屏幕上显示为关于如何改进图像的一种视觉指令,例如,左边下方的屏幕截图告诉操作者移动终端更接近于文档。系统5000可以是可操作的以便如果服从指令,那么边界可以变为绿色,表示扫描键1228可以被按压来捕获文档。在这个示例性实施例中,文档没有必须针对边界对整或居中变为绿色,因为最后捕获的图像将自动按需裁剪/缩放/旋转。这在图17中示出。
系统5000可以是可操作的以便呈现红色边界时显示的图标颜色将循环,从而对于明亮和黑暗的背景都是可视的,并且它还可能是动画的。它可能包括图13-16中示出的任意图标,其中每个图标作为用户暗示图标。图13示出了直线指示符图标,向用户提示在八个所示方向的任意一个方向平移移动移动设备1000。如图13所示,这些直线指示符可以从具有八个不同方位的任意一个的箭头选择,包括:向上、斜向左上、向左、斜向左下、向下、斜向右下、向右和斜向右上。这些仅仅是示例性的例子,暗示图标可以提供任意方向上的点,并且精确地在移动设备1000应该被移动的方向上的点。暗示图标的图形格式还可以采取任意各种形式;另一个示例性的例子是在所需方向上移动的移动设备1000的动画图像。图14示出了用户暗示图标,向用户提示在所指示的方向上旋转移动设备1000。图14的图标构成了显示在监视器上的曲线指示符,表示旋转设备的方向。图15示出了用户暗示图标,提示用户更接近目标文档或者远离目标文档来移动移动设备1000。图15的图标作为监视器上显示的距离指示符,指示更接近目标或者更远离目标重新定位设备的方向。图16示出了用户暗示图标1601,指示文档部分在阴影中,并且应该被移动到光照更加均匀的地方。图标1601作为在监视器上显示的部分阴影指示符,指示明显的部分阴影模糊了候选四边形形状。图16还示出了用户暗示图标1602,指示文档的图像因为相机移动是不清楚的。图标1602作为监视器上显示的额外移动指示符,表示成像系统和/或候选四边形形式的至少一个正在显示出额外的移动,干扰了识别定义候选四边形形式的线性特征的能力。系统5000可以是可操作的以便用户暗示图标1602仅仅在扫描键1227已经被按压来捕获文档图像之后使用,并且指示该图像没有足够尖锐,因此终端应该被拿得更稳一些,并尝试再次捕获。
作为示例性例子,如果文档非常接近视场的左手边,左顶角超出了视图,那么可以示出曲线指示符用户暗示图标1401,如图14所示,告诉操作者去顺时针旋转设备。然而,在这个示例性实施例中,如果在这之后不久,左底角超出了视图,那么替代告知操作者逆时针旋转示出的设备的用户暗示图标,可替代示出直线指示符用户暗示图标1307,图标1307如图13中一样告知他们将该设备移到左边。
在一个示例性实施例中,系统5000不需要可操作的来显示扫描按钮1227,并且相反可以是可操作的以便文档的较高质量较高分辨率静止图像响应于确定对应于较高分辨率帧(通常被缓存)的较低分辨率帧是可接受的质量而被保存,无需同样响应于激活扫描按钮1227的处理。在系统5000是可操作的以便用于确定帧质量被处理的相应于较低分辨率帧的较高分辨率帧已经被缓冲,被缓冲的较高分辨率帧可以被保存,或者可以被处理用来保存响应于激活按钮1227的图像,指示移动设备1000应该被拿得更稳一些的图标可以不被显示(当前手移动不会影响之前捕获的帧的移动)。系统5000可以是可操作的以便有出现在这个屏幕上的两个其它图标——当闪光灯打开时,小的“光球”图标可以被显示在靠近屏幕的左下方,并且当正在写入诊断时,正如以下在配置文件部分中进一步描述的,在这个示例性实施例中,小的“扳手”图标可以被显示靠近屏幕的右下方。
在这个示例性实施例中,系统5000可以是可操作的以便一旦全部成像质量标准都满足了,操作者可以被提示来捕获并保存静止图像(例如,文档表示,该表示可以包括在图像数据的帧中)。在一个实施例中,系统5000可以是可操作的以便当成像质量检查被满足时,移动设备1000可以自动成像并保存文档110的高分辨率拷贝,或者提示用户输入来成像并保存文档110的高分辨率拷贝,例如通过激活在移动设备1000上的扫描按钮1227,如图17所示。
系统5000可以是可操作的以便当扫描按钮1227被激活时,扫描按钮1227的激活导致在按钮激活之后捕获的帧或图像被保存或者被处理为保存。在各种示例性实施例中,被捕获并且经受处理为保存的图像数据的帧可以具有比针对质量检测经受处理的帧更高的分辨率(例如,可以具有例如1600×1200或者1280×1024的分辨率)。系统5000还可以是可操作的以便当扫描按钮1227被激励时,如这里所述的,相应于针对质量检测经受处理的较低分辨率帧的缓冲过的较高分辨率帧,被保存或者被处理为保存特征图像,例如文档。在各种示例性实施例中,被缓冲的较高分辨率的帧可以具有与图像传感器阵列的分辨率相等的分辨率或者另一相对较高的分辨率,例如1600×1200或者1280×1024。在各种示例性实施例中,帧或图像的保存,例如文档表示,可以包括将帧写入到长期存储存储器,例如存储器1084,它可以是例如闪存或者硬盘驱动器。
系统5000还可以是可操作的以便帧或图像的保存(例如,文档表示),无需响应于通过确定可接受的质量完成所述质量检查激励扫描按钮1227,并且还无需响应于激励扫描按钮1227而发生。在各种示例性实施例中,用于保存而处理的图像数据可以是在完成质量检查后或者在质量检查完成之前捕获的帧的图像数据(如相应于用于质量检查而处理的帧的缓冲过的帧被处理用于保存一样)。
预保存处理:在各种示例性实施例中,这是在文档图像可以被保存之前进行的最后处理,并且在各种示例性实施例中,可以包括一个或两个阶段。在示例性实施例中,第一阶段可以包括同时执行的三个或四个独立功能。首先,这个处理阶段可以包括从被捕获图片中提取文档图像,并利用2×2双线性内插对它进行变换,使其成为矩形的和垂直的。第二,该处理阶段可以包括降低通过相机透镜和光照子系统800产生的渐晕。第三,这个处理阶段可以包括利用在前面步骤中收集的信息,校正图像亮度和颜色平衡,以便其符合图像简档中保存的目标值。第四,如果要求灰度级图像,每个像素颜色值可以被设置为单独颜色值的均值。在这个示例性实施例中,第二处理阶段可以由文档简档中的标记控制,并且利用卷积滤波可选地使图像锐化。
在这个示例性实施例中,颜色平衡校正可以通过从RGB到HSV或者其它某些类似的颜色空间并且再次转换回来的颜色空间转换来执行。然而,这种处理可能比某些应用或者情况下花费更多时间,因此在其它示例性实施例中可以采用低计算密度(但是因此可能准确性低)的方法。两种简单方法中任一种可以用于不同的示例性实施例中,其中一个涉及将平均源值和目标值之间的差值增加到每一个像素,另一个涉及将每个像素除以平均源值,并将它乘以目标值。当差值很大时,第一种方法工作得更好,但是可能不能很好地保存图像对比度。第二种方法可以更好得保存图像对比度,但是当差值很小时才可以工作得很好。各种示例性实施例可以使用两种方法的结果的平均值,以与每个颜色的值中的差值的大小成比例地加权,其可以在各种示例性实施例中在校正颜色温度差值时工作得相当好。
图像锐度检查:在示例性实施例中,当在显示静止图像的屏幕大小版本之前静止图像已经被选择用于捕获时,可以针对锐度检查它。仅仅通过查看预览屏幕大小版本来查看图像有多么尖锐是很困难的,并且这个图像锐度检查可以对此补偿。锐度检查可以示例性采样像素的邻近对的随机集合,并返回表示为像素颜色值的平均总和的百分比的像素颜色值中的绝对差值的平均值。这样工作是因为模糊的图像在亮度上从一个像素到下一个像素与尖锐图像相比具有更小的变化。
如图18所示,在这个示例性实施例中,锐度检查可以单独进行,例如,图像的五个不同部分——每个象限加上中间部分——一旦图像超过文档边缘,忽略最外面的区域。这种处理带来各种优点。首先,如果当静止图像被捕获时相机正在被旋转,移动模糊的效果在整个文档上不同。第二,文档在不同部分可以具有不同的等级细节。例如,如果文档的特定象限大体上是白色的,那么在锐度测试上通常不会有好的成绩。如果这样,针对那个象限可以降低最小的锐度值,或者通过将文档简档中的那个象限的锐度值设置为零来完全跳过测试。
在示例性实施例中,一旦捕获了足够尖锐的静止图片,文档的屏幕大小图像可以从其中提取和进行变换,以便其是矩形的和垂直的。例如,图1示出了具有如可由文档捕获处理而捕获的候选文档110的预览图像1211;图9示出了候选文档110,其已经从预览图像1211中提取和变换,使其成为独自所显示的矩形的和垂直的、且被变换的、矩形的和垂直的候选文档110B。在这个处理期间,可以收集颜色信息,其将被用来校正预保存处理期间的图像。在这个示例性实施例中,图像可以显示在显示器1222上,并且可以在文档图像能够被保存之前最后预保存处理步骤之后。在各种示例性实施例中,这个最后的预保存处理可以示例性涉及任意或全部以下步骤:从被捕获的图片中提取文档图像,利用2×2双线性内插将它进行变换,以便使其成为矩形的和垂直的,降低相机透镜和LED闪光灯产生的渐晕,利用前面步骤中收集的信息校正图像亮度和颜色平衡,以便其符合图像简档中保存的目标值,将图像转换灰度级,例如利用3×3卷积滤波器对图像进行锐化,和/或校正颜色平衡。
图像文件保存:一旦预保存处理完成了,操作者可以在各种示例性实施例中被提示或允许来保存文档图像,例如通过按压输入键1228。在其它示例性实施例中,系统5000还可以是可操作的以便文档图像的保存响应于所述预保存处理完成来进行,而不是输入键1228的输入,即无需进一步响应于输入键1228的激活来保存。如示例性实例,保存可以利用微软公司的ImagingFactory组件来执行。在各种示例性实施例中,保存图像可以包括将图像写入存储存储器1084,它可以是例如所选择的图像文件格式中的闪存或者硬盘驱动器。
系统5000可以是可操作的以便一旦文档图像已经被成功捕获,可以显示被捕获的文档的预览。系统5000可以是可操作的以便可以利用可用屏幕区域的最大量来显示预览,因此较高文档将利用白色的左右边界来显示,更宽文档将利用白色顶部和底部边界来显示。这是在图9中示例性示出的。
系统5000可以是可操作的以便几秒钟之后,提示出现在如上所述的图像下方。在示例性实施例中,系统5000可以是可操作的以便按压输入按钮1228将该文档保存到具有文件名DocYYYYMMDDHHMMSS.ext的\IPSM\文档捕获,其中ext表示所选文件类型,选自从jpg、png或bmp文件类型。在一个实施例中,系统5000可以是可操作的以便如果替代地按压扫描按钮1227,文档将不被保存。在两种情况下,预览窗口将接着被再次显示,以便如果需要的话可以执行另一个捕获。被保存的图像可以针对光学效应,例如渐晕和颜色平衡被校正,因此通常将具有比预览更高的质量。这是在图9中示例性示出的。
在示例性实施例中,为了退出程序,用户可以轻击菜单栏的退出按钮,或者当显示预览窗口时按压右边的菜单按钮。
在一个示例性实施例中,系统5000可以是可操作的以便系统5000可以通过菜单选择,并且还通过基于XML的配置文件来配置。
系统5000可以是可操作的以便随后的菜单选择可以通过轻击显示器1222上显示的菜单栏的选项或者通过按压键盘1226的指定菜单按钮可用,菜单选择的每一个具有显示在显示器1222上的相应的激活按钮。系统5000可以是可操作的以便任意以下涉及的菜单选项可以通过选择显示在显示器1222上的显示菜单选项来有效。
闪光灯在捕获处理期间的闪光灯状态,“关闭”、“自动”或“打开”。当文档简档被选择时初始化这个菜单选项,但可以随后变化。
文件类型文档图像将被保存的格式,“低质量JPEG”、“中质量JPEG”、“高质量JPEG”、“PNG”或“BMP”。当文档简档被选择时初始化这个菜单选项,但可以随后变化。
智能聚焦如果这个选项启用,则根据从终端1000到文档的估计距离来将设定透镜焦点。如果这个选项禁用,替代地,相机将使用自动聚焦模式。自动聚焦通常保留启用,因为它将降低捕获图像花费的时间。
写诊断如果这个选项启用,则程序将写入诊断文件,包括有关文档识别处理的技术信息。如果文档简档已经建立,其似乎不能识别预期文档,则启用这个选项,接着尝试捕获文档图像,将生成名为DocumentCapture.log的终端1000的终端1000根文件夹(根目录)中的文件,其可以用于执行诊断测试。
在不同的示例性实施例中,可以利用软件开发工具包的合适编辑器来编辑XML文件,其可以是随移动设备1000一起出售的,在网站提供下载的,或者以其它方式可获得。
配置文件:配置文件可以包括各种部分,每一部分可以包括定义文档参数的键,如以下示例性实施例描述的。在这个示例性实施例中第一部分通常被称为“默认”——这本身并不定义文档类型,但是设置用于全部文档类型的默认值。在默认之后的每个部分定义文档类型,并且在这个示例性实施例中,可以包括至少文档宽度和高度的键。它还可以包括其它键来覆盖默认部分中的那些内容。系统5000可以是可操作的以便相应于在显示器1222上显示的那些之间的菜单选项可以有效。系统5000可以是可操作的以便以下选项中的任意一个可以通过选择在显示器1222上显示的合适的菜单选项来有效。对于当前示例性实施例,可用键和它们的值为:
宽度以mm计的文档宽度,范围:70到450。这个值必须是精确的,除非文档可能没有被识别。
高度以mm计的文档高度,范围70到450。这个值必须是精确的,除非文档可能没有被识别。
公差以千分之一个百分点计的文档纵横比公差,范围0到100,默认20(即,2.0%)。纵横比被定义为文档宽度除以高度。如果测量值不同于理论值相差大于这个百分比,那么文档图像将被拒绝。如果文档宽度或者高度变化非常明显,则增加这个默认值。例如,如果两个A5文档被打印在A4纸上,那么通过折叠或者撕开这张纸来产生单独文档。然而,这不可能精确的完成,将带来文档高度的变化,因此纵横比公差可能需要被增加。
颜色模式文档的颜色模式,“彩色”或“灰度级”。查看在“文件类型”键的说明中有关文件大小的信息。注意,颜色平衡校正仍将对灰度级文档执行,因为图像总是被捕获有颜色。
目标R、目标G、目标B
文档的颜色平衡校正——目标平均像素红色、绿色和蓝色,范围0到255,默认220。如果文档不是大体是白色的,那么这些值就需要被改变,否则它的颜色不能被正确再现。为了确定目标值应该是多少,利用自然光捕获文档图像,并等待“按压ENT来保存……”提示来出现。现在按压C键,并且推荐的目标均值红色、绿色和蓝色值将被显示。如果由于合成图像不够尖锐,文档不能重复捕获,则这可能是由于颜色平衡校正删除了太多文档细节,因此在再次尝试之前,将全部最小文档图像锐度值设置为0,在目标颜色值被设置后,恢复锐度值。如果具有不同颜色的文档需要利用相同的简档来捕获,可以通过设置全部三个目标值为0来禁用颜色平衡校正。
闪光灯捕获处理期间的闪光灯模式,“关闭”、“自动”或者“打开”。默认设置“自动”适于多数情况。然而,如果文档太亮了,最好设置闪光灯模式为“关闭”。如果文档总是在暗光条件下成像,那么设置闪光灯模式为“打开”将稍微加速捕获处理。
亮度不用闪光灯的亮度调整,-2.0、-1.5、-1.0、-0.5、0、0.5、1.0、1.5或2.0之一。默认值0通常是合适的,除非文档包括大面积的黑颜色,在该情况中负向调整可以防止文本在较亮面积的“冲掉”。
F亮度利用闪光灯的亮度调整,-2.0、-1.5、-1.0、-0.5、0、0.5、1.0、1.5或2.0之一。默认值0通常适于大文档,但是对于较小文档(A5或更小)可能需要负向调整,停止由于关闭闪光灯LED带来的图像过度曝光。
TL锐度、TR锐度、BL锐度、BR锐度、CS锐度
对于文档的左上、右上、左下和右下象限和中间区域的最小文档图像锐度要求,范围0到100。在捕获静止图像后,首先检查锐度。如图18的图表所示,在文档的五个区域执行该检查。如图18所示,四个象限没有完全扩展到文档图像边缘,如果图像稍微超出了实际的文档区域,并且中间区域与其它四个区域重叠。默认值20通常适用,除非文档在这些区域中的一个中包括非常小的细节(例如,大多是空白的),在该情况中应该减少相应锐度值。如果锐度值为0,那么相应的区域将会总是通过检查。
阴影最大文档图像阴影量百分比,范围0到100。默认值50通常是适用的,除非文档具有被误认为阴影的大面积黑色区域,在这种情况下,该值应该被增加。如果阴影值为0,文档将总是通过检查。
锐化文档图像锐化滤波器,“禁用”或“启用”。默认值“启用”通常适于包括大部分是文本和/或实心图形的文档,但是其中文档包括中间色区域(通过利用改变大小和间隔的非常小的点来模拟连续色调的打印技术),例如阴影部分或正确成像的照片,禁用滤波器实际上可以提高图像质量。即使锐化滤波器被启用,注意,图像仍必须满足指定的最小锐化标准,之后应用滤波器以便被接受。
分辨率k个像素中的文档图像分辨率,范围300到2048,默认1024(即,1兆像素)。这可以根据所要求的图像分辨率来变化,图像像素宽度和高度根据文档的纵横比从这个图来计算。注意,尽管由于分辨率从其默认值增加到其最大值,合成图像可能变得不那么尖锐,并且因此最小文档锐化值可能需要被降低。
文件类型文档图像将被保存的格式,“低质量JPEG”、“中等质量JPEG”、“高质量JPEG”、“PNG”或“BMP”。JPEG文件是最小且最快被保存的。PNG文件比BMP文件要小,但是保存花费时间比BMP要长,特别是对于彩色图像。JPEG文件格式被设计用于保存全部颜色图像,因此灰度级JPEG不会比等同颜色更小。然而灰度级BMP和PNG文件比它们的颜色等同小很多,并且将更快地保存。
成像设备硬件:返回图2,在具有图像传感器的示例性移动设备1000上提供更多细节,作为支持这里所述的操作的典型硬件平台。移动设备1000可以包括透镜组件250,其可以适于将位于目标衬底上的视场1240中的文档110的图像聚焦于图像传感器阵列1033。移动设备1000和图像传感器阵列1033的视场1240可以通过透镜组件250结合图像传感器阵列1033来定义。图像传感器1032可以包括多个像素图像传感器阵列1033,其具有行列像素排列的像素,与列电路1034和行电路1035相关联。与图像传感器1032相关联的可以是放大器电路1036(放大器),以及模数转换器1037,其将从图像传感器阵列1033读出的模拟信号形式的图像信息转换为数字信号形式的图像信息。图像传感器1032还可以具有相关联的定时控制电路1038,用于控制例如图像传感器1032的曝光期,增益被施加到放大器1036上。在这个示例性实施例中,指出的电路组件1032、1036、1037和1038可以打包为公共图像传感器集成电路1040。在各种实施例中,图像传感器集成电路1040可以结合比指出数量的元件少的元件。
在一个示例性实施例中,图像传感器集成电路1040可以由例如从MICRON技术公司获得的MT9V022(752×480像素阵列)或MT9V023(752×480像素阵列)图像传感器集成电路提供。在一个示例性实施例中,图像传感器集成电路1040可以由从ARECONTVISION获得的AV21052兆像素颜色(1600×1200像素阵列)提供。在一个示例性实例中,图像传感器集成电路1040可以由从MICRON技术公司获得的MTD001C12STC 2兆像素颜色(1600×1200像素阵列)提供。
在一个示例性实例中,图像传感器集成电路1040可以结合Bayer模式滤波器,以便在图像传感器阵列的红色像素位置处定义红色像素,在绿色像素位置处定义绿色像素,以及在蓝色像素位置处定义蓝色像素。利用这种结合了Bayer模式的图像传感器阵列提供的帧能够包括在红色像素位置上的红色像素值,在绿色像素位置上的绿色像素值,以及在蓝色像素位置上的蓝色像素值。在结合Bayer模式图像传感器阵列的示例性实施例中,将帧经受进一步处理之前的处理器1060可以利用开发图像数据的单色帧的绿色像素值在绿色像素位置中间的帧像素位置内插像素值。在另一个示例性实施例中,将帧经受进一步处理之前的处理器1060可以利用开发图像数据的单色帧的红色像素值在红色像素位置中间内插像素值。在另一个示例性实施例中,将帧经受进一步处理之前的处理器1060可以利用蓝色像素值在蓝色像素位置中间内插像素值。
在操作移动设备1000的过程中,图像信号可以从图像传感器1032读出,转换,并存储到系统存储器,例如RAM 1080。在各种实施例中,移动设备1000可以包括一个或多个存储器元件1085,其可以示例性包括RAM 1080,非易失性存储器例如EPROM 1082,存储器存储设备1084,以及各种其它类型的存储器元件的任意一种。在示例性实施例中,存储器存储设备1084可以示例性是或者包括闪存、硬盘驱动器、任意类型的RAM、EPROM、EEPROM、DVD-ROM、CD-ROM或其它类型的ROM、光盘、磁盘、磁盒、磁带、或者任意其它类型的易失性或非易失性或者可移动或非可移动存储器或数据存储器元件。
在各种示例性实施例中,移动设备1000可以包括处理器1060,适于读出存储在存储器1080中的图像数据,并将这种图像数据经受各种图像处理算法。例如,根据各种实施例,一个或多个处理器1060可以示例性是或者包括中央处理单元(CPU)、复杂可编程逻辑设备(CPLD)、特定用途集成电路(ASIC)、现场可编程门阵列(FPGA),或任意类型的能够处理逻辑操作的电路。
在各种实施例中,移动设备1000可以包括提供总线仲裁的系统总线1500,其可以包括使用任意的各种结构的任意各种总线结构,例如存储器总线或者存储器控制器,外围总线,或者本地总线。在各种实施例中,例如,这可以包括外围元件互连(PCI)或者夹层总线,工业标准结构(ISA)总线,增强工业标准结构(EISA)总线,微通道结构(MCA)总线,视频电子标准协会(VESA)总线,或其它总线结构。在各种实施例中,移动设备1000可以包括直接存储器存取单元(DMA)1070,用于将已经经受转换的从图像传感器1032读出的图像信息路由到RAM 1080。在图像传感器1032和RAM 1080之间提供有效数据传送的系统总线结构和/或直接存储器存取元件的其它实施例可以包括在各种实施例中。
在本公开的示例性计算系统中的服务器2000、服务器3000或其它计算元件可以类似地包括任意各种一个或多个处理器、一个或多个存储器元件、一个或多个系统总线或者其它数据通信元件,和其它元件。在不同实施例中,系统5000的存储器可以包括任意移动设备1000、服务器2000、服务器3000或计算和/或网络环境中的其它元件的存储器。
在各种实施例中,移动设备1000可以包括照明子系统800,用于目标区域的照明和照明模式1260的投射。例如,照明子系统800可以示例性包括一个或多个LED闪光灯、一个或多个持续LED灯、一个或多个氙闪光管、或其它照明元件。在各种实施例中,示例性移动设备还可以缺少照明子系统800。在图1和2所示的实施例中,例如,照明模式1260可以投射到大约是但是比视场1240定义的区域大的区域上,但是还可以投射在比视场1240定义的区域小的区域。
在各种实施例中,照明子系统800还可以包括照明透镜组件300,如图2的实施例中所示。除了或者代替照明透镜组件300,照明子系统800可以包括可替代的光成型光学装置,例如一个或多个扩散器、反射镜和棱境。在使用中,移动设备1000可以以这样的方式通过操作者针对包括承载可解码标记120的文档110的目标区域定向,即将照明模式1260投射到可解码标记120上的方式。可解码标记120可以包括任意类型的字符、符号、或其它易于被解码的视觉可检测特征。这可以包括通过任意各种光学字符识别(OCR)技术解码的字符和/或数字,或者一维或二维条码符号,如示例性实施例。
参考移动设备1000的另外方面,透镜组件250可以使用电能输入单元1202控制。在一个实施例中,电能输入单元1202可以操作为受控的电压源,并且在另一个实施例中,作为受控的电流源。照明模式光源组件500可以利用光源控制电路1206控制。光源控制电路1206可以发送信号到照明模式光源组件500,例如通过照明模式光源组件500改变照明输出的等级。移动设备1000的某些元件,例如图像传感器集成电路1040(和图像传感器阵列1033)、成像透镜240、和照明子系统800可以打包成成像模块400,其可以结合在手持外壳1014中。在另一个示例性实施例中,移动设备可以没有照明子系统。
在这个示例性实施例中,移动设备1000可以包括多个外围设备,示例性包括触发器1220,其可以用于使用于激活帧读出和/或某种解码处理的触发信号有效。移动设备1000可以被适配以便激活触发器1220激活触发信号,并开始解码尝试。特别的,移动设备1000可以是可操作的以便响应于激活触发信号,可以采用从图像传感器阵列1033读出图像信息的方式捕获连续的帧(典型的模拟信号的形式),并接着在转换后将图像信息存储到存储器1080(其可以在给定时间缓冲一个或多个连续的帧)。处理器1060可以是可操作的使一个或多个连续的帧经受解码尝试。在另一个示例性实施例中,移动设备1000可以缺少解码功能。
在一个示例性实施例中,包括透镜组件250和图像传感器集成电路1040的成像组件900的元件可以在移动设备1000中复制,每个复制的成像组件900可以结合在手持外壳1014中,每个可以采取图2所示的成像组件900的方式与系统总线1500和处理器1060连接。在这个示例性实施例中,成像组件900的一个可以被优化用来解码可解码标记,并且其它的成像组件900可以被优化用来捕获和保存图像数据帧和图像数据帧中的特征表示。
在示例性实施例中,为了试图解码条码符号,例如一维条码符号,系统5000的处理器(例如,移动设备1000的处理器1060)可以处理对应于像素位置行的帧的图像数据(例如,行、列或像素位置的对角集合),来确定黑色和亮色单元的空间模式,且可以将每个确定的亮色和黑色单元模式通过查找表转换为字符或者字符串。在这个示例性实施例中,在可解码标记表示是二维条码符号的情况下,解码尝试可以包括步骤:利用特征检测算法定位探测器模式,根据与探测器模式的预定关系定位与探测器模式相交的矩形行,确定沿着矩形行的黑色和亮色单元的模式,以及通过查找表将每个亮色模式转换为字符或者字符串。
移动设备1000可以包括各种接口电路,用于将各种外围设备耦合到系统地址/数据总线(系统总线)1500,用于与同样耦合到系统总线1500的处理器1060通信。移动通信1000可以包括接口电路1028,用于将图像传感器定时和控制电路1038耦合到系统总线1500;接口电路1102,用于将电能输入电源1202耦合到系统总线1500;接口电路1106,用于将照明光源组控制电路1206耦合到系统总线1500;以及接口电路1120,用于将触发器1220耦合到系统总线1500。移动设备1000还可以包括耦合到系统总线1500并通过接口1122与处理器1060通信的显示器1222;还包括通过连接到系统总线1500的接口1124与处理器1060通信的指示机构1224。移动设备1000还可以包括耦合到系统总线1500的键盘1226。键盘1226可以通过连接到系统总线1500的接口1126与处理器1060通信。移动设备1000还可以包括通过接口1108与系统总线1500耦合的范围检测器单元1208。
移动设备1000可以用称为帧速率的速率捕获图像数据的帧。典型的帧速率是60帧每秒(FPS),其被转换为16.6ms的帧时间(帧时期)。另一种典型的帧速率是30帧每秒(FPS),其被转换为每帧33.3ms的帧时间(帧时期)。移动设备1000的帧速率可以通过降低帧图片大小来增加(以及帧时间减少)。示例性实施例可以使用AV 2105图像传感器集成电路,其中最大分辨率图片大小(1600×1200)可以被选择,这可能产生24FPS的帧速率。HDTV窗口图片大小(1280×1024)的选择可能产生32FPS的帧速率。利用MT9D001C12STC图像传感器集成电路,最大分辨率图片大小(1600×1200)可以被选择,其可能产生20FPS的帧速率。SXGA窗口图片大小的选择可能产生28FPS的帧速率。
在一个示例性实施例中的移动设备1000的示例性物理形式视图在图1中示出。触发器1220、显示器1222、指示机构1224和键盘1226可以布置在图1所示的手持外壳1014的公共面。在一个实施例中的显示器1222、指示机构1224和键盘1226可以被认为是移动设备1000的用户接口或用户输入/输出元件。在一个实施例中的显示器1222可以结合触摸板,用于导航和虚拟激励器选择,在该情况中移动设备1000的用户接口可以由显示器1222提供。移动设备1000的用户接口还可以通过配置移动设备1000是可操作的以通过解码编程条码符号被再编程来提供。移动设备1000的手持外壳1014可以在另一个实施例中缺少显示器,且采取枪风格形式因素。
这里描述的图像处理步骤可以分布在移动设备1000、服务器2000和/或3000,且一个实施例完全可以通过移动设备1000来执行。在这种实施例中,系统5000可以被认为由移动设备1000提供。
这里所述的示例性设备、系统、装置或方法的小例子如下:
A1、一种设备,包括:
成像子系统,能够提供表示入射在所述成像子系统上的光的图像数据;
一个或多个存储器元件,包括至少个缓冲存储器元件,可操作地启用以临时存储图像数据;以及
一个或多个处理器,被启用来:
从一个或多个存储器元件中的至少第一存储器元件接收图像数据;
尝试在图形数据中识别定义候选四边形形状的线性特征;以及
经由一个或多个输出组件提供用户可感知暗示,用于指导用户改变设备的定位,以增强在图像数据中识别定义候选四边形形状的线性特征的能力。
A2、如A1的设备,其中一个或多个输出组件包括预览监视器,启用来显示基于图像数据的预览图像,其中一个或多个处理器进一步启用来提供用户可感知暗示作为显示在预览图像上的暗示图标。
A3、如A2的设备,其中一个或多个处理器还启用成使得暗示图标包括在监视器上对应于被识别的线性特征的踪迹。
A4、如A3的设备,其中一个或多个处理器进一步启用成使得监视器上对应于被识别的线性特征的踪迹从第一颜色变为第二颜色,以表示对由被识别的线性特征定义的候选四边形形状的成功识别。
A5、如A4的设备,其中一个或多个存储器元件还包括第二存储器元件,其中一个或多个处理器还被启用来向用户提示,以指示对应于被识别的候选四边形形状的高分辨率图像是否应该被存储在第二存储器元件中,其中高分辨率图像具有比预览图像更高的分辨率;以及如果用户这么指示,那么将对应于被识别的候选四边形形状的高分辨率图像存储在第二存储器元件中。
A6、如A4的设备,其中一个或多个存储器元件还包括第二存储器元件,其中一个或多个处理器还启用来通过将对应于被识别的候选四边形形状的高分辨率图像存储在第二存储器元件中,来响应候选四边形形状的成功识别,其中高分辨率图像具有比预览图像更高的分辨率。
A7、如A2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的直线指示符,其指示对设备的平移再定位的方向。
A8、如A2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的距离指示符,指示将设备再定位更接近或者远离目标的方向。
A9、如A2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的指示符,其指示旋转设备的方向。
A10、如A2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的过度移动指示符,其指示成像系统和/或候选四边形形式的至少一个显示干扰识别定义候选四边形形状的线性特征能力的过度移动。
A11、如A2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的部分阴影指示符,其指示明显的部分阴影模糊了候选四边形形状。
A12、如A2的设备,其中一个或多个处理器进一步启用成使得尝试在图像数据中识别定义候选四边形形状的线性特征包括:
基于图像数据的输入帧,生成降低分辨率的帧,该降低分辨率的帧包括比输入帧更少的像素,其中在降低分辨率的帧中的像素组合了来自输入帧中的两个或多个像素的信息;
在监视器上显示降低分辨率的帧作为预览图像;以及
尝试在降低分辨率的帧中识别定义候选四边形形状的线性特征。
A13、如A12的设备,其中一个或多个处理器进一步启用成使得尝试在图像数据中识别定义候选四边形形状的线性特征包括:
尝试识别过渡对,包括在具有像素之间的差值超出了像素过渡阈值的降低分辨率的帧中的相邻像素对,其;
尝试在两个或多个被识别的过渡对之间降低分辨率的帧中识别一个或多个线性特征;以及
提供降低分辨率的帧的一个或多个被识别的线性特征的指示。
A14、如A13的设备,其中一个或多个处理器进一步启用成使得尝试在图像数据中识别定义候选四边形形状的线性特征包括:
将连续被识别的像素过渡连接到被识别的行段中,识别相互大致成一行的行段的集合,以及将被识别的成一行的行段的集合合并到被识别的线性特征中;
测量被识别的线性特征之间的角度;
评估被测量的角度是否在大约90度的限制倾斜值中,如果是,则将线性特征的交叉点识别为被识别的角点;
评估具有四个角点的四个线性特征是否被识别,如果未被识别,则在预览监视器上提供暗示图标,以指导用户改变设备的定位,从而增强识别具有四个角点的四个线性特征的能力。
A15、一种利用一个或多个处理器执行的方法,包括:
从成像组件接收图像数据帧;
利用至少一个处理器,基于输入帧生成降低分辨率的帧,该降低分辨率的帧包括比输入帧更少的像素,其中,在降低分辨率的帧中的多个像素的每一个像素组合了来自输入帧中的两个或多个像素的信息;
利用至少一个处理器,尝试在图像数据中识别定义候选四边形形状的线性特征;以及
利用至少一个处理器,确定图形操作者暗示图标,用来指导用户改变成像设备的定位,以增强在随后的图像数据中识别定义候选四边形形状的线性特征的能力;以及
通过输出组件提供图形操作者暗示图标。
A16、如A15的方法,其中,该方法还包括在预览监视器上提供降低分辨率的帧的图像和图形操作者指导图标,且图形操作者指导图标是从以下选择:指示对成像组件的平移再定位的方向的直线指示符;指示设备向前或向后再定位的方向的距离指示符;指示旋转设备的方向的曲线指示符;指示图像数据展示过度运动的过度运动指示符;以及指示明显部分阴影模糊了候选四边形形状的部分阴影指示符。
A17、一种包括能够使能一个或多个计算组件的可执行指令的计算机可读存储介质,包括一个或多个存储器,用于:
接收图像数据的第一帧;
尝试在图像数据的第一帧中识别定义候选四边形形状的线性特征;以及
提供用户可感知暗示,用于指导用户改变设备的定位,来增强在随后的图像数据帧中识别定义候选四边形形状的线性特征的能力。
A18、如A17的计算机可读存储介质,其中可执行指令还能够使能一个或多个计算组件用于:
存储多个用于用户可感知暗示的图形图标;
评估图像数据是非优化的一个或多个原因;
选择一个或多个图形图标,用于解决图像数据是非优化的一个或多个被评估的原因;以及
在预览监视器上显示个或多个选择的图形图标,还显示候选四边形形状。
A19、如A18的计算机可读存储介质,其中可执行指令还能够使能一个或个多计算组件从以下选择:指示对成像组件的平移再定位的方向的直线指示符图形图标;指示设备向前或向后再定位的方向的距离指示符图形图标;指示旋转设备的方向的曲线指示符图形图标;指示图像数据展示过度运动的过度运动指示符图形图标;以及指示明显部分阴影模糊了候选四边形形状的部分阴影指示符图形图标。
尽管已经参考多个特定实施例描述了本发明,应该理解,本发明的真实精神和范围应该仅仅针对本说明书支持的权利要求来确定。此外,尽管在这里的多种情况下,其中系统和装置和方法被描述为具有某些数量的组件,应该理解,这样的系统、装置和方法可以采用比所述某些数量的组件更少或更多来实现。同样,虽然已经描述了多个特定实施例,应该理解,已经描述的关于每个特定实施例的特征和方面可以用于每个保留的特定描述的实施例。
Claims (15)
1.—种设备,包括:
成像子系统,能够提供代表入射在所述成像子系统上的光的图像数据;
一个或多个存储器元件,包括至少一个缓冲存储器元件,可操作地被启用来临时存储图像数据;以及
一个或多个处理器,被启用于:
从一个或多个存储器元件中的至少第一存储器元件接收图像数据;
尝试在图像数据中识别定义候选四边形形状的线性特征;以及
经由一个或多个输出组件提供用户可感知暗示,用于指导用户改变设备的定位,以增强在图像数据中识别定义候选四边形形状的线性特征的能力。
2.如权利要求1的设备,其中一个或多个输出组件包括预览监视器,其被启用于显示基于图像数据的预览图像,其中一个或多个处理器进一步启用于提供用户可感知暗示作为显示在预览图像上的暗示图标。
3.如权利要求2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括监视器上对应于被识别的线性特征的踪迹。
4.如权利要求3的设备,其中一个或多个处理器进一步启用成使得监视器上对应于被识别的线性特征的踪迹从第一颜色变为第二颜色,以表示对由被识别的线性特征定义的候选四边形形状的成功识别。
5.如权利要求4的设备,其中一个或多个存储器元件还包括第二存储器元件,其中一个或多个处理器进一步启用于向用户提示,以指示对应于被识别的候选四边形形状的高分辨率图像是否应该被存储在第二存储器元件中,其中高分辨率图像具有比预览图像更高的分辨率;以及如果用户这么指示,那么将对应于被识别的候选四边形形状的高分辨率图像存储在第二存储器元件中。
6.如权利要求4的设备,其中一个或多个存储器元件还包括第二存储器元件,其中一个或多个处理器进一步启用于通过将对应于被识别的候选四边形形状的高分辨率图像存储在第二存储器元件中,来响应候选四边形形状的成功识别,其中高分辨率图像具有比预览图像更高的分辨率。
7.如权利要求2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的直线指示符,其指示对设备的平移再定位的方向。
8.如权利要求2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的距离指示符,其指示将设备再定位接近或者远离目标的方向。
9.如权利要求2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的指示符,其指示旋转设备的方向。
10.如权利要求2的设备,其中一个或多个处理器进一步启用成使得暗示图标包括在监视器上显示的过度移动指示符,其指示成像系统和/或候选四边形形状的至少一个显示干扰了识别定义候选四边形形状的线性特征能力的过度移动。
11.如权利要求2的设备,其中一个或多个处理器进一步启用成使得尝试在图像数据中识别定义候选四边形形状的线性特征包括:
基于图像数据的输入帧,生成降低分辨率的帧,该降低分辨率的帧包括比输入帧更少的像素,其中在降低分辨率的帧中的像素组合了来自输入帧中的两个或多个像素的信息;
在监视器上显示降低分辨率的帧作为预览图像;以及
尝试在降低分辨率的帧中识别定义候选四边形形状的线性特征。
12.如权利要求11的设备,其中一个或多个处理器进一步启用成使得尝试在图像数据中识别定义候选四边形形状的线性特征包括:
尝试识别过渡对,包括在具有像素之间的差值超出了像素转换阈值的降低分辨率的帧中的相邻像素对;
尝试在两个或多个被识别的过渡对之间降低分辨率的帧中识别一个或多个线性特征;以及
提供降低分辨率的帧的一个或多个被识别的线性特征的指示。
13.如权利要求12的设备,其中一个或多个处理器进一步启用成使得尝试在图像数据中识别定义候选四边形形状的线性特征包括:
将连续被识别的像素过渡连接到被识别的行段中,识别相互大致成一行的行段的集合,以及将被识别的成一行的行段的集合合并到被识别的线性特征中;
测量被识别的线性特征之间的角度;
评估被测量的角度是否在大约90度的限制倾斜值中,如果是,则将线性特征的交叉点识别作为被识别的角点;
评估具有四个角点的四个线性特征是否能够被识别,如果它们未被识别,则在预览监视器上提供暗示图标,用于指导用户改变设备的定位,以增强识别具有四个角点的四个线性特征的能力。
14.一种利用一个或多个处理器执行的方法,包括:
从成像组件接收图像数据帧;
利用至少一个处理器,基于输入帧生成降低分辨率的帧,该降低分辨率的帧包括比输入帧更少的像素,其中,在降低分辨率的帧中的多个像素的每一个像素组合了来自输入帧中的两个或多个像素的信息;
利用至少一个处理器,尝试在图像数据中识别定义候选四边形形状的线性特征;以及
利用至少一个处理器,确定图形操作者暗示图标,用于指导用户改变成像设备的定位,以增强在随后的图像数据中识别定义候选四边形形状的线性特征的能力;以及
通过输出组件提供图形操作者暗示图标。
15.如权利要求14的方法,其中,该方法还包括在预览监视器上提供降低分辨率的帧的图像和图形操作者指导图标,且图形操作者指导图标是从以下选择:指示对成像组件的平移再定位的方向的直线指示符;指示设备向前或向后再定位的方向的距离指示符;指示旋转设备的方向的曲线指示符;指示图像数据展示过度运动的过度运动指示符;以及指示明显部分阴影模糊了候选四边形形状的部分阴影指示符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610929993.XA CN107103315B (zh) | 2010-05-21 | 2011-05-20 | 用于在图像信号中捕获文档的交互式用户接口 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US34729210P | 2010-05-21 | 2010-05-21 | |
US61/347292 | 2010-05-21 | ||
US13/016,655 US9047531B2 (en) | 2010-05-21 | 2011-01-28 | Interactive user interface for capturing a document in an image signal |
US13/016655 | 2011-01-28 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610929993.XA Division CN107103315B (zh) | 2010-05-21 | 2011-05-20 | 用于在图像信号中捕获文档的交互式用户接口 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102592123A true CN102592123A (zh) | 2012-07-18 |
CN102592123B CN102592123B (zh) | 2016-12-14 |
Family
ID=
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810471A (zh) * | 2012-11-13 | 2014-05-21 | 三星电子株式会社 | 识别文档图像的方法和装置及其拍摄方法 |
CN105229665A (zh) * | 2013-03-11 | 2016-01-06 | 盖茨公司 | 对基于图像的蛇形带子磨损评估的增强分析 |
CN105827894A (zh) * | 2015-01-28 | 2016-08-03 | 佳能株式会社 | 信息处理装置及信息处理方法 |
US9451132B2 (en) | 2010-05-21 | 2016-09-20 | Hand Held Products, Inc. | System for capturing a document in an image signal |
CN109102457A (zh) * | 2018-06-12 | 2018-12-28 | 杭州米绘科技有限公司 | 一种基于卷积神经网络的智能化变色系统及方法 |
CN110796139A (zh) * | 2019-10-17 | 2020-02-14 | 中国测试技术研究院辐射研究所 | 测试/检测/校准/检定中指示值图案定位和分割方法 |
CN112580573A (zh) * | 2015-02-03 | 2021-03-30 | 居米奥公司 | 用于成像识别信息的系统和方法 |
CN113115035A (zh) * | 2017-07-13 | 2021-07-13 | 松下电器(美国)知识产权公司 | 解码装置及解码方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050264658A1 (en) * | 2000-02-28 | 2005-12-01 | Ray Lawrence A | Face detecting camera and method |
US20060008122A1 (en) * | 2004-04-02 | 2006-01-12 | Kurzweil Raymond C | Image evaluation for reading mode in a reading machine |
CN101048783A (zh) * | 2004-08-26 | 2007-10-03 | 计算机连接管理中心公司 | 照相文档成像系统 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050264658A1 (en) * | 2000-02-28 | 2005-12-01 | Ray Lawrence A | Face detecting camera and method |
US20060008122A1 (en) * | 2004-04-02 | 2006-01-12 | Kurzweil Raymond C | Image evaluation for reading mode in a reading machine |
CN101048783A (zh) * | 2004-08-26 | 2007-10-03 | 计算机连接管理中心公司 | 照相文档成像系统 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9451132B2 (en) | 2010-05-21 | 2016-09-20 | Hand Held Products, Inc. | System for capturing a document in an image signal |
CN103810471B (zh) * | 2012-11-13 | 2018-11-13 | 三星电子株式会社 | 识别文档图像的方法和装置及其拍摄方法 |
CN103810471A (zh) * | 2012-11-13 | 2014-05-21 | 三星电子株式会社 | 识别文档图像的方法和装置及其拍摄方法 |
CN105229665A (zh) * | 2013-03-11 | 2016-01-06 | 盖茨公司 | 对基于图像的蛇形带子磨损评估的增强分析 |
CN105229665B (zh) * | 2013-03-11 | 2019-12-06 | 盖茨公司 | 对基于图像的蛇形带子磨损评估的增强分析 |
CN105827894A (zh) * | 2015-01-28 | 2016-08-03 | 佳能株式会社 | 信息处理装置及信息处理方法 |
US20170316275A1 (en) | 2015-01-28 | 2017-11-02 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
CN105827894B (zh) * | 2015-01-28 | 2019-03-22 | 佳能株式会社 | 信息处理装置及信息处理方法 |
US10354162B2 (en) | 2015-01-28 | 2019-07-16 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
CN112580573A (zh) * | 2015-02-03 | 2021-03-30 | 居米奥公司 | 用于成像识别信息的系统和方法 |
CN114173124B (zh) * | 2017-07-13 | 2023-10-27 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置及解码方法 |
CN114173122B (zh) * | 2017-07-13 | 2023-10-24 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置及解码方法 |
CN113115035A (zh) * | 2017-07-13 | 2021-07-13 | 松下电器(美国)知识产权公司 | 解码装置及解码方法 |
CN114173122A (zh) * | 2017-07-13 | 2022-03-11 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置、解码方法及存储介质 |
CN114173121A (zh) * | 2017-07-13 | 2022-03-11 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置、解码方法及存储介质 |
CN114173123A (zh) * | 2017-07-13 | 2022-03-11 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置、解码方法及存储介质 |
CN114173125A (zh) * | 2017-07-13 | 2022-03-11 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置、解码方法及存储介质 |
CN114173124A (zh) * | 2017-07-13 | 2022-03-11 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置、解码方法及存储介质 |
CN114173121B (zh) * | 2017-07-13 | 2023-10-27 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置及解码方法 |
CN113115035B (zh) * | 2017-07-13 | 2023-04-28 | 松下电器(美国)知识产权公司 | 解码装置及解码方法 |
CN114173125B (zh) * | 2017-07-13 | 2023-10-24 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置及解码方法 |
CN114173123B (zh) * | 2017-07-13 | 2023-10-24 | 松下电器(美国)知识产权公司 | 编码装置、编码方法、解码装置及解码方法 |
CN109102457A (zh) * | 2018-06-12 | 2018-12-28 | 杭州米绘科技有限公司 | 一种基于卷积神经网络的智能化变色系统及方法 |
CN109102457B (zh) * | 2018-06-12 | 2023-01-17 | 杭州米绘科技有限公司 | 一种基于卷积神经网络的智能化变色系统及方法 |
CN110796139B (zh) * | 2019-10-17 | 2023-06-23 | 中国测试技术研究院辐射研究所 | 测试/检测/校准/检定中指示值图案定位和分割方法 |
CN110796139A (zh) * | 2019-10-17 | 2020-02-14 | 中国测试技术研究院辐射研究所 | 测试/检测/校准/检定中指示值图案定位和分割方法 |
Also Published As
Publication number | Publication date |
---|---|
US9047531B2 (en) | 2015-06-02 |
CN107103315B (zh) | 2021-03-02 |
CN107103315A (zh) | 2017-08-29 |
US20110285874A1 (en) | 2011-11-24 |
US9319548B2 (en) | 2016-04-19 |
EP2388735A2 (en) | 2011-11-23 |
EP2388735A3 (en) | 2014-04-30 |
US9521284B2 (en) | 2016-12-13 |
US20160006894A1 (en) | 2016-01-07 |
US20150256695A1 (en) | 2015-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107103315A (zh) | 用于在图像信号中捕获文档的交互式用户接口 | |
US9451132B2 (en) | System for capturing a document in an image signal | |
CN105809620B (zh) | 用于线性全景图像拼接的预览图像获取用户界面 | |
EP3520081B1 (en) | Techniques for incorporating a text-containing image into a digital image | |
US10713528B2 (en) | System for determining alignment of a user-marked document and method thereof | |
US20190266434A1 (en) | Method and device for extracting information from pie chart | |
US20120092329A1 (en) | Text-based 3d augmented reality | |
US20220319130A1 (en) | Method for simulating natural perception in virtual and augmented reality scenes | |
US10083365B2 (en) | Optical reading of external segmented display | |
TW201317904A (zh) | 標籤檢測系統、裝置及其檢測標籤的方法 | |
WO2009039209A1 (en) | Wide luminance range colorimetrically accurate profile generation method | |
CN102592123B (zh) | 用于在图像信号中捕获文档的交互式用户接口 | |
CN106164989A (zh) | 信息处理设备、信息处理方法、记录介质及pos终端设备 | |
KR20190108805A (ko) | 대상물의 결함 발생 유무를 검사하는 비전검사기 및 그 검사방법 | |
CN113936288A (zh) | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 | |
JP6399808B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP7317913B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
WO2023053830A1 (ja) | 画像処理装置、画像処理方法および記録媒体 | |
KR102300417B1 (ko) | 전자 문서에 삽입된 차트 이미지에서 차트 영역과 범례 영역에 대한 자동 매칭을 가능하게 하는 전자 장치 및 그 동작 방법 | |
US20210390325A1 (en) | System for determining alignment of a user-marked document and method thereof | |
US20170200383A1 (en) | Automated review of forms through augmented reality | |
US20140023229A1 (en) | Handheld device and method for displaying operation manual | |
CN115909309A (zh) | 一种喷码字符检测的方法,装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |