Google街景是如何自动识别门牌号码的?

Streetview

按照街道门牌号码找地址是一件苦差事,尤其是当你身处于日本和韩国时。日本和韩国的门牌号码很少按照次序排列,因此哪怕是当地人也难以根据门牌号码找到地址。

身兼地图服务商的Google提供了一套解决方案——将街景小车拍摄到的门牌号码与相应的地理位置进行匹配。这意味着Google在进行街景图像采集的同时,也将每幢建筑的门牌号码信息录入了数据库。

这项工作的难点在于,确认和识别门牌号码是一项耗时巨大的工作。Google的街景相机拍摄的全景照片高达数亿张,通过人工搜索图像确认门牌号码的效率非常低下。

Google当然不会那么做,他们找到了一套自动化的解决方案。这个项目的负责人Ian Goodfellow向MIT Technology Review解释了自动化识别街景图像中门牌号码的“工具”:训练神经元识别图像中的数字,并将经训练的11级神经元构建成一张单层神经网络。

首先,他们假设门牌号码已被识别,然后对图像进行切割,使得门牌号码至少至少占据结果帧1/3的宽度。在做数字识别的过程中,Google并不会对门牌号码切分进行单位数字的识别,而是通过神经网络一次性识别整串数字。

Google使用的是公开的街景门牌号码数据集来对神经元数字识别进行训练,这个数据集涵盖了20万个由Google街景摄像头拍摄的门牌号信息。不过,这项训练需要花费6天才能完成。

目前Google在全球自动侦测和转录的门牌号码数据已经达到将近1亿,准确度达到了人眼识别的水平。而且,这套门牌号码自动识别系统的运行效率非常高,转录整个法国的门牌号码数据仅仅花费了不到一个小时。

通过单层神经网络识别和转录数字是字符抽取和识别技术的一项重大飞跃,这项技术甚至可以作为一套端对端系统套用到文本翻译和语音识别等其他领域中去。

题图出处:shutterstockMTR

订阅更多文章