| 新算法可快速对街道照片定位 准确率高达97% | |
| www.wforum.com | 2025-11-18 15:51:16 煎蛋网 | 0条评论 | 查看/发表评论 |
|
|
|
|
|
|
|
|
想象你在玩GeoGuessr:屏幕上是一栋普通的美国家庭住宅,前院修剪整齐,屋顶飘着国旗,但没有任何地标能告诉你它在哪个州。你唯一的线索,是一组从美国各地拍摄的四万多张低分辨率航拍图。你能找出这栋房子的位置吗? 也许你不能,但人工智能可以。来自中国石油大学的研究团队开发出一种全新的机器学习模型,它能在庞大的遥感影像数据库中搜索,与街景照片精确匹配的俯瞰图。不论是住宅、商铺还是工业建筑,它都能迅速定位。而它真正令人惊讶的地方,在于“又小又快”。 当模型接收到一张180度视野的街景图时,能在第一阶段以高达97%的准确率缩小定位范围,几乎与现有最强模型持平。而在最终精准定位时,它的正确率为82%,与最先进算法的差距不到3个百分点。 但速度和效率才是它的秘密武器。研究团队指出,该模型的运行速度至少是同类系统的两倍,内存占用却不到三分之一。这意味着,它不仅能应用于民用导航系统,更可能在国防领域大展拳脚。 研究负责人Peng Ren解释,他们训练AI学会忽略视角差异,专注提取两张图片中相同的“关键地标”,再将这些特征转换成一种共享的数字语言。 这一方法被称为“深度交叉视图哈希”。它并非逐像素比对,而是将街景与卫星图像都转化为独特的数字编码——就像给每张图打上“指纹”。 为此,团队使用了名为“视觉Transformer”的深度学习模型。它把图像切割成小块,分析其中的模式,比如识别出高楼、圆形喷泉或交通环岛,然后将这些识别结果转化为一串数字。ChatGPT也是基于类似的架构,只不过它分析的是文字而非图像。 澳大利亚国立大学的Hongdong Li形容,这种编码就像图像的指纹。模型通过比较街景与数据库中所有航拍图的“指纹”,迅速找出最相似的前五张,再通过加权平均推算出最可能的位置。 相关成果发表在《IEEE地球科学与遥感汇刊》上。Li评价道,虽然这并非全新的理论,但在速度和内存效率上,它确实代表了实质性进步。 有些专家对此保持谨慎,比如华盛顿大学的Nathan Jacobs认为,这篇论文不算“划时代”。但Li持不同意见,他指出,这种基于哈希的方法让匹配速度提升数倍,而存储仅需35MB,相比下一个最小模型的104MB节省了近三分之二。 在实验中,该模型在美国产航拍数据库中匹配地面图像的平均耗时仅0.0013秒,而此前最快的模型需要0.005秒。换言之,它快了近四倍。 Ren表示,这种方法比传统的图像定位技术更高效。Li也认可其可信度,指出哈希技术确实是实现速度与紧凑性的成熟途径。 当然,要想让这种方法在真实环境中普及,还需要更多验证。Li指出,研究尚未充分考虑季节变化或云层遮挡等复杂因素。Ren回应称,未来可通过引入来自不同地区的图像,提升模型的稳健性。 展望未来,这项技术的潜力令人期待。它不仅能用于自动为老照片添加地理标签,更可在自动驾驶导航系统中充当“备用GPS”。当卫星信号失效时,这种AI能迅速通过周围建筑识别出所在位置。 Li认为,这项技术或许还能在五年内用于应急救援。 而在国防应用上,它的潜力更大。正如Jacobs所说,如果一张恐怖分子训练营的照片没有定位信息,如何在几秒内找到确切位置?这种新AI,也许就是答案。
(示意图) |
|
|
|
|
|
|
