Китайский ИИ точно определяет место съемки фото без геометок
Китайские исследователи из компании Tencent представили открытую ИИ-модель GeoVista, предназначенную для определения местоположения по фотографиям. Ее точность уже приближается к показателям ведущих коммерческих систем, таких как Gemini 2.5 Flash.
Особенность GeoVista заключается в том, что она не ограничивается анализом самого изображения, а активно взаимодействует с интернетом. Модель может увеличивать ключевые фрагменты кадра, чтобы разглядеть детали вроде вывесок или архитектурных элементов, а также самостоятельно формировать поисковые запросы и обращаться к публичным источникам, чтобы найти дополнительные подсказки.
Разработчики называют именно эту интеграцию с веб-поиском главным преимуществом своей системы. В то время как другие модели фокусируются преимущественно на обработке самого изображения, GeoVista действует как автономный агент. Она последовательно выбирает участки для увеличения, формулирует запросы, анализирует полученные из сети данные и уточняет гипотезы о возможном месте съемки.
Лучше всего модель справляется с панорамными (79,49%) и обычными фотографиями (72,27%), а спутниковые снимки остаются для нее наиболее сложной категорией (44,92%). Если измерять точность не административными единицами, а расстоянием до реальной точки съемки, то GeoVista в 52,83% случаев определяет место с отклонением менее 3 километров, при медианном отклонении в 2,35 км. Показатели коммерческих моделей пока выше, однако, разрыв уже не выглядит непреодолимым.
Исходный код, веса модели и сам бенчмарк GeoBench уже опубликованы в открытом доступе. Хотя авторы напрямую не обсуждают риски, прогресс в технологиях геолокации делает вопросы цифровой приватности еще более актуальными, поскольку любая фотография, размещенная в сети, может быть точно привязана к месту съемки.
Стоит ли включать геолокацию на постоянной основе?




