关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者781人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“大衣+毛衣”今年冬天又火了,这样穿时髦又高级!

LinkFashion 浏览 169

中年返贫,一场无声的凌迟

识局 浏览 846

AI 接连翻车的 Google,要变天了

爱范儿 浏览 11306

美丽与年龄无关,奔四女人快来试试这些时尚感穿搭,显年轻显气质

Yuki时尚酱 浏览 12793

她连上5次春晚,私下却和恩师同居怀孕被骗流产

律便利 浏览 950

知名男星被曝再入编!曾自曝走后门拿编制,干满三个月就落户北京

不八卦会死星人 浏览 12884

陆军在山地丛林地域开展进攻战斗演练

环球网资讯 浏览 15398

哪吒汽车即将登陆巴西市场 今年将在巴西推出三款车型

智车情报局 浏览 11266

理解了这轮“金铜铝牛市”的底层逻辑,也就理解了中国经济的未来

锦缎研究院 浏览 67

公司宣传“员工通宵加班致流产”?工作人员回应:已删除文章,不存在此事

每日经济新闻 浏览 15678

媒体:传来两个与石油相关的好消息 都与中国有关

上观新闻 浏览 16424

曝美童军大规模性侵,数十年来受害者近10万人

趣看热点 浏览 26174

最脏时刻!美媒打趣:踢裆、肘头、垫脚+皮尔斯王者归来

直播吧 浏览 10609

队记:小波特在火箭担当主控的时期结束了 他有机会打得更高效

直播吧 浏览 15326

摩托罗拉Edge 70 Ultra现身Geekbench,处理器或有新情况

IT之家 浏览 594

美媒:中国近半年没买过美国一粒大豆 豆农心急如焚

CCTV4 浏览 15569

上半年对欧新能源汽车出口近35万辆:比亚迪、蔚来等并不理想

21世纪经济报道 浏览 14256

徐艺洋三亚美照惊艳

悦君兮君不知 浏览 351

第一批来北京的游客,已经进骨科了

快刀财经 浏览 10778

中菲磋商南海问题 中方还就涉台问题提出严正交涉

新京报 浏览 78744

最近流行的4件针织 这样搭配最好看

小西的穿搭日记 浏览 15289
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1