关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者577人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上海女生冬天不穿羽绒服,爱穿“大衣+旗袍”,时髦精致,好贵气

潮人志Fashion 浏览 13298

集度变极越,百度还造车吗?

刺猬公社 浏览 14490

苏州一轨道交通线路驾驶室没门 客服:司机负责监控

上游新闻 浏览 75743

缅北魏家杀人要求"打光所有子弹":尸骨呈跪姿 头中7弹

上游新闻 浏览 5621

老里弗斯:我们不会去想前两年的G5 那毫无意义

直播吧 浏览 18496

中国小伙赴越南"赚快钱"失联 疑遭拐卖刺伤司机后被捕

封面新闻 浏览 12413

46岁郭柯宇气质真好 发型飘逸穿着简单

形象设计师飞飞 浏览 19514

李在明告诉CNN:不能将中国拒之门外

环球网资讯 浏览 3987

传Blackwell架构GB20x的GPC配置基本不变,英伟达仍在开发GB205/6/7

超能网 浏览 11239

一俄军用直升机在亚美尼亚被击落,阿塞拜疆表示这只是一起意外

趣看热点 浏览 25684

《权力的游戏》这两集杀疯了

独立鱼 浏览 12283

老人旅游期间睡梦中去世 家属起诉旅行社索赔15万

红星新闻 浏览 81146

约基奇调侃NBA不相信胖子:篮球并非最重要 不知道FMVP奖杯去哪了

罗说NBA 浏览 16253

上海海港三场亚冠比赛仅拿1分,进1球丢6球

懂球帝 浏览 884

传祺向往S9正式上市,22.99万起就能入手

车扯 浏览 1626

马斯克动人类脑子的计划又进一步,西湖大学研发出1平方毫米大小神经芯片,你准备好在脑子里装芯片了吗?

都市快报橙柿互动 浏览 16330

付笛生儿子在欧洲演出!夫妻俩打扮朴素甜蜜约会

盖饭娱乐官方号 浏览 14851

外媒炒作中国300颗间谍卫星监视美澳演习

环球网资讯 浏览 14412

主打家用,吉利豪越PRO 8.69万元起售

天天汽车 浏览 12887

微软研究院突破:让AI真正读懂多种语言的文化密码

科技行者 浏览 829

今日热点:李庚希空降粉丝群抵制代拍;荷兰弟复工拍摄《蜘蛛侠4》……

伊周潮流 浏览 1037
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1