关闭广告

马里兰大学与英特尔:AI视频字幕自动评分系统

科技行者888人阅读


这项由马里兰大学巴尔的摩分校的Shubhashis Roy Dipta教授与英特尔实验室的Tz-Ying Wu、Subarna Tripathi等研究团队共同完成的研究发表于2024年9月,论文编号为arXiv:2509.16538v1。对于那些想要深入了解技术细节的读者,可以通过这个编号在学术数据库中查找完整论文。

当我们观看一段视频时,如果有人为这个视频写了一段描述文字,你如何判断这段描述是否准确呢?这听起来像是一个简单的问题,但对计算机来说却是一个巨大的挑战。就好比你请朋友帮你描述一幅画,你需要判断朋友的描述是否靠谱——但问题是,你手里没有这幅画的"标准答案"。

传统的做法就像考试时需要标准答案一样。研究人员会让人工写出视频的"正确"描述,然后用这些标准答案来评判其他描述的好坏。但这种方法有个致命问题:获得这些标准答案需要花费大量人力和金钱,而且当我们面对互联网上海量的视频时,根本不可能为每个视频都准备标准答案。

更糟糕的是,现有的评估方法就像一个粗心的老师,经常给错误的答案打高分。研究团队发现,即使一段描述把视频中的小提琴说成吉他,把男人说成女人,现有的评估系

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“技术男”科大讯飞的木桶效应

斑马消费 浏览 14674

越南再爆地产大雷,股市重挫5%,创六个月来最大单日跌幅

华尔街见闻官方 浏览 911

退出春晚、被综艺开除,贾玲的下场竟然如此?

阅识 浏览 737

德科:C罗是我见过最谦逊的人,他和梅西是不同类型的天才

懂球帝 浏览 1491

伊姐周六热推:电视剧《许我耀眼》;电视剧《命悬一生》......

伊周潮流 浏览 1033

卡萨诺:罗马连续传球都有困难,穆里尼奥和阿莱格里时代迟早结束

直播吧 浏览 13421

14天尝鲜期临近 多名用户退货vision pro:佩戴不舒适

中国基金报 浏览 82011

泸州老窖前三季度营收净利双降 国窖1573等中高档酒销量同比下滑10%

YOUNG财经 浏览 721

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技 浏览 811

牛弹琴:韩突然向日伸出橄榄枝后 中美的表态意味深长

北京日报客户端 浏览 105183

秋季的穿衣难度并不高,选择基础款、配色不沉闷,舒适又减龄

静儿时尚达人 浏览 1005

疫苗最好尽快打,张文宏就新冠疫情做出最新判断

趣看热点 浏览 441567

陈伟霆何穗官宣结婚生子,夫妻俩抱娃露面幸福满溢,二人隐藏好深

扒虾侃娱 浏览 986

男子花4万为父母升头等舱 手机遗失被安全员占为己有

鲁中晨报 浏览 1047

全新哈弗H9申报图曝光,将提供两种动力版本

天天汽车 浏览 12306

普京与埃尔多安通话 首次回应卡霍夫卡大坝遭袭

环球网 浏览 16394

端午假期机票比“五一”便宜两成,你想好去哪玩了吗?

环球网资讯 浏览 16236

23.98万起/中大型SUV定位 东风日产探陆开启预售

网易汽车 浏览 12686

秦刚:敦促有关国家停止鼓噪"今日乌克兰 明日台湾"

环球网资讯 浏览 95841

Skip:泰伦-卢是NBA最佳教练 但他新赛季仍无法带威少赢球

直播吧 浏览 15570

袋鼠云CEO宁海元:大模型时代,Data+AI将成为新的基础设施

数据猿DataYuan 浏览 10743
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1