量子位
整合编辑:太平洋科技
发布于:2025-05-27 21:18
国产AI豆包发布新功能——视频通话,可实时报准时间、联网搜索热点等。具备强大的视觉理解模型,能识别物体、推理计算,成为看剧搭子和厨艺顾问。深度实测表现出有用、好用的特性。产品操作简单直观,提升用户互动趣味性与可靠性。
|
几乎让大模型全军覆没的新难题——看时钟,被国产AI给拿下了。
要知道,之前单单是一张时钟的图表,几乎所有大模型都答不对时间。 但现在,国产AI却可以直接开视频,实时报准时间! 可以看到,这个国产AI先是准确地报出了“4点14分”,而在等了一分钟后,它也是可以再次准确报时“4点15分”。 那么这到底是何许AI也? 不卖关子,它就是豆包发布的新功能——视频通话。 主打一个让AI边看边聊天。 而且啊,它还是接入了联网搜索的功能,所以回答的准确性和时效性这块也是拿捏到位了。 例如我们对着微博热搜的话题提个问题:
可以看到,联网的豆包在视频通话的过程中,就可以直接把当下的新闻热点给你总结出来。 不得不说,这种跟AI的互动,不论是趣味性还是可靠性,都大大地增强了。 除此之外,这次的新功能还增加了“字幕”的选项,点击之后就可以看到之前对话的具体内容啦~
既然这个功能如此有趣,那我们必须安排一波深度实测。 来,走起~ 跟豆包一块看《甄嬛传》 我们先来简单介绍一下视频通话的操作方式。 打开豆包App之后,依次点击“对话”→“+号”→“打电话”→“开启视频通话”即可:
我们的第一个实测,就是看看豆包能不能成为一个看剧搭子,能跟你边看视频边聊剧情。 有请《甄嬛传》: 豆包在看视频的瞬间,立马辨别出这是《甄嬛传》,并且分析出了这个名场面:
不仅如此,它还是个有态度的AI,超级不看好祺贵人这个角色:
整体来看,豆包称得上是个合格的看剧搭子了。 接下来,我们再来看看豆包视频通话在生活场景中能不能帮上忙。 例如我们给它看几个食材,然后提问:
豆包不仅秒识别出食材,还把炒菜的步骤、调味品等特别详细地讲解了一番。 以后要是遇到不会做的菜,是可以用视频通话的方式问问豆包了。 类似的,我们让它再看看一道物理题:
豆包准确地识别出题目,然后立马开始作答,把整个题目的求解过程详尽地说了出来,最后给出了正确答案:A。 不仅是物理题,现在直接让豆包看论文、代码,它也能帮你答疑解惑哦~ 一番实测下来,豆包视频通话功能,整体直观的感受就是:有用,好用。 不只是看,还有思考 豆包视频通话功能背后,其实是豆包·视觉理解模型在发力。 豆包・视觉理解模型拥有非常强的内容识别能力,它就像一个敏锐的 “眼睛”,能够精准识别图像中的各种要素。 从基本的物体类别、形状、纹理,到物体之间的关系、空间布局以及场景的整体含义,甚至背后的文化知识,都能被其敏锐捕捉。 例如,它不仅可以轻松识别现实中的常见物品,还能根据光影、轮廓、位置等特征,准确识别出小动物的影子并判断出这是一只猫。
再如,当用户在清晨跑步时,看到光线从树林间洒出来,随手拍张照片询问豆包大模型,它能迅速识别出这是丁达尔效应,并详细科普其原理。
这种强大的内容识别能力,让AI能够更好地理解现实世界的视觉信息,为后续的理解和推理奠定了坚实基础。 理解推理能力是豆包・视觉理解模型的又一核心优势。 它不仅能识别图文信息,还能进行复杂的逻辑计算,在多个领域展现出了强大的解决问题的能力。 在教育场景中,拍下一道需要进行微积分运算的数学题,模型能很好地理解图片问题,并根据提示词进行对应的推理计算,给出清晰的答题思路,帮助学生更好地理解和解决数学难题。
除了识别与理解推理能力,豆包・视觉理解模型还拥有非常细腻的视觉描述和创作能力。
这也就不难理解为什么豆包视频通话能做到又快又准又好。 总而言之,AI和人类交互的方式变得越来越有趣了。 本文来源:量子位 |
IT百科
网友评论
聚超值•精选
