2024年另类AI评测标准走红:“威尔・史密斯吃意大利面”领衔
1 月 1 日消息,据 报道,随着人工智能视频生成技术的不断发展,一个有趣的现象开始在业内流行:当一家公司发布全新的人工智能视频生成器时,似乎总有人会第一时间用它来制作威尔・史密斯吃*面的视频。这不仅演变成了一种网络热梗,更成为衡量新型 AI 视频生成器性能的非*基准 —— 检验其能否逼真地呈现史密斯狼吞虎咽吃面的场景。史密斯本人也在今年二月通过 发布了一段模仿视频,亲自参与了这场网络狂欢。
注意到,“威尔・史密斯吃*面”只是 2024 年人工智能领域众多奇特“非*”评测标准中的一个,此前还有一位 16 岁的开发者开发了一款应用程序,让人工智能控制《我的世界》()游戏,并以此测试其建筑设计能力。与此还有一位*程序员创建了一个平台,让人工智能在“你画我猜”()和“四子棋”( 4)等游戏中相互对战。
人工智能领域不乏更学术化的性能测试,那么为何这些略显怪异的测试反而能够迅速走红呢?原因之一在于,许多行业标准的人工智能基准测试对普通人来说过于晦涩难懂。企业经常标榜其人工智能在奥林匹克数学竞赛或博士级别难题中的解题能力,但大多数人使用聊天机器人只是为了聊天或回复电子邮件。
即使是行业内普遍采用的评测方法,也未必更有效或更具信息量。以受到众多人工智能爱好者和开发者密切关注的公共基准测试平台“聊天机器人竞技场”( Arena)为例,其允许任何网络用户对 AI 在特定任务上的表现进行评分,例如创建网页应用程序或生成图像。但参与评分的用户往往不具有代表性,他们大多来自人工智能和科技行业,并且他们的投票也常常基于个人且难以捉摸的偏好。
像“四子棋”“我的世界”和“威尔・史密斯吃面条”这类奇特的人工智能基准测试显然不是严谨的实证研究,甚至不具备普遍适用性。因为即便 AI 能够完美生成“威尔・史密斯吃面条”的视频,也并不意味着其能很好地生成汉堡的图像。
这些另类的 AI 基准测试可能在短期内不会消失,毕竟它们不仅具有娱乐性,而且还易于理解。2025 年,又会有哪些新奇的基准测试会走红呢?
- 1起动机哒哒响启动不了怎么解决,冬天开暖风选择外循环还是内循环
- 2英亩换算平方米,1公顷等于多少亩和平方米?详细换算方法解析
- 3三菱奕歌发动机多大马力,共享兰博基尼动力,奥迪RSQ8最新曝光
- 4192.168.1.1无线路由器,如何通过192.168.1.1地址登录路由器设置界
- 5大理旅游团,大理古城4天参团游价格解析到大理古城旅游四天费用多
- 6电动四轮车在哪里买,两轮、三轮、四轮电动车生产基地大揭秘,全国分
- 7汽车每周发动一次,汽车长期不开每周原地怠速30分钟的好处与注意事
- 8英语商务书信的正确写法,写作指南关键注意事项与技巧解析
- 9路虎发现运动版上市9个月跌破27万,价格暴跌的七款豪车盘点
- 10基础油有哪几种,润滑脂dn值详解如何选择适合的润滑脂等级
- 11路虎发现运动版,奇瑞捷豹路虎新篇章开启?
- 12一汽大众新能源,一汽新能源领域发展现状与未来规划深度解析
- 13汽车每周发动一次,车子一个星期开一次到两次的坏处及其对车辆的影
- 14重庆南坪有个儿童乐园吗,最新野炊地图不负春光,探索最佳野炊地点
- 15汽车每周发动一次,汽车长期不开每周原地怠速30分钟的好处与必要性

推荐

最新标签