在这样的背景下,AdiSingh独辟蹊径,创造了MC-Bench,这一平台以《我的世界》作为测试场景,让不同的AI通过相同的提示生成建筑作品。例如,提示可以是“仿若晶莹剔透的酒杯盛满了深红色的葡萄酒,反射出动人心魄的光彩。”然后,由用户评选这些作品的优劣,最后系统才会揭晓出哪个AI完成了该建筑任务。这种评测不仅更加直观,还能有效反映出AI在实际应用中的能力。
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)如果要衡量 AI 的智能程度,你会怎么做?让它解数学题、写代码,还是让它通过标准化考试?这些方法虽然严谨,但普通人往往难以直观理解 AI 的能力差异。近来,一位高三学生 Adi Singh ...
随着人工智能(AI)技术的迅猛发展,评测AI模型的方式也在不断进化。过往的标准化测试往往只能反映模型在特定任务中的表现,难以全面评估其实际能力,而由一位高三学生Adi Singh创立的网站MC-Bench则开辟了另一条道路,通过互动游戏《我的世界》(Minecraft)来衡量不同AI模型的智能表现。这一新颖的评测方法不仅增强了评测的趣味性和直观性,也为人工智能技术革新提供了深度解析的契机。
从技术上讲,MC-Bench 是一个编程基准,因为模型需要编写代码来创建所提示的构建,如「冰霜雪人」(Frosty the Snowman)或「原始沙滩上迷人的热带海滨小屋」(a charming tropical beach hut on a ...
由于传统的AI 基准测试技术已被证明不够充分,AI 开发者开始采用更具创造性的方式来评估生成式 AI 模型的能力。对于一组开发者来说,这就是微软旗下的沙盒建造游戏 Minecraft。 Minecraft Benchmark (或 ...
杉果Sonkwo on MSN19 天
MC网站2025年游戏得分排行简榜公开MC网站2025年游戏得分排行简榜公开 近日推特用户CultureCrave整理了MC网站2025年目前为止所有新游的媒体评分简榜,排名前三的分别是《双影奇境》91分、《怪物猎人:荒野》89分、《天国:拯救2》88分。并且目前为止MC网站上仅有《双影奇境》一款媒体评分突破90分的作品。
来自MSN6 个月
《暗影诅咒》制作人称“现在玩家太过关注MC评分,对原创游戏不利”须田刚一认为,关键原因之一就是现在的玩家对MC网站的评分关注得太多了,这不利于原创游戏发挥。 “每个人都过于关注和在意 Metacritic 评分。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果