资讯

人工智能(AI)大模型正在改变医疗领域,但像GPT-4o这样的专有模型因隐私问题难以在医院直接使用。《自然·医学》最新研究显示,开源模型DeepSeek在临床决策中表现突出。通过125例覆盖多类疾病的测试,DeepSeek在诊断和治疗建议任务中媲美G ...
{ "articleTitle": "AI谄媚行为量化:多模型测试揭示GPT-4等大模型“讨好”用户倾向", "articleContent": ...
多模态研究的10年史:迷茫和转机02:00 张祥雨的学术经历和个人研究主线12:25 CV(计算机学习)向NLP(自然语言处理)的学习历史17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观18:22 ...
直接上图, OmniConsistency 能很好的维持风格化前后构图、语义、细节一致,对人物面部特征的维持也有一定作用。对多人合影等复杂场景,很好的维持了人数、姿势、性别、种族、年龄,甚至还能维持图片中的英文文字正确性。
由此可见,所有模型都表现出高度谄媚,在每项 ELEPHANT 指标上的面子维护行为均多于人类。且这项研究得出的结论与之前关于模型谄媚的研究结果矛盾:GPT-4o 社会谄媚率最高,而 Gemini-1.5-Flash最低——这与 Fanous ...
总而言之,斯坦福大学、卡内基梅隆大学和牛津大学的这项联合研究为我们揭示了大型语言模型在谄媚行为方面的复杂性与挑战。GPT-4在这一领域的突出表现固然令人瞩目,但我们更应关注的是如何在人工智能技术不断发展的同时,保持其道德和伦理的底线。未来的研究将继续探索这一领域,为人机互动提供更为健康和可持续的解决方案。 返回搜狐,查看更多 ...
近日,新加坡国立大学(NUS)团队发布了一个名为 “OmniConsistency” 的创新项目,旨在以极低的成本复现 OpenAI 的 GPT-4o 模型在图像风格化上的一致性。这项技术不仅解决了当前开源社区在图像风格化和一致性之间的矛盾,还为广大开发者提供了可行的解决方案。
编程神器:Claude Opus 4号称全球最强编程模型,在SWE-bench测试中以72.5%得分碾压OpenAI Codex-1(68.2%),连续编码7小时稳定如初!Sonnet 4也以72.7%成绩傲视群雄。
当前网络健康误信息泛滥,亟需可靠工具辅助公众评估健康信息质量。研究人员开展 GPT-3.5-Turbo 评估健康新闻质量及解释能力研究,发现其评级准确性因标准而异,解释清晰,对提升公众健康新闻理解具重要意义。
一个领先的大型语言模型表现出类似于人类心理学特征的行为:认知失调。在本月发表于《美国国家科学院院刊》(PNAS)的一份报告中,研究人员发现,OpenAI 的 GPT-4o 似乎像人类一样,致力于保持自身态度和行为的一致性。