当前位置：首页 > article >正文

[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析

article 2025/8/18 19:11:08

【论文解读】Search Arena：搜索增强LLMs的用户偏好与性能分析

论文信息

作者: Mihran Miroyan, Tsung-Han Wu, Logan King等  
标题: Search Arena: Analyzing Search-Augmented LLMs  
来源: arXiv preprint arXiv:2506.05334v1, 2025

一、研究背景：当LLMs需要“上网查资料”时，我们如何评估它？

想象你在问AI“2025年最新的隐私法规有哪些”，传统的大型语言模型（LLMs）只能依赖训练时的静态数据，可能给出2023年的信息，而搜索增强LLMs（如联网的ChatGPT）则能实时检索网页，给出最新政策。但这类“会搜索的AI”面临两大难题：

缺乏真实场景的评估数据：现有数据集（如SimpleQA）多是单轮、英文、事实类问题（如“巴黎人口多少”），但现实中用户会问“分析新能源汽车政策对股市的影响”这类需要多轮推理、跨领域综合的问题。
用户偏好不明确：当AI回答时引用10个来源，其中3个相关、7个无关，用户会觉得更可信吗？不同来源（如维基百科vs.科技博客）对信任度的影响如何？

类比：传统LLMs像“闭卷考试的学生”，搜索增强LLMs像“开卷考试的学生”，但我们缺少“多样化的考试题”（数据集）和“评分标准”（用户偏好分析）。

二、创新点：用2.4万次真实对话，揭开搜索增强AI的“用户偏好密码”

1. 首个大规模多轮对话数据集：Search Arena

数据规模：收集24,069次多轮对话，覆盖136个国家、70种语言（英语58.3%、俄语11.8%、中文7.0%），包含12,652次用户偏好投票。
场景多样性：用户意图分为9类，如事实查询（19.3%）、信息综合（18.6%）、分析建议（10.9%）等，而非单一事实检查。例如：
- 事实查询：“Switch 2的价格是多少？”
- 分析建议：“推荐适合初学者的平价跑鞋”。

2. 发现用户偏好的“表面现象”与“深层矛盾”

引用数量的陷阱：用户更偏好引用多的回答，即使部分引用与内容无关（相关系数β=0.273）。例如，回答“曼彻斯特联最新转会新闻”时，引用5个体育新闻网站的回答比引用3个维基百科的更受欢迎，尽管维基内容可能更权威但过时。
来源类型的偏见：社区平台（如Reddit、Substack）和科技博客（如Stack Overflow）比维基百科更受青睐（β=0.061 vs. β=-0.071），可能因前者内容更实时、贴近用户需求。

3. 跨场景实验：搜索增强是否“万能”？

实验设计：
- 将非搜索LLMs（如传统GPT-4）放入“搜索密集场景”（如实时数据查询），发现其表现显著低于搜索增强模型（p=0.009）。
- 将搜索增强模型放入“非搜索场景”（如创意写作），其表现与传统LLMs相当，甚至在事实类问题中更优（p=0.012）。
结论：搜索增强不会拖累非搜索任务，反而能提升事实类表现；但纯依赖模型内部知识，在搜索密集场景中会“露怯”。

三、研究方法：如何从2.4万次对话中“挖宝”？

1. 数据收集：众包平台+双模型对比

搭建Search Arena平台（嵌入Chatbot Arena），用户每次提问后，匿名展示两个模型的回答，用户投票选择更优者。
模型覆盖13个主流搜索增强LLMs（如Gemini、Perplexity Sonar），支持多轮对话和实时引用。

2. 数据分析：从“投票”到“影响因素”的层层拆解

用户意图分类：用GPT-4.1标注9类意图，人工验证一致性（Cohen’s kappa=0.812），例如“如何用uBlock Origin屏蔽域名但允许子分支”属于“指导”类。
偏好建模：使用Bradley-Terry模型分析影响投票的因素，如回答长度（β=0.334，用户偏好更长回答）、搜索上下文窗口大小（窗口大的模型胜率高63.9% vs. 57.6%）。
引用归因分析：用LLM解析20,000+网页内容，发现用户对“支持性引用”和“无关引用”的偏好无显著差异（β=0.29 vs. β=0.27），暴露“重数量轻质量”的问题。

四、主要贡献：给搜索增强LLMs研究的“三件套”

数据集开源：释放24k对话+12k投票数据，包含模型响应、引用来源、用户意图等元数据，支持多语言和多轮场景研究。
用户偏好指南：揭示“引用数量≠可信度”“社区内容＞百科全书”等现象，为模型设计提供方向（如优先引用实时社区资源，优化引用过滤机制）。
跨场景性能图谱：证明搜索增强在事实类任务中的必要性，建议模型根据场景动态切换“搜索模式”与“内部推理模式”。

五、总结：当AI学会“查资料”，我们需要更聪明的“判卷标准”

Search Arena通过大规模真实对话，揭开了搜索增强LLMs的用户偏好“黑箱”：用户既依赖引用的“数量安全感”，又隐含对实时性和社区内容的偏好。这提示研究者：

未来方向：开发“智能引用系统”，自动过滤无关来源，增强归因准确性；
挑战：如何平衡回答长度与信息密度，避免“冗长但空洞”的响应。

论文为评估“会搜索的AI”提供了新基准，但正如作者所言：“用户对引用的盲目信任，仍是可信AI路上的一颗暗雷。”

http://www.lryc.cn/news/2403774.html

相关文章：

中电金信：从智能应用到全栈AI，大模型如何重构金融业务价值链？

巴西医疗巨头尤迈Kafka数据泄露事件的全过程分析与AI安防策略分析

快速上手 Metabase：从安装到高级功能实战

多区域协同的异地多活AI推理服务架构

Linux基础命令which 和 find 简明指南

【学习记录】在 Ubuntu 中将新硬盘挂载到 /home 目录的完整指南

思尔芯携手Andes晶心科技，加速先进RISC-V 芯片开发

kafka消息积压排查

drawio 开源免费的流程图绘制

YOLOv8 升级之路：主干网络嵌入 SCINet，优化黑暗环境目标检测

传输层：udp与tcp协议

centos7.9源码安装zabbix7.12，求赞

亚远景科技助力东风日产通过ASPICE CL2评估

Go语言进阶④：Go的数据结构和Java的有啥不一样

基于JWT+SpringSecurity整合一个单点认证授权机制

IDEA 打开文件乱码

第2章：Neo4j安装与配置

Shell 命令及运行原理 + 权限的概念（7）

抽奖系统核心——抽奖管理

Android 蓝牙通信

任务调度器-关于中心化调度 vs 去中心化调度的核心区别

二、【ESP32开发全栈指南：ESP32 GPIO深度使用】

力扣刷题（第四十九天）

机器学习：集成学习概念和分类、随机森林、Adaboost、GBDT

基于J2EE架构的在线考试系统设计与实现【源码+文档】

联想拯救者R9000P 网卡 Realtek 8852CE Ubuntu/Mint linux 系统睡眠后，无线网卡失效

Python训练营打卡 Day46

解决微软应用商店 (Microsoft store) 打不开，无网络连接的问题！

《影像引导下骨盆创伤手术的术前骨折复位规划：基于学习的综合流程》|文献速递-深度学习医疗AI最新文献