Sasha:使用大语言模型在智能家居中进行创造性目标导向推理——论文阅读
Sasha:使用大语言模型在智能家居中进行创造性目标导向推理
King E, Yu H, Lee S, et al. Sasha: creative goal-oriented reasoning in smart homes with large language models[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2024, 8(1): 1-38.
1. 引言与研究动机
智能家居系统的一个长期挑战是开发能够创造性地推断和响应用户目标的智能空间。当人们与现有的智能家居界面(如Alexa)进行对话交互时,很快就会发现这些系统难以将日常人类情境与适当的智能家居动作联系起来。例如,当用户说"让客厅舒适一些"时,人类能够将"舒适"的概念与环境的各种属性联系起来:温度、照明、音乐等。正确的响应会根据空间、可用参数和个人偏好而变化。然而,驱动现代智能家居的系统不幸地缺乏这种能力。
本研究引入大语言模型来解决这一挑战。LLMs是在多样化语料库上训练的通用语言模型,这些语料库涵盖了互联网上可用的大部分书面文本和代码。这些模型在许多下游任务上表现出了极高的性能,而无需针对特定用例进行重大模型更新。
2. 系统架构与初始原型
2.1 命令规范性谱系
图2展示了用户命令的不同规范程度:图中将命令分为三类,从左到右分别是良好规范(Well-Specified)、中等欠规范(Moderately Under-Specified)和完全欠规范(Completely Under-Specified)命令。良好规范的命令如"在晚上7点打开灯"明确定义了动作(打开)、目标设备(灯)和触发器(晚上7点)。中等欠规范的命令如"日落后保持良好照明"可能暗示了目标、动作和触发器,但没有明确指定它们。完全欠规范的命令如"帮我看得更清楚"没有明显的目标、期望的动作或触发器。
2.2 原型系统设计
图3描述了初始实验设置:系统接收带有命令和家庭模板的提示,LLM将设置分配给设备或创建自动化,最后解析响应的JSON内容。具体的提示结构包括:
对于即时目标的提示:
You are an AI that controls a smart home. You receive user commands and
assign settings to devices in response.
User command: [ command ]
Devices: { JSON }
If there are devices relevant to the user command, respond with the device
JSON with settings assigned in the form: { "status": "success",
"devices": { }, "explanation": "" }
对于持续目标的提示:
You are an AI that controls a smart home. You receive user commands and
create automation routines in response.
User command: [ command ]
Devices: { JSON }
Sensors: { JSON }
If there are devices relevant to the user command, respond with JSON that
describes a sensor trigger and how you would change the devices (the action)
based on that trigger.
3. 实证研究设计
3.1 家庭模板构建
研究构建了三个家庭模板,通过调整来自两个数据源的数据:IFTTT智能家居例程数据集和CASAs数据集中一个家庭的布局和传感器套件。
图6展示了三个家庭模型(、、)的设备分布。是最基本的智能家居,只有灯光。添加了下一批最受欢迎的类型(气候控制和娱乐),而再次添加了下一批最受欢迎的类型(安全、机器人吸尘器和杂项家电)。每个家庭都有相同的传感器套件。
图7显示了每个家庭模板的传感器布局:包括区域运动传感器、床运动传感器、沙发运动传感器、光照度传感器、温度传感器,以及全局传感器如本地时间、本地天气和用户位置。
3.2 用户调查设计
调查设计包括每个动作计划由5名参与者进行标注,使参与者能够比较对同一动作计划的多个用户感知。调查包含30个问题,大约需要45分钟完成。
4. 实证研究结果分析
4.1 质量评估指标
用户感知质量基于满意度评分,将五点量表从"非常不满意"到"非常满意"映射到数值评分。
表2展示了具有一致高、一致低和可变用户满意度的GPT-4生成的动作计划示例。高质量计划为完全欠规范的命令提供复杂解决方案。例如,对于"帮我降低电费",GPT-4将中唯一可用的设备(灯光)与降低电费的欠规范目标联系起来,并提出了一个传感器触发器和值(15分钟无运动)来完成它。
4.2 故障模式分析
图8展示了按故障模式划分的GPT-4生成动作计划的用户评分质量。错误条表示95%置信区间。用户对假阳性的评价比其他故障模式更严厉:"无选项存在"和"幻觉"具有最低的平均质量。
故障模式的频率分析显示(图9),当从家庭移动到时,"无选项"和"幻觉"故障的频率减少,因为越来越多的设备可用于满足目标。相反,"选项存在"故障的频率增加:当更多设备可用时,用户期望它们被定位。
4.3 相关性评估
图10展示了按家庭和命令目标类别分组的LLM生成动作计划的相关性得分。-1.0表示该类别中所有动作计划的所有设备都不相关;0.0表示没有目标或相关与不相关的平衡;1.0表示所有都相关。设备较少的家庭()中的动作计划更有可能定位最小相关集(1.0),但当目标不受支持时也会定位完全不相关的设备(-1.0)。
5. Sasha系统设计
5.1 迭代推理流程
图11展示了Sasha的迭代推理过程,将响应分解为四个组件:澄清(目标是否可用这些设备实现?)、过滤(哪些是相关设备?)、规划(如何使用这些设备实现目标?)和反馈(动作计划是否实现了目标?)。
5.2 组件设计细节
每个组件都使用特定的提示模板。例如,澄清步骤的核心逻辑是评估命令与可用设备之间的语义关系。如果存在相关设备,输出状态码为"成功";否则为"失败"并请求用户提供更多信息。
过滤步骤选择最小相关设备集,确保跨不同环境的一致相关性。规划步骤基于过滤后的设备生成具体的JSON动作计划。反馈步骤允许用户用自然语言优化计划的主观方面。
6. 系统评估
6.1 消融研究
表4总结了Sasha的定量结果。结果显示为相对于我们实证研究中零样本方法的测量差异。在消融研究中,我们测试了在完整家庭模板(包含所有设备及其设置)与简化设备列表上进行推理的效果。
关键发现包括:
- 将澄清与过滤分离可将GPT-4的准确率提高0.11
- 在设备列表而非完整模板上进行澄清可进一步提高性能
- 分离过滤和规划步骤可提高相关性得分
6.2 用户研究设置
图12展示了Sasha用户研究的测试家庭。我们邀请名参与者在测试家庭中执行日常生活活动时向Sasha发出无约束命令。测试家庭包含智能灯光、智能窗帘、咖啡机、电热水壶、风扇、带5种音乐流派的智能音箱、智能电视和"清洁机器人"。
7. 用户研究结果
7.1 定量分析
表6(附录D.2)提供了用户研究会话的定量总结。每个真实世界参与者(RWP)在3个预设场景中发出了无约束命令,每个场景有多个目标。关键指标包括:
- 平均每个目标需要3.39个命令(C/G)
- 反馈率(Fdbk)为0.27
- 假阴性率()仅为0.06
7.2 定性观察
研究揭示了五个关键观察:
-
松散的命令结构支持复杂的多部分目标:参与者利用Sasha的松散命令结构来发出包含多个步骤的命令。
-
用户利用反馈迭代优化动作计划:参与者通常以欠规范命令开始交互,然后通过迭代反馈优化动作计划。
-
需要对个人偏好和上下文的更高敏感性:一些交互突出了Sasha需要随时间学习个人偏好的需求。
-
计划可以引入用户可能自己想不到的创造性动作:在几种情况下,参与者依赖Sasha为他们做决定,或发现系统能够制定参与者本来不会考虑的计划。
-
复杂目标只需几次无约束交互即可完成:参与者报告平均约3个命令即可完成目标。
附录:数学推导
A. 相关性度量的详细推导
设为命令集合,为命令的目标类别,为LLM动作计划在响应命令时定位的设备目标类别集合,为家庭中设备支持的目标类别集合。
假阳性率(FP):
当系统创建针对一个或多个设备的计划,但家庭实际上没有任何与命令相关的设备时发生假阳性:
其中:
假阴性率(FN):
相反,当系统不创建计划但家庭有相关设备时发生假阴性:
其中:
准确率(Acc):
准确率捕获只在存在相关设备时才定位相关设备的计划部分:
相关性得分(Rel):
我们通过计算每个命令的得分来衡量系统输出的相关性,该得分基于每个命令生成的动作计划中包含的相关和不相关设备的相对数量:
其中:
这里表示相关设备的数量,表示不相关设备的数量。当所有设备都相关时,当所有设备都不相关时。
B. 相关性分析
使用Kendall’s tau-b()测试用户调查中质量标签与动作计划特征之间的相关性。测试可能不服从正态分布的两个变量之间的相关性,-1和1分别表示强负相关和强正相关,0表示无相关性。
给定我们任务的主观性程度(特别是关于用户感知质量评分),我们设定阈值为且。我们的阈值遵循建立至少"中等"相关性的常见准则。
研究发现假阳性与用户满意度之间存在强负相关:
这表明定位不相关或不存在的设备会被用户严厉评判。
C. 成本和延迟分析
令输入令牌数为,输出令牌数为。对于即时目标:
- :
- :
- :
对于持续目标,这些值增加到670、730和808。输出令牌从8到566不等。
单个智能家居命令的成本计算为:
其中是每1000个令牌的价格(GPT-3.5为$0.02,GPT-4为$0.03输入/$0.06输出)。
考虑到用户与家庭助手交互的纵向数据,这将导致:
- GPT-3.5:每天$0.10-$0.60
- GPT-4:每天$0.30-$1.00
- 点赞
- 收藏
- 关注作者
评论(0)