GenieWizard: Multimodal App Feature Discovery with LargeLanguage Models
GenieWizard:使用LargeLanguage模型发现多模式应用程序功能
以下是对论文《GenieWizard: Multimodal App Feature Discovery with Large Language Models》的详细总结,结合教育技术学视角的分析:
一、核心问题与背景
-
问题背景:
- 多模态交互(如语音+触摸)比传统图形交互更灵活,但开发难度大。
- 开发者难以预测用户可能的所有指令(如“显示附近$100以下的酒店”),导致41%的用户指令无法支持。
- 传统开发痛点:多模态应用需早期用户测试,但原型制作成本高,且无法覆盖所有可能的指令组合。
-
现有方案局限:
- GUI应用可用Figma等工具快速原型测试,但多模态应用缺乏类似工具。
- 现有框架(如ReactGenie)依赖开发者预先编写功能,无法自动发现缺失功能。
二、GenieWizard的核心创新
1. 核心思路
开发一个AI辅助工具