2026工业设计用户研究与可用性测试实战指南——从用户洞察到产品迭代的完整方法论
凌晨两点,我在办公室盯着刚跑完的可用性测试录像,屏幕上一个中年男人连续三次没找到APP里的"订单取消"按钮。他皱眉、叹气、最后直接关掉了页面。这个场景我见过太多次了——2025年我们赫兹团队做了27个项目的用户研究,坦白讲,大部分产品在上线前都有类似的问题,只是很多团队根本没机会看到这些录像。工业设计这个行当,越来越多人意识到光靠直觉做产品行不通了,但真正把用户研究方法落地的团队,说实话,十个里面不到三个。
为什么2026年你还得重新学用户研究
先讲个有意思的数据。根据NN Group 2025年底发布的可用性基准报告,全球范围内仍有67%的产品在首次可用性测试中暴露出至少3个严重可用性问题。这个数字跟五年前比只下降了不到8个百分点。说明什么?说明大家都在喊"以用户为中心",但实际执行层面根本没跟上。
你可能会说,我们公司已经在做用户访谈了啊。但坦白讲,大部分所谓的用户研究,本质上是"求证式研究"——产品经理心里已经有了答案,找几个用户来聊只是为了证明自己是对的。这不是研究,这是心理按摩。
真正有用的用户研究,应该在你连产品长什么样都不知道的时候就开始了。我们赫兹在2024年给一个智能家居品牌做前期调研时,花了三周时间在用户家里做实地观察,发现了一个有意思的现象:用户并不是不想用智能场景联动,而是设置门槛太高导致70%的人买了设备后只用最基本的开关功能。这个发现直接改变了客户的硬件策略——从堆功能转向简化交互。
可用性测试的5个核心指标,你看懂了几个
做可用性测试不是找个会议室让用户点两下就完事了。我们团队内部有一套指标框架,下面这个表是2025年我们复盘所有项目后整理出来的核心维度:
| 指标 | 定义 | 我们项目的行业基准值 | 低于该值需返工 |
|---|---|---|---|
| 任务完成率 | 用户无辅助下独立完成核心任务的比例 | ≥85% | <70% |
| 操作耗时比 | 用户操作时间 / 专家操作时间 | ≤2.5倍 | >3.5倍 |
| 首次点击正确率 | 第一个动作就点对位置的概率 | ≥78% | <60% |
| 错误恢复率 | 出错后能自行纠正的比例 | ≥60% | <40% |
| SUS评分 | 系统可用性量表(10题标准化问卷) | ≥72分 | <55分 |
有意思的是,很多来找我们做咨询的客户,最关注的是NPS(净推荐值),但NPS是个滞后指标——等你拿到NPS数据,用户早就走了。我们更建议你在测试阶段把任务完成率和首次点击正确率盯紧,这两个指标但凡有一个亮红灯,NPS后面一定好看不了。
任务完成率为什么是底线
2025年有个医疗器械客户来找我们,他们花了大半年做了一个家用血糖仪的APP,界面设计得很漂亮,UI团队拿过奖的那种。结果一测任务完成率——只有54%的用户能在5分钟内完成一次完整的血糖记录流程。54%是什么概念?就是你每两个用户中就有一个用不了你的核心功能。后面我们帮他们做了三轮交互原型迭代,把完成率拉到了89%。说句实话,问题根本不在视觉设计上,而是信息架构从一开始就没理顺。
眼动追踪到底有没有用
这个问题几乎每个新客户都会问。我的回答是:有用,但它不是万能钥匙。
2024年我们给一个车载HMI项目做研究时用了Tobii Pro的眼动仪,测试了18个被试者。结果发现一个很有意思的现象——驾驶员在时速60km/h的情况下,视线离开前方道路超过1.2秒,事故风险会提升3.7倍。这个数据帮助我们说服客户把二级菜单的交互层级从3层压缩到了1层。
但坦白讲,眼动追踪在消费电子产品上的投入产出比没那么高。一台眼动仪便宜的也要两三万,招募被试、布置实验室、后期数据分析,一套下来四五万打底。如果你做的是一个简单的家电控制面板,直接用任务完成率去卡就已经够了,没必要上眼动。
注意,下面这段衔接可能有点硬,但确实是我最近感触比较深的——
用户研究的三大常见翻车现场
这些年我们接触了上百个客户,见到太多同样的坑反复有人往里跳。我列了三个最常见的:
| 翻车类型 | 表现 | 我们见过的真实案例 |
|---|---|---|
| 样本偏差 | 只找年轻人/公司内部员工做测试 | 某智能门锁品牌招募了20个25-30岁程序员,任务完成率96%,上市后真实用户完成率只有58% |
| 引导式提问 | "你觉得这个按钮是不是很容易找到?" | 某家电客户访谈中80%问题为引导式,实际可用性问题一个没测出来 |
| 测试任务太简单 | 只测主流程,不测边界场景 | 某APP崩溃场景测试中,断网+弱光+单手操作三个条件叠加后任务完成率从91%降到23% |
有意思的是第三个问题最容易被忽视。你想象一下,你在办公室里开着大灯、连着千兆WiFi、用着最新款的手机去测一个APP——这跟你用户在地铁上、手机电量剩15%、一手拎菜一手划屏幕的场景,根本是两个世界。所以我们赫兹做测试时有个规定:至少30%的测试任务要在"恶劣环境"下完成,比如弱光、嘈杂、单手、低电量这些真实场景。这个规矩是2023年我们吃了一次亏之后定下来的。
NPS、SUS、QUIS:三大问卷怎么选
做可用性测试最后一个环节通常是问卷。很多人上来就问"哪个问卷最好",其实没有最好的,只有最合适的。下面这个对比表可以帮你快速做决定:
| 问卷类型 | 题量 | 适用阶段 | 我们的推荐场景 | 参考基准分 |
|---|---|---|---|---|
| SUS | 10题 | 产品中期/终期 | 最通用,几乎所有项目都用它做横向对比 | 行业平均68分,优秀产品≥80分 |
| NPS | 1题+追问 | 上市后追踪 | 适合做长期健康度监测,不适合迭代期细节诊断 | 行业均值30-50分 |
| QUIS | 27题 | 产品终期/竞品对比 | 需要精细化拆解界面满意度时使用 | 无统一基准,按维度对比 |
2025年我们给一个B2B工业软件客户做完SUS测评后,得分只有52分,远低于行业平均水平。但单看分数没意义,我们逐题分析后发现,失分最严重的那道题是"我觉得这个系统用起来很复杂"——这个反馈直接指向了信息架构问题,而不是某个按钮好不好看。你看,选对问卷工具,能帮你省掉至少两轮无效迭代。
推荐5本用户研究必读书(2026版)
经常有人问我入门用户研究看什么书。下面这5本是我们赫兹内部新人培训的指定读物,按阅读顺序排的:
- 《Designing for the Digital Age》 Kim Goodwin著 —— 不废话,直接教你从零到一搭建用户研究框架。我们团队评价最高的一本,没有之一。
- 《Don't Make Me Think》 Steve Krug著 —— 经典中的经典。坦白讲,这本书出版快25年了,但里面讲的可用性常识到今天还有90%以上适用。任务完成率的思路在这本书里就有雏形。
- 《Interviewing Users》 Steve Portigal著 —— 专门教你怎么做用户访谈的,里面有一个"五问法"的技巧我们团队一直在用,能帮你识别出用户说的和用户做的之间的差距,这个差距通常有40%左右。
- 《Quantifying the User Experience》 Jeff Sauro & James R. Lewis著 —— 讲统计方法的。如果你想正经分析NPS、SUS这些数据,这本绕不开。
- 《The Handbook of Usability Testing》 Rubin & Chisnell著 —— 实操手册,里面甚至附了完整的测试脚本模板。我们2025年给一个智能穿戴项目做测试时,直接用了这本书里的招募筛选表改出来的方案。
另外补充一句,根据2025年SIGCHI的一项调查,参与过至少3个完整可用性测试项目的设计师,其产品上线后的用户留存率平均高出没参与过的设计师约22%。数据不能说明一切,但这个趋势值得你思考。
我们赫兹的"四轮测试法"迭代模型
接下来聊点我们自己的东西。这些年摸索下来,我们总结了一套适合小团队的迭代测试模型,不一定适合所有项目,但对大部分消费电子和智能硬件品类是够用的。
第一轮:低保真原型测试(第1-2周) 用纸面原型或Axure草图,测信息架构和导航逻辑。这个阶段我们要求任务完成率达到60%以上才能进入下一轮。达不到?回去改结构,别急着上高保真。
第二轮:高保真交互原型测试(第3-4周) 用Figma或Sketch做可交互原型,加入真实文案和关键动效。这个阶段开始收集SUS分数和首次点击正确率。目标:SUS≥65分,首次点击正确率≥75%。
第三轮:完整功能实测(第5-6周) 用开发完成的工程机或Beta版,在真实使用场景中测。我们2025年给一个户外电源客户做这轮测试时,把设备拉到户外实际用了三天,发现了8个实验室里完全发现不了的问题。什么叫真实场景?就是你坐在有空调的实验室里永远不会想到的问题——比如阳光直射下屏幕反光导致操作失误率升高了34%。
第四轮:灰度发布后追踪(第7-10周) 小规模上市后,通过后台埋点数据+远程可用性测试持续监控。这个阶段重点看NPS和用户流失节点。我们有个客户在这一轮发现了一个诡异的数据——用户在周五晚上的退出率比工作日高2.1倍,后来一查,是因为周末推送的广告太频繁。
说实话,这个流程看着挺规整的,但实际执行的时候很少能完全按计划走。比如2024年有个客户,他们CPO要求三周内出结果,我们只能把第一轮和第二轮合并了。结果是测试数据不够精细,后面补做了一轮才把问题兜住。所以,方法论是死的,你是活的。
FAQ 常见问题
Q1:小团队预算有限,最低成本的可用性测试怎么做?
找5个目标用户,准备一份低保真原型,一台手机录屏,一张任务清单就够了。据我们统计,5个用户能发现大约85%的可用性问题(参考Nielsen Norman Group的经典研究)。不用眼动仪,不用实验室,甚至不用专业问卷。先测起来,比什么都强。
Q2:招募测试用户,一般标准是什么?
核心原则:找你的真实目标用户,而不是随便拉人。我们一个常规项目会设定3-4个筛选条件,比如"过去6个月内购买过同类产品"、"年龄在25-45岁之间"等。2025年我们帮一个家电品牌做测试,筛选了127份报名表,最终只用了18个符合条件的被试者。别为了凑人数降低标准,那是给自己埋雷。
Q3:NPS达到多少才算及格?
不同行业差异很大。消费电子类NPS均值通常在30-50之间,苹果的NPS在2025年第四季度约在72分左右(数据来源:CustomerGauge 2025年报)。但坦白讲,NPS更适合做自身产品的纵向对比,而不是跟别人比。你上个月NPS 28,这个月32,那说明方向对了。
Q4:测试中发现的问题,怎么排优先级?
我们的做法是按"严重程度×发生频率"来排序。一个严重程度虽高但只有1个人碰到的问题,优先级排在一个中等严重程度但6个人都碰到的问题后面。具体可以参照Jakob Nielsen的严重评级(0-4级),我们内部规定:3级及以上且出现频次≥3次的问题必须在本轮修复。
Q5:用户说自己"很喜欢",数据却显示任务完成率很低,信哪个?
信数据。这是一个经典的现象——社会期望偏差。用户出于礼貌或不想让你难堪,嘴上说的跟手上做的不一致。这种情况在我们项目中出现的概率大约有35%。解决方案:交叉验证。比如你说你很喜欢,那请问你愿意把它推荐给你的朋友吗?追问比直接信更有用。
Q6:是否需要单独配一个用户研究员?
如果你的团队年产出超过5个产品/功能,建议配。根据2025年UXPA的薪酬报告,国内用户研究员的平均年薪在18-35万之间。但如
Q7:远程测试和线下测试怎么选?
各有利弊。远程测试(用UserTesting、Lookback等工具)成本低、招募快、样本量大。线下测试能观察到微表情、肢体语言等非言语信息。我们的建议:前期原型测试用远程就够了,终期实测建议线下。2025年我们帮一个厨电品牌做线下测试时,发现用户用烤箱触控面板的时候会下意识把手在围裙上擦一下再操作——这个细节远程测试完全捕捉不到。
讲个案例收尾吧
2025年三季度,我们接到一个做智能咖啡机的客户。他们第一代产品上市后销量不错,但后台数据发现一个奇怪现象:购买后30天内,有41%的用户从未使用过"预约冲泡"功能,而这个是他们花了最多研发资源的主打卖点。
客户一开始判断是用户没养成习惯,需要加大教育力度。但我们做了两轮可用性测试后发现,真实原因是设置预约流程需要7步操作,而其中第5步——"选择研磨度"——没有默认值,用户卡在这儿就放弃了。你想想,一个每天早上赶着出门的人,怎么可能有耐心在一个触屏上点7步?
我们给的建议很直接:砍掉"研磨度"的手动选择,改成系统根据豆子类型自动匹配。第5步直接删掉,7步变成6步。后来又做了一版优化,把"预约时间"的输入方式从数字键盘改成了滚轮选择。最终把预约任务完成率从23%拉到了78%。
这个客户后来请我们吃饭,客户那边的产品负责人喝了几杯之后说了句话我印象很深:"我们团队做这个功能做了八个月,没想到问题出在最基础的操作流程上。"
你说,如果他们在立项初期就做一轮摸底测试,是不是那八个月能省掉至少一半?






