一场可用性测试,已经进行到第三个任务。用户需要找到"关闭消息推送"的入口,但她已经在同一个页面上滑了将近两分钟。她先点了页面顶部的头像,发现不对,退回来;又点了底部的"发现",找了一圈还是没有找到,再退回来;之后她的手指悬在屏幕上方许久,不知道下一步该点哪里。
主持人坐在旁边看着这一切,越来越坐不住。两分钟的沉默让气氛变得异常尴尬,主持人终于忍不住开口了:"你可以试试右上角那个齿轮图标。"
用户立刻点了齿轮,进了设置页,三秒钟就找到了推送开关,任务完成。主持人在笔记本上记下"任务三:已完成",心里松了口气。
但显然这条记录已经没有任何意义了,这次测试原本想要确认"用户能不能自己找到关闭推送的入口",而用户刚才的操作已经说明了答案——她找不到。主持人的那句提示让她跳过了卡住的环节,任务虽然完成了,但测试真正需要的数据(用户在哪里卡住、为什么卡住、最终会不会放弃)全部丢失了。用户卡住的那两分钟才是这个任务最有价值的观察部分,而主持人的一句善意的提醒,确把它破坏掉了。
主持人不是老师,不是引导者,也不是客服。主持人是观察者,职责是创造一个用户能自然行事的环境,然后静静地看。
这需要主动压制帮助用户的冲动——看到用户卡住而不伸手,对大多数人来说不是一件自然而然的事。帮助是社交情境里的本能反应;测试情境要求主持人压制这个反应,因为用户遇到困难正是测试需要记录的数据。
换个角度想:如果一场测试下来,五个用户全部顺畅完成了所有任务,这是好事吗?不一定。有可能是设计本身没有问题,但也有可能是主持人在用户卡住的时候给了太多帮助,让本该暴露的问题被跳过了。主持人的职责不是让测试顺利跑完,而是让测试如实记录下用户遇到的每一个障碍——用户卡住、困惑、走错路,这些才是测试要收集的核心数据。
开场白通常只有几分钟,但它决定了用户在接下来整场测试里的状态。开场白没有说清楚的事情,后续很难弥补。
有几句关键的话,需要在开场白里明确表达出来:
"我们今天测试的是这个产品,不是在测试你。如果你遇到困难,那是产品的问题,不是你的问题。"这句话要直接说出来,不要含糊表达。因为很多用户进入测试时有"表现焦虑"——他们想表现得好,不想在主持人面前显得不会用。这种焦虑会让他们在卡住时掩盖困惑,假装顺利,甚至猜测主持人"希望"他们怎么做。开场白里明确说清楚,能显著降低这种焦虑,让用户在卡住时更愿意说出来,而不是默默强撑。
"如果你卡住了,我可能不会立刻帮你。这不是因为我冷漠,而是因为我想看清楚是什么让你卡住了。请你继续尝试,把你的想法说出来。"这句话需要提前打好预防针,否则用户在卡住时向主持人求助,主持人沉默不答,用户会感到困惑甚至尴尬。提前说明主持人沉默的原因,用户能理解并接受这个规则。
"在操作的过程中,请尽量把你心里的想法说出来——你在想什么,这个按钮你以为是什么,你不确定的地方说出来。"这是引导出声思考的说明,需要在开场白里说清楚,必要时用一个简单的示范让用户理解。
用户卡住时,主持人的第一反应应该是保持沉默,继续观察。
用户沉默不等于测试卡死了。很多情况下,用户在思考,在扫描页面,在内心做判断——这个过程本身就是测试想观察的行为。主持人过早介入,会打断这个过程,也会让用户觉得"主持人来帮我了",停止自己的探索。
等多久,没有一个固定的数字,但 30 到 60 秒是常用的参考。核心判断是:用户的行为有没有新的变化。如果用户还在移动手指、还在扫描页面,说明他还在探索,不需要介入。如果用户的操作完全停止,表情放空,或者开始把目光转向主持人,说明他已经放弃了主动探索,这时候可以用中性问题引导他继续。

这是测试现场最常出现的情况之一,也是最考验主持人的时刻。
直接回答会让这个任务的数据失效。回避不答用户又会感到困惑。处理方式是把问题反回去,但要用不带压力的方式:
"这正是我想观察的地方——如果你在家自己用这个 App,你会怎么做?"
"没有时间限制,你现在最想试的是什么?"
"你有什么想法,都可以先试试看。"
这几种回答都在传递同一个信息:主持人不会帮忙,但用户继续探索是被允许的,也是被期待的。用中性、温和的语气说出来,用户通常能接受并继续。
每个任务结束之后,追问是收集"为什么"的关键机会。用户刚完成(或放弃)一个任务,记忆和情绪都是新鲜的,这时候追问的质量最高。
追问的原则是中性——问题本身不能包含主持人对用户行为的判断,否则用户会顺着主持人的预设来回答,而不是说出真实的想法。
中性追问的几种形式:
"你刚才在这里停了一下,当时在想什么?"——指向一个具体的行为节点,邀请用户解释。
"你最开始想去哪里找这个功能?"——了解用户的初始预期,和实际找到的路径做对比。
"那个按钮,你当时以为它是做什么的?"——了解用户对界面元素的理解,是否和设计意图一致。
不该问的追问:
"你是不是觉得这里不好找?"——问题里包含了答案,用户会顺着说"对,不好找",这不是用户的真实判断,是对主持人问题的回应。
"你觉得这个设计好不好?"——在任务追问阶段问整体评价,容易得到模糊的表态,而不是具体的行为原因。

不是所有情况下主持人都应该沉默到底。有几种情况可以主动介入:
用户在同一个地方卡住超过三四分钟,行为没有任何新的变化,继续等待不会产生新的观察信息。这时候可以说:"我们来停一下这个任务——你刚才遇到了什么让你卡住的地方?"然后让用户解释,记录原因,再给用户看正确路径,之后移到下一个任务。记录里注明"任务失败,需要主持人介入,原因是……"。
测试时间不够用,后续还有更重要的任务需要完成。主持人需要在时间管理上做判断——如果前面的任务用了太多时间,后面重要的任务没有时间做,整次测试的目标就无法完成。这时候适当提前结束某个任务,移到下一个,是合理的取舍。
用户遇到了技术问题(原型跳转失败、设备卡死),这不是可用性问题,主持人可以直接介入处理,说明是技术问题,然后继续测试。
主持人同时观察和记录,精力会被严重分散。注意力在用户身上的时候,笔记就会落后;写笔记的时候,用户的表情和行为细节就会被错过。
理想的安排是两人分工:一人主持,全程只关注用户,不做记录;另一人专职做观察记录,坐在用户视野以外的位置(不要坐在用户对面,视觉存在感太强,会让用户分心)。观察员记录的内容包括:用户在哪里停顿、停了多久,点了哪些错误的元素,说了什么关键的原话,任务最终是完成还是失败。
如果只有一个人能参与测试,在每个任务结束后的追问阶段,快速用几个关键词写下刚才任务里最重要的三四个观察。不要等到全部任务结束后再回忆——任务越多,前面任务的细节记忆会越模糊。
远程测试的主持逻辑和面对面一样,但有几个额外的技术和操作细节需要提前处理:
在测试正式开始前十分钟进行技术检查:屏幕共享是否正常,麦克风是否清晰,录制工具是否已经开启。技术问题在测试开始后再处理,会消耗测试时间,也会让用户的状态被打断。
远程测试看不到用户的身体语言,面部表情也可能因为摄像头角度不清晰。需要更依赖用户的语言输出,这意味着开场时出声思考的引导比面对面更重要,测试过程中唤起出声思考的频率也需要更高。
用户在自己家里做远程测试,干扰因素会更多——家人突然进来、手机响了、孩子叫了。主持人遇到这种情况,等用户处理完再继续,不要在用户被打断的时候强行推进任务。如果干扰太严重影响了数据质量,在记录里注明,分析阶段参考时需要考虑这一因素。
有0人收藏了本文