可用性测试分析做完了,设计师花了三天写了一份测试报告:18 条可用性问题,每条都配了截图、问题描述和根因分析。然后她报告发给产品经理,邮件标题写的是"上周可用性测试发现,请查阅"。产品经理回了两个字:"收到。" 但两个月后,18 条问题一条都没改。
要知道这并不是产品经理不重视可用性测试,而是他压根不知道该从哪条问题开始。报告里的 18 条问题,没有标注哪些最紧急,没有说先改哪个,也没有提到改一个大概要投入多少开发资源。他读完报告知道"产品有18 个可用性问题",但下一步该做什么,报告并没有告诉他。
所以,即便报告写得再完整,如果不能帮读者做出"先改哪个"的决定,就推不动不了任何改动。
报告的目的不是展示测试做了多少工作,而是能让特定的受众采取特定的行动。不同受众关注的问题不同,写报告之前需要先想清楚谁会读它、读完之后需要做什么。
当然,实际情况是不需要写 3 份完全不同的报告。一份完整报告搭配一份管理层摘要就够了:完整报告包含所有细节,面向设计和产品团队;管理层摘要只有一页,写最重要的三到五条发现和对应的建议,不含细节,供需要快速了解结论的人使用。
报告的开头,用半页以内的篇幅交代这次测试的来龙去脉:测试了什么产品、招募了几个什么样的用户、测了哪些任务、目的是回答什么问题。
这部分面向的是没有参与过测试的读者。读者在看到发现之前,需要先知道这些结论是怎么来的——用了几个用户、测的是什么阶段的产品、测了哪些核心流程。没有背景信息,读者无法判断结论的可信度,也无法判断结论是否和自己关心的问题相关。
关键发现是报告的核心,通常占最大篇幅。按严重程度排序:严重问题排在最前面,确保读者第一眼看到的是最需要处理的问题。
每条发现用统一的结构来写:

证据是报告说服力的来源。"用户找不到收藏功能"是一句陈述,读者可以质疑"也许只是这个用户不够仔细"。"五个用户中有四个在商品详情页停留超过 30 秒,但没有点击收藏图标,其中两个用户说'我以为那是个装饰'"——这是有数据和用户原话支撑的证据,读者很难用"个别用户的问题"来解释四个人的一致行为。
设计建议可以紧跟在每条发现之后,也可以单独成章,取决于报告的格式偏好。
建议必须写到具体可执行的程度,不能只给方向。
所有发现列出来之后,需要给出优先级排序,告诉产品团队先改哪些。如果把 18 条问题等长地列出来、不做排序,产品团队面对的是一张清单,每条看起来同样重要,结果是哪条都没有被优先处理。
优先级的排序框架:严重程度 × 修改成本。

修改成本不是设计师单独能判断的,需要和开发沟通。有些问题看起来只是改一个颜色,背后可能涉及组件库的修改,改动范围比表面看到的大。在排优先级之前,和开发快速对一下每条建议的改动范围,能让排序更准确,也能提高建议被采纳的可能性。
报告里的证据有三种形式,按说服力从高到低排列:用户原话、视频片段、设计师的概括描述。
用户原话的说服力最强,因为它带着真实的情绪和具体性。"用户在收藏功能上遇到了困难"是设计师的概括,读者可以质疑"也许只是这个用户不熟悉"。而"用户说'我以为那是个装饰,没想到能点'"是一个真实用户的真实感受,读者很难否认这个人确实是这么想的。在整理笔记阶段保留下来的用户原话,在报告里可以直接引用,不需要改写——改写往往会削弱原话的力量。
视频片段比文字描述更有冲击力。一段 30 到 60 秒的视频,显示用户在收藏页面反复尝试、最终放弃,比任何文字描述都更能让读者感受到问题的真实程度。如果时间允许,在报告发出之前剪出两三个关键片段,对应最重要的几个问题。不需要很多,两三个最能说明问题的场景就够了。
发报告不等于呈现发现。报告是参考材料,会议才是让关键人员理解发现、做出决定的场合。
会议的节奏建议如下:

会议的目标是做出决定,不是汇报工作。结束时每条重要发现都应该有明确的负责人和时间节点,而不只是"大家都知道了"。
可用性测试的价值,最终取决于它推动了什么改动,以及这些改动是否解决了测试发现的问题。
每条设计建议需要进入团队的迭代计划,变成有人跟进的设计任务。如果建议停留在报告里,没有对应的后续行动,测试的价值就没有被兑现。
改动上线之后,应该针对改动过的地方再做一次简短的验证——三到五个用户,只测改动涉及的任务,确认问题是否已经解决。这不需要完整的新一轮测试,几个小时就能完成,但它能确认设计改动确实生效了,而不是改完之后没人知道结果。
从更长的时间跨度看,可用性测试应该成为设计流程里的常规动作,而不是偶尔做一次的大项目。每个版本上线前做一轮、上线后做一轮,形成持续的迭代反馈。在这样的节奏下,每次测试的规模可以更小(三个用户、一两个核心任务),但持续积累下来对产品可用性的提升,远比每年做一次大规模测试更有效。
有0人收藏了本文