一家面向中老年用户的健康管理 App,他们的设计师准备做可用性测试,招募的时候图方便,找了几个身边的同事和朋友——都是 25 到 30 岁、每天使用智能手机的互联网从业者。测试做得很顺利,没有发现什么大的问题,大家都出色的完成了任务,只提了几条小建议,设计师觉得测试做的很成功。
产品上线后,客服电话接连不断,很多用户反馈说不知道怎么用。这些真实用户大都是 60 岁左右、接触智能手机不超过两年的中老年人。他们遇到的障碍,和测试中那五个 28 岁的互联网人所遇到的使用障碍,根本不属于同一类。虽然测试做了,但是是在错误的用户身上做的,结论对设计显然没有任何帮助。
可用性问题不是凭空存在的,它们是在特定的用户遇到特定的产品时产生的。同一个界面,一个每天用手机的年轻人和一个刚学会用智能手机的老年人,遇到的困难完全不同;一个对这类产品毫无经验的新手和一个已经用了三年的老用户,遇到的困难也完全不同。
如果测试里的用户不是产品的目标用户,测试发现的问题就不是目标用户的问题,两类人群遇到的问题通常并不重叠。改了测试里发现的问题,目标用户遇到的真实障碍可能一点也没有少。
招募错误的成本很高——用错误用户测试得到错误结论,不只是浪费了这次测试的时间,还可能让团队产生"我们做过测试,没有大问题"的错误安全感,真正的问题反而被遮盖了。
参与者画像回答的是"什么样的人参与这次测试才有价值"。画像的来源是真实用户,不是"容易招到的人"。
定义画像时主要考虑四个维度:

画像的范围需要在"准确"和"可招募"之间找到平衡。太窄的画像招募困难,而且可能把一些边缘用户排除在外,而边缘用户有时候会暴露出核心用户习以为常或选择绕开了的问题。太宽的画像让测试里的用户差异太大,发现的问题很难归纳规律——不同用户遇到的是各自不同的障碍,找不到共同点。
参与者画像定义好了之后,需要用一份筛选问卷来过滤不符合条件的人,把符合画像的人邀请进来。
筛选问卷的核心原则只有一条:问行为,不问态度。
态度问题问的是用户对自己的判断,而人对自己的判断通常是乐观的。"你会用购物 App 吗"——几乎所有人都说会用,但"会用"可能是一个月用一次,也可能是一天用五次,这两种"会用"在测试里代表的是完全不同的用户群体。行为问题问的是具体发生的事:"你上个月在手机上购物了几次"——频率是可以记录和核实的具体事实,远比态度判断可靠。
开头一两道背景问题,了解年龄或职业(如果画像里这两项有要求)。然后是三到五道核心筛选问题,问使用频率、使用场景、使用的类似产品——这几道题的答案决定这个人是否符合画像。加一道开放式问题,请对方简单描述一次使用类似产品的经历——这道题的目的不是筛选,而是判断这个人的表达能力和参与意愿,是否适合参与调节式测试。
筛选问卷里还需要设置排除标准。有两类人需要明确排除:在竞争对手公司工作的人(他们会带入职业视角来评价产品,而不是作为普通用户使用);以及设计、用研行业的从业者(他们太熟悉测试流程,行为会失去自然性,评价会变成专业意见而不是用户体验)。
"填表专业户"是招募中另一个需要识别的情况。有些人频繁参与各类测试和调研,他们知道怎么"答出对的答案"来通过筛选,但他们在测试里的行为已经不像普通用户了。识别方法是在问卷里加入一两道矛盾性验证题——比如先问"你每周使用这类 App 几次",后面再问"你上次使用这类 App 是什么时候",前后答案如果对不上,这个人的问卷可信度存疑。
招募渠道影响能接触到的用户类型,选对渠道能减少很多不必要的筛选成本。
现有用户数据库是最精准的招募来源。如果产品有用户注册信息,从中筛选出符合画像的用户直接邀请,这些人是真实的产品使用者,招募质量最高。适合测试已有功能改版的场景,因为参与者是在实际使用这个产品的人。
社交媒体和社群覆盖范围广,发布招募信息门槛低,响应速度快。但需要配合筛选问卷过滤,因为来的人背景差异大。在特定垂直社群(比如育儿论坛、健身社区)里发布招募,能更精准地触达特定场景的用户。
专业招募平台(问卷星的用户样本库,或者部分用研外包机构)能快速招募到指定条件的用户,速度快但成本较高。适合时间紧张、自行招募困难的情况。
线下场景招募是在用户真实使用这类产品的地方直接邀请——咖啡店、超市、社区活动中心,取决于产品的使用场景。这种方式能接触到最自然状态的目标用户,但效率低,需要投入更多时间在外联。
内部员工是招募成本最低、质量最差的来源。员工了解公司的产品和团队,无法复现真实用户的陌生感和困惑;即使他们想认真测试,职业本能也会让他们的行为和普通用户不同。内部员工只适合在产品非常早期、需要快速验证某个想法时作为权宜之计,不能替代真实用户测试。
给予参与者激励,不是"买"好评,而是补偿他们花费的时间。在说明激励的同时,需要告诉参与者测试在做什么:测试产品,不是测试他们,他们的真实困惑比顺畅完成任务更有价值。这句话能减少参与者因为想"表现好"而掩盖真实困难的情况。
激励金额数值大小,可参考参与者的时间成本——一小时左右的测试,通常在 100 到 300 元之间,具体取决于目标用户群体的时间价值。专业人士(医生、律师、高管)的时间成本高,需要更高的激励才能打动他们;普通消费者的测试激励相对低一些。激励形式可以是现金、购物卡或产品的会员权益,取决于哪种形式对目标用户更有吸引力。
时间安排上,每场测试的长度通常在 45 到 90 分钟之间,取决于任务数量和产品复杂程度。相邻两场测试之间至少留 15 分钟的缓冲,用于写下刚结束那场测试的关键观察、调整测试环境、补充精力。
招募参与者总数要比计划数多招一到两人,留出替补空间。临时取消的情况在测试招募里非常常见,有备用参与者可以避免某一天的测试场次无法凑齐。招募完成后,发一条确认消息,测试前一天再提醒一次,爽约率会明显降低。
有0人收藏了本文