浅谈计算机辅助调查中采访用时数据的利用 - 学者观点

可靠的数据是一切调查的生命，为提高数据采集的效率和质量，计算机辅助调查模式 CAI（Computer AssistedInterview）得到了长足发展。计算机辅助调查是由访问员或受访者借助电脑和网络，直接将所问信息做电子化登记并存储的统计调查方式。该模式灵活高效、多方兼容、存储和反馈迅速，目前，国内外的电话访问、面对面访问、网络调查、手机调查中都可以看到它的身影。

计算机辅助调查除了可以快速采集常规问卷数据之外，还产生了一类在纸质问卷调查方式下不容易或无法采集到的新数据——并行数据（Paradata），它是关于调查访问过程的数据，例如受访对象的联系状态和访问阶段、访问场景信息、访问过程的图像和音频、访问中鼠标和键盘的操作记录，调查采访的日期、时段和时长等。并行数据不仅可用于调查管理，而且在调查数据质量评估、误差矫正、缺值插补等方面有巨大的研究价值和应用潜力。

采访用时（Interview Time）是并行数据的一种，它是调查过程中计算机辅助调查系统自动记录下来的访问时长，包括每道问题的采访用时和完成一份调查问卷的总用时。越来越多国际学术期刊文章在使用调查数据时，报告了问卷的平均采访时长，供评委和读者参考。这只是采访用时的一个用处。目前，随着计算机辅助调查技术的推广，采访用时数据的研究和应用条件日趋成熟。

笔者以有访员参与的问卷调查为例，结合自己从事社会调查，处理采访用时数据的经验，认为在完善调查管理和提升数据质量方面，采访用时数据能够发挥如下作用：

一、预估问卷的长度和难度

完善问卷设计设计好的问卷能不能用，需要有预调查来把关。作为正式调查的预演，预调查往往抱有多重目的，测试问卷是其中之一。一般情况下，测试主要集中在问卷内容上，如问题和选项设计是否合理，内容有无遗漏，跳转是否恰当等，容易被忽视的是问卷长度和难度的测试。一份问卷设计得好不好，受访负担重不重是考察的一个方面。

如果采访时间过长、问卷难度过大，导致频繁的拒访、访问中断和胡乱回答，损害数据质量，将是很大的损失和遗憾。虽然可以通过各种提高受访对象配合度的办法来弥补，比如提前预约、分解问卷、多次上门、增加酬金等，但是很难完全补救，调查项目的成本和耗时也将因此增加。

为尽量减少上述问题，在预调查结束后，可利用 CAI 下采集的采访用时数据，计算完成一份问卷的平均用时、最长用时、最短用时等，将结果与同类调查的时长加以比较，做到访问长度心中有数。然后，查看问卷每道问题上的平均用时，找出用时最多的那些问题，看是否存在提问和回答方面的困难，这时宜邀请预调查的访员以座谈等形式参与讨论，听取问卷改进意见。

二、监测访员的调查访问行为

调查访问中，数据的生产离不开访员的劳动，劳动力的产权特性——所有者完全控制着资产的开发和利用——决定了激励是必要的，激励方式不同将导致访员行为不同。按调查完成的问卷数量计酬，访员可能倾向于用最短的时间完成最多的问卷。按调查花费的时间计酬，访员可能倾向于延长采访用时。

一般来说，前一种激励下易出现访员诱导受访者作答、捷径跳转、臆答等损害调查数据质量的行为，后一种激励下由于信息不对称，监督成本高，可能增加调查预算，拖延调查进度，也无法消除访员行为失范的风险。两相比较，按问卷数量计酬预算相对可控，容易操作和管理，但是如何保证访员履行诚实调查的义务是一个难题。

与访员订立详尽周全的合约是一个基本办法，但是合约不会自动产生约束力，必须依靠及时有效的监督手段。采访用时数据是访员行为的直接产物，在及时回传数据的条件下，借助统计软件，可以进行大规模、低成本的实时监测。

监测的目的是发现采访用时异常，主要是采访用时过短，监测方案至少涉及三个环节：第一，哪些问题要被纳入监测；第二，每道监测问题的合理用时标准怎么定；第三，一份问卷中，监测问题采访用时达标多少算合格。制定标准后，一份问卷中，用时合格的题目数除以纳入监测范围的填答的总题数，就得到问卷的采访用时合格率。每位访员，用时合格的问卷数除以他 / 她完成的问卷总数，就得到访员的采访用时合格率。

三、服务于访员行为干预

CAI 模式下，访员采访用时的监测能够与实地调查同步进行，监测频率依数据回传速度而定，高峰期每2-3天监测一次，之后可以一周或隔周监测一次。

通常刚开始调查，访员完成一份问卷的采访用时较长，随着熟练程度的提高采访用时下降，最后维持在一个相对低的水平上。当样本随机分配且累积调查一定份数之后，多数访员的平均采访时间大致相当。

某位访员的平均采访时间过长，也许是调查技巧不足，也许是受访者不配合，这时当由调查督导与访员沟通确认，协助解决；而采访用时过短，访员有漏问和作弊的嫌疑，这时督导当及时干预，避免数据失真。

对于监测发现的不合格访员，应进一步分析他/她在哪些问题上的采访用时不合格比例高。是态度类问题，还是敏感问题；是受访者难于回答的问题，还是要求访员自行观察后填答的问题。对症下药，让督导能有针对性地提醒和帮助访员，严重的及时警告，乃至停止其访问，减免对数据质量造成的损害。

采访用时监测能有效服务于访员行为干预的一项限制性条件是，访员事先不了解这一监测如何进行，否则这种监测方法就有可能失效，因为采访用时数据也能够造假。这不是采访用时监测独有的缺憾，而是除了实地重访之外，几乎所有访员行为监测手段的通病。

因此，如何利用采访用时监测结果来干预不合格的访员，是一个需要灵活慎重对待的问题。将采访用时监测与其他监测手段相结合，找出访员行为失范的真正

原因，或能提供更优的干预。

四、帮助评估访员工作绩

效和发放酬劳调查结束后，在评估访员工作绩效和发放酬劳时，采访用时监测结果可以作为参考指标。排除虚假访问、找人代答等作弊情况，访员总体的采访用时合格率较高，说明在访问环节认真履行了职责。采访用时监测合格的应全额发放酬劳，优秀的给予额外奖励，不合格的要有相应的酬劳上的惩罚。

一份问卷中若有过半监测问题的采访用时不合格，说明访员有明显的失职，简单的办法是，扣减相应比例的酬劳。利用采访用时数据，辅助访员的绩效评估和酬劳奖惩，都是为了争取将合格者发展成为长期访员，不合格者予以淘汰。长远地看，访员质量的提升意味着数据质量的提升。

采访用时监测手段的优势在于，能够对访员的实地调查行为进行实时、动态、敏锐地把握，有利于及早发现和防范数据质量风险。这里必须指出的是，受访者、采访时间和地点同样会对采访用时产生影响，不过，从访员职责上看，争取受访者的配合，减少周遭环境对调查的干扰是题中应有之意，认为采访用时是访员行为的产出并无不合理之处。

尽管如此，利用采访用时数据时，应当知晓存在潜在的混杂因素。发现访员在某份问卷上采访用时不合格后，适当挖掘更多信息，辅助督导的干预工作，更有助于完善调查管理和提升数据质量。