「AI对话能力」评估指南,越来越快的时代什么才是好答案

人工智能
后台-插件-广告管理-内容页头部广告(手机)

作者:阮绫玉

本文在PMCAFF社区发布,转载请注明作者及出处。

在互联网中,人总是能与AI机器人不期而遇。

订机票订闹钟有siri,群里聊天有会冒出一个王二狗,淘宝上阿里小蜜会帮你催发货,甚至是玩王者上不去铂金,都可以到小妲己那里学习上分姿势......

AI对话能力为各类场景提供了解决方案,但如何去评估AI对话能力?怎样的评估方式才能尽可能的小的影响用户体验?在这里分享一下我的经验。

一、如何评估AI对话能力

这个问题需要每个产品先想清楚:要用AI对话来做什么?

以王者荣耀的小妲己为例,解决的就是玩家在游戏阶段遇到的各类问题。这样解决问题的能力拆解下来需要:1.匹配到合适的答案 2.答案内容玩家满意

匹配依赖算法团队,并且已经有相对成熟的模型。

填充答案内容,则是需要熟悉游戏的内容运营团队负责。这里就很容易出问题了,熟悉游戏的内容运营要为不太熟悉游戏的玩家写答案,那么如何用游戏小白的语言说话?如何确保答案制作能满足核心用户需求?那就需要用户自己发声。这也将作为接下来讨论的主要问题:如何评估答案质量。

二、如何评估答案质量

除了匹配一个对的答案,这个答案还需要让用户理解,能快速的解决问题。但这样主观体验如果直接收集上来,信息过于离散,因此需要几个维度作为客观标尺。

1.易读性

易读性是指用户能快速get到答案的关键信息,通过结构化答案格式,统计玩家触点,记录阅读时间等方式,就能较为清楚的把控结构化程度。

越快的帮助从显示文本到用户get到关键信息,易读性就越强,虽然很好理解,但是执行层面上是有难度的。难度在于如何判断用户get到了关键信息?

目前常用的方法是,通过超链+文本组合,对答案做结构化处理,当用户有进一步点击时即表明用户对得到了关键信息,并继续进展。

举个例子:玩家询问英雄安妮

答案:

既拥有危险夺命的能力,又拥有小大人儿的可爱模样,安妮是一名掌握着深不可测的占火魔法的幼女魔法师。

她的技能包括:嗜火、碎裂之火、焚烧、熔岩护盾、提伯斯之怒

常用技巧:安妮的终极必杀技和晕眩技能一起使用能够扭转局势。使用碎裂之火技能杀死小兵,可以让安妮在游戏早期打到很多钱。

如图为文本结构框架,根据结构框架,完善答案即为:

驱使用户点击链接的,是用户对内容的好奇,而这样的好奇实际就是建立在用户对内容的理解上,因此结构化不仅能让答案从主观上看起来更清爽,也可以实际反映出用户get到关键信息的效率。

3.可理解性

用用户的语言说话,考虑玩家问句的意图倾向。虽然通过玩家的画像,能宏观调控整体答案风格,实现大范围内的相对达标。但想要扩充核心用户群体,满足各类用户需求,就需要针对答案做可理解性分析。

4.延伸性

提问场景不同于定闹钟这样的任务,对问题的深追和拓宽也是玩家的需求,因此问题答案在解答当前问题后,依然需要横向和纵向的扩展。通过知识图谱可以实现问题的扩展,并且通过数据积累,也能以“猜你想问”的形式推送到更符合玩家个人偏好的信息。

三、评估案例

下面通过我为内容运营提供的满意度调研工具,说明一下实操手法。

1.需求背景

算法层面上的答案匹配,是通过问题匹配问题。内容运营目前可以通过将问题添加到问题库,实现更多用户提问的覆盖。但在答案质量上,虽然已有相对成熟的框架和规范,但在用户满意度方面的研究尚未形成结论,因此需要调研考察当前规范也为后续优化寻找方向。

并且,各使用场景对调研形式的需求不同,因此需要工具进行灵活配置,并提供可读的调研结果。

2.工具可配置项

工具提供两种满意度形式:

【1】只标记 好 & 不好

通过玩家标选“不满意”的答案,再通过case by case 分析得出不好案例的典型特征,进而总结优化。

优势:
用户使用成本更低,同时由于分析后置的,不会出现选项未能覆盖用户想要表达的意见的情况。

劣势:
分析难度高,并且由于用户意图多样性,对新游等数据积累不充足的游戏,很可能出现误判。

潜在优势:
在有足够的数据量也可以尝试用机器学习,实现自动评分。

【2】标记为什么不好

通过统计各类问题数量,找出主要优化方向。

优势:
能更加结构化的输出不满意答案,快速捕捉主要原因,能够针对每类问题的case,有效总结出经验

劣势:
用户使用成本高,对话式交互下,标记不满意相当于跳出当前对话流,影响用户体验。

潜在优势:
快,从部署到最终形成内容制作经验的周期会更短

提供两类调研方式:

【1】综合调研:通过H5页面,运营配置需要测评的问题,分发给参与调研的用户。

适用场景:新渠道建设初期,需要快速的得出初步经验,但由于玩家不熟悉问题等原因,可能准确性会较差。

【2】即问即测:为答案配置测评按钮,收集玩家对当前问题的即时反馈。

适用场景:成熟渠道的内容优化,这样的方式可以大量积累数据,通过指标预警寻找问题case,细节调优。但是建设时间需要更长。

奖励配置:

支持为调研配置奖励锚点,调动用户积极性。

四、总结

由于各AI机器人的应用场景相差较远,很难直接迁移其他产品指标。在如何度量用户满意度时,尝试过想要引入用户行为数据分析,通过对用户意图穷举和埋点数据,组合形成用户的使用路径。但由于产品特性,并非任务性的开始结束,让用户使用路径的中断有多种解读方式。

例如用户提问了“飞机怎么开?”,又提问了“飞机能飞多高?”,不能确定用户开启新话题,是对已有解答满意了,延申的想要问问新问题;还是觉得答案不满意,问点不一样的。

目前,引入了用户满意度测评,能解决内容运营对内容规范的要求。后续也可以和用户行为数据有更多的结合,建立更加全面的用户情绪地图。

以上为个人对项目的一些思考和总结,也是希望能有更多的机会和其他AI对话产品有交流的机会。作为产品新人,言辞不谨,逻辑模糊之处还望多多包涵。也可以直接在评论区一起互动。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。