搜索在互联网中是大家都非常熟悉的一个工具,使得海量数据检索变得游刃有余。像现在市场上有视频检索、商品检索、内容检索、全网检索。但是搜索可以做到的事情不能简简单单的归纳成为这几点。只要有存储的地方,就会有检索。
基于AI技术打造的搜索问答式系统,它不仅可以检索商品、还可以检索电商系统各个功能点,让用户更快捷的直到所需要的常用功能。这样的系统就像一个黑洞,不断从垂直网站吸取商品、用户行为、分析网站结构、拓展外部知识。逐步从局部知识领域往广域知识领域拓展。形成一个大而全的知识搜索问答式系统。
下面我们来介绍下这样一个系统构成。
文本分析平台架构
这里我们先介绍下文本分析平台,整体架构如下,该平台分为三层,分别是数据层、算法层、算法功能层,其中数据层是负责接入各个异构数据源,为上层提供基础的数据服务;算法层和算法功能层是根据不同的业务建立不同的模型的,同时进行定制化服务,方便开发人员实验相应的模型,验证模型的优劣。
基于语法树意图识别模型
搜索精准化智能检索基于以上文本分析的服务能力,主要做到检索前的自然语言理解与语义意图识别,提取核心实体与查询成分,比如:”我要买大屏幕的手机”。
首先,采用需要将句子结构化,结构化成树型,这个针对分词要求还是比较高的,需要准确的把我要买分开,同时又能保证“屏幕” “手机”不进行拆分。通过句法分析找到直接宾语“买手机”,同时分析手机的复合名词修饰 “屏幕”逐步分析提取,最后我们关注的只是大屏幕手机。其中还需要采取依存分析来决策用户需要买的是什么?如果直接变成买大屏幕没有手机的话,这个肯定不是用户的意图。如下,该句的句法结构。将句子结构化。
做到这一步,可以提取“大屏幕” “手机”如果仅仅把这样字符串输入的引擎进行检索,那完全是按照关键召回,召回包含 大屏幕 手机 相关,如下图:
这个并不是我们的预期,如果商品描述没有大屏幕,而是 大屏,那这样商品就完全没办法召回。需要针对底层知识实体对齐,如下图:
通过知识关系进行扩展,让用户输入语与商品属性进行对齐(包括属性对齐,关系对齐),让商品召回更加完善。
基于encoder-decoder融合的模型
基于encoder-decoder融合的模型,架构如图二所示。在原始的encoder-decoder模型基础上引入槽位门,利用意图上下文向量来形式化槽位与意图的关系,同时提高槽位填充的表现。该模型应用于搜索的智能导购中,提高了意图识别的准确率,同时也提高了槽位填充的表现,并且该模型将两个任务融为一个模型,简化模型的训练及部署。
有了以上的query识别能力,那么可以如何应用呢?目前应用主要有以下几个方面:
(一) 自然语言输入—商品召回
这里建立基于知识图谱的检索模型。对于电商领域的知识图谱来说,它的数据源主要来自两种渠道:一种是商品的基础数据,这部分的数据通常以结构化的方式存储,故只需要简单预处理即可以抽取相应的实体;另一种是网络上公开的数据,这种数据通常是非结构化数据,需要借助于自然语言处理等技术来提取结构化信息,这里通过主题模型的方式进行挖掘、标注与清洗,再通过预设定好的关系进行实体之间关系的定义最终形成知识图谱。
下面简单描述下我们是怎么解决这类问题的,先是从文本里提取出实体并对每个实体打标签,如下文本中,我们可以提取出实体“龙之涵”,并标记实体类型为“BrandName”;也可以提取出“睡袋”,并标记实体类型为“Catalog”,这个过程就是实体命名识别。同时,可以利用关系抽取技术,把实体间的关系从文本中提取出来,丰富到预设定的关系库中。
面是通过语音输入,问答式交互方式实现满足用户需求的商品。
(二) 自然语言输入—网站常用功能召回
比如我们使用APP上常用功能如,我的收藏夹、购物车,传统的方式是需要首先进入我的易购,在找到购物车,收藏夹,甚至有的功能隐藏更深,用户查找路径长。同时随着业务的发展,我们使用的功能会越来越丰富,用户找商品需要海量商品检索,那么用户使用的功能也要是海里捞针,这个时候如果有一个可以召回常用功能的智能问答系统,那么将会大大缩减用户使用常用功能的路径。如下图:
如上图,我们只需要通过语音输入“打开我的购物车”,系统就可以相应用户,给用户最快的方式召回购物车功能,用户只需要一次点击,就可以知道购物车。这样将会给用户带来极大的使用方便度。缩短用户使用时间,减少用户使用APP的困难程度。
(三) 基于场景的推荐功能
该场景用于首次打开,在用户无反馈,无输入情况下,默认给用户进行场景推荐。整体推荐的理念有:时间、空间、事件。在这三种情况下,进行默认推荐。
事件:环境事件 行为事件 等
时间:促销日 节气 早中晚 等
空间:办公环境 购物商场 户外景点 等