知识提取,知识表示和知识融合
小学生常常对老师发出这样的疑问:请问我如何可以认识美国总统奥巴马?这就涉及到在社会网络中一个著名的理论,也就是六度分离理论描述如下: “你和任何一个陌生人之间所间隔的人不会超过五个,也就是说,最多通过五个人你就能够认识任何一个陌生人。”不管对方在哪个国家,也不论对方是什么肤色。 我们从另一个角度解读这个理论,如果把每个人看作实体,找出人与人之间的联系,这个形成“实体—关系—实体”的结构,其中涉及的就是建设知识图谱的技术。拟构建知识图谱的结构化实体和关系,尤其是对大规模的知识库,需要多种技术的支持。其中最重要的三个部分就是:知识提取,知识表示和知识融合。 通过知识提取技术,可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。包括:实体抽取、语义类抽取、属性抽取和关系抽取。知识表示则通过一定有效手段对知识要素表示,便于进一步处理使用。然后通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识表示的学习包括一些经典的代表性模型,例如距离模型、单层神经网络模型和双线性模型等。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。其中涉及到了实体对齐,知识加工和知识库更新等相关技术。 知识图谱对于解决大数据中文本分析和图像理解问题发挥重要作用。目前,知识图谱研究已经取得了很多成果,形成了一些开放的知识图谱。但是,知识图谱的发展还存在以下障碍。首先,虽然大数据时代已经产生了海量的数据,但是数据发布缺乏规范,而且数据质量不高,从这些数据中挖掘高质量的知识需要处理数据噪音问题。其次,垂直领域的知识图谱构建缺乏自然语言处理方面的资源,特别是词典的匮乏使得垂直领域知识图谱构建代价很大。但是知识图谱研究是极具前景的,科研工作者们勠力前行。
页:
[1]