ACM CIKM全称为（ACM International Conference on Information and Knowledge Management），是国际计算机学会（ACM）主办的数据库、知识管理、信息检索领域的重要学术会议。11月1日至5日CIKM 2021将在线举行。

本次会议共收录271篇长文、69篇应用文和178篇短文，录用率分别为21.7%、23.8%和28.4%。

本文解读的论文是CIKM-2021 demo论文“HAO Unity: A Graph-based System for Unifying Heterogeneous Data”，作者均来自明略科技集团，明我爱线报网略科学院院长、IEEE Fellow吴信东为该论文作者之一

论文主题是“如何有效的处理异构数据”，旨在克服应用程序数据格式和语义多样性问题。在论文中，明略科学院信息检索实验室团队在吴信东教授的指导下基于图数据模型灵活的schema和方便的关系查询，提出了基于图的异构数据集成系统HAO Unity，其主要功能包括：

(1) 多种格式数据与图格式数据相互转换；

(2) 数据集成，包括：schema integration和entity consolidation；

(3) 多粒度数据探索。

1 主要思想：图数据模型

异构数据在现实世界中广泛存在，包括各种关系数据库、NoSQL数据库或者半结构化文件。将异构数据统我爱线报网一成一致的格式和语义的问题存在了很久，但目前仍没有统一的解决方案。正如Wu[1]等人提出的HACE准则，在处理异构数据时存在许多的挑战。挑战主要来自两个方面：

1.数据以不同的格式不断的产生；

2.不同应用中的不同场景带来了复杂性和动态性。

因此，作者团队提出了基于图数据模型的异构数据集成系统HAO Unity，尝试从图数据模型的角度提供异构数据集成的解决方案。该系统从“物理”和“语义”两个方面来统一异构数据，其中“物理”是指从格式上统一，“语义”则意味则将语义相同的实体进行统一，这两部分也称为schema integration和entity consolidation。本文的主要贡献包含：

(1)我爱线报网提出了一个完整的、基于属性图的异构数据集成过程；

(2) 使用HAO智能模型(Human intelligence、Artificial intelligence、Organizational intelligence)来实现schema integration和entity consolidation。

(3)部署了SOTA实体匹配模型并做了两项改进。

2系统架构：物理、语义、数据探索的“合一”HAO Unity系统整体框架如上图所示，主要组件包括：物理统一组件、语义统一组件、数据探索组件。物理统一组件负责通过属性图交换不同格式的数据。语义统一组件则从两方面来统一属性图中的异构数据：schema我爱线报网和instance。数据探索组件提供一个查询元数据、实体和关系信息的接口，方面用户了解集成后的数据，并进一步构建下游应用。1. 物理统一组件物理统一组件包括两部分：数据接入和数据导出。数据接入负责从不同数据源接收格式各异的数据，并将这些数据转换至原始属性图。具体来说，采用了一些数据转换规则：(1) 关系表中的每个元组均转换为属性图中的节点；(2) 关系表中的属性转换为属性图中节点的属性；(3) 关系表中的外键转换为属性图中节点间的关系。数据导出是数据接入的逆向过程。2. 语义统一组件在HAO Unity中，语义统一主要包括schema integration和entity consolidat我爱线报网ion。由于完全自动的异构数据处理效果不足够好，因此HAO Unity遵循HAO模型[2]的理论，集成各类智能。Schema Integration具有相同含义但来自不同数据源的数据，可以被不同的schema描述，因此需要进行schema对齐来解决语义歧义的问题。该论文通过元数据中心的方式来实现schema对齐。过程主要包括：(1) 计算原始数据的schema与被对齐的元数据中心预定义的schema相似度；(2) 相似度高于阈值则对齐，低于阈值则更新元数据中心；(3) 自动集成后，提供一个接口支持手动纠正结果。经过schema integration后，所有实体均具有统一的schema描述。E我爱线报网ntity Consolidation为了提供实例级别的统一数据，需要将属性图中相同语义的实体进行去重，该问题可以被形式化为二分类问题。HAO Unity使用了基于预训练语言模型的SOTA方法，并在其基础上做了两项改进。在应用语言模型时，需要将实体序列化为文本，论文的第一个改进就是将序列化方式由改为其中，e是指实体，和是属性和取值。这种改进有利于属性名和取值文本没有重叠的情况。在序列化后会使用模型Ditto[3]进行分类。除了在序列化上的改进以外，论文中的系统还使用了一些剪枝策略来加速匹配的过程。首先，基于字符串相似度过滤一部分待匹配实体对；其次，使用SVM模型进行匹配；最后，将SVM匹配置信我爱线报网度不高的样本交由Ditto进行匹配。实验结果如下表所示：除了自动化的方法外，论文中的系统还提供了一个用户接口来人工纠正实体匹配的结果。3. 数据探索组件数据探索组件提供不同粒度的数据检索功能。用户可以直接查询属性图中的所有数据，也可以获取属性图中三种不同粒度的信息。(1) entity-level: 用户可以查询实体和其属性以及一些统计信息；(2) relationship-level: 用户可以查询一跳或者多跳关系；(3) 用户可以查询各类元数据；3系统功能 ：提供数据统一完整流程HAO Unity提供10项具体的功能，包括：数据导入、数据集成、实体消歧、实体分析、关系抽取、隐含关系抽取、数据我爱线报网概览、数据查询、数据导出和系统介绍。如上图所示，用户可以从多种数据源导入数据，然后导入的数据会被转换为neo4j中的属性图。接下来，用户可以通过SQL-like的方式进行数据查询，或者将数据集成至其他数据源，又或者直接导出数据为其他格式。数据集成后，用户能够以不同的粒度对统一的属

性图进行查询。

因此，HAO Unity这一基于属性图和HAO智能模型的新颖数据集成系统，定义了一套基于属性图进行数据统一的完整流程。通过该系统可以在许多场景中帮助用户来构建应用。

Reference:[1] Xindong Wu, Gongqing Wu, Xingquan Zhu, and Wei Ding. 2014我爱线报网. Data mining with big data. IEEE Transactions on Knowledge and Data Engineering 26, 1 (2014), 97–107.[2] Minghui Wu and Xindong Wu. 2019. On big wisdom. Knowledge and Information Systems 58, 1 (2019), 1–8.[3] Yuliang Li, Jinfeng Li, Yoshihiko Suhara, AnHai Doan, andWang-Chiew Tan. 2020. Deep Entity我爱线报网 Matching with Pre-Trained Language Models. Proc. VLDB Endow. 14, 1 (Sept. 2020), 50–60.

{{userData.name}}已认证

异构数据中心的特点（如何处理异构数据？明略科学院最新成果：基于图数据模型，定义数据统一完整流程）

推荐阅读

新基金封闭期为什么收益波动大（为什么新基金都有“封闭期”？这期间能买吗？）

濮阳职业技术学院服务平台（濮阳县职业教育培训中心牵手阿里巴巴全球速卖通大学）