Informatica收购AI初创公司以进行实体和模式匹配

导读 Informatica的最新收购将机器学习功能扩展到数据实体和架构的匹配。此次收购来自Informatica与一所大学的首次正式合作关系。新功能将在Info

Informatica的最新收购将机器学习功能扩展到数据实体和架构的匹配。此次收购来自Informatica与一所大学的首次正式合作关系。新功能将在Informatica现有的主数据管理(MDM),企业数据目录,隐私,治理和数据集成产品中找到他们的方法。

这家名为GreenBay Technologies的公司是由威斯康星大学麦迪逊分校的计算机科学教授共同创立的,并开始与该大学及其校友研究基金会建立联系。GreenBay和Informatica并不陌生,因为Informatica是该创业公司的唯一投资者。

GreenBay的CloudMatcher技术将“ 随机森林”机器学习方法应用于多项任务。它匹配来自多个结构化或非结构化数据集的数据实体,例如客户或产品。这可能意味着特定字段中的确切数据或从文本块中提取数据。它还执行模式匹配,将单个数据实体上方的对象或表映射到表示同一事物的列。作为该过程的一部分,它可以推断数据沿袭。通过推断这些架构匹配关系,它可以添加到Informatica的元数据知识图中,以捕获数据源之间的关系。

并不是有或没有机器学习就没有完成过匹配的任务。例如,机器学习一直是数据准备工具的核心支柱,这些工具表明来自两个不同数据集的特定列表示同一件事。同样,重复数据删除工具的核心支柱是识别同一实体的多个实例。并且已经有一些工具可以使用机器学习来帮助自动生成主数据或识别主数据的重复。

至少与数据准备工具相比,GreenBay功能的主要区别在于规模。与大多数自助服务数据准备工具中的少数几个相比,它旨在处理数千个数据集之间的映射。其他关键区别在于能够处理不同域中的更多数据,包括半结构化和非结构化数据,以及能够提高性能的众包方法。

模式匹配是一种非常少见的商品,而Tamr的主数据匹配很可能提供了少数示例之一。挑战在于,模型不能简单地查看列名,其中不同的集合遵循不同的命名约定。相反,该任务通常包括从附近的列,文档,数据值和历史查询模式中获取线索,发现数据关系以及推断目标列和源列之间的链接。

该公司向我们解释了使用随机森林技术的原理,该技术是一种机器学习方法,其中运行多个决策树,然后进行众包共识过程以识别最佳结果。这是一种有监督的方法,其中,在用户应用了一些声明性规则后即自动生成模型-即,他或她标记了一组记录对的样本集,然后系统从中推断出“阻止规则”以构建模型。该公司并未排除将来可能会借鉴无监督技术(例如增强模型)的改进方案,在该模型中,系统在解决问题时会反复定义匹配的逻辑。

GreenBay将增加Informatica已经使用的机器学习功能,这些功能被松散地称为CLAIRE引擎。示例包括业务规则转换,数据关系推断,数据域推断,操作异常检测,海量数据校正和数据转换建议等。但是,在涉及实体和模式匹配时,Informatica主要依靠基于规则的方法-这种方法更加耗时且难以扩展。

Informatica的计划是整合GreenBay技术,以将ML添加到其若干云服务中。根据工具或过程的不同,新功能将指导,补充或在某些情况下替代现有规则的生成过程。

GreenBay技术通过匹配产品,供应商,位置和其他类型的数据域,帮助将匹配范围扩展到身份数据之外。模式匹配将用于完善数据质量规则的生成。反过来,将使用模式匹配和元数据知识图来增强识别和标记敏感数据以保护隐私的能力;生成推断谱系以增强数据分类;并提供一些基准功能,这些功能最终可以自动生成源和目标映射以进行数据集成。

如前所述,Informatica对于将机器学习应用于数据集成和治理并不陌生,但是当涉及到用于实体和模式匹配的AI时,它发现自己又回到了学校。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章