您的位置:首页 >要闻 >

查询速度如何解决数据孤岛问题

2019-06-21 08:36:16来源:

大数据的承诺一直是它可以利用更多的信息,这些信息可以与公司在交易中已经知道的内容进行汇总 - 最终结果是更多的数据洞察和重大业务突破。不幸的是,大数据泛滥也创造了无数的数据湖泊和个别部门来处理他们自己的数据,因此数据孤岛问题仍然存在Dremio的联合创始人兼首席执行官Tomer Shiran表示:“这会给组织带来巨大的痛苦,因为这些数据在整个公司内部分布太多,无法汇集在一起​​,因此可以进行查询。”一个服务平台。Shiran引用了一家大型游轮公司的例子,该公司想要实现其客户的360度全景。

“该公司希望了解其客户的所有属性,”Shiran说。“为了获得整体客户视图,它必须在各种系统中收集所有客户数据,无论是预订,娱乐场活动,还是其他交易和大数据存储库。”

五年前,这可能是在Hadoop环境中尝试的,它可以处理大量数据有效载荷,最终将这些数据处理成一个中央数据存储库 - 这种方法至今仍在公司中广泛使用。

Shiran和其他人争论的是,有一种更好的方法来加速数据查询,而不是等待这种庞大的数据整合发生。

“实际上有两个要素需要公司才能进行有效和快速的数据查询,”Shiran说。“第一个要求是,无论数据位于何处,您都必须能够访问和查询数据。例如,您可能需要跨AWS S3和Oracle数据库中包含的数据运行查询。

“第二个要求是您需要数据查询的速度。通过使用ETL等技术将所有数据整合到中央数据存储库中的时间无法提供 - 也无法同时访问各种数据集市和孤岛分布在整个公司。您需要的是一种加速数据查询的方法。“

那么如何在不必执行冗长的数据ETL和数据整合的情况下加速数据查询?

“Google搜索采用了声音数据查询加速技术,”Shiran说。“当你问谷歌一个问题时,它就会从世界各地的网络服务器上访问数据。”

由于在反向数据结构索引的帮助下访问结构化和非结构化数据,因此促进了该过程。索引存储来自内容(例如单词或数字)的映射,然后将您引导至文档和网页中的特定单词。

因此,您从Google查询中获得的信息是来自顶级网络来源的信息汇总,但不一定来自网络上存在的每个网络来源。这样可以加快查询时间,因为您正在执行的操作是访问从源子集中提取的预定义数据聚合。您不必浏览可以为您的查询分析的每个数据源。

“你正在做的是创建更小的数据子集,我们称之为'数据反射',”Shiran说。“这使您可以快速处理查询并获得结果。用户还可以设置他或她想要查看数据刷新的时间间隔。”

像Dremio这样的公司会创建初始系统数据聚合,但DBA可以修改此数据以根据特定业务需求对其进行微调。

Shiran建议公司在开始使用数据查询加速器时从小规模开始,然后随着用户和IT熟悉,他们开始在更多用例和业务领域利用加速器。

Shiran警告说,任何系统都无法做任何事情:“对于每个应用程序及其处理的数据,公司中已有少数主题专家了解数据,以及如何最有效地使用数据, “ 他说。“这些人最终了解数据模式以及可以从中学到什么。”