开源SQL in Hadoop解决方案:我们处于什么位置?

  作为一种源自业界的新的软件工程范式,针对DevOps的实践和讨论正处于风口浪尖。DevOps正在广度和深度上“重塑”软件工程的技术与实践。像以往的重大软件变革一样,DevOps的发展也必将经历一个由“野蛮生长”,到集体反思,再到知识体系构建,并进一步推动DevOps持续发展的成熟过程。作为DevOps中国社区的核心成员,南京大学率先开展了覆盖DevOps全周期、围绕DevOps全方位的探索工作,并...

  随着MySQL数据库使用越来越重度,流行度越来越高,同时伴随着使用场景的丰富、云化的普及和智能化的发展,对原本为单机设计的MySQL带来了很多架构上的挑战,包括:性能、成本、安全、容灾,高可用、合规、规模运营等方面,在诸多过去设计层面不被重视的问题。本演讲会从架构演化角度来看现有MySQL技术和产品的变化趋势和解决实践。

  2017年已经成为过去,在AI领域又太多里程碑值得纪念,总结2017是为了更好的迈向2018,所以AI前线年之初为各位读者奉上这样一本迷你书,涵盖了来自全球AI和大数据领域技术专家的年终总结与趋势解读,同时还有世界知名技术大厂的年终技术总结与趋势预测。

  由Ron Meyer和Ronald Meijers共同撰写的Leadership Agility一书描述了一系列领导力风格,他们可用它们来拓展领导技能和增强领导力敏捷性。读者可从中了解各种领导力风格的优点和缺点,学会根据实际的场景选择合适的领导力风格。

  参与物联网项目的人已经意识到,在客户需求与供应商提供设备间存在着很大的差距。Mikael Hakansson介绍了确保物联网成功的五个关键领域,其中包括企业所有权、团队技能、设备板载、处理变更能力以及全面测试。

  亲爱的读者:我们最近添加了一些个人消息定制功能,您只需选择感兴趣的技术主题,即可获取重要资讯的邮件和网页通知。

  已经在产品环境中使用Hadoop的组织需要交互式的SQL查询支持,同时能够与已有的BI工具进行平滑的集成。来自于eBay的Vijay Madhavan在他的博客Hadoop场景中的SQL一文中声称:

  现在大部分基于Map-Reduce的分析系统能够在非交互式和批量SLA领域良好地工作,包括当前版本的Hive、Pig、Cascading。许多产品正在努力通过提供交互式“SQL in Hadoop”解决方案支持实时交互式SLA。

  SQL in Hadoop解决方案的用例包括支持交互式ad-hoc查询;支持使用MicroStrategy 或者Tableau 这样的BI系统进行报表/可视化;支持多来源(multi-source)数据,例如HDFS中的行为型数据必须被连接到RDBMS或者其他来源中的人口统计数据。

  在元数据层面上,好像HCatalog/Hive Metastore将它们自己制定成了跨不同数据源管理模式事实上(de-facto)的标准。

  然后有某些数据格式,例如ParquetORC,它们对于选择的工作负载而言正在变得越来越流行,同时在自然环境中使用的也越来越广泛。

  大部分解决方案好像都支持各种各样的ANSI SQL(不同的版本:3)。

  上面几点可以帮助用户在不同的SQL in Hadoop解决方案之间迁移,不会有很多令人头痛的问题。

  解决方案中的一部分是由Apache支持的,同时也伴随着社区的支持(Stinger、Drill、Tajo);其他的则是由单独的实体组织拥有(Impala、Phoenix、Presto)。

  另外,有一部分解决方案在数据源方面有一些限制,它们能够查询Hadoop生态系统;而另一些从架构的角度看更加灵活,可以查询关系型数据库和NoSQL数据存储(Presto、Drill)。

  另一点是允许在数据上执行的操作不同:有一些是纯(分布式)查询引擎,而另一些则允许执行更新操作。

  在过去的10到18个月中,有越来越多的人和商业实体已经决定尝试一下,对存储在Hadoop中的数据实现低延迟、

  我们理解您使用ad blocker的初衷,但为了保证InfoQ能够继续以免费方式为您服务,我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单,感谢您的理解与支持。

相关阅读