博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
sparkSQL1.1入门之十:总结
阅读量:6791 次
发布时间:2019-06-26

本文共 979 字,大约阅读时间需要 3 分钟。

      回想一下,在前面几章中,就sparkSQL1.1.0基本概念、执行架构、基本操作和有用工具做了基本介绍。
基本概念:
  • SchemaRDD
    • Rule
    • Tree
    • LogicPlan
    • Parser
    • Analyzer
    • Optimizer
    • SparkPlan
  • 执行架构:
    • sqlContext执行架构
    • hiveContext执行架构
  • 基本操作
    • 原生RDD的操作
    • parquet文件的操作
    • json文件的操作
    • hive数据的操作
    • 和其它spark组件混合使用
  • 有用工具
    • hive/console的操作
    • CLI的配置和操作
    • ThriftServer的配置和操作
      因为时间仓促,有非常多地方来不及具体,特别是第三章和第九章;另外另一些新的特性没有介绍,比方列存储的实现过程、CODEGEN的源代码分析等,将在兴许的版本号逐步完好。
     从整体上来说,因为CLI的引入,使得sparkSQL1.1.0在易用性方面得到了极大地提高;而ThriftServer的引入,方便了开发人员对基于SparkSQL的应用程序开发;hive/console的引入,极大地方面了开发人员对sparkSQL源代码的改动和调试;还有json数据的引入,不但扩充了sparkSQL的数据来源,同一时候对嵌套数据開始做了尝试。

从Spark1.1.0開始。sparkSQL逐渐開始像是一个产品了。而不像spark1.0.0。感觉像是一个測试品。当然。因为sparkSQL项目的启动时间比較晚,到如今为止还不到一年,在非常多方面还存在着不足:

  • SQL-92语法的支持度。sparkSQL使用了一个简单的SQL语法解析器,对于一些复杂的语法没办法解析,比方三个表进行join的时候。不能一次性join,而要通过两两join后再join一次;
  • cost model 。尽管sparkSQL的catalyst在最初设计的时候就考虑到了cost model。但在如今的版本号还没有引入。我们相信,未来引入cost model之后。sparkSQL的性能将得到进一步地提升;
  • 并发性能,从impala得到的信息,sparkSQL的并发性能和impala相比。还是有不少的差距。这将是sparkSQL的一个发展方向。
 
      匆匆忙忙中,sparkSQL1.1入门第一版就先在这里结束吧。特别感谢一下站点或博客提供了相关的知识:
 
 
你可能感兴趣的文章
System Center 2012 R2实例1—构建自服务私有云8—SCSM服务
查看>>
微软Azure云之企业Exchange 2016部署1—项目介绍
查看>>
c语言:通过指针变量访问整型变量
查看>>
代理服务器的工作原理
查看>>
VIM insert模式下方向键失效的解决方式(超简单)
查看>>
调试版CRT函数的缓存填充字符问题
查看>>
The First Blog
查看>>
个人站长盈利的下一个出路:域名交易市场
查看>>
webSphere
查看>>
使用Intellj Idea打开选中文件/文件夹
查看>>
MyElicpse整合Tomcat
查看>>
gitlab搭建与基本使用
查看>>
Mybatis 错误Should be: #{propName,attr1=val1,attr2
查看>>
Gluster管理命令的总结与归纳
查看>>
13款网站在线性能测试工具
查看>>
ubuntu 安装 Mongodb
查看>>
MySQL常用命令
查看>>
Ext Scheduler Web资源甘特图控件
查看>>
Ontology与OO的结合在应用软件开发应用中的可行性前景很大
查看>>
服务器日志
查看>>