日期: 2021 年 4 月 28 日

用Docker之后还需要OpenStack吗

Docker从一个新兴的技术到一个商品化模式,这一过程的发展速度很惊人,它炙手可热的同时也给带来一些困惑。这也带来了一些同学的质疑和评论:假如用了Docker再去用OpenStack是否合适?本文来自Helion惠普云计算,深入浅出的对OpenStack和Docker进行类比。

以下是原文:

Solomon Hykes创立了Docker,没有想到过Docker会人气爆棚,成为仅次于OpenStack的*受欢迎的云开源项目。然而听说过Docker的朋友很少知道其真正的意义,很多人会被各种概念混淆,甚至把OpenStack和Docker进行类比。

Docker的相关背景

简单来说,Docker提供了一种程序运行的容器,同时保证这些容器相互隔离。虚拟机也有类似的功能,但是它通过Hypervisor创建了一个完整的操作系统栈。

不同于虚拟机的方式,Docker依赖于Linux自带的LXC(Linux Containers)技术。LXC利用了Linux可以对进程做内存、CPU、网络隔离的特性。Docker镜像不需要新启动一个操作系统,因此提供了一种轻量级的打包和运行程序的方式。而且Docker能够直接访问硬件,从而使它的I/O操作比虚拟机要快得多。

 

Docker可以直接跑在物理服务器上,这引起大家的疑问:假如已经用了Docker,还有必要使用OpenStack吗?

还有必要使用OpenStack吗?观点如下:

这个问题和OpenStack没有直接的联系,也可以套在其他云平台上。大家为什么会拿Docker和OpenStack做比较的原因是:OpenStack是私有云环境中*流行的云平台,在私有云环境中,大家认为可以把Docker作为另一种选择。

有关于Hypervisor的误区:很多KVM和Docker的性能测试的对比跟OpenStack一点关系都没有,因为OpenStack只是一种框架。事实上这种性能测试(不管是KVM还是Docker)是跑在OpenStack下,这表明了KVM和Docker可以共存。当使用OpenStack去管理Docker情况下,Docker和OpenStack的争论是没有意义的。

云平台提供一个完整管理数据中心的解决方案,至于用哪种hypervisor或container只是云平台中的一个小部分。像OpenStack这样的云平台包含了多租户的安全、隔离、管理、监控、存储、网络等其他部分。云数据中心的管理需要很多服务支撑,但这和用Docker还是KVM其实没多大关系。

Docker不是一个全功能的VM, 它有很多严重的缺陷,比如安全、Windows支持,因此不能完全替代KVM。现在Docker社区一直在弥补这些缺陷,当然这会带来一定的性能损耗。

原生hypervisor的性能、容器化的性能、应用的性能是不一样的东西,相互对比没有意义。

把Docker容器打包进KVM镜像中对Docker运行几乎没有影响。这种架构通常是用hypervisor来管理计算资源,而像Heat、Cloudify、Kubernetes这样的的orchestration layer都用于管理在hypervisor中的docker容器。

总结

正确看待OpenStack、KVM、Docker的方式应该是: OpenStack用于管理整个数据中心,KVM和Docker作为相应的补充,KVM用于多租户的计算资源管理,Docker Container用于应用程序的打包部署。

python中下划线详解

python中下划线详解

python中各种下划线的理解
前单下划线:_var
作用:只在内部实现,不想被外部访问
实例:
前双下划线:__var
作用:使用双下划线会导致其访问名称变成其他形式,这种属性在继承中是无法被覆盖的。
实例:
后单划线:var_
作用:如果定义的变量和python关键字有冲突的话,则可以使用var_这种格式
三种下划线区别
前单下划线:_var
作用:只在内部实现,不想被外部访问
如果我们想封装实例的私有属性,不被外部访问,只在本类中使用访问。则可以通过遵循一定的属性和方法命名约定来达到这种效果。

tips: 这种命名方式只是python的一种约定,并不会真正阻止别人访问内部的名称。

实例:
class A:
def __init__(self):
self._internal = 0 # An internal attribute
self.public = 1 # A public attribute

def public_method(self):
”’
A public method
”’
pass

def _internal_method(self):
pass

前双下划线:__var
作用:使用双下划线会导致其访问名称变成其他形式,这种属性在继承中是无法被覆盖的。
使用__var, 是希望该属性只在本类中使用,且不希望被继承的时候被覆盖了。

实例:
class A:
def __init__(self, n):
self.__private = n
self.a = ‘a’

def _pprint(self):
print(self.__dict__)
# 访问的一定是A类实例的__private
print(‘a’, self.__private)

# 如果要访问非本类的私有属性,需要显式调用
# 注意:A类中并没有_B__private属性,这里只是为了突出B类中要访问它自己的私有属性可以怎么访问。
print(‘b’, self._B__private)
print(self.a)
print(self.b)

class B(A):

def __init__(self, n):
# super(B, self).__init__(n)
super().__init__(n)
self.__private = 999

def pprint(self):
self.b = ‘b’
self._pprint()

# print(A.__mro__)
# print(B.__mro__)
b = B(22)
b.pprint()

后单划线:var_
作用:如果定义的变量和python关键字有冲突的话,则可以使用var_这种格式
如def_,class_, lambda_等

三种下划线区别
私有属性,不想被外部访问,则定义为前单下划线:_var
如果涉及到子类,而且不想父类的属性被子类覆盖,则使用前双下划线:__var
防止命名冲突,且不想与私有属性命名约定冲突,则使用单后下划线:var_

递归定义与递归相关问题的解决

递归定义与递归相关问题的解决

递归定义与递归问题的解决
1.递归定义
对自身引用的东西的描述称为“递归”定义。

所有良好的递归定义具有以下关键特征:

有一个或多个基本情况,不需要递归。
所有递归链*终都归结于其中一种基本情况。
要确保满足这两个条件,*简单的方法是确保每个递归总是导致原来问题的 “较小” 版本。问题非常小的版本不用递归就可以解决,于是成为基本情况。这就是阶乘定义的工作方式。

2.示例
2.1 字符串反转
虽然python的内置方法可以反转列表,可以将字符串转为字符列表,反转列表,并将列表重新转化为字符串,但是使用递归,可以编写一个计算反转的函数,不必借助列表来表示。

基本思想是将一个字符串视为递归对象。大的字符串由较小的对象组成,这些对象也是字符串。事实上,分割任何序列有一个非常方便的方法,即将它看成*个数据项和后面跟随的另一个序列。对于字符串,我们可以将它划分为*个字符和“所有其他字符” 。如果我们反转字符串的剩下部分,然后将*个字符放在*后一个字符之后,就反转了整个字符串。

所以可以编写出以下递归函数:

def reverse(s):
if s == “”:
return s
else:
return reverse(s[1:]) + s[0]

2.2 重组词(⭐⭐⭐)
通过重新排列单词的字母形成一个重组词。重组词常用于文字游戏,形成重组词是产生序列的可能排列(重排列)的一种特殊情况,产生可能排列是在计算和数学的许多领域频繁出现的问题。

让我们尝试编写一个函数,生成一个字符串所有可能重组词的列表。我们将应用与上一个例子中相同的方法——将*个字符从字符串中切出。假设原来的字符串是“abc” ,那么字符串的尾巴是“bc” 。生成尾巴所有重组词的列表,得到[“bc” , “cb”],因为两个字符的排列只有两种可能。要添加*个字母,我们需要将它放在这两个较小的重组词中所有可能的位置,即[“abc” , “bac” , “bca” , “acb” , “cab” , “cba”]。前三个重组词源于将“a”插入“bc”中的每个可能位置,后三个源于将“a”插入“cb” 。

像前面的例子一样,我们可以用一个空字符串作为递归的基本情况。空字符串中唯一可能排列的字符是空字符串本身。下面是完成的递归函数:

def anagrams(s):
if s == “”:
return [s];
else:
ans = []
for w in anagrams(s[1:]):
for pos in range(len(s) + 1):
ans.append(w[:pop] + s[0] + w[pop:])
return 0

2.3 快速指数(⭐⭐⭐)
分而治之提出了一种新的执行该计算的方法。假设我们要计算 2 8 2^8 2
8
。根据指数的定律,我们知道 2 8 2^8 2
8
= 2 4 2^4 2
4
( 2 4 2^4 2
4
)。所以如果先计算 2 4 2^4 2
4
,就可以再做一次乘法得到 2 8 2^8 2
8
。要计算 2 4 2^4 2
4
,我们可以利用 2 4 2^4 2
4
= 2 2 2^2 2
2
( 2 4 2^4 2
4
)的事实。当然, 2 4 2^4 2
4
= 2(2)。将计算结合在一起,我们有 2 2 2( 2 2 2)= 4 4 4 和 4 4 4( 4 4 4)= 16 16 16 和 16 16 16( 16 16 16)= 256 256 256。我们利用三次乘法计算了 2 8 2^8 2
8
的值。基本的洞见是利用 a n a^n a
n
= a n / 2 a^{n/2} a
n/2
( a n / 2 a^{n/2} a
n/2
)的关系。

在我给出的例子中,指数都是偶数的。为了将这个想法变成一个通用算法,我们也要处理 n n n 的奇数值。这可以通过一个乘法来完成。例如, 2 9 2^9 2
9
= 2 2 2^2 2
2
( 2 4 2^4 2
4
)( 2 2 2)。下面是一般关系:
a n = { a n / 2 ( a n / 2 ) n 为 偶 数 a n / 2 ( a n / 2 ) ( a ) n 为 奇 数 } (1) a^n=\left\{
an/2(an/2)an/2(an/2)(a)n为偶数n为奇数
an/2(an/2)n为偶数an/2(an/2)(a)n为奇数
\right\} \tag{1}
a
n
={
a
n/2
(a
n/2
)
a
n/2
(a
n/2
)(a)

n为偶数
n为奇数

}(1)

代码的实现如下:

def recPower(a, n):
# 计算a^n
if n == 0:
return 1
else:
factor = recPower(a, n//2)
if n % 2 == 0:
return factor * factor
else:
return factor * factor * a

2.4 二分查找
递归的基本情况是我们可以停止的条件,即当找到目标值或者查找空间已耗尽。递归调用每次将问题的大小减半。为了做到这一点,我们需要为每个递归调用指定列表中仍然“有效”的位置范围。我们可以传入 low 和 high 的值,与列表一起作为参数。每次调用将查找 low 和 high 索引之间的列表。

下面是利用这些想法的递归算法的直接实现:

def recBinSearch(x, nums, low, high):
if low > high:
return -1
mid = (low + high) // 2
item = nums[mid]
if item == x:
return mid
elif x < items:
return recBinSearch(x, num, low, mid – 1)
else:
return recBinSearch(x, num, mid + 1, high)

2.5 汉诺塔问题
我们可以开发了一个简单递归算法的概要,用于将任何大小的塔从一个柱子移动到另一个柱子的一般过程。

利用中转柱,从源柱到目标柱移动 n 个盘子的塔

从源柱到中转柱,移动 n-1 个盘子的塔

从源柱到目标柱,移动 1 个盘子

从中转柱到目标柱,移动 n-1 个盘子

这个递归过程的基本情况是什么?注意 n 个盘子的移动如何导致 n−1 个盘子的两次递归移动。由于我们每次减少一个,所以塔的大小*终将是 1。只需移动单个盘子就可以直接移动大小为 1 的塔。我们不需要任何递归调用来移除它上面的盘子。
修正一般算法,让它包括基本情况,就得到了一个能工作的 moveTower 算法。让我们用 Python 编写它。 我们的 moveTower 函数将需要参数来表示塔的大小 (n) 、 源柱 (source) 、目标柱(dest)和临时中转柱(temp) 。我们可以对 n 使用整型,对柱子使用字符串。以下是 moveTower 的代码:

def moverTower(n, sourse, dest, temp):
if n == 1:
print(“Move disk from”, sourse, “to”, dest+”.”)
else:
moveTower(n-1, sourse, temp, dest)
moveTower(1, sourse, dest, temp)
moveTower(n-1, temp, dest, sourse)

变量与运算

变量与运算

一、变量
1.变量:可以由字母、数字或者下划线任意组合而成,唯一的约束就是变量的*个字符必须是字符或者下划线,而不可以是数字。

例:

a = 1
a_1 = 1
_b = 1

2.全局变量与局部变量:
全局变量对整个文件产生作用,直到程序结束才回被回收,而局部变量只对一部分代码产生作用,一旦这部分代码结束,这个变量就会被回收。

2.1局部变量举例:

def d():
a = 1
print(a)
if__name__==”__main__”
d()
#
1.定义一个d函数
2.将变量a赋值为1
3.打印a
4.主函数调用
5.调用自定义函数d
#

2.2全局变量举例:

a = 1
def d():
global a
print(a)
if__name__==”__main__”
d()
print(a)
#
1.定义全局变量a并赋值1
3.函数d引用全局变量a
结果为1,1
#

2.3全局变量被函数改变:

a = 1
def d():
global a
a = 2
if__name__==”__main__”
d()
print(a)
#
4.将引用的全局变量重新赋值为2
6.调用自定义函数d
结果为2
#

二、运算
1.算术运算
举例:

a = 2
b = 1
c = 1
print(a+b)
print(a-b)
print(a*b)
print(a/b)
print(a+b*c)
print((a+b)/c)
# 结果为3,1,2,2,3,3 1.括号先运算 2.先乘除后加减

2.关系运算
举例:

a = 1
b = 2
c = 3
print(a+b==c)
print(c>b-a)
# 结果为True,False
4.判断a+b是否等于c
5.判断c是否大于b-a

3.逻辑运算
举例:

a = 3
b = 4
print(a and b)
print(a or b)
print(not b)
#结果为4,3,False
前提:值不为0或不为空,程序军判断为True
1.对于逻辑与来说,只有a为True时,才会去计算b
2.对于逻辑或来说,只有a为False时,才会去计算b
3.对于逻辑非来说,只有a为True时,返回False,反之就是返回True

4.关系运算优先级高于逻辑运算:
举例:

a = 0
b = 4
print(a>b and a==b)
print(a<b and a==b)
print(not a!=b)
#结果全为False
3.先计算a大于b是False,所以不进行后面判断
4.先计算a小于b是True,所以继续判断a等于b是False
5.先计算a不等于b是True,所以返回反结果

如何使用requests库进行接口测试?

如何使用requests库进行接口测试?
答:

如果有接口文档,先分析接口文档.
如果无接口文档,就先抓取接口并分析接口,设计测试用例,设计断言,编写代码,执行测试,生成测试报告。
1
2
#安装requests库
pip install requests
1
2
#导入requests模块
import requests

class RequestsMethod:
“””
创建RequestsMethod类
“””
def __init__(self):
“””
再初始化方法中定义url
“””
self.base_url = “http://120.79.30.173:8090/WoniuSales” # url地址

def login_api(self):
“””
登录接口
:return: 返回login_api对象
“””
login_uri = “/user/login” # 定义uri路径
login_data = “username=admin&password=xxxxx&verifycode=0000” # 登录需要提交的数据
custom_header = {“Content-Type”: “application/x-www-form-urlencoded”} # 自定义请求头
reponse = requests.request(method=’POST’, url=self.base_url + login_uri, data=login_data,headers=custom_header) # 响应体

print(reponse.status_code) # 打印状态码
print(reponse.text)
print(reponse.content)
return reponse

def get_cookie(self):
“””
获取cookie
:return: 返回用户登录后的cookie
“””
res = self.login_api()
return res.cookies

def add_member(self):
“””
添加会员
:return:
“””
add_member_uri = “/customer/add” #会员添加的接口
add_member_params = {‘customername’: “”, ‘customerphone’: 7778888901, ‘childsex’: “女”,
‘childdate’: “2020-02-05″, ‘creditkids’: 0, ‘creditcloth’: 0}
reponse = requests.request(method=”POST”, url=self.base_url + add_member_uri, data=add_member_params,
cookies=self.get_cookie())
print(reponse.status_code)
print(reponse.text)

def requests_upload(self):
“””
批次管理的文件上传函数
:return: upload_uri 是文件上传的接口地址
“””
upload_uri = ‘/goods/upload’ #文件上传的接口
file_data = {“batchname”: (None, “GB20200735”), # batchname是批次字段,GB20200735是选择的批次编号
“batchfile”: (“anyname”, open(‘../../data/testbatch.xls’, ‘rb’)) #batchfile是文件接收流的字段
}
res = requests.request(method=’POST’, url=self.base_url + upload_uri, files=file_data,
cookies=self.get_cookie())

print(res.text)

if __name__ == ‘__main__’:
mytest = RequestsMethod()
# mytest.login_api() #登录测试
# mytest.add_member() #添加会员数据测试
mytest.requests_upload() #批次管理模块上传数据测试

 

Hadoop实战实例

     Hadoop 是Google  MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。

一、概论

    作为Hadoop程序员,他要做的事情就是:
1、定义Mapper,处理输入的Key-Value对,输出中间结果。
2、定义Reducer,可选,对中间结果进行规约,输出*终结果。
3、定义InputFormat 和OutputFormat,可选,InputFormat将每行输入文件的内容转换为Java类供Mapper函数使用,不定义时默认为String。
4、定义main函数,在里面定义一个Job并运行它。

    然后的事情就交给系统了。
1.基本概念:Hadoop的HDFS实现了google的GFS文件系统,NameNode作为文件系统的负责调度运行在master,DataNode运行在每个机器上。同时Hadoop实现了Google的MapReduce,JobTracker作为MapReduce的总调度运行在master,TaskTracker则运行在每个机器上执行Task。

2.main()函数,创建JobConf,定义Mapper,Reducer,Input/OutputFormat 和输入输出文件目录,*后把Job提交給JobTracker,等待Job结束。

3.JobTracker,创建一个InputFormat的实例,调用它的getSplits()方法,把输入目录的文件拆分成FileSplist作为Mapper task 的输入,生成Mapper task加入Queue。

4.TaskTracker 向 JobTracker索求下一个Map/Reduce。

Mapper Task先从InputFormat创建RecordReader,循环读入FileSplits的内容生成Key与Value,传给Mapper函数,处理完后中间结果写成SequenceFile.
Reducer Task 从运行Mapper的TaskTracker的Jetty上使用http协议获取所需的中间内容(33%),Sort/Merge后(66%),执行Reducer函数,*后按照OutputFormat写入结果目录。

      TaskTracker 每10秒向JobTracker报告一次运行情况,每完成一个Task10秒后,就会向JobTracker索求下一个Task。

      Nutch项目的全部数据处理都构建在Hadoop之上,详见Scalable Computing with Hadoop


二、程序员编写的代码

 (可以查看hadoop-examples-0.20.203.0.jar,里面也有一个类grep)

    我们做一个简单的分布式的Grep,简单对输入文件进行逐行的正则匹配,如果符合就将该行打印到输出文件。因为是简单的全部输出,所以我们只要写Mapper函数,不用写Reducer函数,也不用定义Input/Output Format。

  1. package  demo.hadoop
  2. public   class  HadoopGrep {
  3.      public   static   class  RegMapper  extends  MapReduceBase  implements  Mapper {
  4.                private  Pattern pattern;
  5.                public   void  configure(JobConf job) {
  6.                          pattern  =  Pattern.compile(job.get( ” mapred.mapper.regex “ ));
  7.               }
  8.               public   void  map(WritableComparable key, Writable value, OutputCollector output, Reporter reporter)
  9.                      throws  IOException {
  10.                          String text  =  ((Text) value).toString();
  11.                          Matcher matcher  =  pattern.matcher(text);
  12.                        if  (matcher.find()) {
  13.                         output.collect(key, value);
  14.              }
  15.     }
  16.  }
  17.   private  HadoopGrep () {
  18.  }  //  singleton 
  19. public   static   void  main(String[] args)  throws  Exception {
  20.   JobConf grepJob  =   new  JobConf(HadoopGrep. class );
  21.   grepJob.setJobName( ” grep-search “ );
  22.   grepJob.set( ” mapred.mapper.regex “ , args[ 2 ]);
  23.   grepJob.setInputPath( new  Path(args[ 0 ]));
  24.   grepJob.setOutputPath( new  Path(args[ 1 ]));
  25.   grepJob.setMapperClass(RegMapper. class );
  26.   grepJob.setReducerClass(IdentityReducer. class );
  27.   JobClient.runJob(grepJob);
  28.  }
  29. }

          RegMapper类的configure()函数接受由main函数传入的查找字符串,map() 函数进行正则匹配,key是行数,value是文件行的内容,符合的文件行放入中间结果。
main()函数定义由命令行参数传入的输入输出目录和匹配字符串,Mapper函数为RegMapper类,Reduce函数是什么都不做,直接把中间结果输出到*终结果的的IdentityReducer类,运行Job。

整个代码非常简单,丝毫没有分布式编程的任何细节。

三.运行Hadoop程序

        Hadoop这方面的文档写得不全面,综合参考GettingStartedWithHadoop 与Nutch Hadoop Tutorial 两篇后,再碰了很多钉子才终于完整的跑起来了,记录如下:
3.1 local运行模式
完全不进行任何分布式计算,不动用任何namenode,datanode的做法,适合一开始做调试代码。
解压hadoop,其中conf目录是配置目录,hadoop的配置文件在hadoop-default.xml,如果要修改配置,不是直接修改该文件,而是修改hadoop-site.xml,将该属性在hadoop-site.xml里重新赋值。
hadoop-default.xml的默认配置已经是local运行,不用任何修改,配置目录里唯一必须修改的是hadoop-env.sh 里JAVA_HOME的位置。
将编译好的HadoopGrep与RegMapper.class 放入hadoop/build/classes/demo/hadoop/目录

        或者编译成jar包HadoopGrep.jar放入hadoop/build/classes/demo/hadoop/目录

        找一个比较大的xx.log文件放,然后运行

        bin/hadoop demo.hadoop.HadoopGrep  input   /tmp/out  “[a-b]”
(jar包运行:bin/hadoop jar HadoopGrep.jar  HadoopGrep  input   /tmp/output  “[a-b]” )
说明:
input  为xx.log文件所在目录
/tmp/output为输出目录
“[a-b]”   grep的字符串

        查看输出目录的结果,查看hadoop/logs/里的运行日志。
在重新运行前,先删掉输出目录。

  3.2 集群运行模式

    (查看集群配置:http://blog.csdn.net/hguisu/article/details/7237395)

      1 )执行bin/hadoop dfs 可以看到它所支持的文件操作指令。

      2) 创建目录输入inpu:
$ bin/hadoop dfs -mkdir input

      3)上传文件xx.log到指定目录 input :
$ bin/hadoop dfs -put xx.log input

       4 )  执行 bin/hadoop demo.hadoop.HadoopGrep input  output
(jar包运行:bin/hadoop jar HadoopGrep.jar  HadoopGrep  input   /tmp/output  “[a-b]” )

       5 ) 查看输出文件:

           将输出文件从分布式文件系统拷贝到本地文件系统查看:
$ bin/hadoop fs -get output output
$ cat output/*

            或者
在分布式文件系统上查看输出文件:
$ bin/hadoop fs -cat output/*

            重新执行前,运行hadoop/bin/hadoop dfs -rm output删除output目录

7.运行hadoop/bin/stop-all.sh 结束。

四、效率

    经测试,Hadoop并不是万用灵丹,很取决于文件的大小和数量,处理的复杂度以及群集机器的数量,相连的带宽,当以上四者并不大时,hadoop优势并不明显。
比如,不用hadoop用java写的简单grep函数处理100M的log文件只要4秒,用了hadoop local的方式运行是14秒,用了hadoop单机集群的方式是30秒,用双机集群10M网口的话更慢,慢到不好意思说出来的地步。

开源IaaS云平台的分析与比较

作为云计算的一种重要形式,IaaS服务有各种开源和商业云平台方案。本文立足于使用开源IaaS云平台来开发公有云和私有云管理平台的角度,介绍和比较了Eucalyptus、OpenNebula、CloudStack和OpenStack等开源IaaS云平台。

从AWS看成功云平台的特点

AWS是当前*成功的云计算平台,其系统架构*大的特点就是通过Web Service接口开放数据和功能,一切以服务为*位;并通过SOA的架构使系统达到松耦合。

AWS 提供的Web Service栈,由访问层(API、管理控制台和各种命令行等),通用服务层(身份认证、监控、部署和自动化等),PaaS层服务(并行处理、内容传输 和消息服务等),IaaS层服务(计算EC2、存储S3/EBS、网络服务VPC/ELB等以及数据库服务)几部分组成。用户应用使用IaaS基础IT资 源,将PaaS和通用服务作为应用架构中的组件来构建自己的服务。综合来看,AWS生态环境中系统架构的核心思想为SOA、分层和服务组合。

私有云的需求

除了AWS这类公有云平台,私有云和混合云也是IaaS的重要形式。企业对于私有云平台通常会有以下几个需求。

计算虚拟技术的多样选择(KVM、XEN、ESX、ESXi、Hyper-V和XenServer等)。

存储技术/设备的多样支持(交换机、路由器和防火墙等)。

网络技术/设备的多种支持(NAS、IP-SAN和FC-SAN等)。

多种API的支持。

前三个需求要求IaaS平台能屏蔽底层的具体技术/设备的差别对外呈现基本一致的能力与接口。这一般要采用抽象框架加插件的设计来实现。另外,基于计算虚拟化、网络和存储等技术自成体系的原因,整个架构设计中须考虑将计算虚拟化、网络和存储独立成三个子系统或服务。

因此,云平台至少应包含三层:API或接入层提供各种不同API或访问方式,核心虚拟化管理层整合底层服务来对外提供IaaS服务,计算/存储/网络服务层屏蔽技术差异。

技术团队开发需求

小型技术团队精英化,每个人都能够参与整体设计。大型团队则为金字塔结构,只有少数人能够参与整体设计,多数人员因能力和职责的原因只能接触到单个功能或模块。

为满足这两种团队的要求,云平台的整体软件架构必须做到松耦合,通过组合组件、模块和服务来构成整个系统;同时需要组件、模块和服务功能内聚以便于小团队独立维护,方便独立的设计、开发和演进。

另外,云平台需要考虑提供基础共享组件在各个服务中重用。典型的可重用组件为数据库ORM、消息通信、服务端基础框架、配置管理系统、日志系统和错误定位系 统等。很多大型团队会整合这些基础共享服务,通过领域描述语言自动化生成基础框架代码,使开发人员可以专注于具体的服务实现和关键技术研究。

云平台的介绍和比较

下面从系统架构要分层、组件化,采用SOA以达到系统松耦合;组件服务使用框架插件化设计;开发平台化等方面来比较4个开源IaaS云平台。

Eucalyptus

Eucalyptus 是*早试图克隆AWS的开源IaaS云平台,整体架构如图1的左半部分所示。Eucalyptus由云控制器(CLC)、Walrus、集群控制器 (CC)、存储控制器(SC)和节点控制器(NC)组成,它们相互协作共同提供所需的云服务。组件间使用支持WS-Security的SOAP消息实现安 全的通信。Eucalyptus对外提供兼容AWS的SOAP和Query接口,不提供其他API。

%title插图%num

图1 Eucalyptus系统架构和CLC逻辑架构

从分层的角度来看,Eucalyptus缺乏API层设计, CLC是全局资源管理层,集群服务(CC和SC)为底层资源管理层。CLC、CC和NC三层结构不是软件架构层面的分层,只能看作一种为了管理较大规模集群的工程化方法。

从组件服务角度看,每个集群中将计算和存储服务设计为独立服务,网络仍为与计算服务的一部分。尽管Eucalyptus在代码实现上是将网络部分独立出来的,但整体上并未按照独立的服务来设计,整体设计解耦不够。

CLC 是Eucalyptus的核心,包括虚拟机控制、存储卷管理、网络资源(Address)管理、镜像管理、快照管理、Keypair管理和元数据管理等服 务模块。开源ESB Mule将所有的服务编排起来,通过Eucalyptus服务对外统一提供EC2和EBS服务,如图1的右半部分所示。由此可以看 到,Eucalyptus在SOA层面上做得较好。但ESB技术门槛高,对设计开发人员要求较高。同时因为Eucalyptus只在很少的地方支持插件 (如多Hypervisor支持的插件),所以整体上对抽象框架和插件的设计做得不多。

从开发平台的角度来看,Eucalyptus的主要 开发语言为Java和C;CLC采用开源ESB Mule为核心编排服务,架构较新颖;但CC和NC采用Apache +CGI的软件架构,基于Axis/C来实现Web Service。整体来看,Eucalyptus还没有开发平台化的趋势。

OpenNebula

OpenNebula是Reservoir项目的一部分,是2005年欧洲研究学会发起的虚拟基础设备和云端运算计划的虚拟化管理层的开源实现。OpenNebula的核心部分是Front End,即ONE。其架构如图2所示。

OpenNebula明显分为三层,即接口层、核心层和驱动层。接口层提供了原生的XML-RPC接口,同时实现了EC2、OCCI和OpenNebula Cloud API(OCA)等多种API,为用户提供了多种选择。

核心层的OpenNebula core提供统一的Hook插件管理、Request请求管理、VM生命周期管理、Hypervisor管理、网络资源管理和存储资源管理等核心功能。core配合Scheduler对外提供计算和存储网络资源管理服务。

*底层是由各种Driver构成的驱动层与虚拟化软件(KVM、XEN)和物理基础设施交互。需要说明的是,图2中的驱动层没有画出DataStore、 NetworkManager等多个驱动。一些前端模块如监控、用户界面(Sunstone Portal和Self Service Portal)也未在图2中画出。很明显,OpenNebula在分层和框架加插件设计这两点做得很好。

%title插图%num

图2 OpenNebula系统架构

在OpenNebula中,计算、存储和网络部分是ONE中独立的模块,资源调度也被分离出来通过requirement和matcher支持多种可选的策略和资源额度管理,也支持调度引擎Haizer来提供lease(租约)的高级资源调度能力。

显然,OpenNebula没有采用SOA的设计,没有将计算、存储和网络设计为独立组件,解耦做得还不够。值得注意的是,OpenNebula用 Libvirt所提供的接口远程调用计算节点上的虚拟化控制命令。这种Agentless的设计在系统安装部署阶段会减少很多软件安装配置工作,是一个设 计亮点。

从开发平台的角度来看,OpenNebula采用C++实现核心ONE,使用Ruby开发的各种Driver来实现具体的功能。整体系统只有一个核心部件,故在开发平台上做得很少。

CloudStack

CloudStack是Cloud.com开发的开源IaaS软件,被Citrix收购后贡献给Apache基金会。它已为全球多个公有云提供IaaS平台技术,如英国电信(BT)、日本电报电话公司(NTT)和韩国电信(KT)等。

图 3中的左半部分为CloudStack的总体架构,可以看到其包括Dashboard/CLI层、CLoudStack API、核心引擎层和计算/网络/存储控制器层,是典型的分层架构。具体来看,CloudStack提供原生自定义API, 也通过cloud bridge支持AWS兼容API。

%title插图%num

图3 CloudStack系统架构和Management Server架构

与OpenNebula类似,CloudStack本身也未采用SOA的设计,同样没有将计算/存储/网络部分从核心引擎中分离出来,因此在松耦合和组件设计上需要进一步加强。

从开发平台来看,ClousStack使用Java开发API、Management Server和Agent等部分,运行时部署为Tomcat的Serverlet。另外,还大量使用Python开发与网络和系统管理相关的部分。值得注 意的是,CloudStack代码中包括一套独立的Java代码库,涵盖通信、数据管理、 事件管理、任务管理和插件管理等部分,基本形成了开发平台。

OpenStack

OpenStack是开源IaaS云平台的新兵,只有2年时间,却拥有*好的社区和生态环境,吸引了大量的公司和开发者围绕其进行云计算开发。图4为*新发布的Essex的逻辑架构图。

%title插图%num

图4 OpenStack Essex逻辑架构

OpenStack 整体架构分3层,*上层为应用程序和管理Portal(Horizon)、 API等接入层;核心层包括计算服务(Nova)、存储服务(包括对象存储服务Swift和块存储服务cinder)和网络服务(Quantum);第3 层为共享服务,现在为账户权限管理服务(keystone)和镜像服务(Glance)。其中Quantum和cinder是*新加入核心服务中的 OpenStack孵化项目。

在Essex及以前版本,存储EBS(Elastic Block Service,弹性块存储服务)和Nova-Volume耦合在一起,网络服务也与Nova-Network绑定。在正在开发的Folsom版本 中,EBS和Network从Nova中独立为新的服务(cinder和Quantum)。Nova通过API来调用新的cinder和Quantum服 务。我们可以看到,OpenStack在SOA和服务化组件解耦上是做得*好的。

Nova包含API Server(含CloudController)、Nova-Scheduler、Nova-Compute、Nova-Volume和Nova- Network等几部分,所有组件通过RabbitMQ来通信,使用数据库来保存数据。同时Nova中大量采用了框架与插件的设计,如Scheduler 支持插件开发新的调度算法,Compute部分支持通过插件使用不同的Hypervisor,Network和Volume部分也通过插件支持不同厂商的 技术和设备。cinder和Quantum等服务也采取了与Nova类似的整体架构和插件设计。

从开发平台的角度来看,OpenStack 做得也很好。首先,OpenStack所有服务均采用Python开发;其次,所有服务采用类似的软件架构和内部实行技术,如服务端程序使用WSGI,数 据库ORM使用SQLAlchemy,配置文件解析和日志等也采用相同的组件。基于OpenStack有很好的开发平台,我们看到开发人员可以很容易参与 多个组件的开发。

综合比较

前面分别介绍了各IaaS开源云平台在分层、SOA、组件化、解耦及开发平台等方面的情况。

从表1的对比中可以看出,所有的开源IaaS云平台在分层上做得都比较好;在SOA/组件化/解耦这点上来看,OpenStack和Eucalyptus有 优势;在框架和插件设计上,除Eucalyptus较差外,其他平台均有很好的设计——OpenStack的开发平台做得*好,CloudStack次 之。综合来看,目前OpenStack的设计是*好的,Eucalyptus和CloudStack次之。

%title插图%num

表1 IaaS开源云平台比较

实际需求设计比较

让我们用一个真实需求来看4个开源IaaS平台在开发支持上的表现。此需求来自私有云场景,云平台需要对不同用户的资源请求(如VM和公网IP等)按优先级排序后进行处理,并提供任务的管理功能,如统计各状态的任务数量等。

需求的设计有两个关键点:一为如何对任务进行统一调度管理,二为任务状态转变信息的收集。

任务的统一调度管理方案分别为:OpenNebula和OpenStack都提供独立的Scheduler组件并支持扩展Scheduler的插件机 制;CloudStack有Job Manager但不提供扩展,需修改Job Manager核心代码;Eucalyptus内部流程主要由Mule总线来驱动,需修改核心流程代码增加新的模块。比较来看,OpenStack和 OpenNebula的实现方式对现有系统影响*小。

对于任务状态转变信息,由于信息遍布在系统多个地方,*佳的设计是通过消息发送状态变 化给负责任务管理/统计的模块统一处理。在这一点上采用Message Bus的OpenStack和采用Mule的Eucalyptus有明显优势。综合来看,OpenStack为二次开发提供了很好的支持。

技术之外

上述比较主要是在设计方面,OpenStack优势显著。但从其他方面来看:

Eucalyptus由于出现*早,同时与AWS签订相关API兼容协议,在面向AWS生态环境的私有云市场处于*地位;

CloudStack在经过大量商业客户公有云的部署后,其功能已趋于稳定成熟,成为Apache开源项目后,其松耦合设计也已排上日程,设计上大有迎头赶上的趋势;

OpenStack现状是功能不够完整且商业支持不够,另其转为基金会运作后能否保持现在的发展趋势也是大家非常关注的。在实际的云平台选择过程中,大家要从自身的角度出发综合考虑功能和系统的架构与设计、未来发展等。

用 Java 对 hbase 进行CRUD增删改查操作

本文以HBase 0.90.2为例,介绍如何在Windows系统,Eclipse IDE集成环境下,使用Java语言,进行HBase客户端编程,包含建立表、删除表、插入记录、删除记录、各种方式下的查询操作等。

1. 准备工作

1、下载后安装jdk包(这里使用的是jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008);

2、下载eclipse,解压到本地(这里使用的是eclipse-java-helios-SR2-win32);

3、下载HBase包,解压安装包到本地(这里使用的是hbase-0.90.2)。

2. 搭建开发环境

1、运行Eclipse,创建一个新的Java工程“HBaseClient”,右键项目根目录,选择“Properties”->“Java Build Path”->“Library”->“Add External JARs”,将HBase解压后根目录下的hbase-0.90.2.jar、hbase-0.90.2-tests.jar和lib子目录下所有jar包添加到本工程的Classpath下。

2、按照步骤1中的操作,将自己所连接的HBase的配置文件hbase-site.xml添加到本工程的Classpath中,如下所示为配置文件的一个示例。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<configuration>
<property>
<name>hbase.rootdir</name>
<value> hdfs://hostname:9000/hbase </value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>*.*.*.*, *.*.*.*, *.*.*.*</value>
</property>
<propertyskipInDoc=”true”>
<name>hbase.defaults.for.version</name>
<value>0.90.2</value>
</property>
</configuration>

3、下面可以在Eclipse环境下进行HBase编程了。

3. HBase基本操作代码示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.MasterNotRunningException;
import org.apache.hadoop.hbase.ZooKeeperConnectionException;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.util.Bytes;
public class CreateTable {
     private static Configuration conf = null ;
     // 初始化配置
     static {
         conf = HBaseConfiguration.create();
     }
     // 1、建表
     public static void createTable(String tablename, String[] cfs)
             throws IOException {
         HBaseAdmin admin = new HBaseAdmin(conf);
         if (admin.tableExists(tablename)) {
             System.out.println( "表已经存在!" );
         else {
             HTableDescriptor tableDesc = new HTableDescriptor(tablename);
             for ( int i = 0 ; i < cfs.length; i++) {
                 // 表建好后,列簇不能动态增加,而列是可以动态增加的,这是hbase伸缩性的一个体现。
                 tableDesc.addFamily( new HColumnDescriptor(cfs[i]));
             }
             admin.createTable(tableDesc);
             System.out.println( "表创建成功!" );
         }
     }
     // 2、插入数据
     public static void writeRow(String tablename, String[] cfs) {
         try {
             HTable table = new HTable(conf, tablename);
             Put put = new Put(Bytes.toBytes( "rows1" ));
             for ( int j = 0 ; j < cfs.length; j++) {
                 put.add(Bytes.toBytes(cfs[j]), // 指定列簇
                         Bytes.toBytes(String.valueOf( "列1" )), // 指定列名
                         Bytes.toBytes( "value_13" )); // 指定列值
                 put.add(Bytes.toBytes(cfs[j]),
                         Bytes.toBytes(String.valueOf( "lie2" )),
                         Bytes.toBytes( "value_24" ));
                 table.put(put);
                 System.out.println( "插入数据成功" );
             }
         catch (IOException e) {
             e.printStackTrace();
         }
     }
     // 3、删除一行数据
     public static void deleteRow(String tablename, String rowkey)
             throws IOException {
         HTable table = new HTable(conf, tablename);
         List list = new ArrayList();
         Delete d1 = new Delete(rowkey.getBytes());
         list.add(d1);
         table.delete(list);
         System.out.println( "删除行成功!" );
     }
     // 4、查找一行数据
     public static void selectRow(String tablename, String rowKey)
             throws IOException {
         HTable table = new HTable(conf, tablename);
         Get g = new Get(rowKey.getBytes());
         Result rs = table.get(g);
         for (KeyValue kv : rs.raw()) {
             System.out.print( new String(kv.getRow()) + "  " ); // 行号
             System.out.print( new String(kv.getFamily()) + ":" ); // 列簇名
             System.out.print( new String(kv.getQualifier()) + "  " ); // 列名
             System.out.print(kv.getTimestamp() + "  " ); // 时间戳
             System.out.println( new String(kv.getValue())); // 单元格的值
         }
     }
     // 5、查找全部数据
     public static void scanerTable(String tablename) {
         try {
             HTable table = new HTable(conf, tablename);
             Scan s = new Scan();
             ResultScanner rs = table.getScanner(s);
             for (Result r : rs) {
                 KeyValue[] kv = r.raw();
                 for ( int i = 0 ; i < kv.length; i++) {
                     System.out.print( new String(kv[i].getRow()) + "  " );
                     System.out.print( new String(kv[i].getFamily()) + ":" );
                     System.out.print( new String(kv[i].getQualifier()) + "  " );
                     System.out.print(kv[i].getTimestamp() + "  " );
                     System.out.println( new String(kv[i].getValue()));
                 }
             }
         catch (IOException e) {
             e.printStackTrace();
         }
     }
     // 6、删除表
     public static void deleteTable(String tablename) throws IOException {
         try {
             HBaseAdmin admin = new HBaseAdmin(conf);
             admin.disableTable(tablename);
             admin.deleteTable(tablename);
             System.out.println( "表删除成功!" );
         catch (MasterNotRunningException e) {
             e.printStackTrace();
         catch (ZooKeeperConnectionException e) {
             e.printStackTrace();
         }
     }
     public static void main(String[] args) throws IOException {
         String[] cfs = "a,b,c" .split( "," );
         // createTable("test01", cfs);
         // writeRow("test01", cfs);
         // deleteRow("test01", "rows1");
         // selectRow("test01", "rows2");
         // scanerTable("test01");
         // deleteTable("test01");
     }
}

使用vlmcsd搭建KMS服务器激活环境

操作系统环境CentOS6.6
vlmcsd发布地址:
http://forums.mydigitallife.info/threads/50234-Emulated-KMS-Servers-on-non-Windows-platforms

1.找到二进制和源码下载
下载地址: http://rghost.net/6G8wYxwnX
解压密码2015

2.解压
解压后找到vlmcsd-svn812-2015-08-30-Hotbird64\binaries\Linux\intel\glibc文件夹,找到该文件夹下的vlmcsd-x86-glibc,如果是64位则是vlmcsd-x64-glibc,其他系统自行选择,服务端主要是找vlmcsd这个程序。
%title插图%num

3.复制文件
在/usr/local新建vlmcsd,拷贝vlmcsd-x86-glibc到该文件夹下
mkdir /usr/local/vlmcsd
cp vlmcsd-x86-glibc /usr/local/vlmcsd/
给vlmcsd-x86-glibc加入执行权限,并改名为vlmscd
cd /usr/local/vlmcsd/
chmod u+x vlmcsd-x86-glibc
mv vlmcsd-x86-glibc vlmcsd
4.测试启动
执行命令
./vlmcsd
查看执行的进程
ps aux|grep vlmcsd
结果
root 8227 0.0 0.0 2364 240 ? Ss 11:41 0:00 ./vlmcsd
root 8279 0.0 0.0 2280 552 pts/1 S+ 11:42 0:00 grep vlmcsd
说明进程已经启动
kill pid可以关闭进程

如果有其他端口占用1688,会报如下错误
Warning: 0.0.0.0:1688: Address already in use
Fatal: Could not listen on any socket.
找出占用的进程关闭即可,可以使用lsof命令和netstat命令
上文中supervisor关闭命令为
supervisorctl shutdown

5.开机自启
把命令加到/etc/rc.local或/etc/rc.d/rc.local,并加上可执行权限,为了查看日志,加上vlmcsd -l /var/log/vlmcsd.log
echo “/usr/local/vlmcsd/vlmcsd -l /var/log/vlmcsd.log > /dev/null 2>&1” >> /etc/rc.local
chmod +x /etc/rc.local
注意:CentOS 7中系统启动管理已经由传统的Linux SysV init改为systemd,配置方法跟原来的不一样

6.重启服务器
执行命令
reboot

7.客户端测试
windows找到vlmcsd-svn812-2015-08-30-Hotbird64\binaries\Windows\intel目录下的vlmcs-Windows-x86.exe对于64位的找vlmcs-Windows-x64.exe
将其改名为vlmcs.exe
cd跳转到改目录下
执行命令
vlmcs.exe -v -l 3 wwwb.vvvtimes.com
-v输出详细信息
-l 3表示发送Windows Server 2008 Datacenter的激活请求,具体版本对应列表可以通过vlmcs.exe -x查看
wwwb.vvvtimes.com表示KMS服务器的域名
结果如下
Request Parameters
==================

Protocol version : 4.0
Client is a virtual machine : No
Licensing status : 2 (OOB grace)
Remaining time (0 = forever) : 43200 minutes
Application ID : 55c92734-d682-4d71-983e-d6ec3f16059f (Windows)
Activation ID (Product) : 68b6e220-cf09-466b-92d3-45cd964b9509 (Windows Server 2008 Datacenter)
Key Management Service ID : 8a21fdf3-cbc5-44eb-83f3-fe284e6680a7 (Windows 2008 C)
Client machine ID : 53532ed6-0511-4848-ad75-40e3944c3b99
Previous client machine ID : 00000000-0000-0000-0000-000000000000
Client request timestamp (UTC) : 2015-12-16 05:39:30
Workstation name : ftp.htc.info
N count policy (minimum clients): 5

Connecting to 1.2.3.4:1688 … successful

Performing RPC bind …
… NDR64 … BTFN … NDR32 … successful
Sending activation request (KMS V4) 1 of 1

Response from KMS server
========================

Size of KMS Response : 160 (0xa0)
Protocol version : 4.0
KMS host extended PID : 03612-00206-183-962764-03-4108-10240.0000-2582015
Client machine ID : 53532ed6-0511-4848-ad75-40e3944c3b99
Client request timestamp (UTC) : 2015-12-16 05:39:30
KMS host current active clients : 10
Renewal interval policy : 10080
Activation interval policy : 120

py-kms搭建的服务器响应的结果如下

Request Parameters
==================

Protocol version : 4.0
Client is a virtual machine : No
Licensing status : 2 (OOB grace)
Remaining time (0 = forever) : 43200 minutes
Application ID : 55c92734-d682-4d71-983e-d6ec3f16059f (Windows)
Activation ID (Product) : 68b6e220-cf09-466b-92d3-45cd964b9509 (Windows Server 2008 Datacenter)
Key Management Service ID : 8a21fdf3-cbc5-44eb-83f3-fe284e6680a7 (Windows 2008 C)
Client machine ID : 2955b0ed-37e4-4689-b9de-9e5f1c3784c0
Previous client machine ID : 00000000-0000-0000-0000-000000000000
Client request timestamp (UTC) : 2015-12-16 05:40:09
Workstation name : mx1.acer.pl
N count policy (minimum clients): 5

Connecting to 1.2.3.4:1688 … successful

Performing RPC bind …
… NDR32 … BTFN … successful
Sending activation request (KMS V4)
Warning: RPC stub size is 172, should be 176 (probably incorrect padding)
1 of 1

Response from KMS server
========================

Size of KMS Response : 158 (0x9e)
Protocol version : 4.0
KMS host extended PID : 05426-00206-152-263095-03-1033-9200.0000-2222013
Client machine ID : 2955b0ed-37e4-4689-b9de-9e5f1c3784c0
Client request timestamp (UTC) : 2015-12-16 05:40:09
KMS host current active clients : 26
Renewal interval policy : 10080
Activation interval policy : 120

附:虚拟机搭建

在vlmcsd-svn812-2015-08-30-Hotbird64中找到floppy144.vfd将其改名为floppy144.flp或floppy144.img,然后用vmware加载为软盘就能运行了。启动后直接就能用了

%title插图%num

Hbase API中常用类介绍和使用

网上Hbase的介绍有很多,案例也不少。自己写了个Demo,进行一些简单的总结。

HBase 常用类介绍。

JAVA API 和 HBase数据库模型之间的关系

JAVA 类 Hbase 数据模型
HBaseAdmin 数据库(database)
HBaseConfiguration
HTable 表(table)
HTableDescriptor 列族(Column Family)
Put 行列操作
Get
Scanner

 

下面说说JAVA API 提供的这些类的功能。和他们之间有什么样的联系。

1.HBaseConfiguration

关系:org.apache.hadoop.hbase.HBaseConfiguration

作用:通过此类可以对HBase进行配置

用法实例: Configuration config = HBaseConfiguration.create();

说明: HBaseConfiguration.create() 默认会从classpath 中查找 hbase-site.xml 中的配置信息,初始化 Configuration。

2.HBaseAdmin

关系:org.apache.hadoop.hbase.client.HBaseAdmin

作用:提供接口关系HBase 数据库中的表信息

用法:HBaseAdmin admin = new HBaseAdmin(config);

3.HTableDescriptor

关系:org.apache.hadoop.hbase.HTableDescriptor

作用:HTableDescriptor 类包含了表的名字以及表的列族信息

用法:HTableDescriptor htd =new HTableDescriptor(tablename);

Htd.addFamily(new HColumnDescriptor(“myFamily”));

4.HColumnDescriptor

关系:org.apache.hadoop.hbase.HColumnDescriptor

作用:HColumnDescriptor 维护列族的信息

用法:HTableDescriptor htd =new HTableDescriptor(tablename);

Htd.addFamily(new HColumnDescriptor(“myFamily”));

5.HTable

关系:org.apache.hadoop.hbase.client.HTable

作用:HTable 和 HBase 的表通信

用法:HTable tab = new HTable(config,Bytes.toBytes(tablename));

ResultScanner sc = tab.getScanner(Bytes.toBytes(“familyName”));

说明:获取表内列族 familyNme 的所有数据。

6.Put

关系:org.apache.hadoop.hbase.client.Put

作用:获取单个行的数据

用法:HTable table = new HTable(config,Bytes.toBytes(tablename));

Put put = new Put(row);

p.add(family,qualifier,value);

说明:向表 tablename 添加 “family,qualifier,value”指定的值。

7.Get

关系:org.apache.hadoop.hbase.client.Get

作用:获取单个行的数据

用法:HTable table = new HTable(config,Bytes.toBytes(tablename));

Get get = new Get(Bytes.toBytes(row));

Result result = table.get(get);

说明:获取 tablename 表中 row 行的对应数据

8.ResultScanner

关系:Interface

作用:获取值的接口

用法:ResultScanner scanner = table.getScanner(Bytes.toBytes(family));

For(Result rowResult : scanner){

Bytes[] str = rowResult.getValue(family,column);

}

说明:循环获取行中列值。

下面例子使用的就是上面提供的类和接口。

例子1:

/**

* 获取表中所有数据

*/

@SuppressWarnings(“unchecked”)

publicstatic List<Map> getDateAll(String tablename){

ResultScanner rs = null;

HTable table  = null;

try {

table = new HTable(cfg,tablename);

Scan s = new Scan();

//扫描全表,性能不佳

rs = table.getScanner(s);

for(Result r=rs.next();r!=null;r=rs.next()){                      for(KeyValue kv : r.raw()){

System.out.println(new String(kv.getValue()));

}

}

catch (Exception e) {

returnnull;

}finally{

rs.close();

}

return list;

}

HBase是大数据的分布式数据库,当使用全表扫描肯定是不合理。下面的例子相比较例子1做些优化。

例子2

/**

* 指定rowkey的开始和结束扫描表数据

*/

@SuppressWarnings(“unchecked”)

publicstatic List<Map> getDateAll(String tablename){

… //篇幅原因省略

try {

table = new HTable(cfg,tablename);

Scan s = new Scan();

//通过rowkey来指定数据开始和结束,性能上较例子1高很多

s.setStartRow(Bytes.toBytes(“2012-12-22”));

s.setStopRow(Bytes.toBytes(“2012-12-23”));

rs = table.getScanner(s);

… //篇幅原因省略

catch (Exception e) {

//篇幅原因省略

}

当使用扫描器 scan.setStartRow(Bytes)和scan.setStopRow(Bytes)查询的数据还不能满足结果集的话,下面的一些类就派上用场了,他就是Filter。

客户端请求过滤器

A.      逐一说一下Filter。

1.       FilterList

FilterList 代表一个过滤器列表,过滤器间具有

FilterList.Operator.MUST_PASS_ALL 和

FilterList.Operator.MUST_PASS_ONE 的关系,下面展示一个过滤器的 “或”关系。

下面FilterList 列表中检查同一属性的’value1′ 或’value2′ 。

FilterList list = new FilterList(FilterList.Operator.MUST_PASS_ONE);

SingleColumnValueFilter filter1 = new SingleColumnValueFilter(Bytes.toBytes(“cfamily”), Bytes.toBytes(“column”),CompareOp.EQUAL,Bytes.toBytes(“value1”));

list.add(filter1);

SingleColumnValueFilter filter2 = new SingleColumnValueFilter(Bytes.toBytes(“cfamily”), Bytes.toBytes(“column”), CompareOp.EQUAL, Bytes.toBytes(“value2”));

List.add(filter2);

 

2.       SingleColumnValueFilter

SingleColumnValueFilter 用于测试列值相等 (CompareOp.EQUAL ), 不等(CompareOp.NOT_EQUAL),或范围 (e.g., CompareOp.GREATER). 下面示例检查列值和字符串’my values’ 相等…

SingleColumnValueFilter filter = new SingleColumnValueFilter(Bytes.toBytes(“cFamily”), Bytes.toBytes(“column”), CompareOp.EQUAL, Bytes.toBytes("values"));
scan.setFilter(filter);

3.       ColumnPrefixFilter

ColumnPrefixFilter 用于指定列名前缀值相等

Byte[] prefix = Bytes.toBytes(“values”);
Filter f = new ColumnPrefixFilter(prefix);
scan.setFilter(f);

4.       MultipleColumnPrefixFilter

MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多,但可以指定多个前缀。

byte[][] prefixes = new byte[][] {Bytes.toBytes("value1"), Bytes.toBytes("value2")};
Filter f = new MultipleColumnPrefixFilter(prefixes);
scan.setFilter(f);

5.       QualifierFilter

QualifierFilter 是基于列名的过滤器。

Filter f = new QualifierFilter(“QualifierName”);
scan.setFilter(f);

6.       RowFilter

RowFilter 是rowkey过滤器,通常根据rowkey来指定范围时,使用scan扫描器的StartRow和StopRow 方法比较好。Rowkey也可以使用。

Filter f = new RowFilter(“rowkey”);
scan.setFilter(f);

B.比较器

7.       RegexStringComparator

RegexStringComparator 是支持正则表达式的比较器。

过滤器配合上比较器会很方便。看下面的代码。

解释一下:代码中绿色字体标注的代码就是正则比较器的使用方法。参数 reg 就是正则验证的规则。

HTable table = new HTable(cfg,"datainfo");
Scan scan = new Scan();
String reg = "^136([0-9]{8})$";//满足136开头的手机号
RowFilter filter = new RowFilter(CompareOp.EQUAL,
new RegexStringComparator(reg));
scan.setFilter(filter);
ResultScanner rs = table.getScanner(scan);
for(Result rr : rs){
for(KeyValue kv : rr.raw()){
         ...
}
}

8.       SubstringComparator

SubstringComparator 用于检测一个子串是否存在于值中。大小写不敏感。

//检测values 是否存在于查询的列值中
SubstringComparator comp = new SubstringComparator("values");
SingleColumnValueFilter filter = new SingleColumnValueFilter(Bytes.toBytes(“family”), Bytes.toBytes(“column”),CompareOp.EQUAL, Bytes.toBytes(“value”));
scan.setFilter(filter);
友情链接: SITEMAP | 旋风加速器官网 | 旋风软件中心 | textarea | 黑洞加速器 | jiaohess | 老王加速器 | 烧饼哥加速器 | 小蓝鸟 | tiktok加速器 | 旋风加速度器 | 旋风加速 | quickq加速器 | 飞驰加速器 | 飞鸟加速器 | 狗急加速器 | hammer加速器 | trafficace | 原子加速器 | 葫芦加速器 | 麦旋风 | 油管加速器 | anycastly | INS加速器 | INS加速器免费版 | 免费vqn加速外网 | 旋风加速器 | 快橙加速器 | 啊哈加速器 | 迷雾通 | 优途加速器 | 海外播 | 坚果加速器 | 海外vqn加速 | 蘑菇加速器 | 毛豆加速器 | 接码平台 | 接码S | 西柚加速器 | 快柠檬加速器 | 黑洞加速 | falemon | 快橙加速器 | anycast加速器 | ibaidu | moneytreeblog | 坚果加速器 | 派币加速器 | 飞鸟加速器 | 毛豆APP | PIKPAK | 安卓vqn免费 | 一元机场加速器 | 一元机场 | 老王加速器 | 黑洞加速器 | 白石山 | 小牛加速器 | 黑洞加速 | 迷雾通官网 | 迷雾通 | 迷雾通加速器 | 十大免费加速神器 | 猎豹加速器 | 蚂蚁加速器 | 坚果加速器 | 黑洞加速 | 银河加速器 | 猎豹加速器 | 海鸥加速器 | 芒果加速器 | 小牛加速器 | 极光加速器 | 黑洞加速 | movabletype中文网 | 猎豹加速器官网 | 烧饼哥加速器官网 | 旋风加速器度器 | 哔咔漫画 | PicACG | 雷霆加速