大数据的虚拟化之旅以POC开启最为合适。POC是Proofof Concept的简称,意思是概念验证,也就是通常意义上指的测试,用以了解产品的特性是否符合预期的需求。

那么,如何从零起点部署大数据虚拟化的POC环境呢?

   我认为,工欲善其事,必先利其器。

   这里的“器”,就是虚拟化环境。虚拟化环境是开始搭建大数据基础架构的一个前提,但是,我相信各位读者的“器”目前可能各不相同。所以,为了保证所有读者都能顺利完成部署,我会从一开始的搭建虚拟化环境开始,从源头帮助大家了解搭建大数据虚拟化基础架构的方法。当然,如果你已经有了搭建虚拟化环境的经验,可以选择温故或者跳过这些内容,直接从虚拟化环境上部署大数据环境的部分开始研究。

环境规划和准备

   一开始,为了从简单入手,我们仅使用一台服务器,并且利用本地存储。这样的好处是可以尽快得到一个最小的可用环境。我会在今后的文章中介绍如何配置更趋于业务需求的环境。下面的表格是我所使用的服务器配置,读者可以根据实际情况挑选符合vSphere安装条件的物理服务器。

机型

DELL PowerEdge  R720 Enterprise一台

CPU

2个8核的Intel(R)  Xeon(R) CPU E5-2660 0 @ 2.20GHz

内存

128 GB,最大可扩展到768 GB。 24槽,16槽已用。每块都是DDR3的8GB内存,1600MHz

网络

2块活动的千兆网卡,2块非活动千兆网卡。

存储

4块SATA本地的物理磁盘,每块大小1862.5GB。

没有挂共享存储。

   首先,我们需要下载vSphere5.1和vCenterServer Appliance 5.1。

   请注意,这里我们需要下载的是vSphere5.1企业版。如果使用的品牌服务器处在裸装情况下,可能需要安装某些驱动,请向服务器厂商咨询是否有OEM的vSphere5.1。如果使用原厂的vSphere5.1,可能会因为缺少驱动而导致安装失败。比如,我这次使用的就是Dell定制版的vSphere5.1。

   还需要注意的是,去VMware官方网站下载vSphere或其他产品的时候,需要注册用户或登录才能得到下载列表。试用产品一般可以获得60天的试用有效期。这对POC来讲完全够用了。

ESXi 5.1.0 Dell Customized

Version

Build Number: 799733

Dell Version:  A01

303 MB

http://www.dell.com/support/drivers/us/en/19/driverdetails?driverid=5GYKN

VMware原厂ESXi  5.1 或 5.1u1

Build Number:  799733(5.1.0)or 1065491

(5.1.0  Update1)

301 MB

https://my.vmware.com/group/vmware/info/slug/datacenter_cloud_infrastructure/vmware_vsphere/5_1

vCenter  Server Appliance 5.1.0

Version: 5.1.0b

Build Number:  947940

2.0 GB

https://my.vmware.com/web/vmware/details?productId=285&downloadGroup=VCL-VSP510-VC-510B-EN

vSphere Big  

Data Extension

1.0 beta

Version: 1.0  for

vSphere Enterprise andEnterprise Plus

Editions

Serengeti Version: 0.9

Build Number: 1190989

2.84 GB

https://my.vmware.com/group/vmware/get-download?downloadGroup=BDE-10-BETA

   下面的表格,是整体的网络规划。表格里的IP地址和网络属性是我实验环境下的实例,仅供参考。

Dell PowerEdge物理服务器Access  Controller(即remote  host)

10.110.186.9


子网:10.110.186.0/23

网关:10.110.187.253

DNS1: 10.110.160.1

DNS2:  10.110.160.2

客户端电脑(也就是我自己的一台笔记本)

<IP地址>

可以连通上面的子网

ESXi主机

10.110.186.39

处于相同网络

vCenter服务器

10.110.186.80

处于相同网络

DHCP服务器

10.110.186.64

处于相同网络

Big Data  Extensions服务器(即Serengeti  Management Server)

1个IP地址,由DHCP或静态IP地址段分配

处于相同网络

预留的集群可用IP地址

10.110.187.220-240

(20个预留IP或更多)

处于相同网络


共需要至少25个IP地址


   这里需要留意的是,20个预留IP地址只供参考。与物理部署一样,随着集群的横向扩展或者集群数量的增加,20个预留的IP地址可能无法满足长期需要。这时候,你就需要从网络管理员那里获得更多网络资源了。

   到这里,我们已经完成了大数据虚拟化基础运维的第一步——环境规划和准备。在接下来的文章里,我将带领大家从安装vSphere到安装BigData Extensions Plugin一步步实现大数据虚拟化的基础运维


如有任何问题,您可以发邮件至bigdata_apac@vmware.com。


关于vSphere Big Data Extensions:

VMwarevSphere Big Data Extensions(简称BDE)基于vSphere平台支持大数据和ApacheHadoop作业。BDE以开源Serengeti项目为基础,为企业级用户提供一系列整合的管理工具,通过在vSphere上虚拟化ApacheHadoop,帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据部署、运行和管理工作。了解更多关于VMware vSphere Big Data Extensions的信息,请参见http://www.vmware.com/hadoop。


作者简介:

163338765.png

张君迟

VMware大数据解决方案项目经理

目前负责VMware大数据解决方案的管理和市场工作。曾担任VMware数据库管理产品vFabricData Director产品经理,对虚拟化、云计算、关系型数据库大数据等企业产品、技术方案和市场有深入的理解和实战经验。在此之前,就职于Microsoft从事分布式系统的产品管理和研发工作。