发布时间:2025-10-15 18:08:59    次浏览
1简介1.1目的为辅助使用ClouderaCDH、Impala项目的快速实施。1.2适用范围适用于ClouderManager5.x安装CDH5和Impala2.2.0版本。1.3术语表CMClouderaManager是Cloudera公司的Hadoop系统组件的安装管理工具CDHCloudera's Distribution Hadoop,是Cloudera公司发布的Hadoop版本1.4参考资料《Installing-and-Using-Impala》v2.2.0Cloudera2yum离线安装安装前,需要执行“2.1运行环境安装”部分的操作,以便安装能顺利执行。2.1运行环境安装2.1.1基本环境准备配置ip和主机名禁用防火墙禁用Selinuxvi /etc/selinux/config内容改成如下:# disabled - No SELinux policy is loaded.SELINUX=disabledSELINUXTYPE=targeted然后保存,重启系统。修改/etc/hosts加上本机的IP加上模拟archive.cloudera.com这个域名的IP例如加上如下内容:134.64.208.132 hadoop1134.64.208.132 archive.cloudera.com下载cloudera-manager-installer.bin,这个必须要到www.cloudera.com上下载。下载要用到的cloudera-manager的安装包下载要用到的cdh的parcel格式的包下载要用到的impala的parcel格式的包说明:要在生产系统部署CDH,先要实现Cloudera Manager的离线安装,安装好Cloudera Manager后,还要通过Cloudera Manager执行CDH的离线安装两个步骤。由于生产环境的封闭性,这些离线包不能从Cloudera的官方网站下载,所以需要将Cloudera的官方网站下载地址映射到本地IP。2.1.2Cloudera Manager的离线安装包下载cloudera-manager-installer.bin程序会连接到Cloudera的官方网站下载Cloudera Manager需要的rpm包,完成Cloudera Manager的安装。 要实现Cloudera Manager的离线安装,需要1.下载Cloudera Manager需要的rpm包(http://archive.cloudera.com/cm5/) 2.将Cloudera的官方网站下载地址映射到本地IP。第一步可以登录到Cloudera的官方网站将这些包下载到本地,目录类似于下面的结构:CM5└─redhat├─6│ └─x86_64│ └─cm│ │ cloudera-manager.repo│ │ RPM-GPG-KEY-cloudera│ ││ └─4│ ├─repodata│ │ filelists.xml.gz│ │ other.xml.gz│ │ primary.xml.gz│ │ repomd.xml│ ││ └─RPMS│ └─x86_64│ cloudera-manager-agent-5.4.7-1.cm472.p0.135.el5.x86_64.rpm│ cloudera-manager-daemons-5.4.1-1.cm472.p0.135.el5.x86_64.rpm│ cloudera-manager-server-5.4.7-1.cm472.p0.135.el5.x86_64.rpm│ cloudera-manager-server-db-5.4.7-1.cm472.p0.135.el5.x86_64.rpm│ enterprise-debuginfo-5.4.7-1.cm472.p0.135.el5.x86_64.rpm│ jdk-6u31-linux-amd64.rpm└─6└─x86_64└─cm│ cloudera-manager.repo│ RPM-GPG-KEY-cloudera└─4├─repodata│ filelists.xml.gz│ filelists.xml.gz.asc│ other.xml.gz│ other.xml.gz.asc│ primary.xml.gz│ primary.xml.gz.asc│ repomd.xml│ repomd.xml.asc│└─RPMS├─noarch└─x86_64cloudera-manager-agent-5.4.7-1.cm471.p0.125.el6.x86_64.rpmcloudera-manager-daemons-5.4.7-1.cm471.p0.125.el6.x86_64.rpmcloudera-manager-server-5.4.7-1.cm471.p0.125.el6.x86_64.rpmcloudera-manager-server-db-5.4.7-1.cm471.p0.125.el6.x86_64.rpmenterprise-debuginfo-5.4.7-1.cm471.p0.125.el6.x86_64.rpmjdk-6u31-linux-amd64.rpm第二步,配置一个htttp服务,例如apache httpd服务,将上述目录树拷贝到这个http服务的根目录下,例如apache httpd服务缺省的根目录是 /var/www/html,然后在待安装机器上配置hosts文件,将上面的服务提供的IP映射到archive.cloudera.com的域名上即可,一般是在hosts文件中增加一行,例如 134.64.208.132 archive.cloudera.com完成上述两步后,执行cloudera-manager-installer.bin即可完成Cloudera Manager的离线安装,Cloudera Manager安装完成后,在被安装机器上会打开7180端口,这时在浏览器中访问这个地址,即可进入Cloudera Hadoop的管理界面。注意:安装时,有时需要用到系统包,下面简单介绍一些系统包安装源的一些方法:如果有安装盘,可以将安装盘mount到一个目录,然后引用file:///协议映射安装源,例如:在目录下新建一个 cdrom_media.repo的文件,内容为:[cdrom_media]name=cdrom_mediabaseurl=file:///mnt/cdrom/gpgcheck=0或者把操作系统的安装源拷贝到上面的http服务的目录下,把源写入一个os.repo的文件中。例如一个os.repo的内容如下:[os]name = Linux OS Packagesbaseurl = http:// 134.64.208.132/osgpgcheck = 0而os的目录结构为下面类似:os├─Packages│ abrt-libs-2.0.8-6.el6.x86_64.rpm│ abrt-tui-2.0.8-6.el6.x86_64.rpm│ amanda-2.6.1p2-7.el6.x86_64.rpm│ amanda-client-2.6.1p2-7.el6.x86_64.rpm│ amanda-server-2.6.1p2-7.el6.x86_64.rpm│ amtu-1.0.8-8.el6.x86_64.rpm│ anaconda-13.21.176-1.el6_3.x86_64.rpm│ anaconda-yum-plugins-1.0-5.1.el6.noarch.rpm│ ant-1.7.1-13.el6.x86_64.rpm│ anthy-9100h-10.1.el6.x86_64.rpm│ antlr-2.7.7-6.5.el6.x86_64.rpm│ eclipse-callgraph-0.6.1-1.el6.x86_64.rpm│ gmp-4.3.1-7.el6_2.2.i686.rpm.........│ yum-plugin-security-1.1.30-14.el6.noarch.rpm│ yum-plugin-tmprepo-1.1.30-14.el6.noarch.rpm│ zlib-devel-1.2.3-27.el6.i686.rpm│ zlib-devel-1.2.3-27.el6.x86_64.rpm│ zsh-4.3.10-5.el6.x86_64.rpm└─repodatafilelists.xml.gzother.xml.gzprimary.xml.gzproductidproductid.gzrepomd.xmlTRANS.TBL上面关于系统包的安装源,未作深入讨论,如有问题,请参考其他建立系统离线安装源的材料。2.1.3CDH和Impala的离线安装包下载CDH5可以通过rpm安装,也可通过parcels安装,官方推荐使用parcels安装。先到Cloudera的官方网站下载CDH5和Impala的parcels包。下面目录树结构映射了官方的下载地址。cdh5└─parcels└─latestCDH-5.4.7-1.cdh4.4.0.p0.39-el5.parcelCDH-5.4.7-1.cdh4.4.0.p0.39-el6.parcelCDH-5.4.7-1.cdh4.4.0.p0.39-lucid.parcelCDH-5.4.7-1.cdh4.4.0.p0.39-precise.parcelCDH-5.4.7-1.cdh4.4.0.p0.39-sles11.parcelCDH-5.4.7-1.cdh4.4.0.p0.39-squeeze.parcelmanifest.jsonimpala└─parcels└─latestIMPALA-2.2.2-1.p0.17-el5.parcelIMPALA-2.2.2-1.p0.17-el6.parcelIMPALA-2.2.2-1.p0.17-lucid.parcelIMPALA-2.2.2-1.p0.17-precise.parcelIMPALA-2.2.2-1.p0.17-sles11.parcelIMPALA-2.2.2-1.p0.17-squeeze.parcelmanifest.json下载完成后,放到上面一样的http服务的根目录下。进入Cloudera Hadoop的管理界面,添加集群,添加服务器,添加服务等,就可自动从这些包中安装Hadoop依赖的软件。例如HDFS的添加步骤是 服务――下拉“操作”――添加服务――选择HDFS例如Impala的添加步骤是 服务――下拉“操作”――添加服务――选择impala需要说明的是,服务是有依赖关系的,要添加impala服务,就要先顺序添加 hdfs—mapreduce—hive 这几个服务。添加服务时,一些关键的配置参数也要注意,例如hdfs的namenode目录、secondary namenode目录、mapreduce的jobtracker目录、tasktracker目录等。2.2系统安装运行已下载的cloudera-manager-installer.bin 一路选择Next,回车。 在确认License处,按右箭头?选择Yes回车。当Cloudera的官方网站下载地址映射到本地IP已完成并且需要的rpm包也已下载好放到了本地IP的http服务器指定目录中后,安装顺利完成,等待服务启动,并且7180端口的开启。 [root@hadoop1 ~]# netstat –an | grep 7180tcp 0 0 0.0.0.0:7180 0.0.0.0:* LISTEN 上面命令输出表示已完成启动,此时可以在浏览器上输入这个Cloudera Manager服务器的地址和端口,就可进入Cloudera Manager的安装和管理界面。下面操作都从主菜单上链接开始:1.添加集群主页—右上角—添加集群 2.添加服务服务—所有服务— —添加服务 在下面的界面中选择你要添加的服务。 3.添加节点主机—向集群添加主机 4.删除节点主机然后选定一个主机(界面上的一行记录)主机—已选定的动作—从集群中删除主机—已选定的动作—删除 安装完成,相关服务启动后,在master节点输入 impala-shell就进入sql语句输入界面,可以利用sql查询hdfs的数据了。一般的,impala查询的速度可以达到hive的5~30倍。3疑难解答1.提示PostgreSQL版本过低系统需要安装PostgreSQL数据库 8.4.11以上,先卸载低版本,然后安装8.4.11以上的版本。2.提示RPM-GPG-KEY-cloudera文件找不到在Cloudera找到RPM-GPG-KEY-cloudera文件,放到映射的本地IP的相对应的位置。这个文件一般在cm5/redhat/6/x86_64/cm的相对目录下。3.5.4.7版本下某文件找不到本版本的Cloudera Manager有时找cm5/redhat/6/x86_64/cm/5目录下的文件,有时找cm5/redhat/6/x86_64/cm/5.4.7目录下的文件,有时找cm5/redhat/6/x86_64/cm/5.4.7目录下的文件,出现此错误时,解决的办法是,将cm5/redhat/6/x86_64/cm/5.4.7目录下的文件下载完整,然后在同级建立符号链接,例如ln –s 5.4.7 5ln –s 5.4.7 5.5这样,三种情形下的文件都可以找到了。