Mahout - 环境

本章将教您如何设置 mahout。Java 和 Hadoop 是 mahout 的先决条件。下面给出了下载和安装 Java、Hadoop 和 Mahout 的步骤。

安装前设置

在将 Hadoop 安装到 Linux 环境之前，我们需要使用 ssh（安全 Shell）设置 Linux。按照下面提到的步骤设置 Linux 环境。

创建用户

建议为 Hadoop 创建一个单独的用户，以将 Hadoop 文件系统与 Unix 文件系统隔离。按照以下步骤创建用户：

使用命令"su"打开 root。
使用命令"useradd username"从 root 帐户创建用户。
现在，您可以使用命令"su username"打开现有用户帐户。
打开 Linux 终端并输入以下命令来创建用户。

$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd

SSH 设置和密钥生成

需要设置 SSH 才能在集群上执行不同的操作，例如启动、停止和分布式守护进程 shell 操作。要对 Hadoop 的不同用户进行身份验证，需要为 Hadoop 用户提供公钥/私钥对并与不同用户共享。

以下命令用于使用 SSH 生成密钥值对，将公钥从 id_rsa.pub 复制到 authorized_keys，并分别向 authorized_keys 文件提供所有者、读取和写入权限。

$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

验证 ssh

ssh localhost

安装 Java

Java 是 Hadoop 和 HBase 的主要先决条件。首先，您应该使用"java -version"验证系统中是否存在 Java。Java 版本命令的语法如下。

$ java -version

它应该产生以下输出。

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

如果您的系统中未安装 Java，请按照以下步骤安装 Java。

步骤 1

通过访问以下链接下载 java (JDK <最新版本> - X64.tar.gz)： Oracle

然后 jdk-7u71-linux-x64.tar.gz 下载到您的系统中。

步骤 2

通常，您会在 Downloads 文件夹中找到下载的 Java 文件。验证它并使用以下命令提取 jdk-7u71-linux-x64.gz 文件。

$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

步骤 3

要使所有用户都可以使用 Java，您需要将其移动到"/usr/local/"位置。打开 root，然后输入以下命令。

$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

步骤 4

要设置 PATH 和 JAVA_HOME 变量，请将以下命令添加到 ~/.bashrc 文件。

export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH= $PATH:$JAVA_HOME/bin

现在，按照上述说明从终端验证 java -version 命令。

下载 Hadoop

安装 Java 后，您需要先安装 Hadoop。使用"Hadoop version"命令验证 Hadoop 是否存在，如下所示。

hadoop version

它应该产生以下输出：

Hadoop 2.6.0
Compiled by jenkins on 2014-11-13T21:10Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /home/hadoop/hadoop/share/hadoop/common/hadoopcommon-2.6.0.jar

如果您的系统无法找到 Hadoop，请下载 Hadoop 并将其安装在您的系统上。按照下面给出的命令进行操作。

使用以下命令从 apache 软件基础下载并提取 hadoop-2.6.0。

$ su
password:
# cd /usr/local
# wget http://mirrors.advancedhosters.com/apache/hadoop/common/hadoop-
2.6.0/hadoop-2.6.0-src.tar.gz
# tar xzf hadoop-2.6.0-src.tar.gz
# mv hadoop-2.6.0/* hadoop/
# exit

安装 Hadoop

以任何所需模式安装 Hadoop。这里，我们演示了伪分布式模式下的 HBase 功能，因此以伪分布式模式安装 Hadoop。

按照以下步骤在您的系统上安装 Hadoop 2.4.1。

步骤 1：设置 Hadoop

您可以通过将以下命令附加到 ~/.bashrc 文件来设置 Hadoop 环境变量。

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

现在，将所有更改应用到当前正在运行的系统中。

$ source ~/.bashrc

步骤 2：Hadoop 配置

您可以在"$HADOOP_HOME/etc/hadoop"位置找到所有 Hadoop 配置文件。需要根据您的 Hadoop 基础架构对这些配置文件进行更改。

$ cd $HADOOP_HOME/etc/hadoop

为了使用 Java 开发 Hadoop 程序，您需要重置 hadoop-env.sh 文件中的 Java 环境变量，方法是将 JAVA_HOME 值替换为系统中 Java 的位置。

export JAVA_HOME=/usr/local/jdk1.7.0_71

下面给出了您必须编辑以配置 Hadoop 的文件列表。

core-site.xml

core-site.xml 文件包含用于 Hadoop 实例的端口号、分配给文件系统的内存、用于存储数据的内存限制以及读/写缓冲区的大小等信息。

打开 core-site.xml 并在 <configuration>、</configuration> 标签之间添加以下属性：

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
</configuration>

hdfs-site.xm

hdfs-site.xml 文件包含诸如复制数据的值、namenode 路径以及本地文件系统的数据节点路径等信息。它表示您想要存储 Hadoop 基础架构的位置。

让我们假设以下数据：

dfs.replication (data replication value) = 1

(In the below given path /hadoop/ is the user name.
hadoopinfra/hdfs/namenode is the directory created by hdfs file system.)
namenode path = //home/hadoop/hadoopinfra/hdfs/namenode

(hadoopinfra/hdfs/datanode is the directory created by hdfs file system.)
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

打开此文件并在该文件中的 <configuration>、</configuration> 标签之间添加以下属性。

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
	
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>
   </property>
	
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>
   </property>
</configuration>

注意： 在上述文件中，所有属性值都是用户定义的。您可以根据您的 Hadoop 基础架构进行更改。

mapred-site.xml

此文件用于将 yarn 配置到 Hadoop。打开 mapred-site.xml 文件，并在此文件中的 <configuration>、</configuration> 标签之间添加以下属性。

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

mapred-site.xml

此文件用于指定我们使用哪个 MapReduce 框架。默认情况下，Hadoop 包含 mapred-site.xml 模板。首先，需要使用以下命令将文件从 mapred-site.xml.template 复制到 mapred-site.xml 文件。

$ cp mapred-site.xml.template mapred-site.xml

打开mapred-site.xml文件并在该文件中的<configuration>、</configuration>标签之间添加以下属性。

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

验证 Hadoop 安装

以下步骤用于验证 Hadoop 安装。

步骤 1：名称节点设置

使用命令"hdfs namenode -format"设置名称节点，如下所示：

$ cd ~
$ hdfs namenode -format

预期结果如下：

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost/192.168.1.11
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.4.1
...
...
10/24/14 21:30:56 INFO common.Storage: Storage directory
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted.
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain
1 images with txid >= 0
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11
************************************************************/

步骤 2：验证 Hadoop dfs

以下命令用于启动 dfs。此命令启动您的 Hadoop 文件系统。

$ start-dfs.sh

预期输出如下：

10/24/14 21:37:56
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-namenode-localhost.out
localhost: starting datanode, logging to /home/hadoop/hadoop-
2.4.1/logs/hadoop-hadoop-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]

步骤 3：验证 Yarn 脚本

以下命令用于启动 yarn 脚本。执行此命令将启动您的 yarn 守护进程。

$ start-yarn.sh

预期输出如下：

starting yarn daemons
starting resource manager, logging to /home/hadoop/hadoop-2.4.1/logs/yarn-
hadoop-resourcemanager-localhost.out
localhost: starting node manager, logging to /home/hadoop/hadoop-
2.4.1/logs/yarn-hadoop-nodemanager-localhost.out

步骤 4：在浏览器上访问 Hadoop

访问 Hadoop 的默认端口号为 50070。使用以下 URL 在浏览器上获取 Hadoop 服务。

http://localhost:50070/

步骤 5：验证集群的所有应用程序

访问集群所有应用程序的默认端口号为 8088。使用以下 URL 访问此服务。

http://localhost:8088/

下载 Mahout

Mahout 可在网站 Mahout 上找到。从网站提供的链接下载 Mahout。以下是网站的屏幕截图。

步骤 1

使用以下命令从链接 https://mahout.apache.org/general/downloads 下载 Apache mahout。

[Hadoop@localhost ~]$ wget
http://mirror.nexcess.net/apache/mahout/0.9/mahout-distribution-0.9.tar.gz

然后 mahout-distribution-0.9.tar.gz 将下载到您的系统中。

步骤 2

浏览存储 mahout-distribution-0.9.tar.gz 的文件夹，并提取下载的 jar 文件，如下所示。

[Hadoop@localhost ~]$ tar zxvf mahout-distribution-0.9.tar.gz

Maven 存储库

下面给出了使用 Eclipse 构建 Apache Mahout 的 pom.xml。

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-core</artifactId>
   <version>0.9</version>
</dependency>

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-math</artifactId>
   <version>${mahout.version}</version>
</dependency>

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-integration</artifactId>
   <version>${mahout.version}</version>
</dependency>

Mahout 教程

Mahout 有用资源