BlogJava-SIMONE-随笔分类-hbase

(转)Hadoop 解除 "Name node is in safe mode"

SIMONE — Thu, 28 Mar 2013 08:55:00 GMT

http://39382728.blog.163.com/blog/static/35360069201182710565420/

运行hadoop程序时，中途我把它终止了，然后再向hdfs加文件或删除文件时，出现Name node is in safe mode错误：
rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode

解决的命令：

bin/hadoop dfsadmin -safemode leave #关闭safe mode

转自： http://shutiao2008.iteye.com/blog/318950

附安全模式学习：

safemode模式
NameNode在启动的时候首先进入安全模式，如果datanode丢失的block达到一定的比例（1-dfs.safemode.threshold.pct），则系统会一直处于安全模式状态即只读状态。
dfs.safemode.threshold.pct（缺省值0.999f）表示HDFS启动的时候，如果DataNode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式，否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。
下面这行摘录自NameNode启动时的日志（block上报比例1达到了阀值0.9990）
The ratio of reported blocks 1.0000 has reached the threshold 0.9990. Safe mode will be turned off automatically in 18 seconds.
hadoop dfsadmin -safemode leave
有两个方法离开这种安全模式
1. 修改dfs.safemode.threshold.pct为一个比较小的值，缺省是0.999。
2. hadoop dfsadmin -safemode leave命令强制离开
http://bbs.hadoopor.com/viewthread.php?tid=61&extra=page%3D1
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
Safe mode is exited when the minimal replication condition is reached, plus an extension
time of 30 seconds. The minimal replication condition is when 99.9% of the blocks in
the whole filesystem meet their minimum replication level (which defaults to one, and
is set by dfs.replication.min).
安全模式的退出前提 - 整个文件系统中的99.9%（默认是99.9%，可以通过dfs.safemode.threshold.pct设置）的Blocks达到最小备份级别(默认是1，可以通过dfs.replication.min设置)。
dfs.safemode.threshold.pct    float    0.999
The proportion of blocks in the system that must meet the minimum
replication level defined by dfs.rep lication.min before the namenode
will exit safe mode. Setting
this value to 0 or less forces the name-node not to start in safe mode.
Setting this value to more than 1 means the namenode never exits safe
mode.
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
用户可以通过dfsadmin -safemode value  来操作安全模式，参数value的说明如下：
enter - 进入安全模式
leave - 强制NameNode离开安全模式
get -  返回安全模式是否开启的信息
wait - 等待，一直到安全模式结束。

SIMONE 2013-03-28 16:55 发表评论

hadoop集群处理

SIMONE — Thu, 28 Mar 2013 08:29:00 GMT

详细内容查看这个

http://www.cnblogs.com/xia520pi/

这个博客的内容

SIMONE 2013-03-28 16:29 发表评论

成功编译hadoop eclipse插件。此方式适用于win 7

SIMONE — Thu, 28 Mar 2013 08:26:00 GMT

http://www.07net01.com/linux/tongguoeclipsexiangmubianyi_hadoop_1_0_3_eclipse_4_2___juno___plugin_20146_1350034161.html

流程如下：

1.下载hadoop 1.0.3 （http://hadoop.apache.org/releases.html#Download），解压在自定义的一个目录中（最好全英文路径，试过中文路径出了问题）。

2.Eclipse导入..\hadoop-1.0.3\src\contrib\eclipse-plugin项目，默认项目是MapReduceTools。

3. 在项目MapReduceTools中新建lib目录，并把hadoop的hadoop-core（由hadoop根目录的hadoop-*.jar改名获得）、commons-cli-1.2.jar、commons-lang-2.4.jar、commons-configuration- 1.6.jar、jackson-mapper-asl-1.8.8.jar、jackson-core-asl-1.8.8.jar、commons- httpclient-3.0.1.jar拷贝到该目录。

4.修改上级目录中的build-contrib.xml：

找到修改location为hadoop1.0.3实际解压目录，在其下添加

5.修改项目目录下的build.xml：

jarfile="${build.dir}/hadoop-${name}-${version}.jar"

manifest="${root}/META-INF/MANIFEST.MF">

6.右键eclipse里的build.xml选择run as - ant build。

如果出现：“软件包org.apache.hadoop.fs 不存在”的错误则修改build.xml：

在中添加：

7.等Ant编译完毕后。编译后的文件在：\build\contrib 中的 hadoop-eclipse-plugin-1.0.3.jar。

8.查看编译好的jar包下META-INF/MANIFEST.MF 下的配置属性是否完整，如果不完整，补充完整。

Bundle-ClassPath: classes/,lib/hadoop-core.jar,lib/commons-cli-1.2.jar
,lib/commons-lang-2.4.jar,lib/commons-configuration-1.6.jar,lib/jacks
on-mapper-asl-1.8.8.jar,lib/jackson-core-asl-1.8.8.jar,lib/commons-ht
tpclient-3.0.1.jar

9.放入eclipse/plugins下，重启eclipse，查看是否安装成功。

SIMONE 2013-03-28 16:26 发表评论

在HBase里使用MapReduce例子

SIMONE — Fri, 22 Feb 2013 06:12:00 GMT

http://jeffxie.blog.51cto.com/1365360/305538

我在Hadoop的用户邮件列表中看到一些国内的用户在讯问一些关于如何操作的HBase的问题，还看到了HBase中没有Example。觉得有必要跟大家分享自己的经验。
在下面的例子中我们分析Apache的log并把这些log进行分析并把分析完的结果按用户IP为ROW，把log中用户的访问时间，请求方法，用户请求的协议，用户的浏览器，服务状态等写到HBase的表中。

首先我们要在HBase中建立我们的一个表来存储数据。

public static void creatTable(String table) throws IOException{
HConnection conn = HConnectionManager.getConnection(conf);
HBaseAdmin admin = new HBaseAdmin(conf);
if(!admin.tableExists(new Text(table))){
System.out.println("1. " + table + " table creating ... please wait");
HTableDescriptor tableDesc = new HTableDescriptor(table);
tableDesc.addFamily(new HColumnDescriptor("http:"));
tableDesc.addFamily(new HColumnDescriptor("url:"));
tableDesc.addFamily(new HColumnDescriptor("referrer:"));
admin.createTable(tableDesc);
} else {
System.out.println("1. " + table + " table already exists.");
}
System.out.println("2. access_log files fetching using map/reduce");
}

复制代码

然后我们运行一个MapReduce任务来取得log中的每一行数据。因为我们只要取得数据而不需要对结果进行规约，我们只要编写一个Map程序即可。

public static class MapClass extends MapReduceBase implements
Mapper {
@Override
public void configure(JobConf job) {
tableName = job.get(TABLE, "");
}
public void map(WritableComparable key, Text value,
OutputCollector output, Reporter reporter)
throws IOException {
try {
AccessLogParser log = new AccessLogParser(value.toString());
if(table==null)
table = new HTable(conf, new Text(tableName));
long lockId = table.startUpdate(new Text(log.getIp()));
table.put(lockId, new Text("http:protocol"), log.getProtocol().getBytes());
table.put(lockId, new Text("http:method"), log.getMethod().getBytes());
table.put(lockId, new Text("http:code"), log.getCode().getBytes());
table.put(lockId, new Text("http:bytesize"), log.getByteSize().getBytes());
table.put(lockId, new Text("http:agent"), log.getAgent().getBytes());
table.put(lockId, new Text("url:" + log.getUrl()), log.getReferrer().getBytes());
table.put(lockId, new Text("referrer:" + log.getReferrer()), log.getUrl().getBytes());
table.commit(lockId, log.getTimestamp());
} catch (ParseException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
}

复制代码

我们在Map程序中对于传进来的每一行先交给AccessLogParser去处理在AccessLogParser德构造器中用一个正则表达式"([^ ]*) ([^ ]*) ([^ ]*) \\[([^]]*)\\] \"([^\"]*)\"　" ([^ ]*) ([^ ]*) \"([^\"]*)\" \"([^\"]*)\".*"来匹配每一行的log。接下来我们把这些AccessLogParser处理出来的结果更新到HBase的表中去，好的，我们的程序写完了。我们要启动一个MapReduce的话我们要对工作进行配置。

public static void runMapReduce(String table,String dir) throws IOException{
Path tempDir = new Path("log/temp");
Path InputDir = new Path(dir);
FileSystem fs = FileSystem.get(conf);
JobConf jobConf = new JobConf(conf, LogFetcher.class);
jobConf.setJobName("apache log fetcher");
jobConf.set(TABLE, table);
Path[] in = fs.listPaths(InputDir);
if (fs.isFile(InputDir)) {
jobConf.setInputPath(InputDir);
} else {
for (int i = 0; i < in.length; i++) {
if (fs.isFile(in[i])) {
jobConf.addInputPath(in[i]);
} else {
Path[] sub = fs.listPaths(in[i]);
for (int j = 0; j < sub.length; j++) {
if (fs.isFile(sub[j])) {
jobConf.addInputPath(sub[j]);
}
}
}
}
}
jobConf.setOutputPath(tempDir);
jobConf.setMapperClass(MapClass.class);
JobClient client = new JobClient(jobConf);
ClusterStatus cluster = client.getClusterStatus();
jobConf.setNumMapTasks(cluster.getMapTasks());
jobConf.setNumReduceTasks(0);
JobClient.runJob(jobConf);
fs.delete(tempDir);
fs.close();
}

复制代码

在上面的代码中我们先产生一个jobConf对象，然后设定我们的InputPath和OutputPath，告诉MapReduce我们的Map类，设定我们用多少个Map任务和Reduce任务，然后我们不任务提交给JobClient，关于MapReduce跟详细的资料在Hadoop Wiki上。
下载：源码和已编译好的jar文件example-src.tgz
例子的运行命令是：

bin/hadoop jar examples.jar logfetcher

如何运行上面的应用程序呢？我们假定解压缩完Hadoop分发包的目录为%HADOOP%
拷贝%HADOOP%\contrib\hbase\bin下的文件到%HADOOP%\bin下,拷贝%HADOOP%\contrib\hbase \conf的文件到%HADOOP%\conf下,拷贝%HADOOP%\src\contrib\hbase\lib的文件到%HADOOP%\lib 下,拷贝%HADOOP%\src\contrib\hbase\hadoop-*-hbase.jar的文件到%HADOOP%\lib下.然后编辑配置文件hbase-site.xml设定你的hbase.master例子：192.168.2.92:60000。把这些文件分发到运行Hadoop的机器上去。在regionservers文件添加上这些已分发过的地址。运行bin/start-hbase.sh命令启动HBase，把你的 apache log文件拷贝到HDFS的apache-log目录下，等启动完成后运行下面的命令。

bin/hadoop jar examples.jar logfetcher apache-log apache

访问http://localhost:50030/能看到你的MapReduce任务的运行情况，访问http://localhost:60010/能看到HBase的运行情况。

等任务MapReduce完成后访问http://localhost:60010/hql.jsp,在Query输入框中输入 SELECT * FROM apache limit=50;。将会看到已经插入表中的数据。

SIMONE 2013-02-22 14:12 发表评论

Hadoop学习笔记之在Eclipse中远程调试Hadoop

SIMONE — Fri, 22 Feb 2013 06:06:00 GMT

http://www.blogjava.net/yongboy/archive/2012/04/26/376486.html

插件

话说Hadoop 1.0.2/src/contrib/eclipse-plugin只有插件的源代码，这里给出一个我打包好的对应的Eclipse插件：
下载地址

下载后扔到eclipse/dropins目录下即可，当然eclipse/plugins也是可以的，前者更为轻便，推荐；重启Eclipse，即可在透视图(Perspective)中看到Map/Reduce。

配置

点击蓝色的小象图标，新建一个Hadoop连接：

注意，一定要填写正确，修改了某些端口，以及默认运行的用户名等

具体的设置，可见

正常情况下，可以在项目区域可以看到

这样可以正常的进行HDFS分布式文件系统的管理：上传，删除等操作。

为下面测试做准备，需要先建了一个目录 user/root/input2，然后上传两个txt文件到此目录：

intput1.txt 对应内容：Hello Hadoop Goodbye Hadoop

intput2.txt 对应内容：Hello World Bye World

HDFS的准备工作好了，下面可以开始测试了。

Hadoop工程

新建一个Map/Reduce Project工程，设定好本地的hadoop目录

新建一个测试类WordCountTest：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87

package com.hadoop.learn.test;
 
import java.io.IOException;
import java.util.StringTokenizer;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.log4j.Logger;
 
/**
 * 运行测试程序
 * 
 * @author yongboy
 * @date 2012-04-16
 */
public class WordCountTest {
	private static final Logger log = Logger.getLogger(WordCountTest.class);
 
	public static class TokenizerMapper extends
			Mapper {
		private final static IntWritable one = new IntWritable(1);
		private Text word = new Text();
 
		public void map(Object key, Text value, Context context)
				throws IOException, InterruptedException {
			log.info("Map key : " + key);
			log.info("Map value : " + value);
			StringTokenizer itr = new StringTokenizer(value.toString());
			while (itr.hasMoreTokens()) {
				String wordStr = itr.nextToken();
				word.set(wordStr);
				log.info("Map word : " + wordStr);
				context.write(word, one);
			}
		}
	}
 
	public static class IntSumReducer extends
			Reducer {
		private IntWritable result = new IntWritable();
 
		public void reduce(Text key, Iterable values,
				Context context) throws IOException, InterruptedException {
			log.info("Reduce key : " + key);
			log.info("Reduce value : " + values);
			int sum = 0;
			for (IntWritable val : values) {
				sum += val.get();
			}
			result.set(sum);
			log.info("Reduce sum : " + sum);
			context.write(key, result);
		}
	}
 
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		String[] otherArgs = new GenericOptionsParser(conf, args)
				.getRemainingArgs();
		if (otherArgs.length != 2) {
			System.err.println("Usage: WordCountTest  ");
			System.exit(2);
		}
 
		Job job = new Job(conf, "word count");
		job.setJarByClass(WordCountTest.class);
 
		job.setMapperClass(TokenizerMapper.class);
		job.setCombinerClass(IntSumReducer.class);
		job.setReducerClass(IntSumReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
 
		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
 
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}
}

view raw WordCountTest.java This Gist brought to you by GitHub.

右键，选择“Run Configurations”,弹出窗口，点击“Arguments”选项卡,在“Program argumetns”处预先输入参数:

hdfs://master:9000/user/root/input2 dfs://master:9000/user/root/output2

备注：参数为了在本地调试使用，而非真实环境。

然后，点击“Apply”，然后“Close”。现在可以右键，选择“Run on Hadoop”，运行。

但此时会出现类似异常信息：

12/04/24 15:32:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
12/04/24 15:32:44 ERROR security.UserGroupInformation: PriviledgedActionException as:Administrator cause:java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-519341271\.staging to 0700
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-519341271\.staging to 0700
    at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:682)
    at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:655)
    at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509)
    at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344)
    at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189)
    at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856)
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1093)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:500)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:530)
    at com.hadoop.learn.test.WordCountTest.main(WordCountTest.java:85)

这个是Windows下文件权限问题，在Linux下可以正常运行，不存在这样的问题。

解决方法是，修改/hadoop-1.0.2/src/core/org/apache/hadoop/fs/FileUtil.java里面的checkReturnValue，注释掉即可（有些粗暴，在Window下，可以不用检查）：

1 2 3 4 5 6 7 8 9 10 11 12 13

......
  private static void checkReturnValue(boolean rv, File p, 
                                       FsPermission permission
                                       ) throws IOException {
    /**
	if (!rv) {
      throw new IOException("Failed to set permissions of path: " + p + 
                            " to " + 
                            String.format("%04o", permission.toShort()));
    }
	**/
  }
......

view raw FileUtil.java This Gist brought to you by GitHub.

重新编译打包hadoop-core-1.0.2.jar，替换掉hadoop-1.0.2根目录下的hadoop-core-1.0.2.jar即可。

这里提供一份修改版的hadoop-core-1.0.2-modified.jar文件，替换原hadoop-core-1.0.2.jar即可。

替换之后，刷新项目，设置好正确的jar包依赖，现在再运行WordCountTest，即可。

成功之后，在Eclipse下刷新HDFS目录，可以看到生成了ouput2目录：

点击“ part-r-00000”文件，可以看到排序结果：

Bye    1
Goodbye    1
Hadoop    2
Hello    2
World    2

嗯，一样可以正常Debug调试该程序，设置断点（右键 –> Debug As – > Java Application），即可（每次运行之前，都需要收到删除输出目录）。

另外，该插件会在eclipse对应的workspace\.metadata\.plugins\org.apache.hadoop.eclipse下，自动生成jar文件，以及其他文件，包括Haoop的一些具体配置等。

嗯，更多细节，慢慢体验吧。

遇到的异常

org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/output2/_temporary. Name node is in safe mode.
The ratio of reported blocks 0.5000 has not reached the threshold 0.9990. Safe mode will be turned off automatically.
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirsInternal(FSNamesystem.java:2055)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.mkdirs(FSNamesystem.java:2029)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.mkdirs(NameNode.java:817)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
    at java.lang.reflect.Method.invoke(Method.java:597)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:563)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1388)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1384)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1093)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1382)

在主节点处，关闭掉安全模式：

#bin/hadoop dfsadmin –safemode leave

如何打包

将创建的Map/Reduce项目打包成jar包，很简单的事情，无需多言。保证jar文件的META-INF/MANIFEST.MF文件中存在Main-Class映射：

Main-Class: com.hadoop.learn.test.TestDriver

若使用到第三方jar包，那么在MANIFEST.MF中增加Class-Path好了。

另外可使用插件提供的MapReduce Driver向导，可以帮忙我们在Hadoop中运行，直接指定别名，尤其是包含多个Map/Reduce作业时，很有用。

一个MapReduce Driver只要包含一个main函数，指定别名：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

package com.hadoop.learn.test;
 
import org.apache.hadoop.util.ProgramDriver;
 
/**
 * 
 * @author yongboy
 * @time 2012-4-24
 * @version 1.0
 */
public class TestDriver {
 
	public static void main(String[] args) {
		int exitCode = -1;
		ProgramDriver pgd = new ProgramDriver();
		try {
			pgd.addClass("testcount", WordCountTest.class,
					"A test map/reduce program that counts the words in the input files.");
			pgd.driver(args);
 
			exitCode = 0;
		} catch (Throwable e) {
			e.printStackTrace();
		}
 
		System.exit(exitCode);
	}
}

view raw TestDriver.java This Gist brought to you by GitHub.

这里有一个小技巧，MapReduce Driver类上面，右键运行，Run on Hadoop，会在Eclipse的workspace\.metadata\.plugins\org.apache.hadoop.eclipse目录下自动生成jar包，上传到HDFS，或者远程hadoop根目录下，运行它:

# bin/hadoop jar LearnHadoop_TestDriver.java-460881982912511899.jar testcount input2 output3

OK，本文结束。

SIMONE 2013-02-22 14:06 发表评论

Hadoop作业提交分析（五）

SIMONE — Fri, 22 Feb 2013 06:05:00 GMT

http://www.cnblogs.com/spork/archive/2010/04/21/1717592.html

　　经过上一篇的分析，我们知道了Hadoop的作业提交目标是Cluster还是Local，与conf文件夹内的配置文件参数有着密切关系，不仅如此，其它的很多类都跟conf有关，所以提交作业时切记把conf放到你的classpath中。

　　因为Configuration是利用当前线程上下文的类加载器来加载资源和文件的，所以这里我们采用动态载入的方式，先添加好对应的依赖库和资源，然后再构建一个URLClassLoader作为当前线程上下文的类加载器。

 public static ClassLoader getClassLoader() {
        ClassLoader parent = Thread.currentThread().getContextClassLoader();
        if (parent == null) {
            parent = EJob.class.getClassLoader();
        }
        if (parent == null) {
            parent = ClassLoader.getSystemClassLoader();
        }
        return new URLClassLoader(classPath.toArray(new URL[0]), parent);
    }

　　代码很简单，废话就不多说了。调用例子如下：

   EJob.addClasspath("/usr/lib/hadoop-0.20/conf");
   ClassLoader classLoader = EJob.getClassLoader();
   Thread.currentThread().setContextClassLoader(classLoader);

　　设置好了类加载器，下面还有一步就是要打包Jar文件，就是让Project自打包自己的class为一个Jar包，我这里以标准Eclipse工程文件夹布局为例，打包的就是bin文件夹里的class。

    public static File createTempJar(String root) throws IOException {
        if (!new File(root).exists()) {
            return null;
        }
        Manifest manifest = new Manifest();
        manifest.getMainAttributes().putValue("Manifest-Version", "1.0");
        final File jarFile = File.createTempFile("EJob-", ".jar", new File(System
                .getProperty("java.io.tmpdir")));

        Runtime.getRuntime().addShutdownHook(new Thread() {
            public void run() {
                jarFile.delete();
            }
        });

        JarOutputStream out = new JarOutputStream(new FileOutputStream(jarFile),
                manifest);
        createTempJarInner(out, new File(root), "");
        out.flush();
        out.close();
        return jarFile;
    }

    private static void createTempJarInner(JarOutputStream out, File f,
            String base) throws IOException {
        if (f.isDirectory()) {
            File[] fl = f.listFiles();
            if (base.length() > 0) {
                base = base + "/";
            }
            for (int i = 0; i < fl.length; i++) {
                createTempJarInner(out, fl[i], base + fl[i].getName());
            }
        } else {
            out.putNextEntry(new JarEntry(base));
            FileInputStream in = new FileInputStream(f);
            byte[] buffer = new byte[1024];
            int n = in.read(buffer);
            while (n != -1) {
                out.write(buffer, 0, n);
                n = in.read(buffer);
            }
            in.close();
        }
    }

　　这里的对外接口是createTempJar，接收参数为需要打包的文件夹根路径，支持子文件夹打包。使用递归处理法，依次把文件夹里的结构和文件打包到Jar里。很简单，就是基本的文件流操作，陌生一点的就是Manifest和JarOutputStream，查查API就明了。

　　好，万事具备，只欠东风了，我们来实践一下试试。还是拿WordCount来举例：

 // Add these statements. XXX
        File jarFile = EJob.createTempJar("bin");
        EJob.addClasspath("/usr/lib/hadoop-0.20/conf");
        ClassLoader classLoader = EJob.getClassLoader();
        Thread.currentThread().setContextClassLoader(classLoader);

        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args)
                .getRemainingArgs();
        if (otherArgs.length != 2) {
            System.err.println("Usage: wordcount  ");
            System.exit(2);
        }

        Job job = new Job(conf, "word count");
        job.setJarByClass(WordCountTest.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);

　　Run as Java Application。。。！！！No job jar file set...异常，看来job.setJarByClass(WordCountTest.class)这个语句设置作业Jar包没有成功。这是为什么呢？

因为这个方法使用了WordCount.class的类加载器来寻找包含该类的Jar包，然后设置该Jar包为作业所用的Jar包。但是我们的作业 Jar包是在程序运行时才打包的，而WordCount.class的类加载器是AppClassLoader，运行后我们无法改变它的搜索路径，所以使用setJarByClass是无法设置作业Jar包的。我们必须使用JobConf里的setJar来直接设置作业Jar包，像下面一样：

((JobConf)job.getConfiguration()).setJar(jarFile);

　　好，我们对上面的例子再做下修改，加上上面这条语句。

Job job = new Job(conf, "word count");
// And add this statement. XXX
((JobConf) job.getConfiguration()).setJar(jarFile.toString());

　　再Run as Java Application，终于OK了~~

　　该种方法的Run on Hadoop使用简单，兼容性好，推荐一试。：）

　　本例子由于时间关系，只在Ubuntu上做了伪分布式测试，但理论上是可以用到真实分布式上去的。

>>点我下载<<

　　The end.

SIMONE 2013-02-22 14:05 发表评论

HBASE的MAPREDUCE任务运行异常解决办法，无需CYGWIN，纯WINDOWS环境

SIMONE — Fri, 22 Feb 2013 06:03:00 GMT

http://www.blogjava.net/paulwong/archive/2012/10/03/388977.html

如果是在WINDOWS的ECLIPSE中，运行HBASE的MAPREDUCE，会出现异常，这是由于默认运行MAPREDUCE任务是在本地运行，而由于会建立文件赋权限是按照UNIX的方式进行，因此会报错：

java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: Cannot run program "ls": CreateProcess error=2,

解决办法是将任务发到运程主机，通常是LINUX上运行，在hbase-site.xml中加入：

<property>
<name>mapred.job.trackername>
<value>master:9001value>
property>

同时需把HDFS的权限机制关掉：

<property>
<name>dfs.permissionsname>
<value>falsevalue>
property>

另外由于是在远程上执行任务，自定义的类文件，如Maper/Reducer等需打包成jar文件上传，具体见方案：
Hadoop作业提交分析（五）http://www.cnblogs.com/spork/archive/2010/04/21/1717592.html

研究了好几天，终于搞清楚，CONFIGUARATION就是JOB的配置信息，远程JOBTRACKER就是以此为参数构建JOB去执行，由于远程主机并没有自定义的MAPREDUCE类，需打成JAR包后，上传到主机处，但无需每次都手动传，可以代码设置：

conf.set("tmpjars", "d:/aaa.jar");

另注意，如果在WINDOWS系统中，文件分隔号是“；”，生成的JAR包信息是以“；”间隔的，在远程主机的LINUX上是无法辨别，需改为：

System.setProperty("path.separator", ":");

参考文章：
http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.html

使用hadoop eclipse plugin提交Job并添加多个第三方jar（完美版）
http://heipark.iteye.com/blog/1171923

SIMONE 2013-02-22 14:03 发表评论