Log4j配置

发表于 2016-12-09 | 分类于 Java |

加入log4j-1.2.8.jar到lib下。
在CLASSPATH下建立log4j.properties。
在bin目录下加入 log4j.properties

阅读全文 »

mapreduce调优

发表于 2016-12-02 | 分类于大数据 |

对应用程序进行调优

避免输入大量小文件。大量的小文件(不足一个block大小)作为输入数据会产生很多的Map任务(默认一个分片对应一个Map任务)，而每个Map任务实际工作量又非常小，系统要花更多的时间来将这些Map任务的输出进行整合。如果将大量的小文件进行预处理合并成一个或几个大文件，任务执行的效率可能会提升几十倍。可手动将小文件合并成大文件，或通过Hadoop的SequenceFile、CombineFileInputFormat将多个文件打包到一个输入单元中，使得每个Map处理更多的数据，从而提高性能。
输入文件size巨大，但不是小文件。这种情况可以通过增大每个mapper的input size，即增大minSize或者增大blockSize来减少所需的mapper的数量。增大blockSize通常不可行，因为当HDFS被hadoop namenode -format之后，blockSize就已经确定了（由格式化时dfs.block.size决定），如果要更改blockSize，需要重新格式化HDFS，这样当然会丢失已有的数据。所以通常情况下只能通过增大minSize，即增大mapred.min.split.size的值。

阅读全文 »

Jena学习笔记（二） SPARQL

发表于 2016-11-29 | 分类于 paper |

官方描述：Apache Jena（或简称Jena）是一个用于构建语义Web和关联数据应用程序的自由和开源的Java框架。该框架由不同的API组成，用于处理RDF数据。

Jena是一个用于Java语义Web应用程序的API（应用程序编程接口）。它不是一个程序或工具，如果这是你正在寻找，我建议或许TopBraid Composer作为一个好的选择。因此，Jena的主要用途是帮助您编写处理RDF和OWL文档和描述的Java代码。

SPARQL是用于访问由W3C RDF数据访问工作组设计的RDF的查询语言和协议。

作为一种查询语言，SPARQL是“数据导向的”，因为它只查询模型中保存的信息;在查询语言本身没有推理。当然，Jena模型是“聪明的”，因为它提供了某些三元组存在的印象，即按需创建它们，包括OWL推理。除了以查询的形式获取应用程序想要的描述外，SPARQL不执行任何操作，并以一组bindings或RDF图形的形式返回该信息。

官方网站：http://jena.apache.org/index.html
SPARQL教程：http://jena.apache.org/tutorials/sparql.html

阅读全文 »

Jena学习笔记（一） RDF

发表于 2016-11-26 | 分类于 paper |

官方描述：Apache Jena（或简称Jena）是一个用于构建语义Web和关联数据应用程序的自由和开源的Java框架。该框架由不同的API组成，用于处理RDF数据。

Jena是一个用于Java语义Web应用程序的API（应用程序编程接口）。它不是一个程序或工具，如果这是你正在寻找，我建议或许TopBraid Composer作为一个好的选择。因此，Jena的主要用途是帮助您编写处理RDF和OWL文档和描述的Java代码。

官方网站：http://jena.apache.org/index.html
RDF API教程：http://jena.apache.org/tutorials/rdf_api.html

阅读全文 »

Distributed Cache在mapreduce中读取小文件

发表于 2016-11-26 | 分类于大数据 |

Distributed Cache 在 MapReduce 任务中应用很广，它可以大大提高一些被频繁读取文件的访问速度。被添加到 Distributed Cache 的文件会被拷贝到 Mapper 和 Reducer 的运行目录中。

在job添加如下方法

1 2	remoteReGamePath为hdfs文件路径字符串 job.addCacheFile(new Path(remoteReGamePath).toUri());

阅读全文 »

mapreduce多目录输出笔记

发表于 2016-11-26 | 分类于大数据 |

使用MultipleOutputs实现多目录/文件输出

org.apache.hadoop.mapreduce.lib.output.MultipleOutputs

阅读全文 »

hive数据查询导出

发表于 2016-11-26 | 分类于大数据 |

hive数据查询导出

insert overwrite directory '/user/hdu/recommend/gameRecommendNew4/test11.26/gameprestep1'
row format delimited
fields terminated by '\t'
SELECT userid , gamename , COUNT(*) AS count , MAX(gamestarttime) AS lasttime
FROM userdetailtwo
GROUP BY userid , gamename

阅读全文 »

Hadoop Job ��

发表于 2016-11-05 | 分类于 �� |

hadoop�� job��صģ�
��й��
1.�鿴 Job ��Ϣ��
hadoop job -list
2.ɱ�� Job��
hadoop job -kill job_id
3.ָ��·��²鿴��ʷ��־��ܣ�
hadoop job -history output-dir
4.��ҵ�ĸ��ϸ�ڣ�
hadoop job -history all output-dir
5.��ӡmap��reduce��ɰٷֱȺ��м��
hadoop job -status job_id
6.ɱ��񡣱�ɱ��񲻻᲻��ʧ�ܳ��ԣ�
hadoop jab -kill-task <task-id>
7.ʹ��ʧ�ܡ��ʧ�ܵ��ʧ�ܳ��Բ��
hadoop job -fail-task <task-id>

mapreduce运行内存及JVM配置错误running beyond physical memory limits

发表于 2016-11-03 | 分类于大数据 |

错误描述：

16/11/02 21:52:58 INFO mapreduce.Job: Task Id : attempt_1476760655616_0575_r_000000_2, Status : FAILED
Container [pid=24537,containerID=container_1476760655616_0575_01_000052] is running beyond physical memory limits. Current usage: 4.0 GB of 3 GB physical memory used; 6.9 GB of 6.3 GB virtual memory used. Killing container.
Dump of the process-tree for container_1476760655616_0575_01_000052 :
	|- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE

阅读全文 »

mapreduce执行错误Mapper.错误

发表于 2016-11-03 | 分类于大数据 |

参考
http://blog.itpub.net/30066956/viewspace-2107549/

错误详情：

16/11/02 21:37:26 INFO mapreduce.Job: Task Id : attempt_1476760655616_0574_m_000027_2, Status : FAILED
Error: java.lang.RuntimeException: java.lang.NoSuchMethodException: com.hdu.recommend.tools.CopyData$QLMapper.<init>()
	at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:131)
	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:742)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
	at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:415)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614)
	at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163)
Caused by: java.lang.NoSuchMethodException: com.hdu.recommend.tools.CopyData$QLMapper.<init>()
	at java.lang.Class.getConstructor0(Class.java:2849)
	at java.lang.Class.getDeclaredConstructor(Class.java:2053)
	at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:125)
	... 7 more

阅读全文 »