加入log4j-1.2.8.jar到lib下。
在CLASSPATH下建立log4j.properties。
在bin目录下加入 log4j.properties
mapreduce调优
对应用程序进行调优
避免输入大量小文件。大量的小文件(不足一个block大小)作为输入数据会产生很多的Map任务(默认一个分片对应一个Map任务),而每个Map任务实际工作量又非常小,系统要花更多的时间来将这些Map任务的输出进行整合。如果将大量的小文件进行预处理合并成一个或几个大文件,任务执行的效率可能会提升几十倍。可手动将小文件合并成大文件,或通过Hadoop的SequenceFile、CombineFileInputFormat将多个文件打包到一个输入单元中,使得每个Map处理更多的数据,从而提高性能。
输入文件size巨大,但不是小文件。这种情况可以通过增大每个mapper的input size,即增大minSize或者增大blockSize来减少所需的mapper的数量。增大blockSize通常不可行,因为当HDFS被hadoop namenode -format之后,blockSize就已经确定了(由格式化时dfs.block.size决定),如果要更改blockSize,需要重新格式化HDFS,这样当然会丢失已有的数据。所以通常情况下只能通过增大minSize,即增大mapred.min.split.size的值。
Jena学习笔记(二) SPARQL
官方描述:Apache Jena(或简称Jena)是一个用于构建语义Web和关联数据应用程序的自由和开源的Java框架。 该框架由不同的API组成,用于处理RDF数据。
Jena是一个用于Java语义Web应用程序的API(应用程序编程接口)。它不是一个程序或工具,如果这是你正在寻找,我建议或许TopBraid Composer作为一个好的选择。因此,Jena的主要用途是帮助您编写处理RDF和OWL文档和描述的Java代码。
SPARQL是用于访问由W3C RDF数据访问工作组设计的RDF的查询语言和协议。
作为一种查询语言,SPARQL是“数据导向的”,因为它只查询模型中保存的信息;在查询语言本身没有推理。当然,Jena模型是“聪明的”,因为它提供了某些三元组存在的印象,即按需创建它们,包括OWL推理。除了以查询的形式获取应用程序想要的描述外,SPARQL不执行任何操作,并以一组bindings或RDF图形的形式返回该信息。
官方网站:http://jena.apache.org/index.html
SPARQL教程:http://jena.apache.org/tutorials/sparql.html
Jena学习笔记(一) RDF
官方描述:Apache Jena(或简称Jena)是一个用于构建语义Web和关联数据应用程序的自由和开源的Java框架。 该框架由不同的API组成,用于处理RDF数据。
Jena是一个用于Java语义Web应用程序的API(应用程序编程接口)。它不是一个程序或工具,如果这是你正在寻找,我建议或许TopBraid Composer作为一个好的选择。因此,Jena的主要用途是帮助您编写处理RDF和OWL文档和描述的Java代码。
官方网站:http://jena.apache.org/index.html
RDF API教程:http://jena.apache.org/tutorials/rdf_api.html
Distributed Cache在mapreduce中读取小文件
Distributed Cache 在 MapReduce 任务中应用很广, 它可以大大提高一些被频繁读取文件的访问速度。被添加到 Distributed Cache 的文件会被拷贝到 Mapper 和 Reducer 的运行目录中。
在job添加如下方法
mapreduce多目录输出笔记
hive数据查询导出
hive数据查询导出
|
|
Hadoop Job ��������
hadoop������ ��job���صģ�
�������
1.�鿴 Job ��Ϣ��hadoop job -list
2.ɱ�� Job��hadoop job -kill job_id
3.ָ��·���²鿴��ʷ��־���ܣ�hadoop job -history output-dir
4.��ҵ�ĸ���ϸ�ڣ�hadoop job -history all output-dir
5.��ӡmap��reduce���ɰٷֱȺ����м�������hadoop job -status job_id
6.ɱ������ɱ�����������ʧ�ܳ��ԣ�hadoop jab -kill-task <task-id>
7.ʹ����ʧ�ܡ���ʧ�ܵ���������ʧ�ܳ��Բ�����hadoop job -fail-task <task-id>
mapreduce运行内存及JVM配置错误running beyond physical memory limits
错误描述:
|
|
mapreduce执行错误Mapper.错误
错误详情: