Fork me on GitHub
Skye's Blog

Forever youthful,forever weeping


  • 首页

  • 分类

  • 归档

  • 标签

  • 搜索

Log4j配置

发表于 2016-12-09 | 分类于 Java |
  • 加入log4j-1.2.8.jar到lib下。

  • 在CLASSPATH下建立log4j.properties。

  • 在bin目录下加入 log4j.properties

阅读全文 »

mapreduce调优

发表于 2016-12-02 | 分类于 大数据 |

对应用程序进行调优

  1. 避免输入大量小文件。大量的小文件(不足一个block大小)作为输入数据会产生很多的Map任务(默认一个分片对应一个Map任务),而每个Map任务实际工作量又非常小,系统要花更多的时间来将这些Map任务的输出进行整合。如果将大量的小文件进行预处理合并成一个或几个大文件,任务执行的效率可能会提升几十倍。可手动将小文件合并成大文件,或通过Hadoop的SequenceFile、CombineFileInputFormat将多个文件打包到一个输入单元中,使得每个Map处理更多的数据,从而提高性能。

  2. 输入文件size巨大,但不是小文件。这种情况可以通过增大每个mapper的input size,即增大minSize或者增大blockSize来减少所需的mapper的数量。增大blockSize通常不可行,因为当HDFS被hadoop namenode -format之后,blockSize就已经确定了(由格式化时dfs.block.size决定),如果要更改blockSize,需要重新格式化HDFS,这样当然会丢失已有的数据。所以通常情况下只能通过增大minSize,即增大mapred.min.split.size的值。

    阅读全文 »

Jena学习笔记(二) SPARQL

发表于 2016-11-29 | 分类于 paper |

官方描述:Apache Jena(或简称Jena)是一个用于构建语义Web和关联数据应用程序的自由和开源的Java框架。 该框架由不同的API组成,用于处理RDF数据。

Jena是一个用于Java语义Web应用程序的API(应用程序编程接口)。它不是一个程序或工具,如果这是你正在寻找,我建议或许TopBraid Composer作为一个好的选择。因此,Jena的主要用途是帮助您编写处理RDF和OWL文档和描述的Java代码。

SPARQL是用于访问由W3C RDF数据访问工作组设计的RDF的查询语言和协议。

作为一种查询语言,SPARQL是“数据导向的”,因为它只查询模型中保存的信息;在查询语言本身没有推理。当然,Jena模型是“聪明的”,因为它提供了某些三元组存在的印象,即按需创建它们,包括OWL推理。除了以查询的形式获取应用程序想要的描述外,SPARQL不执行任何操作,并以一组bindings或RDF图形的形式返回该信息。

官方网站:http://jena.apache.org/index.html
SPARQL教程:http://jena.apache.org/tutorials/sparql.html

阅读全文 »

Jena学习笔记(一) RDF

发表于 2016-11-26 | 分类于 paper |

官方描述:Apache Jena(或简称Jena)是一个用于构建语义Web和关联数据应用程序的自由和开源的Java框架。 该框架由不同的API组成,用于处理RDF数据。

Jena是一个用于Java语义Web应用程序的API(应用程序编程接口)。它不是一个程序或工具,如果这是你正在寻找,我建议或许TopBraid Composer作为一个好的选择。因此,Jena的主要用途是帮助您编写处理RDF和OWL文档和描述的Java代码。

官方网站:http://jena.apache.org/index.html
RDF API教程:http://jena.apache.org/tutorials/rdf_api.html


阅读全文 »

Distributed Cache在mapreduce中读取小文件

发表于 2016-11-26 | 分类于 大数据 |

Distributed Cache 在 MapReduce 任务中应用很广, 它可以大大提高一些被频繁读取文件的访问速度。被添加到 Distributed Cache 的文件会被拷贝到 Mapper 和 Reducer 的运行目录中。

在job添加如下方法

1
2
remoteReGamePath为hdfs文件路径字符串
job.addCacheFile(new Path(remoteReGamePath).toUri());

阅读全文 »

mapreduce多目录输出笔记

发表于 2016-11-26 | 分类于 大数据 |

使用MultipleOutputs实现多目录/文件输出

org.apache.hadoop.mapreduce.lib.output.MultipleOutputs

阅读全文 »

hive数据查询导出

发表于 2016-11-26 | 分类于 大数据 |

hive数据查询导出

1
2
3
4
5
6
insert overwrite directory '/user/hdu/recommend/gameRecommendNew4/test11.26/gameprestep1'
row format delimited
fields terminated by '\t'
SELECT userid , gamename , COUNT(*) AS count , MAX(gamestarttime) AS lasttime
FROM userdetailtwo
GROUP BY userid , gamename
阅读全文 »

Hadoop Job ��������

发表于 2016-11-05 | 分类于 ������ |

hadoop������ ��job���صģ�
�������
1.�鿴 Job ��Ϣ��
hadoop job -list
2.ɱ�� Job��
hadoop job -kill job_id
3.ָ��·���²鿴��ʷ��־���ܣ�
hadoop job -history output-dir
4.��ҵ�ĸ���ϸ�ڣ�
hadoop job -history all output-dir
5.��ӡmap��reduce���ɰٷֱȺ����м�������
hadoop job -status job_id
6.ɱ�����񡣱�ɱ�������񲻻᲻����ʧ�ܳ��ԣ�
hadoop jab -kill-task <task-id>
7.ʹ����ʧ�ܡ���ʧ�ܵ���������ʧ�ܳ��Բ�����
hadoop job -fail-task <task-id>

mapreduce运行内存及JVM配置错误running beyond physical memory limits

发表于 2016-11-03 | 分类于 大数据 |

错误描述:

1
2
3
4
16/11/02 21:52:58 INFO mapreduce.Job: Task Id : attempt_1476760655616_0575_r_000000_2, Status : FAILED
Container [pid=24537,containerID=container_1476760655616_0575_01_000052] is running beyond physical memory limits. Current usage: 4.0 GB of 3 GB physical memory used; 6.9 GB of 6.3 GB virtual memory used. Killing container.
Dump of the process-tree for container_1476760655616_0575_01_000052 :
|- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE
阅读全文 »

mapreduce执行错误Mapper.错误

发表于 2016-11-03 | 分类于 大数据 |

参考
http://blog.itpub.net/30066956/viewspace-2107549/

错误详情:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16/11/02 21:37:26 INFO mapreduce.Job: Task Id : attempt_1476760655616_0574_m_000027_2, Status : FAILED
Error: java.lang.RuntimeException: java.lang.NoSuchMethodException: com.hdu.recommend.tools.CopyData$QLMapper.<init>()
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:131)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:742)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1614)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163)
Caused by: java.lang.NoSuchMethodException: com.hdu.recommend.tools.CopyData$QLMapper.<init>()
at java.lang.Class.getConstructor0(Class.java:2849)
at java.lang.Class.getDeclaredConstructor(Class.java:2053)
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:125)
... 7 more

阅读全文 »
1…456…8
Skye

Skye

学习总结 思想感悟

78 日志
14 分类
37 标签
Weibo GitHub 简书 Email
Links
  • Huanqiang
© 2016 - 2019 Skye