大数据Hadoop基准测试准则你知道吗?
发布时间:2021-10-26 13:56:55 所属栏目:大数据 来源:互联网
导读:Terasort是测试Hadoop的一个有效的排序程序。通过Hadoop自带的Terasort排序程序,测试不同的Map任务和Reduce任务数量,对Hadoop性能的影响。实验数据由程序中的teragen程序生成,数量为1G和10G。 一个TeraSort测试需要按三步: 1. TeraGen生成随机数据 2. Te
Terasort是测试Hadoop的一个有效的排序程序。通过Hadoop自带的Terasort排序程序,测试不同的Map任务和Reduce任务数量,对Hadoop性能的影响。实验数据由程序中的teragen程序生成,数量为1G和10G。
一个TeraSort测试需要按三步:
1. TeraGen生成随机数据
2. TeraSort对数据排序
3. TeraValidate来验证TeraSort输出的数据是否有序,如果检测到问题,将乱序的key输出到目录
1. TeraGen生成随机数,将结果输出到目录/tmp/examples/terasort-intput
sudo -uhdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar teragen 10000000 /tmp/examples/terasort-input
2. TeraSort排序,将结果输出到目录/tmp/examples/terasort-output
sudo -uhdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar terasort /tmp/examples/terasort-input /tmp/examples/terasort-output
3.TeraValidate验证,如果检测到问题,将乱序的key输出到目录/tmp/examples/terasort-validate
sudo -uhdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar teravalidate /tmp/examples/terasort-output /tmp/examples/terasort-validate
(编辑:92站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |