首页
登录 | 注册

搞清楚LzoCodec和LzopCodec -levy

使用LZO过程会发现它有两种压缩编码可以使用,即LzoCodec和LzopCodec,下面说说它们区别:

  • LzoCodec比LzopCodec更快, LzopCodec为了兼容LZOP程序添加了如 bytes signature, header等信息
  • 如果使用 LzoCodec作为Reduce输出,则输出文件扩展名为".lzo_deflate",它无法被lzop读取;如果使用LzopCodec作为Reduce输出,则扩展名为".lzo",它可以被lzop读取
  • 生成lzo index job的”DistributedLzoIndexer“无法为 LzoCodec,即 ".lzo_deflate"扩展名的文件创建index”.
  • lzo_deflate“文件无法作为MapReduce输入,”.LZO"文件则可以。
  • 综上所述得出最佳实践:map输出的中间数据使用 LzoCodec,reduce输出使用 LzopCodec

相关文章

  • Ambari卸载已安装的服务组件-levy
    Ambari 常用的 REST API 介绍 Ambari 借鉴了很多成熟分布式软件的 API 设计.Rest API 就是一个很好地体现.通过 Ambari 的 Rest API,可以在脚本中通过 curl 维护整个集群.并且,我们可以用 ...
  • 清洗数据写好代码后,运行报错: ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because java.io.IOException: Fail ...
  • 刚开始学习Python的类写法的时候觉得很是麻烦,为什么定义时需要而调用时又不需要,为什么不能内部简化从而减少我们敲击键盘的次数? 你看完这篇文章后就会明白所有的疑问. self代表类的实例,而非类. 实例来说明 class Test: d ...
  • 把需要注意的事项写前面吧,后面碰到坑可以翻到前面看看. 安装CDH的时候这个提示    Requires libpython2.4.so.1.0()(64bit) 系统缺包,yum 装不上,yum安装了python-devel 也不行,系统 ...
  • 本文旨在用最通俗的语言讲述最枯燥的基本知识 今日,看到有些文章对码农和程序员做了一些界限划定和差异分析,吓得作者赶紧研究一下自己属于哪个身份,但当仔细查看了这些文章后,发现其实对于写代码的人来说,无非就像周星驰嘴里的"龙套&quo ...
  • 致DBA:为什么你经常犯错,是因为你做的功课不够
    专职做DBA已经6年多的事件了,看同行.同事犯了太多的错误,自己也犯了非常多的错误.一路走来,感触非常深.然而绝大多数的错误其实都是很低级的错误.有的是因为不了解某个引擎的特性导致:有的是因为对线上环境不了解导致:有的是因为经验不足导致:一 ...

2020 unjeep.com webmaster#unjeep.com
12 q. 0.012 s.
京ICP备10005923号