文章

HBase 数据写入流程简介


RegionServer 管理了很多 Region,Region 又由多个 hStore 组成。hStore 由 MemStore 和 Storefile 两部分组成。大致的写数据关系流程如下:首先用户写入的数据会先缓存到 MemStore (内存中),当 MemStore 满了之后被 Flush 到 Storefile(在 HDFS 上存储,底层是 hFile)。当 Storefile 的文件数量增大到阈值,会触发 Compaction ,将多个 Storefile 合并成一个 Storefile (合并过程中会进行版本的合并和旧数据的删除)。Compaction 后, Storefile ...

06-04

HappyBase: 在 Python 中快速访问 HBase


HappyBase 是 FaceBook 员工开发的操作 HBase 的 Python 库,其基于 Python Thrift,但使用方式比 Thrift 简单、简洁许多,已被广泛应用。本文就 HappyBase 的常用调用示例做下简单的介绍。

06-04

文本分类模型 VSM 介绍


VSM:Vector Space Modal 是一个应用于资讯过滤,资讯撷取,索引以及评估相关性的线性代数模型。由 Salton 等人于 60 年代提出,并成功地应用于著名的 SMART 文本检索系统。一个文档可以表示成一个向量。一个维度相当于一个词项(Term)。如果一个词项出现在一篇文档中,它在向量中的值是非零的。有几种不同的计算这些被看作(词项)权重的向量值的方法被逐渐提出来。其中一种最著名的方法是 tf-idf 加权(看下面的例子)。词项的定义是依赖于应用的。一般而言,词项就是单字(单词),关键字,或者长短语。如果词(Word)被选作词项(Term),向量的维度就等于词汇表中的词数(出...

04-22

Hadoop 性能优化心得


分部式计算的推出就是为了解决性能问题的,就算可以用 Hadoop 来解决大数据量计算的性能问题,还是要避免在代码中埋下性能隐患。在大家熟悉的 Web 程序中代码性能不高可能体现还不明显,因为一次请求的响应只要在人们的接收范围内就可以。而 Hadoop 程序虽然一个程序只有几十行,可在任务执行中会被上百个槽位运行上万、上千万次。所以在 Hadoop 程序中代码的性能也是十分重要的,也许多几行代码或者多一个不必要的判断任务就需要多执行几分钟或是几个小时。对此,笔者总结了一些常用的优化心得,可能都非常简单明了,但这何尝不是 Hadoop 独具魅力的特点,具体如下:请多使用常量。多用数组与下标(下标数...

04-01

Hadoop 常用的程序处理样例(汇总,Join、排序)


Hadoop 程序中常用到的计算就如下几种:汇总(分组汇总)、Join(Left、Anti)和排序(或是根据排序的结果进行计算)。下面就说一下这几种计算如果开发。

04-01

GFS 文件系统原理分析


该文章是由 Google 的工程师 Sanjay G. ,Howard G 和 Shun-Tak L. 共同撰写,并于 2003 年 在 SOSP 上发表。他们发明的这个 GFS 文件系统现在已部署在 Google 的服务器上,并得到很好的使用。GFS 的需求背景包括以下几点:存储部件的失效已经成为常态而不是意外事件文件体积已达到比传统的标准大得多的级别,TB级的数据流量已经是家常便饭大多数文件变更更多的是添加新数据,而不是覆写已有数据协同设计的应用程序和文件系统 API 通过提高可扩展性,对于整个系统是有益的同时,GFS 的设计也包括了以下几个主要原则:系统是建立在大量廉价并容易失效部件上,...

03-31

最近修改

GFS 文件系统原理分析


该文章是由 Google 的工程师 Sanjay G. ,Howard G 和 Shun-Tak L. 共同撰写,并于 2003 年 在 SOSP 上发表。他们发明的这个 GFS 文件系统现在已部署在 Google 的服务器上,并得到很好的使用。GFS 的需求背景包括以下几点:存储部件的失效已经成为常态而不是意外事件文件体积已达到比传统的标准大得多的级别,TB级的数据流量已经是家常便饭大多数文件变更更多的是添加新数据,而不是覆写已有数据协同设计的应用程序和文件系统 API 通过提高可扩展性,对于整个系统是有益的同时,GFS 的设计也包括了以下几个主要原则:系统是建立在大量廉价并容易失效部件上,...

03-31

HBase 数据写入流程简介


RegionServer 管理了很多 Region,Region 又由多个 hStore 组成。hStore 由 MemStore 和 Storefile 两部分组成。大致的写数据关系流程如下:首先用户写入的数据会先缓存到 MemStore (内存中),当 MemStore 满了之后被 Flush 到 Storefile(在 HDFS 上存储,底层是 hFile)。当 Storefile 的文件数量增大到阈值,会触发 Compaction ,将多个 Storefile 合并成一个 Storefile (合并过程中会进行版本的合并和旧数据的删除)。Compaction 后, Storefile ...

06-04

文本分类模型 VSM 介绍


VSM:Vector Space Modal 是一个应用于资讯过滤,资讯撷取,索引以及评估相关性的线性代数模型。由 Salton 等人于 60 年代提出,并成功地应用于著名的 SMART 文本检索系统。一个文档可以表示成一个向量。一个维度相当于一个词项(Term)。如果一个词项出现在一篇文档中,它在向量中的值是非零的。有几种不同的计算这些被看作(词项)权重的向量值的方法被逐渐提出来。其中一种最著名的方法是 tf-idf 加权(看下面的例子)。词项的定义是依赖于应用的。一般而言,词项就是单字(单词),关键字,或者长短语。如果词(Word)被选作词项(Term),向量的维度就等于词汇表中的词数(出...

04-22

HappyBase: 在 Python 中快速访问 HBase


HappyBase 是 FaceBook 员工开发的操作 HBase 的 Python 库,其基于 Python Thrift,但使用方式比 Thrift 简单、简洁许多,已被广泛应用。本文就 HappyBase 的常用调用示例做下简单的介绍。

06-04

Hadoop 性能优化心得


分部式计算的推出就是为了解决性能问题的,就算可以用 Hadoop 来解决大数据量计算的性能问题,还是要避免在代码中埋下性能隐患。在大家熟悉的 Web 程序中代码性能不高可能体现还不明显,因为一次请求的响应只要在人们的接收范围内就可以。而 Hadoop 程序虽然一个程序只有几十行,可在任务执行中会被上百个槽位运行上万、上千万次。所以在 Hadoop 程序中代码的性能也是十分重要的,也许多几行代码或者多一个不必要的判断任务就需要多执行几分钟或是几个小时。对此,笔者总结了一些常用的优化心得,可能都非常简单明了,但这何尝不是 Hadoop 独具魅力的特点,具体如下:请多使用常量。多用数组与下标(下标数...

04-01

Hadoop 常用的程序处理样例(汇总,Join、排序)


Hadoop 程序中常用到的计算就如下几种:汇总(分组汇总)、Join(Left、Anti)和排序(或是根据排序的结果进行计算)。下面就说一下这几种计算如果开发。

04-01