太阳城

 找回密码
 立即注册
查看: 112|回复: 0

www.1 ?Presto是Facebook最新研发的数据查询引擎,处理250PB

[复制链接]

1万

主题

1万

帖子

5万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
57596
发表于 2016-6-12 10:58:10 | 显示全部楼层 |阅读模式
  .map(word => (word, 1)).reduceByKey(_ + _)

result.saveAsTextFile(hdfsPath + args(2))





val result = textFile.flatMap(line => line.split("\\s+"))

val textFile = sc.textFile(hdfsPath + args(1))

System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))

val sc = new SparkContext(args(0), "WrodCount",

// create the SparkContext,编写Driver程序很简单几乎与在Spark-shell上写程序是一样的,就像在Scala Shell上写程序一样。

val hdfsPath = "hdfs://hadoop1:8020"

args.foreach(println)

println("the args: ")

println("usage is org.test.WordCount ")

if (args.length ==0 ){

def main(args: Array[String]) {

object WordCount {

import SparkContext._

import spark.SparkContext

在Spark中Spark程序称为Driver程序,就像在Scala Shell上写程序一样。

编写Driver程序

res1: String = # Spark

scala> textFile.first() // First item in this RDD

res0: Long =

scala> textFile.count() // Number of items in this RDD

textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3

scala> val textFile = sc.textFile("hdfs://hadoop1:2323/user/data")

在Spark-shell上写程序非常简单,其它的Spark程序就只能排队等待,而Spark-shell作为一个Spark程序一直运行在Spark上,Spark默认使用的调度器的FIFO调度器而不是公平调度,在Standalone模式下,你知道查询。还有一个需要注意的是,实例名为sc可以直接使用,在Spark-shell中SparkContext已经创建好了,使用$SPARK_HOME/spark-shell进入shell即可,当Spark以Standalon模式运行后,需要把Spark程序全部打包成一个jar包提交到Yarn上运行。目录只有branch-0.8版本才真正支持Yarn。

Spark-shell使用很简单,使用Yarn模式运行,并配置SCALA_HOME

使用Spark-shell

--class spark.examples.SparkPi --args yarn-standalone

./run spark.deploy.yarn.Client --jar examples/target/scala-2.9.3/ \

SPARK_JAR=./core/target/scala-2.9.3/spark-core-assembly-0.8.0-SNAPSHOT.jar \

运行测试

把Hadoop yarn配置copy到conf目录下

> assembly

> package

$SPARK_HOME/sbt/sbt

使用sbt编译Spark并

git checkout -b yarn --track origin/yarn

cd spark

切换到branch-0.8

git clone git://

下载Spark代码.

以Yarn模式运行Spark

Spark-shell现在还不支持Yarn模式,并配置SCALA_HOME

yarn模式

$SPARK_HOME/start-all.sh

在master启动集群

把配置好的Spark程序使用scp copy到其它机器

在master主机上对其它机器做ssh无密码登录

把Hadoop配置copy到conf目录下

SPARK_WORKER_INSTANCES=1

SPARK_WORKER_WEBUI_PORT=

SPARK_WORKER_PORT=

SPARK_WORKER_CORES=2 SPARK_WORKER_MEMORY=4g

SPARK_MASTER_WEBUI_PORT=

SPARK_MASTER_PORT=

SPARK_MASTER_IP=spark1

JAVA_HOME=/home/spark/jdk1.6.0_45

SCALA_HOME=/home/spark/scala-2.9.3

修改配置(conf/*) slaves: 配置工作节点的主机名 spark-env.sh:配置环境变量。

解压spark-0.7.3-prebuilt-cdh4.tgz安装包

下载Spark代码(可以使用源码编译也可以下载编译好的版本)这里下载 编译好的版本()

下载Scala2.9.3,与Hadoop MapReduce1很相似,它由一个Spark Master和多个Spark worker组成,1。Spark因此提供了Standalone运行模式,但是却带了部署测试的复杂性。为了让Spark能更方便的部署和尝试,这是非常好的设计,Spark一开始就设计运行于Apache Mesos资源管理框架上,。Spark提供了Standalone模式,可以以交互式的方式使用Python编写Spark程序。 如:

以Standalone模式运行Spark集群

为方便Spark的推广使用,一个Spark的python shell,从而实现使用python编写Spark程序。对于scweb。Spark也同样提供了pyspark,Spark使用py4j来实现python与java的互操作,Java编程接口其实就是对Scala的封装。如:

Standalone模式

使用示例

words.filter(lambda w: w.startswith("spar")).take(5)

words = sc.textFile("/usr/share/dict/words")

sc = SparkContext("local", "Job Name", pyFiles=['MyFile.py', 'lib.zip', 'app.egg'])

from pyspark import SparkContext

现在Spark也提供了Python编程接口,Scala与Java可以互操作,因为都是JVM上的语言,其它与Scala编程是一样的,但对于使用Java就没有了Spark-Shell这样方便的工具,相比看阿里旺旺官方下载。然后就是对RDD进行操作。如:

Python

return Arrays.asList(s.split(" "));

public Iterable call(String s) {

new FlatMapFunction<String, String>() {

JavaRDD words = lines.flatMap(

JavaRDD lines = ctx.textFile("hdfs://...");

JavaSparkContext sc = new JavaSparkContext(...);

Spark支持Java编程,使用SparkContext创建RDD,可以在Spark-Shell测试程序。写SparK程序的一般步骤就是创建或使用(SparkContext)实例,SparK提供了Spark-Shell,默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多,生成新的数据分片、返回结果或把RDD写入存储系统。

Java

textFile.map(....).filter(.....).....

val textFile = sc.textFile("hdfs://.....")

val sc = new SparkContext(master, appName, [sparkHome], [jars])

Spark使用Scala开发,学会11scweb。根据数据分片信息进行本地化数据操作,当它收到对RDD的操作时,是运行在工作节点上的守护进程,以此把对RDD的闭包操作发送到各Workers节点。http://www.youxijiequ.com/thread-17065-1-1.html。 Workers存储着数据分块和享有集群内存,Scala使用Java对象来表示闭包且都是可序列化的,而对RDD的转换与操作通过Scala闭包(字面量函数)来表示,Dirver程序会连接master并定义了对各RDD的转换与操作,由Master(类似于MapReduce的Jobtracker)和Workers(Spark的Slave工作节点)组成。用户编写的Spark程序被称为Driver程序,选择Scala是因为它的简洁性(Scala可以很方便在交互式下使用)和性能(JVM上的静态强类型语言)。学会11scweb。

Scala

runtime

Spark和Hadoop MapReduce类似,对数据集的操作就表示成对RDD对象的操作。Spark主要的编程语言是Scala,每个数据集都表示为RDD对象,类似于DryadLINQ和FlumeJava,Spark on Yarn的大致框架图。 Spark架构图

Spark通过与编程语言集成的方式暴露RDD的操作,对YARN的支持也就非常容易,得益于Spark天生支持多种Scheduler和Executor的良好设计,但真正可用是在现在的branch-0.8版本。Spark on Yarn遵循YARN的官方规范实现,Apache Mesos及Hadoop YARN来实现。 Spark on Yarn在Spark0.6时引用,通过记录跟踪所有生成RDD的转换(transformations)也就是记录每个RDD的lineage(血统)来重新计算生成丢失的分区数据。

编程接口

让Spark运行于YARN上与Hadoop共用集群资源可以提高资源利用率。www。

Spark对于资源管理与作业调度可以使用Standalone(独立模式),默认是logging the updates方式,一个是logging the updates。用户可以控制采用哪种方式来实现容错,一个是checkpoint data,做checkpoint有两种方式,通过checkpint进行容错,Narrow Dependencies对于数据的重算开销要远小于Wide Dependencies的数据重算开销。

资源管理与作业调度

在RDD计算,1。血统的意思),需要向上其祖先追溯看是否可以重试(这就是lineage,因为无法重试,否则无效,这种方法容错是有效的,这种情况下,通过重新计算,而输出节点宕机时,lineage方法对与输入节点完好,这种计算的输入和输出在不同的节点上,也就是说存在一个父RDD的一个分区对应一个子RDD的多个分区。事实上处理250PB。对与Wide Dependencies,也就是说一个父RDD的一个分区不可能对应一个子RDD的多个分区。Wide Dependencies是指子RDD的分区依赖于父RDD的多个分区或所有分区,表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区,也带来了性能的提升。

RDD在Lineage依赖方面分为两种Narrow Dependencies与Wide Dependencies用来解决数据容错的高效性。Narrow Dependencies是指父RDD的每一个分区最多被一个子RDD的分区所用,但同时相比细颗粒度的数据模型,限制了Spark的运用场合,它可以通过Lineage获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,RDD的Lineage记录的是粗颗粒度的特定数据转换(Transformation)操作(filter, map, join etc.)行为。当这个RDD的部分分区数据丢失时,RDD数据集通过所谓的血统关系(Lineage)记住了它是如何从其它RDD中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者LOG机制,Spark的主要区别在于它处理分布式运算环境下的数据容错性(节点实效/数据丢失)问题时采用的方案。为了保证RDD中数据的鲁棒性,Actions操作会返回结果或把RDD数据写到存储系统中。学会最新。Actions是触发Spark启动计算的动因。

利用内存加快数据加载,在众多的其它的In-Memory类数据库或Cache类系统中也有实现,Actions操作会返回结果或把RDD数据写到存储系统中。Actions是触发Spark启动计算的动因。

Lineage(血统)

SparkTA11

rdd_F.saveAsSequenceFile(hdfs://....)

val rdd_F = rdd_B.jion(rdd_E)

val rdd_E = rdd_D.reduceByKey((a, b) => a + b)

val rdd_D = rdd_C.map(line => (line.substring(10), 1))

val rdd_C = sc.textFile(hdfs://.....)

val rdd_B = rdd_A.flatMap((line => line.split("\\s+"))).map(word => (word, 1))

val rdd_A = sc.textFile(hdfs://.....)

Seq(System.getenv("SPARK_TEST_JAR")))

val sc = new SparkContext(master, "Example", System.getenv("SPARK_HOME"),

下面使用一个例子来示例说明Transformations与Actions在Spark的使用。

操作(Actions) (如:count, collect, save等),并不会去执行,Spark在遇到Transformations操作时只会记录需要这样的操作,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Transformations操作是Lazy的,每个Key、Value对以元组返回。

转换(Transformations) (如:map, filter, groupBy, join等),每个Key、Value对以元组返回。你知道www.1。

对于RDD可以有两种计算方式:转换(返回值还是一个RDD)与操作(返回值不是一个RDD)。

RDD的转换与操作

(key, value)

finished = true

case eof: EOFException =>

} catch {

finished = !reader.next(key, value)

try {

override def getNext() = {

//使用Hadoop MapReduce的RecordReader读取数据,RDD从HDFS读取数据时与Hadoop MapReduce几乎一样的:

val value: V = reader.createValue()

val key: K = reader.createKey()

reader = fmt.getRecordReader(split.inputSplit.value, conf, Reporter.NULL)

// 根据hadoop配置和分片从InputFormat中获取RecordReader进行数据的读取。

对RDD进行计算时,及InputFormat等创建HadoopRDD

new HadoopRDD(this, conf, inputFormatClass, keyClass, valueClass, minSplits)

// 根据Hadoop配置,其实Spark使用的Hadoop的InputFormat, Writable类型。

classOf[Text], minSplits) .map(pair => pair._2.toString) }

hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable],

def textFile(path: String, minSplits: Int = defaultMinSplits): RDD[String] = {

// 需要InputFormat, Key、Value的类型,file变量就是RDD(实际是HadoopRDD实例),如:val file = spark.textFile("hdfs://..."),不同的操作也由RDD进行抽实现。

// SparkContext根据文件/目录及可选的分片数创建RDD, 这里我们可以看到Spark与Hadoop MapReduce很像

下面来看一从Hadoop文件系统生成RDD的方式,不同类型的数据由不同的RDD类抽象表示,以此保证两个数据集在Join时能高效。

2、从父RDD转换得到新RDD。

1、从Hadoop文件系统(或与Hadoop兼容的其它存储系统)输入(例如HDFS)创建。

RDD有两种创建方式:想知道处理。

RDD的生成

RDD定义了各种操作,以此保证两个数据集在Join时能高效。

val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, 2)

val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false)

val MEMORY_AND_DISK_2 = new StorageLevel(true, true, true, 2)

val MEMORY_AND_DISK = new StorageLevel(true, true, true)

val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, 2)

val MEMORY_ONLY_SER = new StorageLevel(false, true, false)

val MEMORY_ONLY_2 = new StorageLevel(false, true, true, 2)

val MEMORY_ONLY = new StorageLevel(false, true, true)

val DISK_ONLY_2 = new StorageLevel(true, false, false, 2)

val DISK_ONLY = new StorageLevel(true, false, false)

val NONE = new StorageLevel(false, false, false)

RDD根据useDisk、useMemory、deserialized、replication四个参数的组合提供了11种存储级别:

RDD的存储级别

每个数据分片的预定义地址列表(如HDFS上的数据块的地址)【可选】

对key-value RDD的Partitioner【可选】

对父RDD的依赖列表

计算每个分片的函数(根据父RDD计算出此RDD)

分区列表(数据块列表)

在RDD的内部实现中每个RDD都可以使用5个方面的特性来表示:

RDD的内部表示

RDD在需要进行分区把数据分布于集群中时会根据每条记录Key进行分区(如Hash 分区),但当内存不足时,这时性能会有大的下降但不会差于现在的MapReduce。

当前RDD默认是存储于内存,把RDD存储于磁盘上,在内存不足时可自动降级为磁盘存储,这与Hadoop MapReduce是一样的。

用户可以选择不同的存储级别存储RDD以便重用。

RDD的存储与分区

RDD都是可序列化的,可以通过数据的本地性来提高性能,可以实现类Hadoop MapReduce的推测式执行。

RDD的数据分区特性,对于丢失部分数据分区只需根据它的lineage就可重新计算出来,相比于分布式共享内存(DSM)可以更高效实现容错,效率提升比较大。你看处理250PB。

RDD的不变性,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,下一个操作可以直接从内存中输入,都可以存放到内存中,每次对RDD数据集的操作之后的结果,pb。不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,不可变的并能够被并行操作的数据集合,它表示已被分区,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,豆瓣也在使用Spark的python克隆版Dpark。

RDD只能从持久存储或通过Transformations操作产生,效率提升比较大。

RDD的好处

是静态类型的。

必须是可序列化的。

可以控制存储级别(内存、磁盘等)来进行重用。

失败自动重建。

通过并行转换的方式来创建如(map, filter, join, etc)。

它是在集群节点上的不可变的、已分区的集合对象。

RDD的特点:itunes官方下载。

RDD是Spark的最基本抽象,是对分布式内存的抽象使用,2010年开源, 现在使用的有:Berkeley, Princeton, Klout, Foursquare, Conviva, Quantifind, Yahoo! Research & others, 淘宝等,实现了Google的PageRank算法。

Resilient Distributed Dataset (RDD)弹性分布数据集

Spark核心概念

Spark项目在2009年启动,这是个非常有用的小项目。Bagel自带了一个例子,可以用Spark进行图计算,RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

在业界的使用

Bagel: Pregel on Spark,另一方面相比基于Record的其它处理框架(如Storm),一方面是因为Spark的低延迟执行引擎(100ms+)可以用于实时计算,以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,基本的原理是将Stream数据分成小的时间片断(几秒),最大化RDD的重复使用。

Spark streaming: 构建在Spark上处理Stream数据的框架,使得SQL数据查询和运算分析能结合在一起,com。Shark通过UDF用户自定义函数实现特定的数据分析学习算法,进而加快特定数据集的检索。同时,实现数据重用,Shark可以自动在内存中缓存特定的RDD,最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。看看http://www.youxijiequ.com。通过配置Shark参数,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,对于www.11scweb。为了最大程度的保持和Hive的兼容性,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,Spark不适用那种异步细粒度更新状态的应用,受益就相对较小

Spark生态系统

yarn模式

Mesoes模式

Standalone模式

本地模式

运行模式

总的来说Spark的适用面比较广泛且比较通用。

由于RDD的特性,数据量小但是计算密集度较大的场合,受益越大,所需读取的数据量越大,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,几乎与Hive完全兼容。itunes官方下载。

Spark是基于内存的迭代计算框架,数据仓库Shark实现上借用Hive,共享存储资源与计算,同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中,Python API及交互式Shell来提高可用性。

Spark的适用场景

Spark可以直接对HDFS进行数据的读写,Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

Spark通过提供丰富的Scala, Java,一个是checkpoint data,而checkpoint有两种方式,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

可用性。

在分布式数据集计算时通过checkpoint来实现容错,Spark不适用那种异步细粒度更新状态的应用,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

容错性。

不过由于RDD的特性,听说研发。物化,给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。

这些多种多样的数据集操作类型,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,有RDD的抽象概念。

Spark提供的数据集操作类型有很多种,有RDD的抽象概念。

Spark比Hadoop更通用。

Spark更适合于迭代运算比较多的ML和DM运算。对比一下迅雷7官方下载。因为在Spark里面,从而不再需要读写HDFS,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,presto。Spark基于map reduce算法实现的分布式计算,并添加自己的工具和管理功能。(李智/编译)

Spark的中间数据放到内存中,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:

Spark与Hadoop的对比

spark-framwork

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,厂商集成和测试Apache Hadoop生态系统的组件,Hadoop应用于分布式环境。就像之前Linux的状况一样,包括集群、分类、推荐过滤、频繁子项挖掘。

什么是Spark

原文出处: UC技术博客  欢迎分享原创到伯乐头条

模式的秘密---模板方法模式

Objective-C面向对象初体验

iOS动画案例之会跳舞的界面(下)

iOS动画案例之会跳舞的界面(上)

分享到: 45

2013/09/11 · IT技术 · Hadoop, MapReduce, spark, 分布式

Spark:一个高效的分布式计算系统

伯乐在线 > 首页 > 所有文章 > IT技术 > Spark:一个高效的分布式计算系统

首页最新文章经典回顾开发 设计 极客IT技术 业界职场创业访谈在国外

通常情况下,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,对这些数据的分析也需要多样化的方法。Mahout提供一些可扩展的机器学习领域经典算法的实现,当前支持Amazon EC2和Rackspace服务。看着com。

使用Hadoop

各类组织需求的不同导致相关的数据形形色色,可提供高度的互补性。Whirr现今相对中立,升级集群以及监控服务。还可通过API集成与其他的系统管理工具。

机器学习:Mahout

Apache Whirr是一套运行于云服务的类库(包括Hadoop),Ambari项目旨在将监控和管理等核心功能加入Hadoop项目。Ambari可帮助系统管理员部署和配置Hadoop,并无需开发人员编写定制的解决方案。对于。

Ambari是最新加入Hadoop的项目,它们之间或许批次依赖。Oozie组件提供管理工作流程和依赖的功能,ZooKeeper正是为此而生的。

而在Hadoop执行的任务有时候需要将多个Map/Reduce作业连接到一起,集群成员需要彼此同步并了解去哪里访问服务和如何配置,大数据处理系统需要负责协调工作的的成员。随着计算节点的增多,数据库工具通过JDBC或ODBC数据库驱动程序连接。

随着越来越多的项目加入Hadoop大家庭并成为集群系统运作的一部分,数据库工具通过JDBC或ODBC数据库驱动程序连接。

负责协调工作流程的ZooKeeper和Oozie

Hive具备的友好SQL查询是与繁多数据库的理想结合点,HBase更适合整合大数据作为大 型应用的一部分,与之相比HDFS的容量限制达到30PB。HBase不适合用于ad-hoc分析,HBase也做出了一些限制:例如Hive与HBase的性能比原生在HDFS之上的Hive要慢4-5倍。www。同时 HBase大约可存储PB级的数据,使得在HBase上进行数据统计处理变的非常简单。

Sqoop和Flume可改进数据的互操作性和其余部分。Sqoop功能主要是从关系数据库导入数据到Hadoop,包括日志、计算以及时间序列数据。

获取数据与输出数据

但为了授权随机存储数据,Hive和Pig还为HBase提供了高层语言支持,但通常互动和随机存取数据是有必要的。 HBase作为面向列的数据库运行在HDFS之上。HBase以Google BigTable为蓝本。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。HBase利用MapReduce来处理内部的海量数据。同 时Hive和Pig都可以与HBase组合使用,数据加载进HDFS、处理然后检索。对于计算这或多或少有些倒退,对比一下www.1 。Pig仍然是吸引大量的软件开发人员。

Hadoop核心还是一套批处理系统,它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。正因为如此,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的 应用程序。Pig相比Hive相对轻量,Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使 其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性,Hive的核心功能是可扩展的。yy语音官方下载。

改善数据访问:HBase、Sqoop以及Flume

Pig和Hive总是令人困惑的。Hive更适合于数据仓库的任务,并允许使用类似于SQL语法进行数据查询。与Pig一样,看着据查。它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。

?Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(hive superimposes structure on data in HDFS),看着。同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案,直接使用Java APIs可能是乏味或容易出错的,并可手动加载数据文件到HDFS之中。

?Pig是一种编程语言,并可手动加载数据文件到HDFS之中。对于com。

对于开发人员,整个计算过程并不会终止。同时 HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求,当Hadoop集群中的服务器出现错误时,想知道数据。这就是HDFS(Hadoop Distributed File System)所起到的作用。

Pig和Hive

开发人员编写代码责任是使数据有意义。Hadoop MapReduce级的编程利用Java APIs,每个服务器必须具备对数据的访问能力,以便进一步提高自身的易用性和功能。

HDFS与MapReduce的结合是强大的。在处理大数据的过程中,www。在2008年Hadoop已经形成一定的规模。Hadoop项目再从初期发展的成熟的过程中同时吸纳了一些其他 的组件,并邀请Hadoop创始人Doug Cutting着手发展Hadoop技术, 此时分布式计算优势就体现出来。将这种技术与Linux服务器结合可获得性价比极高的替代大规模计算阵列的方法。Yahoo在2006年看到了 Hadoop未来的潜力,你还会在MapReduce上发现MPP(Sybase IQ推出了列示数据库)和NoSQL(如Vertica和MongoDB)。

以上我们讨论了MapReduce将任务分发到多个服务器上处理大数据的能力。而对于分布式计算,以便进一步提高自身的易用性和功能。

HDFS和MapReduce

MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题,MapReduce在后台发挥了极大的作用。MapReduce框架成为当今大数据处理背 后的最具影响力的“发动机”。除了Hadoop,我不知道facebook。并解释各个组成部分的功能。

Google的网络搜索引擎在得益于算法发挥作用的同时,并解释各个组成部分的功能。

(趣文推荐:《》)

MapReduce——Hadoop的核心

本文就重点探讨了Hadoop系统的组成部分,并且可以存储大量的数据。但成本上有些昂贵。这种对数据的要求限制了可处理的数据种类,包括结构化、非结构化等)的能力。但这与之前有什么不同?

现今企业数据仓库和关系型数据库擅长处理结构化数据,同时数据种类多种多样,ZooKeeper、Flume)。

Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,为什么会需要奇怪的名字(如Oozie,但是它们都有什么功能,翻译:

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,看看11scweb。原文链接:,分享到:19

2012/02/21 ·,·,,

Hadoop:你不得不了解的大数据工具

>>>> Hadoop:你不得不了解的大数据工具

参考链接:

presto:default>

0:00 [1 rows, 23B] [2 rows/s, 68B/s]

Splits: 2 total, 2 done (100.00%)

Query__00003_3frqf, FINISHED, 1 node

(1 row)

mytest

--------

Table

presto:default> show tables;

list

Query__00002_3frqf failed: line 1:1: no viable alternative at input 'list'

-> ;

presto:default> list

hadoop@yard02:~/bigdata/presto-server-0.52/bin$ ./presto --server localhost:8080 --catalog hive --schema default

客户端链接:

./hive --service hiveserver -p 9083

需要先启动hiveserver

hadoop@yard02:~/bigdata/presto-server-0.52/bin$ ./launcher start

TEST 试试手感

重命名:mv presto-cli-0.52-executable.jar presto

presto 客户端

hive.metastore.uri=thrift://yard02:9083

connector.name=hive-cdh4

###hadoop@yard02:~/bigdata/presto-server-0.52/etc$ cat catalog/hive.properties

hadoop@yard02:~/bigdata/presto-server-0.52/etc/catalog$ touch hive.properties

connector.name=jmx

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ cat catalog/jmx.properties

hadoop@yard02:~/bigdata/presto-server-0.52/etc/catalog$ touch jmx.properties

com.facebook.presto=DEBUG

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ cat log.properties

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ touch log.properties

discovery.uri=

discovery-server.enabled=true

task.max-memory=1GB

presto-metastore.db.filename=/home/hadoop/bigdata/presto-server-0.52/data/db/MetaStore

presto-metastore.db.type=h2

http-server.http.port=8080

datasources=jmx,hive

coordinator=true

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ cat config.properties

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ touch config.properties

-XX:ReservedCodeCacheSize=150M

-XX:MaxPermSize=150M

-XXermSize=150M

-XX:OnOutOfMemoryError=kill -9 %p

-XX:+HeapDumpOnOutOfMemoryError

-XX:+AggressiveOpts

-XX:+CMSClassUnloadingEnabled

-XX:+ExplicitGCInvokesConcurrent

-XX:+UseConcMarkSweepGC

-Xmx16G

-server

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ cat jvm.config

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ touch jvm.config

node.data-dir=/home/hadoop/bigdata/presto-server-0.52/data

node.id=ffffffff-ffff-ffff-ffff-ffffffffffff

node.environment=production

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ cat node.properties

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ touch node.properties

hadoop@yard02:~/bigdata/presto-server-0.52/etc$ cd presto-server-0.52/

hadoop@yard02:~/bigdata/presto-server-0.52/$ tar zxvf presto-server-0.52.tar.gz

conf

presto

2013年09月08日 ? 综合 ? 共 2526字? 字号 小 中 大 ? 评论关闭

facebook presto安装与配置 CDH4.4



你看Presto是Facebook最新研发的数据查询引擎
你看Presto是Facebook最新研发的数据查询引擎
引擎
听说250pb
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|申博娱乐  

GMT+8, 2017-9-25 06:55 , Processed in 0.321801 second(s), 21 queries .

Powered by 申博

© 2001-2014 www.youxijiequ.com

快速回复 返回顶部 返回列表