您的位置：58脚本 > apache配置加载模块的指令 Apache Pig 加载数据

apache配置加载模块的指令 Apache Pig 加载数据

2023-04-24 06:32 ApachePig教程

apache配置加载模块的指令

一般来说，Apache Pig在Hadoop之上工作。它是一种分析工具，用于分析 Hadoop File System中存在的大型数据集。要使用Apache Pig分析数据，我们必须首先将数据加载到Apache Pig中。本章介绍如何从HDFS将数据加载到Apache Pig。

准备HDFS

在MapReduce模式下，Pig从HDFS读取（加载）数据并将结果存回HDFS。因此，让我们先从HDFS开始，在HDFS中创建以下示例数据。

学生ID	名字	姓氏	电话号码	城市
001	Rajiv	Reddy	9848022337	Hyderabad
002	siddarth	Battacharya	9848022338	Kolkata
003	Rajesh	Khanna	9848022339	Delhi
004	Preethi	Agarwal	9848022330	Pune
005	Trupthi	Mohanthy	9848022336	Bhuwaneshwar
006	Archana	Mishra	9848022335	Chennai

上述数据集包含六个学生的个人详细信息，如id，名字，姓氏，电话号码和城市。

步骤1:验证Hadoop

首先，使用Hadoop version命令验证安装，如下所示。

$ hadoop version

如果你的系统里有Hadoop，并且已设置PATH变量，那么你将获得以下输出 -

Hadoop 2.6.0 
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 
e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 
Compiled by jenkins on 2014-11-13T21:10Z 
Compiled with protoc 2.5.0 
From source with checksum 18e43357c8f927c0695f1e9522859d6a 
This command was run using /home/Hadoop/hadoop/share/hadoop/common/hadoop
common-2.6.0.jar

步骤2:启动HDFS

浏览Hadoop的 sbin 目录，并启动 yarn 和Hadoop dfs（分布式文件系统），如下所示。

cd /$Hadoop_Home/sbin/ 
$ start-dfs.sh 
localhost: starting namenode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-namenode-localhost.localdomain.out 
localhost: starting datanode, logging to /home/Hadoop/hadoop/logs/hadoopHadoop-datanode-localhost.localdomain.out 
Starting secondary namenodes [0.0.0.0] 
starting secondarynamenode, logging to /home/Hadoop/hadoop/logs/hadoop-Hadoopsecondarynamenode-localhost.localdomain.out
 
$ start-yarn.sh 
starting yarn daemons 
starting resourcemanager, logging to /home/Hadoop/hadoop/logs/yarn-Hadoopresourcemanager-localhost.localdomain.out 
localhost: starting nodemanager, logging to /home/Hadoop/hadoop/logs/yarnHadoop-nodemanager-localhost.localdomain.out

步骤3:在HDFS中创建目录

在Hadoop DFS中，可以使用 mkdir 命令创建目录。在HDFS所需路径中创建一个名为 Pig_Data 的新目录，如下所示。

$cd /$Hadoop_Home/bin/ 
$ hdfs dfs -mkdir hdfs://localhost:9000/Pig_Data

步骤4:将数据放在HDFS中

Pig的输入文件包含单个行中的每个元组/记录。记录的实体由分隔符分隔（在我们的示例中，我们使用“，”）。在本地文件系统中，创建一个包含数据的输入文件 student_data.txt ，如下所示。

001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai.

现在，使用 put 命令将文件从本地文件系统移动到HDFS，如下所示。（你也可以使用 copyFromLocal 命令。）

$ cd $HADOOP_HOME/bin 
$ hdfs dfs -put /home/Hadoop/Pig/Pig_Data/student_data.txt dfs://localhost:9000/pig_data/

验证文件

使用 cat 命令验证文件是否已移入HDFS，如下所示。

$ cd $HADOOP_HOME/bin
$ hdfs dfs -cat hdfs://localhost:9000/pig_data/student_data.txt

输出

现在，可以看到文件的内容，如下所示。

15/10/01 12:16:55 WARN util.NativeCodeLoader: Unable to load native-hadoop
library for your platform... using builtin-java classes where applicable
  
001,Rajiv,Reddy,9848022337,Hyderabad
002,siddarth,Battacharya,9848022338,Kolkata
003,Rajesh,Khanna,9848022339,Delhi
004,Preethi,Agarwal,9848022330,Pune
005,Trupthi,Mohanthy,9848022336,Bhuwaneshwar
006,Archana,Mishra,9848022335,Chennai

Load运算符

你可以使用 Pig Latin 的 LOAD 运算符，从文件系统（HDFS / Local）将数据加载到Apache Pig中。

语法

load语句由两部分组成，用“=”运算符分隔。在左侧，需要提到我们想要存储数据的关系的名称；而在右侧，我们需要定义如何存储数据。下面给出了 Load 运算符的语法。

Relation_name = LOAD 'Input file path' USING function as schema;

说明:

relation_name - 我们必须提到要存储数据的关系。
Input file path - 我们必须提到存储文件的HDFS目录。（在MapReduce模式下）
function - 我们必须从Apache Pig提供的一组加载函数中选择一个函数（ BinStorage，JsonLoader，PigStorage，TextLoader ）。
Schema - 我们必须定义数据的模式，可以定义所需的模式如下 -

(column1 : data type, column2 : data type, column3 : data type);

注意:我们加载数据而不指定模式。在这种情况下，列将被寻址为$01，$02，等...（检查）。

例

例如，我们使用 LOAD 命令，在名为学生的模式下在Pig中的 student_data.txt 加载数据。

启动Pig Grunt Shell

首先，打开Linux终端。在MapReduce模式下启动Pig Grunt shell，如下所示。

$ Pig –x mapreduce

它将启动Pig Grunt shell，如下所示。

15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
15/10/01 12:33:37 INFO pig.ExecTypeProvider: Picked MAPREDUCE as the ExecType

2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Apache Pig version 0.15.0 (r1682971) compiled Jun 01 2015, 11:44:35
2015-10-01 12:33:38,080 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/Hadoop/pig_1443683018078.log
2015-10-01 12:33:38,242 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /home/Hadoop/.pigbootup not found
  
2015-10-01 12:33:39,630 [main]
INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://localhost:9000
 
grunt>

执行Load语句

现在，通过在Grunt shell中执行以下Pig Latin语句，将文件 student_data.txt 中的数据加载到Pig中。

grunt> student = LOAD 'hdfs://localhost:9000/pig_data/student_data.txt' 
   USING PigStorage(',')
   as ( id:int, firstname:chararray, lastname:chararray, phone:chararray, 
   city:chararray );

以下是对上述说明的描述。

Relation name

我们已将数据存储在学生（student）模式中。

Input file path

我们从HDFS的/pig_data/目录中的 student_data.txt 文件读取数据。

Storage function

我们使用了 PigStorage() 函数，将数据加载并存储为结构化文本文件。它采用分隔符，使用元组的每个实体作为参数分隔。默认情况下，它以“t"作为参数。

schema

我们已经使用以下模式存储了数据。

column	id	名字	姓氏	电话号码	城市
datatype	int	char array	char array	char array	char array

注意: Load语句会简单地将数据加载到Pig的指定的关系中。要验证Load语句的执行情况，必须使用Diagnostic运算符，这将在后续的章节中讨论。

阅读全文

以上是58脚本为你收集整理的apache配置加载模块的指令 Apache Pig 加载数据全部内容。

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。

全部标签 标签详情

字符串的api Apache Pig 字符串函数

ApachePig教程

在Apache Pig中有以下String函数。S.N.函数＆描述1ENDSWITH(string, testAgainst)验证给定字符串是否以特定子字符串结尾。2STAR...
apache pig Apache Pig UCFIRST()函数

ApachePig教程

此函数接受一个字符串，将其第一个字母转换为大写，并返回结果。函数这是函数 UCFIRST()的语法。grunt UCFIRST(expression) 例假...
apache评分值的意义 Apache Pig RTRIM()函数

ApachePig教程

函数 RTRIM()与函数 TRIM()相同。它从给定字符串（尾部空格）的右侧删除不需要的空格。语法 RTRIM()函数的语法如下g...
apache pig Apache Pig ACOS()函数

ApachePig教程

Pig Latin的 ACOS()函数用于计算给定表达式的反余弦值。语法这是 ACOS()函数的语法。grunt ACOS(expression) 例假设在 HDFS 目录...
微信小程序云开发数据库在哪微信小程序云开发 API数据库·删除记录

05-05

databaseDelete本接口应在服务器端调用，详细说明参见服务端API。数据库删除记录请求地址POST https://api.weixin.qq.com/tcb/da...
小程序端可以获取的用户信息小程序端

03-17

...
微信小程序怎么制作自己的程序微信小程序 mediaCheckAsync

05-21

security.mediaCheckAsync本接口应在服务器端调用，详细说明参见服务端API。异步校验图片/音频是否含有违法违规内容。应用场景举...
微信小程序动画效果微信小程序动画

04-26

动画界面动画的常见方式在小程序中，通常可以使用CSS 渐变和CSS 动画来创建简易的界面动画。动画过程中，可以使用bindtransition...
微信小程序文件系统错误微信小程序文件系统

04-07

文件系统文件系统是小程序提供的一套以小程序和用户维度隔离的存储以及一套相应的管理接口。通过wx.getFileSystemManager()可以...
arduino字符串拼接 Arduino 字符串

Arduino教程

字符串用于存储文本。它们可用在LCD或Arduino IDE串口监视器窗口中显示文本。字符串也可用于存储用户输入。例如，用户在连接到Ar...