行者大数据linux命令
-
大数据领域中使用的Linux命令可以根据不同的情况和需求而有所变化,下面列举了一些常见的大数据领域中使用的Linux命令:
1. hdfs命令:
– hdfs dfs -ls:列出HDFS上的文件和文件夹;
– hdfs dfs -cat:查看HDFS上的文件内容;
– hdfs dfs -put:将本地文件上传到HDFS;
– hdfs dfs -get:将HDFS上的文件下载到本地;
– hdfs dfs -rm:删除HDFS上的文件或文件夹;
– hdfs dfs -mkdir:在HDFS上创建文件夹;
– hdfs dfs -du:查看HDFS上文件的大小。2. yarn命令:
– yarn application -list:列出所有正在运行的YARN应用程序;
– yarn application -kill:终止指定的YARN应用程序;
– yarn application -status:查看指定YARN应用程序的状态;
– yarn logs -applicationId:查看指定YARN应用程序的日志。3. Hive命令:
– hive -e “SQL语句”:执行Hive中的SQL语句;
– hive -f “脚本文件”:执行Hive脚本文件;
– hive -S:以静默模式运行Hive,不输出额外的信息;
– hive -d “变量名=值”:设置Hive中的变量。4. Spark命令:
– spark-submit:提交Spark应用程序;
– spark-shell:启动Spark的交互式Shell;
– spark-sql:启动Spark的SQL命令行;
– spark-class:运行Spark的其他类。5. HBase命令:
– hbase shell:启动HBase的命令行;
– list:列出所有的表;
– create ‘表名’,’列族’:创建表;
– disable ‘表名’:禁用表;
– enable ‘表名’:启用表;
– put ‘表名’,’行键’,’列族:列名’,’值’:插入数据;
– get ‘表名’,’行键’:获取数据。除了上述列举的命令,大数据领域中还有其他常用的Linux命令,如:grep、awk、sed、cut等,用于数据处理和分析。大数据领域中的Linux命令非常丰富多样,根据实际需求选择合适的命令进行操作可以提高工作效率。
2年前 -
Linux操作系统作为一种开源、稳定、强大的操作系统,被广泛应用于服务器、嵌入式设备、个人电脑等领域。在大数据领域,Linux命令几乎是必备技能,行者拥有对大数据领域的深刻理解和实践经验,特此整理了一些常用的Linux命令,以供参考:
1. ls命令:用于列出当前目录下的文件和子目录。常用参数包括-l(显示详细信息)、-a(显示所有文件,包括隐藏文件)等。
2. cd命令:用于切换当前工作目录。例如,cd /data可以切换到data目录;cd .. 可以返回上一级目录。
3. mkdir命令:用于创建目录。例如,mkdir data可以创建一个名为data的目录。
4. cp命令:用于复制文件或目录。例如,cp file1 file2可以将file1复制到file2。
5. rm命令:用于删除文件或目录。例如,rm file1可以删除名为file1的文件,rm -r dir1可以删除名为dir1的目录。
6. mv命令:用于移动文件或目录,并且可以用于重命名文件或目录。例如,mv file1 dir1可以将file1移动到dir1目录中,mv file1 file2可以将文件名从file1改为file2。
7. cat命令:用于查看或连接文件。例如,cat file1可以查看file1的内容;cat file1 file2可以将file1和file2的内容连接起来。
8. grep命令:用于在文件中查找指定的字符串。例如,grep “keyword” file可以在file中查找包含”keyword”的行。
9. head和tail命令:用于显示文件的前几行或后几行。例如,head -n 10 file可以显示file的前10行;tail -n 5 file可以显示file的后5行。
10. chmod命令:用于改变文件或目录的权限。例如,chmod 755 file可以将文件file的权限设置为755。
11. chown命令:用于改变文件或目录的所有者。例如,chown user file可以将文件file的所有者设置为user。
12. find命令:用于根据指定的条件查找文件或目录。例如,find /data -name “*.txt”可以在/data目录下查找所有后缀名为.txt的文件。
13. wget命令:用于下载文件。例如,wget url可以从指定的url地址下载文件。
14. tar命令:用于打包和解包文件。例如,tar -cvf file.tar dir可以将目录dir打包为file.tar;tar -xvf file.tar可以解包file.tar。
这些是行者大数据领域常用的一些Linux命令,掌握了这些命令,可以帮助你更好地管理和操作大数据环境。当然,随着技术的发展,新的命令和工具也不断出现,保持学习和探索的态度,才能更好地应对大数据的挑战。
2年前 -
一、基本命令
1. ls:显示当前目录下的文件和目录列表。
语法:ls [选项] [文件/目录]
常用选项:
-a:显示隐藏文件;
-l:以列表方式显示文件和目录的详细信息;
-R:递归显示子目录下的文件和目录;
2. cd:切换当前工作目录。
语法:cd [目录路径]
例子:
cd /home:进入home目录;
cd ..:进入上一级目录;
3. pwd:显示当前工作目录的路径。
语法:pwd
例子:
pwd:显示当前工作目录的完整路径;
4. mkdir:创建新目录。
语法:mkdir [选项] 目录名
常用选项:
-p:递归创建目录;
-v:显示创建的目录名。
5. touch:创建新的空文件。
语法:touch 文件名
例子:
touch file.txt:创建一个名为file.txt的空文件;
6. cp:复制文件和目录。
语法:cp [选项] 源文件/目录 目标文件/目录
常用选项:
-r:复制目录及其内容;
-a:保留文件属性;
-i:询问是否覆盖已存在的目标文件;
例子:
cp file.txt /home:将file.txt文件复制到/home目录;
cp -r /home/dir1 /home/dir2:复制dir1目录及其内容到dir2目录;
7. mv:移动或重命名文件和目录。
语法:mv [选项] 源文件/目录 目标文件/目录
常用选项:
-i:询问是否覆盖已存在的目标文件;
例子:
mv file.txt /home:将file.txt文件移动到/home目录;
mv dir1 new_dir:将dir1目录重命名为new_dir;
8. rm:删除文件和目录。
语法:rm [选项] 文件/目录
常用选项:
-r:递归删除目录及其内容;
-f:强制删除,不提示任何信息;
-i:询问是否删除;
例子:
rm file.txt:删除file.txt文件;
rm -r dir1:删除dir1目录及其内容;
9. cat:连接文件并打印到标准输出或文件中。
语法:cat [选项] 文件
常用选项:
-n:显示行号;
-b:显示行号,但不包括空行;
-A:显示特殊字符(空白字符、换行符等);
例子:
cat file.txt:显示file.txt文件内容;
10. more:逐页显示文本文件内容。
语法:more [选项] 文件
常用选项:
输入空格键:显示下一页;
输入q键:退出查看;
例子:
more file.txt:逐页显示file.txt文件内容;
二、系统管理命令
1. top:实时查看系统的运行状态和进程信息。
语法:top
常用操作:
输入q键:退出top命令;
输入k键:杀死指定的进程;
2. ps:显示当前进程的信息。
语法:ps [选项]
常用选项:
-a:显示所有终端上的进程(包括其他用户的进程);
-u:显示用户所启动的进程;
-x:显示以exec方式执行的进程;
例子:
ps aux:以列表方式显示当前所有进程的详细信息;
3. kill:终止进程。
语法:kill [选项] 进程ID
常用选项:
-9:强制终止进程;
例子:
kill 12345:终止进程ID为12345的进程;
4. netstat:显示网络连接、路由表和网络接口信息。
语法:netstat [选项]
常用选项:
-n:以数字方式显示IP地址和端口号;
-a:显示所有网络连接,包括监听和非监听端口;
-t:仅显示TCP连接;
-u:仅显示UDP连接;
例子:
netstat -nltp:显示所有正在监听的TCP端口;
5. ifconfig:配置和显示网络设备的信息。
语法:ifconfig [选项] 网络设备名
常用选项:
-a:显示全部网络设备信息;
例子:
ifconfig eth0:显示eth0网络设备的信息;
6. systemctl:系统服务管理工具。
语法:systemctl [选项] 命令 服务名
常用命令:
start:启动服务;
stop:停止服务;
restart:重启服务;
enable:设置服务开机启动;
disable:设置服务不开机启动;
status:查看服务状态;
例子:
systemctl start httpd:启动httpd服务;
systemctl stop httpd:停止httpd服务;
三、文件处理命令
1. find:根据条件查找文件。
语法:find [路径] [选项] 操作
常用选项:
-name:按名称查找文件;
-size:按文件大小查找文件;
-type:按文件类型查找文件;
例子:
find /home -name file.txt:在/home目录中查找名为file.txt的文件;
find /var -size +1M:在/var目录中查找大小超过1M的文件;
2. grep:在文件中查找指定的字符串。
语法:grep [选项] 字符串 文件
常用选项:
-i:忽略大小写;
-v:显示不包含指定字符串的行;
-n:显示行号;
例子:
grep “keyword” file.txt:在file.txt文件中查找包含“keyword”的行;
3. sed:对文本进行流编辑操作。
语法:sed [选项] ‘操作’ 文件
常用选项:
-i:直接修改文件内容;
-e:指定多个操作;
例子:
sed ‘s/old_string/new_string/g’ file.txt:将文件中的所有“old_string”替换为“new_string”;
4. awk:对文本进行格式化和其他操作。
语法:awk ‘条件1{操作1} 条件2{操作2} …’ 文件
例子:
awk ‘{print $1,$3}’ file.txt:打印文件中每行的第1列和第3列;
四、压缩和解压命令
1. tar:打包和解包文件。
语法:tar [选项] 压缩文件名 源文件/目录
常用选项:
-c:创建压缩文件;
-x:解包压缩文件;
-f:指定压缩文件的名称;
-z:使用gzip压缩文件(.tar.gz);
例子:
tar -cvf archive.tar file1 file2:将file1和file2打包成archive.tar文件;
tar -xvf archive.tar:解包archive.tar文件;
2. gzip:压缩文件。
语法:gzip [选项] 文件
常用选项:
-r:递归压缩目录及其内容;
-d:解压缩文件;
例子:
gzip file.txt:压缩file.txt文件为file.txt.gz;
gzip -d file.txt.gz:解压缩file.txt.gz文件;
3. zip:打包和解包文件。
语法:zip [选项] 压缩文件名 源文件/目录
常用选项:
-r:递归打包目录及其内容;
-d:解包压缩文件;
例子:
zip -r archive.zip dir1 dir2:将dir1和dir2打包成archive.zip文件;
unzip archive.zip:解包archive.zip文件;
五、网络命令
1. ping:测试网络连通性。
语法:ping [选项] IP地址/主机名
常用选项:
-c:发送指定数量的数据包;
-i:设定数据包之间的时间间隔;
例子:
ping http://www.baidu.com:测试与百度主机的连通性;
2. nslookup:查询域名解析信息。
语法:nslookup [选项] 域名/IP地址
常用选项:
-qt:指定查询类型;
例子:
nslookup http://www.baidu.com:查询百度主机的IP地址;
3. ifup/ifdown:启动/停止网络接口。
语法:ifup 网络接口名
例子:
ifup eth0:启动eth0网络接口;
四、中级命令
1. grep搜索。
信息查找处理命令,grep能使用正则表达式进行搜索,搜索满足条件的行,并将结果输出。
$ grep [option] pattern file
常用参数选项:
-n 输出显示行号,显示行号及符合范本样式的那一行。
-e 指定范本样式,多样式查询。
-v 反向选择,显示不包含范本样式的行。
2. lsof查看开放的文件。
Linux系统中,任何事物都以文件形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以对系统的观察和调试过程中都少不了对文件的操作。lsof命令就是在列出Linux系统中已经被打开的文件,它是一种查看Unix / Linux系统中已打开的文件的工具。
$ lsof -c 命令名称
3. cat查看文件内容。
cat命令是Linux下常用的查看文件内容的命令。
$ cat [option] filename
常用参数选项:
-n 由1开始对所有输出的行数编号。
-b 由1开始对所有非空输出行编号。
-v 区别显示制表符、换行符和行结束符。
-e 在每行结束处显示$符号。
4. head显示文件开头内容。
head 命令用于显示文件的开头若干内容。默认情况下,head命令显示文件的头10行内容。
$ head [option] filename
常用参数选项:
-n 显示文件的前n行内容。
-c 显示文件的前n字节内容。
5. tail显示文件结尾内容。
tail 命令用于显示文件的结尾若干内容。默认情况下,tail命令显示文件的尾10行内容。
$ tail [option] filename
常用参数选项:
-n 显示文件的后n行内容。
-c 显示文件的后n字节内容。
-f 循环读取文件的新添加的数据。
6. wc统计文件的字符、字和行数。
wc 命令用于统计文件中的字符数、字数、行数。
$ wc [option] filename
常用参数选项:
-c 统计文件的字符数。
-w 统计文件的单词数。
-l 统计文件的行数。
7. cut截取文件的指定部分。
cut 命令用于截取文件的指定部分。
$ cut [option] filename
常用参数选项:
-d 指定分隔符。
-f 指定要截取的第几个字段。
8. sort对文件内容排序。
sort 命令用于对文件的每行内容进行排序,默认是以字母的升序来排列。
$ sort [option] filename
常用参数选项:
-n 以数值型进行排序。
-r 以倒序方式排序。
-u 当有重复行时删除重复行。
-k 以指定的字段进行排序。
9. uniq去重显示。
uniq 命令用于过滤文件中的重复行,它会去掉文件中相邻的重复行。
$ uniq [option] filename
常用参数选项:
-c 在每行输出前加上重复出现的次数。
-d 仅显示重复出现的行。
-u 仅显示不重复的行。
10. diff比较文件之间的差异。
diff 命令用于比较两个文件的内容的差异。如果两个文件是相同的,则diff命令不会输出任何内容。
$ diff [option] file1 file2
常用参数选项:
-c 以上下文的方式输出差异。
-u 以统一的格式输出差异。
11. sed对文件内容进行文本替换。
sed 命令是一种流编辑器,它是文本处理中非常中的工具,能够在命令行上对文件内容进行替换操作。
$ sed [option] command filename
常用参数选项:
-i 直接修改文件内容。
-e 可以在一行内跑多个sed命令。
12. awk提取文本信息。
awk是一种流行的文本处理工具,它通常用于数据提取和报告生成。它支持自定义的操作和内置函数,并且以行为单位执行操作。
$ awk [option] ‘condition1 { action1} condition2 { action2} …’ filename
常用参数选项:
-F 指定字段分隔符。
-v 定义用户自定义变量。
13. xargs命令从标准输入中读取数据,并将其作为参数传递给其他命令。
xargs 命令是Linux下一个强大的命令行工具,可以将标准输入的数据转换成命令行参数。它有助于读取标准输入数据,并使用这些数据作为其他命令的参数。
$ command | xargs [option] [command]
常用参数选项:
-d 指定分隔符。
-I 指定替换字符串。
14. tee命令将标准输入复制到标准输出,并将其保存到文件中。
tee 命令可以将标准输入的内容复制到标准输出,并将其保存到文件中。它常用于同时在屏幕上显示输出和将其写入文件。
$ command | tee [option] filename
常用参数选项:
-a 追加内容到文件中。2年前