技术博客 技术博客
  • JAVA
  • 仓颉
  • 设计模式
  • 人工智能
  • Spring
  • Mybatis
  • Maven
  • Git
  • Kafka
  • RabbitMQ
  • RocketMQ
  • Redis
  • Zookeeper
  • Nginx
  • 数据库套件
  • MySQL
  • Elasticsearch
  • MongoDB
  • Hadoop
  • ClickHouse
  • Hbase
  • Hive
  • Flink
  • Flume
  • SQLite
  • linux
  • Docker
  • Jenkins
  • Kubernetes
  • 工具
  • 前端
  • AI
GitHub (opens new window)
  • JAVA
  • 仓颉
  • 设计模式
  • 人工智能
  • Spring
  • Mybatis
  • Maven
  • Git
  • Kafka
  • RabbitMQ
  • RocketMQ
  • Redis
  • Zookeeper
  • Nginx
  • 数据库套件
  • MySQL
  • Elasticsearch
  • MongoDB
  • Hadoop
  • ClickHouse
  • Hbase
  • Hive
  • Flink
  • Flume
  • SQLite
  • linux
  • Docker
  • Jenkins
  • Kubernetes
  • 工具
  • 前端
  • AI
GitHub (opens new window)
  • mysql

    • MySQL 问题汇总
    • MySQL 索引介绍
    • MySQL 锁介绍
    • MySQL 索引优化工具 explain
    • MySQL 主从复制(GTID)
    • MySQL 8安装
    • MySQL 8.x新特性总结
    • MySQL UDF以及新类型JSON
    • MySQL 高可用MGR(一) 理论
    • MySQL 高可用MGR(二) 搭建
    • MySQL 高可用MGR(三) 测试
  • Elasticsearch

    • ES 7.8.0(一) 入门介绍
    • ES 7.8.0(二) 读、写和写索引流程以及文档分析过程
    • ES 7.8.0(三) 文档冲突
  • mongodb

    • mongodb
  • hadoop

    • Hadoop 伪分布式及集群
    • Hadoop 指令
    • Hadoop 读写流程详解
    • Hadoop SpringBoot集成
    • Hadoop MapReduce机制
    • Hadoop YARN
    • Hadoop MapReduce配置和编写job及数据倾斜的解决
    • Hadoop MapReduce自定义格式输入输出
  • clickhouse

    • ClickHouse 介绍及安装
    • ClickHouse 数据类型
    • ClickHouse 表引擎
    • ClickHouse SQL操作
    • ClickHouse 副本配置
    • ClickHouse 分片与集群部署
    • ClickHouse Explain及建表优化
    • ClickHouse 语法优化规则
    • ClickHouse 查询优化
    • ClickHouse 数据一致性
    • ClickHouse 物化视图
    • ClickHouse MaterializeMySQL引擎
    • ClickHouse 监控及备份
  • hbase

    • Hbase 介绍及安装
    • Hbase 优化
    • Hbase phoenix安装及使用
    • Hbase LSM-TREE
  • hive

    • Hive 介绍及安装
    • Hive 内外部表、分区表、分桶表概念及hiveSQL命令
    • Hive 数据类型
    • Hive 函数 MySQL联合
    • Hive 数据倾斜和优化
    • Hive Sqoop安装及指令
      • Sqoop介绍
      • 安装
      • Sqoop命令
  • flink

    • Flink 介绍及安装
    • Flink 配置介绍及Demo
    • Flink API讲解
    • Flink 运行架构
    • Flink 时间语义及Watermark
    • Flink 状态管理
    • Flink 容错,检查点,保存点
    • Flink 状态一致性
    • Flink Table API 和 Flink SQL
    • Flink CEP编程
    • Flink Joining编程
    • Flink CDC
  • flume

    • Flume 日志收集系统介绍及安装
    • Flume Source支持的类型
    • Flume Sink支持的类型
    • Flume Channel支持的类型
    • Flume Selector
    • Flume Interceptor拦截器类型
    • Flume Process
  • sqlite

    • SQLite介绍
目录

Hive Sqoop安装及指令

本文及后续所有文章都以 3.1.2 做为版本讲解和入门学习

# Sqoop 介绍

Sqoop 是 apache 提供的工具,用于 HDFS 和关系数据库之间数据导入和导出,可以从 HDFS 导出数据到关系型数据库,也可以从关系型数据库导入数据到 HDFS。

# 安装

wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
1

必须配置 jdk、hadoop 环境变量,因为 sqoop 在使用是会去找环境变量对应的路径,从而工作。最好把 sqoop 自己也加如到环境变量中。

需要将连接的数据库的驱动包加如 sqoop/server/lib 目录下。

配置 sqoop2 的话要允许访问 HDFS,但是我是 sqoop1.

  <property>
    <name>hadoop.proxyuser.sqoop2.hosts</name>
    <value>*</value>
  </property>
  <property>
    <name>hadoop.proxyuser.sqoop2.groups</name>
    <value>*</value>
  </property>
1
2
3
4
5
6
7
8

# Sqoop 命令

查看 mysql 所有数据库

sqoop list-databases --connect jdbc:mysql://node113:3306/?useSSL=false -username root -password Admin@123
1

查看指定数据库下的所有表

sqoop list-tables --connect jdbc:mysql://node113:3306/hive?useSSL=false -username root -password Admin@123
1

将关系型数据库(test 库,test_01 表)导入到 HDFS 的 '/sqoop/test_01' 目录下,并以 ' ' 空格分割列,sqoop 会在 hadoop 自动创建目录和文件

sqoop import --connect jdbc:mysql://node113:3306/test?useSSL=false -username root -password Admin@123 --table test_01 --target-dir '/sqoop/test_01' --fields-terminated-by ' ' -m 1;
1

将 HDFS 数据导入导出到关系型数据库,sqoop 只能导出数据,不能自动建表,所以在导出之前表就要建好。

sqoop export --connect jdbc:mysql://node113:3306/test?useSSL=false -username root -password Admin@123 --export-dir '/sqoop/test_01/part-m-00000' --table test_02 -m 1 --fields-terminated-by ' '
1
上次更新: 6/11/2025, 4:10:30 PM
Hive 数据倾斜和优化
Flink 介绍及安装

← Hive 数据倾斜和优化 Flink 介绍及安装→

Theme by Vdoing | Copyright © 2023-2025
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式