Sqoop问题总结

wangxucumt

浏览: 25905 次
性别:
来自: 北京

最近访客更多访客>>

kevin.shi

freeman01

zhaomengsen

爱蜗牛的蝙蝠

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Sqoop

今天发现使用sqoop导入db的时候JOB失败，有异常数据导致的，但是如何根据日志中的异常堆栈信息定位到异常数据呢？
每次通过sqoop导入MySql的时，都会生成一个以MySql表命名的.java文件，然后打成JAR包，给sqoop提交给hadoop 的MR来解析Hive表中的数据。那我们可以根据报的错误，找到对应的行，改写该文件，编译，重新打包，sqoop可以通过 -jar-file ，--class-name 组合让我们指定运行自己的jar包中的某个class。来解析该hive表中的每行数据。脚本如下：一个完整的例子如下：
./bin/sqoop export --connect "jdbc:mysql://cmg3.chamago.com/ehub?useUnicode=true&characterEncoding=utf-8"
--username gavin.peng --password gavin.peng --table bi_weekly_sales_item
--export-dir /hive/warehouse/hive_bi_weekly_sales_item --input-fields-terminated-by '\t'
--input-null-string '\\N' --input-null-non-string '\\N'
--class-name com.chamago.sqoop.codegen.bi_weekly_sales_item
--jar-file /tmp/sqoop-chamago/bi_weekly_sales_item.jar
上面--jar-file 参数指定jar包的路径。--class-name 指定jar包中的class。
这样就可以解决所有解析异常了。

转自http://f.dataguru.cn/thread-171348-1-1.html

一业务场景 Hive 查询Hql的结果进入MySql，目前本人是通过两步来实现的，

1 把hive查询结果直接进入Hive的表a（a表需要创建，结构需要和b一样）
2 通过sqoop把表a的内容导入到MySql表b（b表已经存在），
这个时候你需要现在hive上创建a表，假如b表字段很多，你需要一个一个字段写到建表语句。我是不想写。估计你也是，都是通过sqoop直接把MySQL的b表导入到hive，因为hive表默认的分隔符是'\001'，所以倒过来的时候要注意，带上表分隔符参数
--fields-terminated-by '\t',如下:
sqoop import --connect jdbc:mysql://db.foo.com/corp --table EMPLOYEES \ --fields-terminated-by '\t'
要想通过sqoop把hive的表导入MySql，hive上的表分隔符一定要是'\t',sqoop才能顺利导入，如果你使用默认的，即使在用sqoop导入的时候通过参数--input-fields-terminated-by '\001'也不行的。一定是--input-fields-terminated-by '\t' 才行。

二 sqoop导入hive数据到MySql碰到hive表中列的值为null的情况。

在导入数据的过程中，如果碰到列值为null的情况，hive中为null的是以\N代替的，所以你在导入到MySql时，需要加上两个参数：--input-null-string '\\N' --input-null-non-string '\\N'，多加一个'\'，是为转义。如果你通过这个还不能解决字段为null的情况，还是报什么NumberFormalt异常的话，那就是比较另类的了，没有关系，我们还是要办法解决，这就是终极武器。呵呵
你应该注意到每次通过sqoop导入MySql的时，都会生成一个以MySql表命名的.java文件，然后打成JAR包，给sqoop提交给hadoop 的MR来解析Hive表中的数据。那我们可以根据报的错误，找到对应的行，改写该文件，编译，重新打包，sqoop可以通过 -jar-file ，--class-name 组合让我们指定运行自己的jar包中的某个class。来解析该hive表中的每行数据。脚本如下：一个完整的例子如下：
./bin/sqoop export --connect "jdbc:mysql://cmg3.chamago.com/ehub?useUnicode=true&characterEncoding=utf-8"
--username gavin.peng --password gavin.peng --table bi_weekly_sales_item
--export-dir /hive/warehouse/hive_bi_weekly_sales_item --input-fields-terminated-by '\t'
--input-null-string '\\N' --input-null-non-string '\\N'
--class-name com.chamago.sqoop.codegen.bi_weekly_sales_item
--jar-file /tmp/sqoop-chamago/bi_weekly_sales_item.jar
上面--jar-file 参数指定jar包的路径。--class-name 指定jar包中的class。
这样就可以解决所有解析异常了。

下面贴下sqoop经常用的命令，

1 导入MySQL表到Hive
./sqoop import --connect jdbc:mysql://cmg3.chamago.com/ehub?useUnicode=true&characterEncoding=utf-8 --username gavin.peng --password gavin.peng --table bi_daily_traffic --hive-import
三 sqoop增量倒入

sqoop支持两种增量MySql导入到hive的模式，
一种是 append，即通过指定一个递增的列，比如：
--incremental append --check-column num_iid --last-value 0
另种是可以根据时间戳，比如：
--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00'
就是只导入created 比'2012-02-01 11:0:00'更大的数据。

分享到：