Spark on Yarn:java.sql.SQLException: No suitable driver found for jdbc:microsoft:sqlserver://localhost\db_instance_name:1433;databaseName=db

Spark on Yarn:java.sql.SQLException: No suitable driver found for jdbc:microsoft:sqlserver://localhost\db_instance_name:1433;databaseName=db_name

本文只是针对当前特定环境下，出现的问题找不到sqljdbc驱动的案例。具体出现原因，可能是spark版本问题，也可能是集群配置问题。

yarn-client方式下：

通过--jars参数指定驱动文件位置，提交后提示：“。。。No suitable driver found for jdbc:。。。”；

后来参考到文章：Spark insertIntoJDBC找不到Mysql驱动解决方法中介绍到：是由于版本问题，导致的我们程序提交不上去的错误问题。

于是修改提交参数使用--driver-class-path方式指定驱动包文件的位置，使用client方式提交问题解决了。

提交脚本为：

#!/bin/sh
spark-submit --deploy-mode client --class MyMain --driver-class-path /app/tt/service/jars/sqljdbc4.jar --num-executors 320 --executor-cores 1 --driver-memory 4g --executor-memory 6g My.jar

yarn-cluster方式下：

提交脚本：

#!/bin/sh
spark-submit --master yarn-cluster --class MyMain --jars /app/tt/service/jars/sqljdbc4.jar --num-executors 320 --executor-cores 1 --driver-memory 4g --executor-memory 6g My.jar

通过阅读相关文件，了解到：在spark1.4版本之后，--jars指定驱动方式也支持driver驱动系统加载方式。但是，实际测试结果却不是这样子的，使用-driver-class-path和--jars这两种方式指定jdbc驱动包的位置都是不能正确提交到cluster上的。

需要注意的问题：如果提示未找到jdbc驱动包，请确认你的却驱动包地址是否正确、确认你的包是否是正确的驱动包（比如你是需要sqljdbc，这里就不要填写为ojdbc驱动包。）

我的访问sqlserver数据库表的代码书写内容：

val prop = new Properties()
prop.setProperty("user", "xx")
prop.setProperty("password", "xxxx")
val lnglat_offset_df = hiveContext.read.jdbc("jdbc:sqlserver://localhost\db_instance_name:1433;DatabaseName=db_name", "[dbo].[tb_test]", prop)

在我们自己的集群上解决驱动包在cluster方式下提交时，提示：“。。。No suitable driver found for jdbc:。。。”的解决方案：在各个子节点上安装对应的jdbc驱动包。

经过找高手帮忙最终解决了该问题，在cluster方式提交不上去的原因结论：我们数据库连接方式写的有问题。

正确的代码应该是：

val lnglat_offset_df = hiveContext.read.format("jdbc")
      .options(Map("url" -> "jdbc:sqlserver://localhost\db_instance_name:1433;DatabaseName=db_name;user=xx;password=xxx",
        "dbtable" -> "dbo.tb_test",
        "driver" -> "com.microsoft.sqlserver.jdbc.SQLServerDriver"))
      .load()

但是，疑问高手在解决问题时是否在各个节点上安装了jdbc驱动。是否安装，我不确定（集群我们管理不了）。希望看到该文章的读者清楚这个事情。