Databricks
设置
Redash 可以连接到 Databricks 集群和 SQL 端点。请查阅 Databricks 文档,了解如何获取端点的 主机、HTTP 路径和访问令牌。
模式浏览器
Databricks 查询运行器使用自定义构建的模式浏览器,允许您在端点上的数据库之间切换,并查看每个字段的列类型。
与其他查询运行器不同,Databricks 模式浏览器会在您从一个数据库导航到另一个数据库时按需获取表和列名。如果您主要使用一个数据库,这将没有问题。
但是,如果您跨多个数据库浏览模式,则可能会遇到延迟,因为每个数据库都是单独获取的。
模式缓存一小时。您可能希望安排一个小时作业来预热这些缓存。
您可以使用任何 REST API 工具执行此操作,如下所示
curl --request GET \
--url http://<redash host>/api/databricks/databases/<data-source-id>/<database-name>/tables?refresh \
--header 'Authorization: Key <admin-api-key>' \
自动限制
Databricks 查询运行器还在查询编辑器下方包含一个复选框,默认情况下会自动将 LIMIT 1000
语句附加到您的查询中。这有助于防止您意外运行 SELECT * FROM
某些大型表,其结果足以导致前端崩溃。
多语句支持
Databricks 查询运行器允许您在一个查询窗口中执行多个以分号 ;
结尾的语句。
一个查询只能显示一个结果表。
这对于在集群上执行查询之前设置会话/集群配置变量很有用。
set use_cached_result = False;
SELECT count(*) FROM some_db.some_table