sparkmagic 数据鉴权架构
2022-12-08 15:02:15
登录查看完整内容
生产环境机器学习平台(jupyterhub)访问spark集群,通常使用sparkmagic,但它没有数据访问鉴权。自研实现数据鉴权。用户id通过spark的conf传递。
举报
猜你喜欢
大纲/内容
sparkmagic
注入加载器
SparkSession
+ sql(sql):DataFrame...
修改检测
代码植入
动态修改
Client
+ sql(sql): DataFrameProxy
构造
payload 脚本
DataFrame
+ show(num)+ take(num): list[Row]+ collect(): list[Row]+ toPandas(): pandas.DataFrame+ groupBy(col): GroupData...
sys
+ meta_path: tuple[Importer]
SparkMagicBase
- cell_keyword_checker(cell)+ execute_spark(cell)+ execute_sqlquery(cell)
check_meta_path_modified
DataFrameProxy
- proxy: DataFrame+ show(num)+ take(num)+ collect()+ toPandas()+ 自动代理其他函数: DataFrameProxy
LivySession
+ start()
黄色为自研模块
class_method_call_stack_check_decorator(对目标函数加调用者锁)
spark
SparkSessionProxy
- proxy: SparkSession- user_id: str+ sql(sql): DataFrameProxy- 鉴权(sql)- 上报(sql)
PostImportFinder
+ find_module(fullname)+ load_module(fullname)- _post_import_hooks: list[func]
sparkmagic 鉴权架构
执行
remote spark client
0 条评论
回复 删除
下一页
职业:暂无
作者其他创作:
mermaid 速学
563 2023-04-06
LangChain 技术概述
1962 2023-03-27
Jupyter Notebook 代码片段的执行过程
297 2022-12-19
sparkmagic 数据鉴权架构
299 2022-12-08
图解importlib(python39)
246 2022-11-09