Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

血缘 #4

Open
pj001 opened this issue Apr 18, 2021 · 5 comments
Open

血缘 #4

pj001 opened this issue Apr 18, 2021 · 5 comments

Comments

@pj001
Copy link

pj001 commented Apr 18, 2021

可以实现字段级别血缘吗?

@pj001
Copy link
Author

pj001 commented Apr 18, 2021

我看到可以根据spark/flink jar 解析任务,任务只能是 使用 spark-sql 吗?还是也可以使用 dataset 或 dataframe api 解析

@melin
Copy link
Owner

melin commented Apr 21, 2021

可以实现字段级别血缘吗?

字段血缘做不到,字段血缘很复杂,需要依赖column meta信息,例如 select * from table,复杂sql还需要考虑字段裁剪。对于spark sql 有一个办法,就是在FIleSourceStrategy中添加代码,获取裁剪候的字段信息。
image

@melin
Copy link
Owner

melin commented Apr 21, 2021

我看到可以根据spark/flink jar 解析任务,任务只能是 使用 spark-sql 吗?还是也可以使用 dataset 或 dataframe api 解析

我们已经平台化,数据限制全部表存储,链接api 读取表数据,spark sql,jar,pyspark中只能sql 方式读取数据,只需要解析sql 就可以。

@pj001
Copy link
Author

pj001 commented Apr 21, 2021 via email

@melin
Copy link
Owner

melin commented Apr 21, 2021

为什么不做hive的血缘呢?是用的spark sql吗?

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年4月21日(星期三) 下午5:25 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [melin/dataworker-sql-parser] 血缘 (#4) 我看到可以根据spark/flink jar 解析任务,任务只能是 使用 spark-sql 吗?还是也可以使用 dataset 或 dataframe api 解析 我们已经平台化,数据限制全部表存储,链接api 读取表数据,spark sql,jar,pyspark中只能sql 方式读取数据,只需要解析sql 就可以。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

大数据平台一开始就只使用spark,没有使用hive,hive性能也比较差,所以没有做hive血缘,hive 有各种hook,或者用ranger,比较好做血缘。
hive只能sql,大部分数据分析人员主要是使用python(pyspark)分析数据,

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants