血缘 #4

pj001 · 2021-04-18T02:07:15Z

可以实现字段级别血缘吗？

pj001 · 2021-04-18T02:13:52Z

我看到可以根据spark/flink jar 解析任务，任务只能是使用 spark-sql 吗？还是也可以使用 dataset 或 dataframe api 解析

melin · 2021-04-21T09:21:42Z

可以实现字段级别血缘吗？

字段血缘做不到，字段血缘很复杂，需要依赖column meta信息，例如 select * from table，复杂sql还需要考虑字段裁剪。对于spark sql 有一个办法，就是在FIleSourceStrategy中添加代码，获取裁剪候的字段信息。

melin · 2021-04-21T09:25:04Z

我看到可以根据spark/flink jar 解析任务，任务只能是使用 spark-sql 吗？还是也可以使用 dataset 或 dataframe api 解析

我们已经平台化，数据限制全部表存储，链接api 读取表数据，spark sql，jar，pyspark中只能sql 方式读取数据，只需要解析sql 就可以。

pj001 · 2021-04-21T09:27:03Z

为什么不做hive的血缘呢？是用的spark sql吗？

…

------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2021年4月21日(星期三) 下午5:25 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [melin/dataworker-sql-parser] 血缘 (#4) 我看到可以根据spark/flink jar 解析任务，任务只能是使用 spark-sql 吗？还是也可以使用 dataset 或 dataframe api 解析我们已经平台化，数据限制全部表存储，链接api 读取表数据，spark sql，jar，pyspark中只能sql 方式读取数据，只需要解析sql 就可以。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

melin · 2021-04-21T15:18:40Z

为什么不做hive的血缘呢？是用的spark sql吗？
…
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2021年4月21日(星期三) 下午5:25 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [melin/dataworker-sql-parser] 血缘 (#4) 我看到可以根据spark/flink jar 解析任务，任务只能是使用 spark-sql 吗？还是也可以使用 dataset 或 dataframe api 解析我们已经平台化，数据限制全部表存储，链接api 读取表数据，spark sql，jar，pyspark中只能sql 方式读取数据，只需要解析sql 就可以。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

大数据平台一开始就只使用spark，没有使用hive，hive性能也比较差，所以没有做hive血缘，hive 有各种hook，或者用ranger，比较好做血缘。
hive只能sql，大部分数据分析人员主要是使用python（pyspark）分析数据，

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

血缘 #4

血缘 #4

pj001 commented Apr 18, 2021

pj001 commented Apr 18, 2021

melin commented Apr 21, 2021 •

edited

Loading

melin commented Apr 21, 2021

pj001 commented Apr 21, 2021 via email

melin commented Apr 21, 2021 •

edited

Loading

血缘 #4

血缘 #4

Comments

pj001 commented Apr 18, 2021

pj001 commented Apr 18, 2021

melin commented Apr 21, 2021 • edited Loading

melin commented Apr 21, 2021

pj001 commented Apr 21, 2021 via email

melin commented Apr 21, 2021 • edited Loading

melin commented Apr 21, 2021 •

edited

Loading

melin commented Apr 21, 2021 •

edited

Loading