在学习06_abundance过程中报错 #6

ylei14 · 2023-07-03T13:43:30Z

周老师您好：
在学习您PIGC文章的pipeline时，进行到下边的步骤：
total_counts=$(cat abundance/${SampleID}.counts | grep -v -w '^Geneid' | awk '{a+=$NF}END{print a}')
awk -v "counts=$total_counts" '{if(NR>1){print $1"\t"10000001000$NF/($(NF-1)*counts)}else{print $1"\t"$NF}}' abundance/${SampleID}.counts > abundance/${SampleID}.fpkm.txt
出现报错：fatal: division by zero attempted
我觉得可能是其中（NF-1）可能等于0导致的。
请问如何解决该问题。
下边是counts结果的部分截图：

期待您的答复。

zhouyunyan · 2023-07-03T14:33:14Z

total_counts这一步成功运行了吗？周云燕 ***@***.***  

…

------------------ 原始邮件 ------------------ 发件人: "zhouyunyan/PIGC" ***@***.***>; 发送时间: 2023年7月3日(星期一) 晚上9:43 ***@***.***>; ***@***.***>; 主题: [zhouyunyan/PIGC] 在学习06_abundance过程中报错 (Issue #6) 周老师您好：在学习您PIGC文章的pipeline时，进行到下边的步骤： total_counts=$(cat abundance/${SampleID}.counts | grep -v -w '^Geneid' | awk '{a+=$NF}END{print a}') awk -v "counts=$total_counts" '{if(NR>1){print $1"\t"10000001000$NF/($(NF-1)*counts)}else{print $1"\t"$NF}}' abundance/${SampleID}.counts > abundance/${SampleID}.fpkm.txt 出现报错：fatal: division by zero attempted 我觉得可能是其中（NF-1）可能等于0导致的。请问如何解决该问题。下边是counts结果的部分截图：期待您的答复。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

ylei14 · 2023-07-04T00:41:51Z

周老师，我昨晚尝试修改了一下，我得到的counts表表头是这样的

我想对于我的这张表而言，真真的数据行是从第三行开始的，于是我将awk那行命令更改为NR>2不知这样是否正确

ylei14 · 2023-07-04T00:55:00Z

total_counts是跑通了的

zhouyunyan · 2023-07-04T10:30:39Z

是的，根据你实际文件的情况进行修改，你这里是第三行开始的，我原来的表格应该没有第一行的那个注释信息。不确定对错话可以截取几行或者人为写几行数字进行测试，或者根据公式在excel算，不同方法都可以验证一下。周云燕 ***@***.***  

…

------------------ 原始邮件 ------------------ 发件人: "zhouyunyan/PIGC" ***@***.***>; 发送时间: 2023年7月4日(星期二) 上午8:42 ***@***.***>; ***@***.******@***.***>; 主题: Re: [zhouyunyan/PIGC] 在学习06_abundance过程中报错 (Issue #6) 周老师，我昨晚尝试修改了一下，我得到的counts表表头是这样的我想对于我的这张表而言，真真的数据行是从第三行开始的，于是我将awk那行命令更改为NR>2不知这样是否正确 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

ylei14 · 2023-07-04T12:45:52Z

周老师，我还有一个疑问我在做功能注释的时候发现您使用的kobas软件及kegg数据库的配置难度较大。请问您能否给我指导一下？

ylei14 · 2023-07-05T07:25:53Z

周老师好，kobas已经跑通。但是我在测试的时候发现用稍微大一点的基因集跑起来很慢很慢用了100条蛋白序列到时很快我想问问您在使用kobas的时候是否需要将非冗余蛋白集拆分然后再跑kobas呢？

zhouyunyan · 2023-07-05T09:35:58Z

可以通过设置线程数加快速度。如果还是慢，可能数据集确实很大，也会用拆分的方式，不影响结果的。周云燕 ***@***.***  

…

------------------ 原始邮件 ------------------ 发件人: "zhouyunyan/PIGC" ***@***.***>; 发送时间: 2023年7月5日(星期三) 下午3:26 ***@***.***>; ***@***.******@***.***>; 主题: Re: [zhouyunyan/PIGC] 在学习06_abundance过程中报错 (Issue #6) 周老师好，kobas已经跑通。但是我在测试的时候发现用稍微大一点的基因集跑起来很慢很慢用了100条蛋白序列到时很快我想问问您在使用kobas的时候是否需要将非冗余蛋白集拆分然后再跑kobas呢？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

ylei14 · 2023-07-05T11:57:19Z

我这边是用了一个500M的蛋白集，我认为很小了但是kobas跑了5个小时还没跑完我设置的线程数是-n 40 我觉得可能是我数据库的配置存在问题。我的seq_pep和sqlite都下载的完整的数据库，我看网上有些人仅下载各自分析需要的物种对应的数据库部分。请问我的问题是否出在这里呢？

ylei14 · 2023-07-05T11:58:26Z

我的服务器硬件应当没有问题，因为20G数据的组装一般2个小时就跑完了，线程数也用的40

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在学习06_abundance过程中报错 #6

在学习06_abundance过程中报错 #6

ylei14 commented Jul 3, 2023

zhouyunyan commented Jul 3, 2023 via email

ylei14 commented Jul 4, 2023

ylei14 commented Jul 4, 2023

zhouyunyan commented Jul 4, 2023 via email

ylei14 commented Jul 4, 2023

ylei14 commented Jul 5, 2023

zhouyunyan commented Jul 5, 2023 via email

ylei14 commented Jul 5, 2023

ylei14 commented Jul 5, 2023

在学习06_abundance过程中报错 #6

在学习06_abundance过程中报错 #6

Comments

ylei14 commented Jul 3, 2023

zhouyunyan commented Jul 3, 2023 via email

ylei14 commented Jul 4, 2023

ylei14 commented Jul 4, 2023

zhouyunyan commented Jul 4, 2023 via email

ylei14 commented Jul 4, 2023

ylei14 commented Jul 5, 2023

zhouyunyan commented Jul 5, 2023 via email

ylei14 commented Jul 5, 2023

ylei14 commented Jul 5, 2023