From 3f6a1b52f8aedb15ec3bd6e243de3267a94e4e2e Mon Sep 17 00:00:00 2001
From: Emma Rousseau <emmarou1@icloud.com>
Date: Fri, 13 Sep 2024 09:08:23 +0200
Subject: [PATCH 1/9] Umitools prepare for rsem (#148)

---
 CHANGELOG.md                                  |   3 +-
 .../umi_tools_prepareforrsem/config.vsh.yaml  | 107 +++++++
 .../umi_tools_prepareforrsem/help.txt         |  54 ++++
 .../prepare-for-rsem.py                       | 271 ++++++++++++++++++
 .../umi_tools_prepareforrsem/script.sh        |  32 +++
 .../umi_tools_prepareforrsem/test.sh          |  55 ++++
 .../test_data/log.log                         | 103 +++++++
 .../test_data/test.bam                        | Bin 0 -> 11123 bytes
 .../test_data/test.sam                        | 119 ++++++++
 .../test_data/test_dedup.bam                  | Bin 0 -> 18822 bytes
 .../test_data/test_dedup.sam                  | 201 +++++++++++++
 11 files changed, 944 insertions(+), 1 deletion(-)
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/config.vsh.yaml
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/help.txt
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/prepare-for-rsem.py
 create mode 100755 src/umi_tools/umi_tools_prepareforrsem/script.sh
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/test.sh
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/test_data/log.log
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/test_data/test.bam
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/test_data/test.sam
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/test_data/test_dedup.bam
 create mode 100644 src/umi_tools/umi_tools_prepareforrsem/test_data/test_dedup.sam

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 034e2422..d88d0996 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -137,7 +137,8 @@
     - `samtools/samtools_fastq`: Converts a SAM/BAM/CRAM file to FASTA (PR #53).
 
 * `umi_tools`:
-    -`umi_tools/umi_tools_extract`: Flexible removal of UMI sequences from fastq reads (PR #71).
+    - `umi_tools/umi_tools_extract`: Flexible removal of UMI sequences from fastq reads (PR #71).
+    - `umi_tools/umi_tools_prepareforrsem`: Fix paired-end reads in name sorted BAM file to prepare for RSEM (PR #148).
 
 * `falco`: A C++ drop-in replacement of FastQC to assess the quality of sequence read data (PR #43).
 
diff --git a/src/umi_tools/umi_tools_prepareforrsem/config.vsh.yaml b/src/umi_tools/umi_tools_prepareforrsem/config.vsh.yaml
new file mode 100644
index 00000000..ceac2052
--- /dev/null
+++ b/src/umi_tools/umi_tools_prepareforrsem/config.vsh.yaml
@@ -0,0 +1,107 @@
+name: "umi_tools_prepareforrsem"
+namespace: "umi_tools"
+description: Make the output from umi-tools dedup or group compatible with RSEM
+keywords: [umi_tools, rsem, bam, sam]
+links:
+  homepage: https://umi-tools.readthedocs.io/en/latest/
+  documentation: https://umi-tools.readthedocs.io/en/latest/reference/extract.html
+  repository: https://github.com/CGATOxford/UMI-tools
+references: 
+  doi: 10.1101/gr.209601.116
+license: MIT
+
+argument_groups:
+- name: "Input"
+  arguments:  
+  - name: "--input"
+    alternatives: ["-I", "--stdin"]
+    type: file
+    required: true
+    example: $id.transcriptome.bam
+
+- name: "Output"
+  arguments:    
+  - name: "--output"
+    alternatives: ["-S", "--stdout"]
+    type: file
+    direction: output
+    example: $id.transcriptome_sorted.bam
+  - name: "--log"
+    alternatives: ["-L"]
+    type: file
+    direction: output
+    description: File with logging information [default = stdout].
+  - name: "--error"
+    alternatives: ["-E"]
+    type: file
+    direction: output
+    description: File with error information [default = stderr].
+  - name: "--log2stderr"
+    type: boolean_true
+    description: Send logging information to stderr [default = False].
+  - name: "--temp_dir"
+    type: string
+    description: |
+      Directory for temporary files. If not set, the bash environmental variable 
+      TMPDIR is used.
+  - name: "--compresslevel"
+    type: integer
+    description: |
+      Level of Gzip compression to use. Default (6) matchesGNU gzip rather than python 
+      gzip default (which is 9).
+
+- name: "Options"
+  arguments:
+  - name: "--tags"
+    type: string
+    description: |
+      Comma-seperated list of tags to transfer from read1 to read2 (Default: 'UG,BX')
+    example: "UG,BX"
+  - name: "--sam"
+    type: boolean_true
+    description: Input and output SAM rather than BAM.
+  - name: "--timeit"
+    type: string
+    description: |
+      Store timeing information in file [none].
+  - name: "--timeit_name"
+    type: string
+    description: |
+      Name in timing file for this class of jobs [all].
+  - name: "--timeit_header"
+    type: boolean_true
+    description: Add header for timing information [none].
+  - name: "--verbose"
+    alternatives: ["-v"]
+    type: integer
+    description: |
+      Loglevel [1]. The higher, the more output.
+  - name: "--random_seed"
+    type: integer
+    description: |
+      Random seed to initialize number generator with [none].
+  
+
+resources:
+  - type: bash_script
+    path: script.sh
+  # copied from https://github.com/nf-core/rnaseq/blob/3.12.0/bin/prepare-for-rsem.py
+  - path: prepare-for-rsem.py
+test_resources:
+  - type: bash_script
+    path: test.sh  
+  - type: file
+    path: test_data
+  
+engines:
+  - type: docker
+    image: quay.io/biocontainers/umi_tools:1.1.5--py38h0020b31_3
+    setup:
+      - type: docker
+        run: |
+          umi_tools -v | sed 's/ version//g' > /var/software_versions.txt
+
+
+runners: 
+- type: executable
+- type: nextflow
\ No newline at end of file
diff --git a/src/umi_tools/umi_tools_prepareforrsem/help.txt b/src/umi_tools/umi_tools_prepareforrsem/help.txt
new file mode 100644
index 00000000..efaf4de6
--- /dev/null
+++ b/src/umi_tools/umi_tools_prepareforrsem/help.txt
@@ -0,0 +1,54 @@
+```
+umi_tools prepare-for-rsem --help
+```
+
+prepare_for_rsem - make output from dedup or group compatible with RSEM
+
+Usage: umi_tools prepare_for_rsem [OPTIONS] [--stdin=IN_BAM] [--stdout=OUT_BAM]
+
+       note: If --stdout is ommited, standard out is output. To
+             generate a valid BAM file on standard out, please
+             redirect log with --log=LOGFILE or --log2stderr 
+
+For full UMI-tools documentation, see https://umi-tools.readthedocs.io/en/latest/
+
+Options:
+  --version             show program's version number and exit
+
+  RSEM preparation specific options:
+    --tags=TAGS         Comma-seperated list of tags to transfer from read1 to
+                        read2
+    --sam               input and output SAM rather than BAM
+
+  input/output options:
+    -I FILE, --stdin=FILE
+                        file to read stdin from [default = stdin].
+    -L FILE, --log=FILE
+                        file with logging information [default = stdout].
+    -E FILE, --error=FILE
+                        file with error information [default = stderr].
+    -S FILE, --stdout=FILE
+                        file where output is to go [default = stdout].
+    --temp-dir=FILE     Directory for temporary files. If not set, the bash
+                        environmental variable TMPDIR is used[default = None].
+    --log2stderr        send logging information to stderr [default = False].
+    --compresslevel=COMPRESSLEVEL
+                        Level of Gzip compression to use. Default (6)
+                        matchesGNU gzip rather than python gzip default (which
+                        is 9)
+
+  profiling options:
+    --timeit=TIMEIT_FILE
+                        store timeing information in file [none].
+    --timeit-name=TIMEIT_NAME
+                        name in timing file for this class of jobs [all].
+    --timeit-header     add header for timing information [none].
+
+  common options:
+    -v LOGLEVEL, --verbose=LOGLEVEL
+                        loglevel [1]. The higher, the more output.
+    -h, --help          output short help (command line options only).
+    --help-extended     Output full documentation
+    --random-seed=RANDOM_SEED
+                        random seed to initialize number generator with
+                        [none].
\ No newline at end of file
diff --git a/src/umi_tools/umi_tools_prepareforrsem/prepare-for-rsem.py b/src/umi_tools/umi_tools_prepareforrsem/prepare-for-rsem.py
new file mode 100644
index 00000000..b53d30ac
--- /dev/null
+++ b/src/umi_tools/umi_tools_prepareforrsem/prepare-for-rsem.py
@@ -0,0 +1,271 @@
+#!/usr/bin/env python3
+
+"""
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+Credits
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+This script is a clone of the "prepare-for-rsem.py" script written by
+Ian Sudbury, Tom Smith and other contributors to the UMI-tools package:
+https://github.com/CGATOxford/UMI-tools
+
+It has been included here to address problems encountered with
+Salmon quant and RSEM as discussed in the issue below:
+https://github.com/CGATOxford/UMI-tools/issues/465
+
+When the "umi_tools prepare-for-rsem" command becomes available in an official
+UMI-tools release this script will be replaced and deprecated.
+
+Commit:
+https://github.com/CGATOxford/UMI-tools/blob/bf8608d6a172c5ca0dcf33c126b4e23429177a72/umi_tools/prepare-for-rsem.py
+
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+prepare_for_rsem - make the output from dedup or group compatible with RSEM
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+The SAM format specification states that the mnext and mpos fields should point
+to the primary alignment of a read's mate. However, not all aligners adhere to
+this standard. In addition, the RSEM software requires that the mate of a read1
+appears directly after it in its input BAM. This requires that there is exactly
+one read1 alignment for every read2 and vice versa.
+
+In general (except in a few edge cases) UMI tools outputs only the read2 to that
+corresponds to the read specified in the mnext and mpos positions of a selected
+read1, and only outputs this read once, even if multiple read1s point to it.
+This makes UMI-tools outputs incompatible with RSEM. This script takes the output
+from dedup or groups and ensures that each read1 has exactly one read2 (and vice
+versa), that read2 always appears directly after read1,and that pairs point to
+each other (note this is technically not valid SAM format). Copy any specified
+tags from read1 to read2 if they are present (by default, UG and BX, the unique
+group and correct UMI tags added by _group_)
+
+Input must to name sorted.
+
+
+https://raw.githubusercontent.com/CGATOxford/UMI-tools/master/LICENSE
+
+"""
+
+from umi_tools import Utilities as U
+from collections import defaultdict, Counter
+import pysam
+import sys
+
+
+usage = """
+prepare_for_rsem - make output from dedup or group compatible with RSEM
+
+Usage: umi_tools prepare_for_rsem [OPTIONS] [--stdin=IN_BAM] [--stdout=OUT_BAM]
+
+       note: If --stdout is omited, standard out is output. To
+             generate a valid BAM file on standard out, please
+             redirect log with --log=LOGFILE or --log2stderr """
+
+
+def chunk_bam(bamfile):
+    """Take in a iterator of pysam.AlignmentSegment entries and yield
+    lists of reads that all share the same name"""
+
+    last_query_name = None
+    output_buffer = list()
+
+    for read in bamfile:
+        if last_query_name is not None and last_query_name != read.query_name:
+            yield (output_buffer)
+            output_buffer = list()
+
+        last_query_name = read.query_name
+        output_buffer.append(read)
+
+    yield (output_buffer)
+
+
+def copy_tags(tags, read1, read2):
+    """Given a  list of tags, copies the values of these tags from read1
+    to read2, if the tag is set"""
+
+    for tag in tags:
+        try:
+            read1_tag = read1.get_tag(tag, with_value_type=True)
+            read2.set_tag(tag, value=read1_tag[0], value_type=read1_tag[1])
+        except KeyError:
+            pass
+
+    return read2
+
+
+def pick_mate(read, template_dict, mate_key):
+    """Find the mate of read in the template dict using key. It will retrieve
+    all reads at that key, and then scan to pick the one that refers to _read_
+    as it's mate. If there is no such read, it picks a first one it comes to"""
+
+    mate = None
+
+    # get a list of secondary reads at the correct alignment position
+    potential_mates = template_dict[not read.is_read1][mate_key]
+
+    # search through one at a time to find a read that points to the current read
+    # as its mate.
+    for candidate_mate in potential_mates:
+        if (
+            candidate_mate.next_reference_name == read.reference_name
+            and candidate_mate.next_reference_start == read.pos
+        ):
+            mate = candidate_mate
+
+    # if no such read is found, then pick any old secondary alignment at that position
+    # note: this happens when UMI-tools outputs the wrong read as something's pair.
+    if mate is None and len(potential_mates) > 0:
+        mate = potential_mates[0]
+
+    return mate
+
+
+def main(argv=None):
+    if argv is None:
+        argv = sys.argv
+
+    # setup command line parser
+    parser = U.OptionParser(version="%prog version: $Id$", usage=usage, description=globals()["__doc__"])
+    group = U.OptionGroup(parser, "RSEM preparation specific options")
+
+    group.add_option(
+        "--tags",
+        dest="tags",
+        type="string",
+        default="UG,BX",
+        help="Comma-separated list of tags to transfer from read1 to read2",
+    )
+    group.add_option(
+        "--sam", dest="sam", action="store_true", default=False, help="input and output SAM rather than BAM"
+    )
+
+    parser.add_option_group(group)
+
+    # add common options (-h/--help, ...) and parse command line
+    (options, args) = U.Start(
+        parser, argv=argv, add_group_dedup_options=False, add_umi_grouping_options=False, add_sam_options=False
+    )
+
+    skipped_stats = Counter()
+
+    if options.stdin != sys.stdin:
+        in_name = options.stdin.name
+        options.stdin.close()
+    else:
+        in_name = "-"
+
+    if options.sam:
+        mode = ""
+    else:
+        mode = "b"
+
+    inbam = pysam.AlignmentFile(in_name, "r" + mode)
+
+    if options.stdout != sys.stdout:
+        out_name = options.stdout.name
+        options.stdout.close()
+    else:
+        out_name = "-"
+
+    outbam = pysam.AlignmentFile(out_name, "w" + mode, template=inbam)
+
+    options.tags = options.tags.split(",")
+
+    for template in chunk_bam(inbam):
+        assert len(set(r.query_name for r in template)) == 1
+        current_template = {True: defaultdict(list), False: defaultdict(list)}
+
+        for read in template:
+            key = (read.reference_name, read.pos, not read.is_secondary)
+            current_template[read.is_read1][key].append(read)
+
+        output = set()
+
+        for read in template:
+            mate = None
+
+            # if this read is a non_primary alignment, we first want to check if it has a mate
+            # with the non-primary alignment flag set.
+
+            mate_key_primary = True
+            mate_key_secondary = (read.next_reference_name, read.next_reference_start, False)
+
+            # First look for a read that has the same primary/secondary status
+            # as read (i.e. secondary mate for secondary read, and primary mate
+            # for primary read)
+            mate_key = (read.next_reference_name, read.next_reference_start, read.is_secondary)
+            mate = pick_mate(read, current_template, mate_key)
+
+            # If none was found then look for the opposite (primary mate of secondary
+            # read or seconadary mate of primary read)
+            if mate is None:
+                mate_key = (read.next_reference_name, read.next_reference_start, not read.is_secondary)
+                mate = pick_mate(read, current_template, mate_key)
+
+            # If we still don't have a mate, then their can't be one?
+            if mate is None:
+                skipped_stats["no_mate"] += 1
+                U.warn(
+                    "Alignment {} has no mate -- skipped".format(
+                        "\t".join(map(str, [read.query_name, read.flag, read.reference_name, int(read.pos)]))
+                    )
+                )
+                continue
+
+            # because we might want to make changes to the read, but not have those changes reflected
+            # if we need the read again,we copy the read. This is only way I can find to do this.
+            read = pysam.AlignedSegment().from_dict(read.to_dict(), read.header)
+            mate = pysam.AlignedSegment().from_dict(mate.to_dict(), read.header)
+
+            # Make it so that if our read is secondary, the mate is also secondary. We don't make the
+            # mate primary if the read is primary because we would otherwise end up with mulitple
+            # primary alignments.
+            if read.is_secondary:
+                mate.is_secondary = True
+
+            # In a situation where there is already one mate for each read, then we will come across
+            # each pair twice - once when we scan read1 and once when we scan read2. Thus we need
+            # to make sure we don't output something already output.
+            if read.is_read1:
+                mate = copy_tags(options.tags, read, mate)
+                output_key = str(read) + str(mate)
+
+                if output_key not in output:
+                    output.add(output_key)
+                    outbam.write(read)
+                    outbam.write(mate)
+                    skipped_stats["pairs_output"] += 1
+
+            elif read.is_read2:
+                read = copy_tags(options.tags, mate, read)
+                output_key = str(mate) + str(read)
+
+                if output_key not in output:
+                    output.add(output_key)
+                    outbam.write(mate)
+                    outbam.write(read)
+                    skipped_stats["pairs_output"] += 1
+
+            else:
+                skipped_stats["skipped_not_read_12"] += 1
+                U.warn(
+                    "Alignment {} is neither read1 nor read2 -- skipped".format(
+                        "\t".join(map(str, [read.query_name, read.flag, read.reference_name, int(read.pos)]))
+                    )
+                )
+                continue
+
+    if not out_name == "-":
+        outbam.close()
+
+    U.info(
+        "Total pairs output: {}, Pairs skipped - no mates: {},"
+        " Pairs skipped - not read1 or 2: {}".format(
+            skipped_stats["pairs_output"], skipped_stats["no_mate"], skipped_stats["skipped_not_read12"]
+        )
+    )
+    U.Stop()
+
+
+if __name__ == "__main__":
+    sys.exit(main(sys.argv))
diff --git a/src/umi_tools/umi_tools_prepareforrsem/script.sh b/src/umi_tools/umi_tools_prepareforrsem/script.sh
new file mode 100755
index 00000000..d6b3775f
--- /dev/null
+++ b/src/umi_tools/umi_tools_prepareforrsem/script.sh
@@ -0,0 +1,32 @@
+#!/bin/bash
+
+set -eo pipefail
+
+unset_if_false=(
+    par_sam
+    par_error
+    par_log2stderr
+    par_timeit_header )
+
+for var in "${unset_if_false[@]}"; do
+    test_val="${!var}"
+    [[ "$test_val" == "false" ]] && unset $var
+done
+
+umi_tools prepare-for-rsem \
+    ${par_log:+--log "${par_log}"} \
+    ${par_tags:+--tags "${par_tags}"} \
+    ${par_sam:+--sam} \
+    --stdin="${par_input}" \
+    ${par_output:+--stdout "${par_output}"} \
+    ${par_error:+--error "${par_error}"} \
+    ${par_temp_dir:+--temp-dir "${par_temp_dir}"} \
+    ${par_log2stderr:+--log2stderr} \
+    ${par_verbose:+--verbose "${par_verbose}"} \
+    ${par_random_seed:+--random-seed "${par_random_seed}"} \
+    ${par_compresslevel:+--compresslevel "${par_compresslevel}"}
+    ${par_timeit:+--timeit "${par_timeit}"} \
+    ${par_timeit_name:+--timeit-name "${par_timeit_name}"} \
+    ${par_timeit_header:+--timeit-header}
+
+
diff --git a/src/umi_tools/umi_tools_prepareforrsem/test.sh b/src/umi_tools/umi_tools_prepareforrsem/test.sh
new file mode 100644
index 00000000..c94a202d
--- /dev/null
+++ b/src/umi_tools/umi_tools_prepareforrsem/test.sh
@@ -0,0 +1,55 @@
+#!/bin/bash
+
+test_dir="$meta_resources_dir/test_data"
+apt-get -q update && apt-get -q install -y samtools
+
+################################################################################
+echo ">>> Test 1: with --sam:"
+
+"${meta_executable}" \
+    --input "$test_dir/test_dedup.sam" \
+    --output "$test_dir/test_output.sam" \
+    --sam
+
+echo ">>> Check if output is present"
+[[ ! -f "$test_dir/test_output.sam" ]] && echo "Output file not found" && exit 1
+[[ ! -s "$test_dir/test_output.sam" ]] && echo "Output file is empty" && exit 1
+
+echo ">>> Check if output is correct"
+# use diff but ignoring the header lines (which start with @) as they may differ slightly
+diff <(grep -v "^@" "$test_dir/test_output.sam") <(grep -v "^@" "$test_dir/test.sam") && echo "Output is correct" || (echo "Output is incorrect" && exit 1)
+
+################################################################################
+echo ">>> Test 2: without --sam:"
+
+"${meta_executable}" \
+    --input "$test_dir/test_dedup.bam" \
+    --output "$test_dir/test_output.bam"
+
+echo ">>> Check if output is present"
+[[ ! -f "$test_dir/test_output.bam" ]] && echo "Output file not found" && exit 1
+[[ ! -s "$test_dir/test_output.bam" ]] && echo "Output file is empty" && exit 1
+
+echo ">>> Check if output is correct"
+diff <(samtools view "$test_dir/test_output.bam") <(samtools view "$test_dir/test.bam") || (echo "Output is incorrect" && exit 1)
+
+################################################################################
+echo ">>> Test 3: with --log:"
+
+"${meta_executable}" \
+    --log "$test_dir/test_log.log" \
+    --input "$test_dir/test_dedup.sam" \
+    --output "$test_dir/test_output.sam" \
+    --sam
+
+echo ">>> Check if output is present"
+[[ ! -f "$test_dir/test_output.sam" ]] && echo "Output file not found" && exit 1
+[[ ! -s "$test_dir/test_output.sam" ]] && echo "Output file is empty" && exit 1
+[[ ! -f "$test_dir/test_log.log" ]] && echo "Log file not found" && exit 1
+[[ ! -s "$test_dir/test_log.log" ]] && echo "Log file is empty" && exit 1
+
+echo ">>> Check if log file is correct"
+diff <(grep -v '^#' "$test_dir/test_log.log" | sed 's/^[0-9-]* [0-9:]*,[0-9]\{3\} //') <(grep -v '^#' "$test_dir/log.log" | sed 's/^[0-9-]* [0-9:]*,[0-9]\{3\} //') || (echo "Log file is incorrect" && exit 1)
+
+echo ">>> All test succeeded"
+exit 0
\ No newline at end of file
diff --git a/src/umi_tools/umi_tools_prepareforrsem/test_data/log.log b/src/umi_tools/umi_tools_prepareforrsem/test_data/log.log
new file mode 100644
index 00000000..e4b56e57
--- /dev/null
+++ b/src/umi_tools/umi_tools_prepareforrsem/test_data/log.log
@@ -0,0 +1,103 @@
+# UMI-tools version: 1.1.5
+# output generated by prepare-for-rsem.py --log test_data/log.log --sam --stdin test_data/test_dedup.sam --stdout jnfgioeurg.sam
+# job started at Tue Sep 10 06:43:30 2024 on 4855b4607095 -- 07ae7548-56e8-4772-9b48-7406710fd838
+# pid: 28, system: Linux 6.10.0-linuxkit #1 SMP PREEMPT_DYNAMIC Wed Jul 17 10:54:05 UTC 2024 x86_64
+# compresslevel                           : 6
+# log2stderr                              : False
+# loglevel                                : 1
+# random_seed                             : None
+# sam                                     : True
+# short_help                              : None
+# stderr                                  : <_io.TextIOWrapper name='<stderr>' mode='w' encoding='utf-8'>
+# stdin                                   : <_io.TextIOWrapper name='test_data/test_dedup.sam' mode='r' encoding='UTF-8'>
+# stdlog                                  : <_io.TextIOWrapper name='test_data/log.log' mode='a' encoding='UTF-8'>
+# stdout                                  : <_io.TextIOWrapper name='jnfgioeurg.sam' mode='w' encoding='UTF-8'>
+# tags                                    : UG,BX
+# timeit_file                             : None
+# timeit_header                           : None
+# timeit_name                             : all
+# tmpdir                                  : None
+2024-09-10 06:43:30,918 WARNING Alignment ERR5069949.114870	99	MT192765.1	642 has no mate -- skipped
+2024-09-10 06:43:30,918 WARNING Alignment ERR5069949.147998	163	MT192765.1	673 has no mate -- skipped
+2024-09-10 06:43:30,919 WARNING Alignment ERR5069949.114870	147	MT192765.1	747 has no mate -- skipped
+2024-09-10 06:43:30,920 WARNING Alignment ERR5069949.147998	83	MT192765.1	918 has no mate -- skipped
+2024-09-10 06:43:30,921 WARNING Alignment ERR5069949.184542	99	MT192765.1	1054 has no mate -- skipped
+2024-09-10 06:43:30,921 WARNING Alignment ERR5069949.184542	147	MT192765.1	1254 has no mate -- skipped
+2024-09-10 06:43:30,922 WARNING Alignment ERR5069949.376959	99	MT192765.1	4104 has no mate -- skipped
+2024-09-10 06:43:30,924 WARNING Alignment ERR5069949.376959	147	MT192765.1	4189 has no mate -- skipped
+2024-09-10 06:43:30,925 WARNING Alignment ERR5069949.532979	99	MT192765.1	5567 has no mate -- skipped
+2024-09-10 06:43:30,926 WARNING Alignment ERR5069949.540529	163	MT192765.1	5569 has no mate -- skipped
+2024-09-10 06:43:30,926 WARNING Alignment ERR5069949.532979	147	MT192765.1	5620 has no mate -- skipped
+2024-09-10 06:43:30,927 WARNING Alignment ERR5069949.540529	83	MT192765.1	5658 has no mate -- skipped
+2024-09-10 06:43:30,930 WARNING Alignment ERR5069949.856527	99	MT192765.1	10117 has no mate -- skipped
+2024-09-10 06:43:30,931 WARNING Alignment ERR5069949.870926	99	MT192765.1	10117 has no mate -- skipped
+2024-09-10 06:43:30,931 WARNING Alignment ERR5069949.856527	147	MT192765.1	10198 has no mate -- skipped
+2024-09-10 06:43:30,931 WARNING Alignment ERR5069949.885966	99	MT192765.1	10229 has no mate -- skipped
+2024-09-10 06:43:30,932 WARNING Alignment ERR5069949.870926	147	MT192765.1	10244 has no mate -- skipped
+2024-09-10 06:43:30,932 WARNING Alignment ERR5069949.885966	147	MT192765.1	10276 has no mate -- skipped
+2024-09-10 06:43:30,932 WARNING Alignment ERR5069949.937422	99	MT192765.1	10421 has no mate -- skipped
+2024-09-10 06:43:30,933 WARNING Alignment ERR5069949.937422	147	MT192765.1	10590 has no mate -- skipped
+2024-09-10 06:43:30,934 WARNING Alignment ERR5069949.1066259	99	MT192765.1	11336 has no mate -- skipped
+2024-09-10 06:43:30,935 WARNING Alignment ERR5069949.1062611	163	MT192765.1	11426 has no mate -- skipped
+2024-09-10 06:43:30,936 WARNING Alignment ERR5069949.1067032	163	MT192765.1	11433 has no mate -- skipped
+2024-09-10 06:43:30,936 WARNING Alignment ERR5069949.1062611	83	MT192765.1	11453 has no mate -- skipped
+2024-09-10 06:43:30,936 WARNING Alignment ERR5069949.1066259	147	MT192765.1	11479 has no mate -- skipped
+2024-09-10 06:43:30,937 WARNING Alignment ERR5069949.1067032	83	MT192765.1	11480 has no mate -- skipped
+2024-09-10 06:43:30,938 WARNING Alignment ERR5069949.1258508	163	MT192765.1	12424 has no mate -- skipped
+2024-09-10 06:43:30,939 WARNING Alignment ERR5069949.1261808	99	MT192765.1	12592 has no mate -- skipped
+2024-09-10 06:43:30,940 WARNING Alignment ERR5069949.1258508	83	MT192765.1	12637 has no mate -- skipped
+2024-09-10 06:43:30,940 WARNING Alignment ERR5069949.1261808	147	MT192765.1	12653 has no mate -- skipped
+2024-09-10 06:43:30,941 WARNING Alignment ERR5069949.1372331	163	MT192765.1	13010 has no mate -- skipped
+2024-09-10 06:43:30,941 WARNING Alignment ERR5069949.1372331	83	MT192765.1	13131 has no mate -- skipped
+2024-09-10 06:43:30,942 WARNING Alignment ERR5069949.1552198	99	MT192765.1	13943 has no mate -- skipped
+2024-09-10 06:43:30,943 WARNING Alignment ERR5069949.1561137	163	MT192765.1	13990 has no mate -- skipped
+2024-09-10 06:43:30,943 WARNING Alignment ERR5069949.1552198	147	MT192765.1	14026 has no mate -- skipped
+2024-09-10 06:43:30,944 WARNING Alignment ERR5069949.1561137	83	MT192765.1	14080 has no mate -- skipped
+2024-09-10 06:43:30,947 WARNING Alignment ERR5069949.2098070	99	MT192765.1	17114 has no mate -- skipped
+2024-09-10 06:43:30,947 WARNING Alignment ERR5069949.2064910	99	MT192765.1	17122 has no mate -- skipped
+2024-09-10 06:43:30,947 WARNING Alignment ERR5069949.2125592	99	MT192765.1	17179 has no mate -- skipped
+2024-09-10 06:43:30,947 WARNING Alignment ERR5069949.2064910	147	MT192765.1	17179 has no mate -- skipped
+2024-09-10 06:43:30,948 WARNING Alignment ERR5069949.2098070	147	MT192765.1	17269 has no mate -- skipped
+2024-09-10 06:43:30,948 WARNING Alignment ERR5069949.2125592	147	MT192765.1	17288 has no mate -- skipped
+2024-09-10 06:43:30,948 WARNING Alignment ERR5069949.2185111	163	MT192765.1	17405 has no mate -- skipped
+2024-09-10 06:43:30,949 WARNING Alignment ERR5069949.2151832	163	MT192765.1	17415 has no mate -- skipped
+2024-09-10 06:43:30,949 WARNING Alignment ERR5069949.2176303	99	MT192765.1	17441 has no mate -- skipped
+2024-09-10 06:43:30,949 WARNING Alignment ERR5069949.2151832	83	MT192765.1	17452 has no mate -- skipped
+2024-09-10 06:43:30,949 WARNING Alignment ERR5069949.2205229	99	MT192765.1	17475 has no mate -- skipped
+2024-09-10 06:43:30,950 WARNING Alignment ERR5069949.2216307	163	MT192765.1	17503 has no mate -- skipped
+2024-09-10 06:43:30,950 WARNING Alignment ERR5069949.2176303	147	MT192765.1	17518 has no mate -- skipped
+2024-09-10 06:43:30,950 WARNING Alignment ERR5069949.2185111	83	MT192765.1	17536 has no mate -- skipped
+2024-09-10 06:43:30,951 WARNING Alignment ERR5069949.2205229	147	MT192765.1	17584 has no mate -- skipped
+2024-09-10 06:43:30,951 WARNING Alignment ERR5069949.2216307	83	MT192765.1	17600 has no mate -- skipped
+2024-09-10 06:43:30,952 WARNING Alignment ERR5069949.2270078	163	MT192765.1	17969 has no mate -- skipped
+2024-09-10 06:43:30,953 WARNING Alignment ERR5069949.2270078	83	MT192765.1	18102 has no mate -- skipped
+2024-09-10 06:43:30,953 WARNING Alignment ERR5069949.2328704	163	MT192765.1	18285 has no mate -- skipped
+2024-09-10 06:43:30,954 WARNING Alignment ERR5069949.2342766	99	MT192765.1	18396 has no mate -- skipped
+2024-09-10 06:43:30,954 WARNING Alignment ERR5069949.2328704	83	MT192765.1	18411 has no mate -- skipped
+2024-09-10 06:43:30,954 WARNING Alignment ERR5069949.2361683	99	MT192765.1	18425 has no mate -- skipped
+2024-09-10 06:43:30,954 WARNING Alignment ERR5069949.2342766	147	MT192765.1	18468 has no mate -- skipped
+2024-09-10 06:43:30,955 WARNING Alignment ERR5069949.2361683	147	MT192765.1	18512 has no mate -- skipped
+2024-09-10 06:43:30,955 WARNING Alignment ERR5069949.2415814	99	MT192765.1	18597 has no mate -- skipped
+2024-09-10 06:43:30,955 WARNING Alignment ERR5069949.2385514	99	MT192765.1	18602 has no mate -- skipped
+2024-09-10 06:43:30,956 WARNING Alignment ERR5069949.2417063	99	MT192765.1	18648 has no mate -- skipped
+2024-09-10 06:43:30,956 WARNING Alignment ERR5069949.2388984	99	MT192765.1	18653 has no mate -- skipped
+2024-09-10 06:43:30,956 WARNING Alignment ERR5069949.2385514	147	MT192765.1	18684 has no mate -- skipped
+2024-09-10 06:43:30,956 WARNING Alignment ERR5069949.2388984	147	MT192765.1	18693 has no mate -- skipped
+2024-09-10 06:43:30,957 WARNING Alignment ERR5069949.2431709	99	MT192765.1	18748 has no mate -- skipped
+2024-09-10 06:43:30,957 WARNING Alignment ERR5069949.2415814	147	MT192765.1	18764 has no mate -- skipped
+2024-09-10 06:43:30,957 WARNING Alignment ERR5069949.2417063	147	MT192765.1	18765 has no mate -- skipped
+2024-09-10 06:43:30,958 WARNING Alignment ERR5069949.2431709	147	MT192765.1	18776 has no mate -- skipped
+2024-09-10 06:43:30,959 WARNING Alignment ERR5069949.2668880	99	MT192765.1	23124 has no mate -- skipped
+2024-09-10 06:43:30,960 WARNING Alignment ERR5069949.2674295	163	MT192765.1	23133 has no mate -- skipped
+2024-09-10 06:43:30,960 WARNING Alignment ERR5069949.2668880	147	MT192765.1	23145 has no mate -- skipped
+2024-09-10 06:43:30,960 WARNING Alignment ERR5069949.2674295	83	MT192765.1	23203 has no mate -- skipped
+2024-09-10 06:43:30,963 WARNING Alignment ERR5069949.2953930	99	MT192765.1	25344 has no mate -- skipped
+2024-09-10 06:43:30,963 WARNING Alignment ERR5069949.2972968	163	MT192765.1	25425 has no mate -- skipped
+2024-09-10 06:43:30,963 WARNING Alignment ERR5069949.2953930	147	MT192765.1	25464 has no mate -- skipped
+2024-09-10 06:43:30,964 WARNING Alignment ERR5069949.2972968	83	MT192765.1	25518 has no mate -- skipped
+2024-09-10 06:43:30,966 WARNING Alignment ERR5069949.3273002	163	MT192765.1	28442 has no mate -- skipped
+2024-09-10 06:43:30,966 WARNING Alignment ERR5069949.3277445	99	MT192765.1	28508 has no mate -- skipped
+2024-09-10 06:43:30,966 WARNING Alignment ERR5069949.3273002	83	MT192765.1	28543 has no mate -- skipped
+2024-09-10 06:43:30,966 WARNING Alignment ERR5069949.3277445	147	MT192765.1	28573 has no mate -- skipped
+2024-09-10 06:43:30,968 INFO Total pairs output: 56, Pairs skipped - no mates: 82, Pairs skipped - not read1 or 2: 0
+# job finished in 0 seconds at Tue Sep 10 06:43:30 2024 --  4.44  0.25  0.00  0.00 -- 07ae7548-56e8-4772-9b48-7406710fd838
diff --git a/src/umi_tools/umi_tools_prepareforrsem/test_data/test.bam b/src/umi_tools/umi_tools_prepareforrsem/test_data/test.bam
new file mode 100644
index 0000000000000000000000000000000000000000..7793c7e3635e9c6a428647be7d067194f1d9d522
GIT binary patch
literal 11123
zcmV-(D~!}1iwFb&00000{{{d;LjnM70fmy^PQox4#fx{vm)Hx?@l^({R~wKZ$u_4G
zZkO&4xP+~^Ry5xGYCe}?$QGBOcc=Zn{!Y$Gr?%Vsx<bgho8z^|fQ)f)&tf6UBrCW|
z`&RIP1CO~+VA9FhAb=f@QS+9Xed}?7mvaW#nX+9L0rnlXbexsD^lTisOr=s`f5jqR
z#v)0fZ~4`OJS(!C?<w}ZMz1|a2}}m1IRZR$>VY=k@0u*NBTVWES6tt4skknADPwV<
z`eJ5>LjYrB7$bu~Xb0}k=>Xw2EkvHhWK-}q;zdu21``6QF3I-epG8_Po&!mqD<O9B
z7^u<yuW&%1%5|P=hb(>520^6NV7@De<awJ)pv|py7gvf>X#>$<_dF}p<U|*xN)r<C
zymK6NnA1z<1WxvJ*b(cw>M*P-JgGE!-FF(?Tr{A67(_wKp=z#&5V}SPHNO>oDuliP
znC$J!<pKZzABzYC000000RIL6LPG)o=_$2+d#o*2dEY*M#WpaxYdqU57)oX)gS&7M
zoc99^y)$<l1_}waQR1{vFf@tk1d1?(7LnpLT`H?FO46D@#UJ!mp_SWGnyL+jDrrG=
z^FUDn1<?wEf)EN-Xe$!sfq>Zged{rgwP){h&b`-j?>%RqHM93U>o?!?_kC;4Hx~A|
zb!)L;cfBm$THL$%Q8)JY@NfCV6HnZI&pij*hbJfdC(qwKIXpaG{KAckMWNe5G&*J?
zVR4?9T^@IdR)x|!PTH=nN+n8Js#>e+Vj1CBMrBl*ziCQ8mZcev(k#nT{8?r=8D-@%
zi^>cq{XcxgXjZ1~=g7V}!)W&4&ZU3%;O?cxJum$mJBuHD<)!PZdoR83Z~xejUw_N3
zFMjJ!U0S^HO_y$Z^P4X%-u9O2Rd0Im()-%2VQO}|zqEM&2!e0m`^t1*f6HPaC6}BD
zreoE$Do(1rOk~`(f{RY&ji`0p=uQ`HtMa<!d6(pQCmRivnzpTqiZwFfO_CHE(=|xA
zBkNy9DUIVyN?$U}*&-Iv3y(wT-b$yk$o@pvN4PA-=`=N;L|11R1Ex#!onF!ZmC{$d
z#t^+7BY07+BDq!FdvCD?C_nP>mtN$ceA)md&b`cG`S|sVMeIb!WBECZy?81*I|m0R
z`}+n=#kgd;$yvp;ieu3+)l|GK7}rYbF4l~9x#W2gOP$Ag(&&mMj3q+xMrhu&3DYGP
z0KX`+6fmS2&5{6HM$088l$8!CI$;i)Iej(28gPs#Ib;nwB}C8u5V^Y&c`2mNUM`1Q
zm1dJWw;b-J`Og66e?AS&TW7)iTo2|Tm;~^Dp9<y(%r=f2R%!u=62U93@+vPh5Ce*;
z25wx_K+c<nsV-*_Nv;cl8&Gi8u}bic6|89$WAv*>p;Yz~=Uz_E3~Cy=@yvg>7t%1K
zk>E`+n5HRRK&S8`HJ@j$OO4!GMK70WMAw?D(lP{d0WhCOU=lVCOf~}Zd0XFfz`g7S
z59S*euNjTKCIIvB<X~rS@kv;<0Fa8YT34`PQZ=&TUDc^hc6qDHF3y>9f^|)g$Vn4s
z{hDCbmp(q7^ixKb?c<X<Z_}I~naugafi_<0oY()_SA~REn+$V)&4xK&Kc4f6QyTUZ
z%z4LJpoiU@FJSC#f%7^zI^Nw`{PNB4UQ%L4Oq6Y$u$J)(9!tP>t2*Je>NsPuRxmv+
z7ZsO6=0&WUTvu9FDp6GnI~4N^B(5o$-^^Oo%*bqJEeIqRqa?{B;@+zFC`DtqjDn@^
zl~u9jnF00C{e3{UJyw$210~rSDaq|yFWee{@)qa4iviI02CmS8_ep?P3mzxBin~VU
zRU(;6bXh2++a|A+XmiP!&^0R(*(o?o9mlz7YOc6W0CbZ`Rm)tSS$VQ+bj`>(h3|9d
zO-u~mU}E^zD;#=%_o;)4`G7<3wx=x?gzgBvz3r3zo$bY2V6Ur$Rk|T46i+&qGtsIx
zk6BgLi9%e#VZUQZ3K=uqD#TK(=$K9rJuni)M7JF|#wt-442F@Bo@{BRW8}?82)$n#
zO?L!=d)2G%;52&=N1;R1UvJ%IWJ41p`V@Ci+(K`)UXuPjxN~p372^5)0MFY;cs_sY
z<y!-G7SBg||3?`A`r{K-c6gHi(_BN|qyTa)j}cff@_-OVRwV*KL(5><^0v{f<aJUo
zrDdU6j99E{l&+JihA)(5Ed`^=&_vSIsH_oC`vo(M(j`q5FKw`p4H2pHfCHjd)r|^A
zgc8|-G%DTO41&>c2cjXuGe4EfrH$_h&1@CTxo9GuL=!hUH1ECuG+$&5;{%If?EO>2
zxOaGXa&)k`eA8k<h}8<3EMi1ywX7?61BKwLt@Aj6L~_mws5GM5ylD|)AO(o$RBG;6
z&R&&fWp)M?_Ga$&p;!F;RIY9qd5F(XfN(}`48#LdBX_kxoYkgfS8!%}oB@bi#z1&`
z^~3S1z4{`?o;kHw`-cbn2fM~z#e$5w%<Gmj)yfVAU341o<b`5Y%r#6AE4avoLOv*@
zB=gq6eko|Ah$%sAIRf@hvy0aZAFpfC`uC(}&}9PV<<kA%S!yqcyxKy;Zd}o@k~HkI
z&HwfqcH2n9%HCdmF<!M-gz@iB?Ulom>{X9O1^dGxPc7#%7m4JBEMg=+1!9c0N;F5*
zu3|=4=0LoI^dVNM8rXgY%O&$T024-qLXj++2I*_S>;sXqoDKS~<ZwC~pg9+?kI{Ty
zkLGpBYAX2?w=EW*3D7(`Io>`pXbPq{;1Mx`x1`p(YGYZD&{dsCv=+z}+nBd`4ad;M
zF}wpD1CNWC!5uVOLYQ#|v0Wv-O?Dz<z|CxOY?5T>3)TUf&5oW0v~_RtX!29heEKY!
zgj|?Q62d!yt`BIo;B)de!5597BhSkm(MCh~0b~h<M%<^6rwa*IM^&}rE!-xPEEdSu
zyO>wxZgZ`9`()%s!;y~thx>U-saQ40($Q@>E1Jm!%}Wl==Pw7@{HG4hKLDC{PJQXY
z_RjwC;UXi>s6k|$w3R~ehF}gq#JUBc!Rwqt;SMn}t6HI0soEB}31twb_zw{ZXrqMH
z3Q)!_2%%{#M^jJT%!au~=>Wi4j%@bjDerN9_%k7l<<{Et6z4p_@dwGOP!hCXn0jId
zqY3chBmoB`8U;86QVXSW0Y8)!QnXAaadKv$uZd93e84Fm>&T|mhTkTfwBfdW-yE2s
zOvV$L^k81ReemWU%nxAf{{~<l?Hz4fFx$8Sy;gIiZdyX%1ab~|p9b`1ktif0f+IHO
zU^U^#fprT$NmgZB<7%0+w&)Uu@8sakZ@(<B)e+4PpCY1JXgvYu7sg;-2QZ&WV7}!4
z{ODaX&gYq1o)i8+59T9_UtA0TCxL=nFkeNkoLB;>Yo5f75|rt(q!W3?@x3i1C}G~}
z4scZrh7(>1i~?+B4x=fF0OfGwttJZM0+C^9KPgWyVl*9DJD-h=l8(*jT)9j4TK<Jl
zFz*ZmbIb|fx%EYd+rK0%cdfB}<!J0bhFBi%9Um_~3x4WsAU@<d@O1LKrt@>?zY?by
zP0*lVkmmQ2Fo^!(TF&Is2Pd<0Hf%h*SB7eL-r0GT>VNZWNHCYf(2z=5LYv6^G!5om
zo?&*kj%QamJ$ThKJcD@e;%64a*gu@!yThHGo!z~~XTN8$;1U82z9(mrCmJypOg5_;
z-5?T6I6^eoZK)*kfljta)wzV`U>Hf1NN`W5Vw$DH#KJkPvlH2sNV=EtU7+;#F-qT_
zqIB~JrEgDAaxySR>1U=gaP3eUeAm?IZkl(xerT=ji2RrfeT~5ZN^cKkDL^S2qf~hZ
z^=ymMb&#c>b141xUqTof$P&2dz2ilLvzKqiJHQ)Oh|UX+yb?O2G-^Lh2PY1ISb`*p
z4o>3&cp*crYE<WP0iEi&f?9#);fbw#Ep0I@vh+)8t%pgGQet(Cv_%e<)H-Hgf3u~Z
zDSlCDNig!}&ZHQ3ZuwmMbxg5kBSHJUFvq-=jOn-k-#6w8Y`6A~i2(DW);lHu`*<K~
z7DRGPNWPJbOJqKpOT<O2Qe~1LC<2>7qL;)uXUI22RV2veWsaIAPZR_)0G?m4VrMhT
zsAmX!bb5)I@L;Yi8M(Ja7En)dd+IywFE=D2-JH|~?Z(Oz--rP!4llE1<cdt>9Otmi
z0!Hk@2+ORGm@a?cYKD0S#=betFb|Ipw@)m;h%x{O#Y7-(qH3B_9myPrhIUeb{6M9*
z?iwmmD%1zSfJ?+pEa5GFq^lTEhu7~^%zJ?dH7_%0jB}VQu<`4TYy$szZJ-y-@1904
z-Zr5Z|Jv37oEJ<_CK13FrU|A4(~#d?f=s+^!71s6M6LwUQ72$<6@(2%bY$f*93szS
ztyw8S*P<RJa)#8so!*HHqhS7=^InN5`+;cgLi2T;VXp81qw7}Soa4UJ3HR-}x%Yhk
zAe$b}-zXM~e?67WqvOMaL(9!EB<yv85;|~$#^*@N>rQIa4s<6#(1GbjM&40gq*_Lp
zRwxv=v64+**02W^!yQ3d)wU0r77NRITlG%;jNFus+Gb-3&Q6!QE4x8G%uCAHFI-_Q
zfv^ixO~Uv`rsC=FBwepLj3M~9R_jEeKnTnL9^lR4d=Rq(x>%XYAkS;vwwio4v>bFW
ztSWfY4sWURHV(>L+1Vi2z-IcNQ~z=r?)CY?GIPAA{pwAv|KwRTH}fA}*>8C6s&sx;
zEEX@Fy7H5qlf$DOBb_|qQpGTsorY~hHV#-6%BkRwnndUDP<alIPMi@8sj3RCskNp?
zB%J54s;Z3}qVhnGUL0hibOO2@qida1HbrCg81Be?#!#M>9T+uweEc-wyk#Ps-VqUW
zp>Pt!pO`vz2PX+9I3d+`yoFzfWP-Z9a(vIggJgZ=Gm+x(bvFGnbi!m~k+r9M=ZC#_
z?sv$t-h$478OkP~$mW-QNO|XwZvK!P`?nbTg+Mls_D=S;7vH273EhFss1ph*!Li3p
zOIj|dN+@!$M$qycpj}K&0W=yaosoHku+n#5+4Fv~Ygmktul=!row)R~nBgB)pSf!$
z<NVoZYnY6embZ*1{gyyl>;xCzL(-z*V_OPU>Mm(9EnP4&YSc=FB69);h`JgOro<iD
zuS#_A4~f4m<<%YQaL8<&V_(wW5E05OzOt5Lxb&50_^z`akvA^h;ShP<Us){vEI{P=
zaDN}>2#8GYEF!bEND_?kri1zj4JAT$!4!~__*YZ^i{?roh;xOj@lB5W9A=KxmB@!l
z2iis=WSXLuro3(?%(n2E>r=|-aS6cr%^)<p^fiF<moMLP*G!e~Yu>mJ5Mfn{0J|m7
z2MZ1v7v8j7(wsZ66bf`d;;{})AgDreiUKqhtOsxrLP2U|jk3GsfKEzPfJM{|(u@*#
zRXO<}@1s&X_sn&D**+PYU`0M~wPmZJWv>S|>YEBiC9UBu_*c<1$XGR3Uh{tQG~;sn
zY#HT$0?gY2l9k5ZA9Rs{u|7Q6vn;FNycRV=Rs^{<kVWv1M4#hJB>@&th5@Jcgi1g)
zA$NI~h?X)i$qNFphFMY=w=Anu$farA^qq<p6iaPIk<V0pM%AM+7F7R1t{F6tUNcHY
zE;YS*sqGdughT2KHd#Iz0-E}Kl=TG7?Wt(e*aJa-+6c|&8lvesW6car#EYq!*=A(v
zZ6cOAY?r=|#^<rwxbn12vmp}m66miQ>wC2ND(i2Mm(3h#>Tw1pf(-2X5t?G_*$&Om
z5}MBOy>l^){i6`g-R+~Jqs3*I!K(t(N`qx7qs+WAseRhF#HKDq$eiDgvME_GZciE=
z%Lzgb(xn~t7`+)7J$LLU{&+oC`^OW6oaY=P^v+OwuMtA$D=}r~JUy~>VI!AEXt4pI
z?;RuLoyCtlf3R<!UV0D4emz9!`1t7f!0=0`5qAh1I#k$eq?H}~XvOmmBqmp?flF=S
zTdCjy=n$O(tAxj3o1l$~QBM|JFe0!<>x(0PDYaB~>imH1{~g?DRQAY{|9}NdEw2>W
z#`)ea8xv*=_-X%Edzoo^H{R9JROY`mz8ItAjg7bh%8v!h3hsR>DdeXf{qS9@SmK;F
zZ|~{B9LyU5{K8NnEts~2VKZon1x-276fj5ds`93-i7l2aPf(|;62@z9kW3)qx)!og
zuX>u5V?Ua@ws%`i$yUT}o@&pc-p#DYXPCiy)&1CM&LWz17I(hDqdBm3ImYe}(A?SE
z-8-<(f)yyS)Kb<cva~wUh3Fudyaq-}#NbF0hS;U56O`6L8bifFHX{fY)EWZz6N0Tk
z^3`DMR_2#x)3TEz?XsyS&4TYUr_Oo=)m4w?`%Xji#tE99U&?zl2fB_B{^x<BJ2WYU
z&*P*4zb+wSJSm{(2%NhD{4g?2Fd#rs)EzZiN|oe|Xi=Y6EpbfLrK+Ln8gkhRVnT=J
zuc*ATW7e*w<FmmPL}+C_H4vP0jXkq?hAI4VmaqG@k#u@IU;BcUD0^q;VCQJ>&{86>
zfx0RXE9W&-IBp?xNXU32st!`C;)3xO75Jo<RY%>x3GfGsU_Ws-r({mU4B)HdKQmw1
z=<^ecLpoZIF>QO>L=_K%X*o*&C+k0gtE15edinh7X?U_(JYPE_pM>$Bh4MMzc`gZT
zU}@Lm|Ik{`y~4$<mBTgu+Dm5YL&&KA2=kw&y{pP5KHjubp9RmSPw@P<!|s1<503o}
zqp>%HcpjhZ9_%hM>Uu>LEtfEbvQ&ziL{LGBHB!L5CMSiO5zE1mB(SGEk#JmB*-_&&
zxDBT<|NFwQ=CSn)VIG^ze&2fH@$5eoYUfqV{t8U`*$=NxH2ZYJ?5`Wo{-sWrj(3K8
z|2{YSdocDNf_uNae|UhR;YI3Zp$0$Rq2#P(&6}bF`5|NYP1e*Hr<EP1WG&%6b<#oA
z5RX(Scy$_)NYO}Y_JxO4`8DnRoBO0}!oEb)%jfAU0QqRBMq)!#s_4zqJw23<^k#|R
z{h>gR9F)e)Uk!SwjUfgs5ddP0Wtm5_U%hB&nD!H0@p@0nF$xczU_N@9S-NS~%>T39
zRkvATEDrG8+dbYnwq~9+9APdblP5_F#T2SVBm&stM3x;zCynIDM5+X2RKYX~g;Jw}
zEn13E5G5<*bBOz5lnqU|i_|_fHrLiuOe!Bap-Qu58VwQiw2Cu0#8En%&7oADGB`SY
zR=0WEES}Zws@o)t|9_zBBRty}#cP>^6sh98fJFnnhaW)*OKR-{Pt01bd5rQlODfG`
zh7+=CBuX+G^#{mioukaviul4<**$FQm^k;-Y-BNjF{FIi$UkJG5mTge(YUK6q^aX{
z?C)>|c)q|d!R_&U<3cTlF%{yuw{v`avbcCN@qIBBQ5hl%1RJ#=jb{SXL5F;e2vtE&
zLjhQ7qO7Q)M<l9gfGcVb63!)y=1u05Ihm0q3spKML$fkiUbqVV>Y3D-$ajX2-MpbT
zc=Hr8N9v6sdsnE^*A}uVAlYOxn~rF(nNfKbi#ey@UTdET$lkdLvg;?1d9D50j1~Od
z-PP1~Z-4v1t;9K#eFK0J+*Q+5d5kg-oO#<y>PAth_fVs+Xu71n;1@HP{wD**ICalf
zU-dNSsbH-ut)4RK@%$&}^C~{z`Q4Ef^Z^fH945C8PYQU>>@!ZqbaTKHZJc(w@fgK2
z6P6(jE*q_MaK{{!n**L7a8P!8gJ?eDpu8VruLwkQe`oi2?_{xUdi3KGL={5_iDZmu
zzP14^ib8d#kf4<s?gAMt0%%Sy230te;TY|SA%P*21!8T)L6Tpzk&TrGW8;aMw+mYx
zq3q`CU!Jz|yf+5tsO|SJyioqD5Xn2X)^^h3oae9Z-y4L|^H+rKe+q=sA?dbrh*6cr
z-@M6@kH9Y%4TE*$4T`p`6S`4t%}dmF1+FSu1VKCj`I_S#IcrdX;IdHjH%oAq=bG|z
z;}ugOcNINn7tHNQU3a>#*4ex_at_^IKa1w()nVRbUf3TTvp1P{W9+v=G^y{}20Dng
z3(+><>vJOb5VHWZvQuRXIshO^1x<$@bCB3&$%<TwE&-blejw*1HT9H@#??U6@>iR=
zt1!^XHeEJ0rqRd(N1j`a9RHp636GQgNty#ZfAutznarBZyL&tz=}jhKd=%=r#gj~?
z0$b8(&?Sh!Td2Ay>MAZkN9Ao^qgoQP4s~J{1M#|1G6Bs}w6toyt(zPIEl_Yr%G2`L
z&LYi9ANfRX;!9f%h^Cb_N4KtN^pD&Xwt{!=_64(>(9($JubyTyZ=IM-ujt=8@Bz?3
zRR2E4?hE(8**iXQI|>nrCleIcm02|hIP)APv0}(>x|o~A|2U;kmhTv3w}DCEq}~aG
zoK{lmxCV|j3}<GVYpA3_Tj7{sFkSlfu4DwFrQ-uVe%5mOG$!&G4&A#Bz;uW|*GluK
zWItiGfaY_7<_9+^`Yp4HPRNBB4I%t!xCxF$(-74qZ}O_34VkVM);^=j1|7BkQdfh|
z(lYe-S(L6Z4K6NUlMMBy)kg5C^?7|PzqBUD+#BHe!LU#Fj$n~;JnM#TK3T2sJ&Liz
zttp;I+xrK{c4<=u%LjsjVj&d!L>+^I1}mZIXGUB`Q371e5SoilQcommp@Kp0iSfW6
z>N>5Ewc7-7Y3DQNV0x7v*1g!FrM)=n#k61W7>$K4Ez_(gLu@_I7WDf8+n;5_T{1WH
zfe-H7yWBc$ZPRkHw#hd_K6<iR;v<AV{rFVZ9hyeh^M+HjsRXD*<T8~&0^Ul=MVtdw
z2&CWj19GT|x>lSa)m9uu<qEMBB}TlKah{mp-WE1UWDK&Y@w`jZT2B!Zf#SRD9j$Dy
zPKPFu%&YXs^JHOIIkPT28h>+pHkoy`%X6;zey)S_IWHVq802CYd-oF|oF{vSM~e%{
z9UJo6njtwXSc@nV7#666GB|FOlnbt**s5t+BNC!8px!yJ;Oi3#P7w(_WVb%++Y-!<
zb8fNAxZfsnJ<+xgsn^%Y>8tfo&K!hI4l74CilQ>Np61SRW7oHUR{4P^UNqCq@U010
z&N7a{l8aE2uO(P3$<3-7pB87%8^>(&Eg0>OaPiR$Sl>Ga>(xGwxyw4`>qjZ}yD;{K
zP_mAW!AzJX+cB-;q79G)io{4q5>(q|46Ovk*ybg|aN0#C)<_g%su0AC>AHlj^0uhK
zo9A&%D5^wtAlTq^5`MAwi&nJKY%LC}KDPI~lX2&j*CsTl&>y`B9s$*dH|=>b4t9n;
zF9^extOjEr3Wd<(Y8KHH@wI|<MjX!<@C7+cId1B5#A4r<ocix0zQ{Y0emNd}BG7#J
z%Cef@sR+%NPl%w)7&{E4^yGN^V8;?cC?058R8*j%Eum<qzm|%glvax>r!Xf0rigpm
zIu^8a2I+T_pl;ks+Rm&IQWn4!0nkG$xcFIR&S&<HVwA89)-GEGb$z6Gw!=&3r%uai
zo;thg<8qJZAf1HqrvvG9c$%D>B}76r3BH+Tn*=#DwT9HRK07XxmX>aV38Jk+Xx)<3
zRJ4gXNR1p6X2B`b0f!-y%}mghBC_tsNlD+g)29x@)UAt-%zC*`U0J*4Z`Wi)Up`4}
z{!6`**z9ia?Hz90ekPRUbyLV1>MG(wi@K|!^e8vf8e_aJA-+&}sZ_!mip`}~1vDGj
zO4`|z$D&5y3G#^0Ox^Nsn|!Bcr>vz*RHC7?*m&iM-Al7RtsY17Zod!<TM(2_?8xd}
zj0V{(fac{*Xx=nI)3@3Ya$YulAWjGeiH%3|RfZ1&NnW+NzG_%qUNf23bdu@Z>+mfe
z&Y75T@JpjMe`>qSB4<mYwBI__y$xVqJ}nOClQ{hM9B?mdJeY4ZKHHDo6M(sMNTly#
zL0erG31I0!_O_5Nl=dqYOWAY?zLhSzh9O66O5IXS>-K_+T<W&;Y4T_n*rhji{XVj`
zJ=>%ht_#t$CSsCzhdm6J*9y#~%U>N&@rb7Qh?$lj`)HtjZi?ACrdXKYF||{4Q%l_n
zKu-olo+McMZ2;ZY!S=3}k?kN{8jiu}#mX!{yng%65Br4b*X|xXptmvG82j?$(^>BB
z?``kecmiVHao)j$#i*CFyv9onON=UUr6s(fp#4me9EQEgrO-8JV4_hyjs^9DC)z|7
zNvA93oA}H&o@La#FSm|v6s|c<nD6unV%e+k0nWzU%g(t_@0D8vbl%AHZB!Wh{%N-F
z;iQ0qOiaZ)#1f^93nf%lq3+fKD-DOpAxwD%XGl$zD8=cfqP!K@n-$MpoHVqf1+rS+
z=4;!iu5_oEb;L=}g=VV-KWFIEo&z%pKifJVPwFGI7yZCsXgr`ljj_)KhGzHR=-}9{
za~=zrF5)(!_A`VK)T&S+T4Q+wfu*hT+C+k;>SERC7_|{1N$G3RB>)$tCjQV>gcRB6
zYq>@^=gzuqFeenX?a%IYfVBOw)9{REBeb9H@f-*g!uSP&RdaZnu3qY;sRX#Cgu|Vo
zaD*~k)5^R<c$=6YHx{sXine$ILlrB~)NqA>P!_62NCBb`wE+0Tev+B@R%2Aw??rjd
zqq_csT}<)VY3lxz*$C~uuNb7$qxpvz`%buj@9vK8krpI}u{I6T)O?P_3~?>^Jk~(u
zbY-?7YZMr$9DE)}Fd<{mc@Rr#r&NHMQ$*2flZ{yy;J2r7&cybly1sie&E=RyiL4)q
zCVRZtGuD^(Xs3NYL*#Z)Ht%s;+b><nmRiS4n?=wN(ERsfG;aW!HxQbC@`*3rHIv)k
z(4+Z>uUM5$LiomTE9n7ENMfryq^*FZfyAM74BAeaZSh#HV}bm(rS@}$+FdP^GN)Z?
zi-a6h3u8cO7}rhPHnG|9!tNAnw~}@%0;yXG(S%tYv2@r_s!EX+MH!i22H|!OO6|{?
zi@v-s&s>;dv9g<zWqm;GNq^7Pj%9NN&07OB$Nl@aZZ!_g&%b(*O}}T}mtVb7l;1_L
zyK``07?`#LVjz(_;su0iJCx*j%v&Lvs$eLLN}#4Ia#PU#9L}Bul2TvMArz>R4&(yE
zMb{=18$KbBQ@0R*Za;*yHzQ_Kugu(!Xufm5+`thGjLVl_y(*Q2?frpNIvh<F)`8rE
zR>zvQbE%OhfIm@9oKyQ8Z94>p8Ku!e5(8)i7fEdmUxoAmM1C$gE)uBJ>n0oO?2|mH
zuacC#>W}frR{hT!XwQ3$*Fik{>{*yc^H=U$jW@gdR_dO+hX>ooN46>tr^0vz00k}b
zq9RkmJ5DB(bQqR0Cq}jI@}`FGso>X94W(y>;Ei#PY7>lSBWh6obvep^X884iY6_3>
z(%1lx@@fu`<|j|{KTn(Gue$qI!%af?w?ZAaXqxs|M3hAhzXEYX4T%=fRj3{n5KLlN
zxByj%*Q%o>4?5QhK+<NpQ0^pVyc7kkiV!H^^RsvD55uR?qwC&R&V^2?-*994Tg>4Z
zMn@MW(a}pBo?ri)1LNYi%%ZWk2GV)7x4n0~yZDOPFAKqU+fuBPgPzJ8DOD+G2jNQK
zFVg~vU)dnIM@lG?j?t1RMSK+kcG%b&wNK=WhB5MFi*Z1iFLtK3%;9u?9>9>|Pd!Fw
z)c>si950dEK=9|s2tI2=`S@8=1f4{V5&XG8BA)~V*9hYoRy<{+B{yq&nrwh-?u6Or
z*`=noJ!-k^H+!+=K@*|>d?<s@+K}-)tLLe{O$crgf`7f|slJ1;pIVW@{r#hT!&Ait
zCm34J>sq!Fib_u@;9V!mx&faDstV&dFQE1{anh*96VeEPI%G>a?&$eS0-#>7)w#%%
znC0ME&Dt5O!`T!SUxD+jou0%PKWS;Y{CdM44xa09SNkVTy>Prndyc1i%7mx#Z8qQO
z#qnSCZ8ik(`&Pu!fJtpOS0#i>NFgX<m%7fgNzYQ$*Wf4SY`Ul`>hZB*<FH|e-=2al
zNqZoB;x%>Kq@*_SHoLi5KFLG|OM1i?g`;zu2Z#-FDf$&ne?GE}Zy1ezXjLwckM_)(
zo^vBvp6$p^8(*_{)>^h_gpaui*7V#kx1#CKM|N#I`!}o#(iPACNvU5<j=2XLJ+{`Y
zUwX_}b1%Kt&VF3YU101v;k`fFJw7>FEL=60cF17}&RAaLh-?w##)#HfPV@|m<Gf(R
zDNw&EA`wk_94G3K>=d}g1Z6XD@AR}4PK&SEP%&IxZt9L89XKbNS@3;wEN9>0Wa>9g
zYYrO6Z&@D=FJ8M^FC(nK6iSuF)$#`=_${gGg!atIb4q7vhiF8;9JHZgU>6v`Em%cY
zp!P@)v*8+pc@fj)L?Y5I3j9p+cJ-S~&&15mta&>&`7P$q+`J{?O%Bbc|E(e8^$!}M
zu?IplkB<%x4$YHBY9)x5E@@wLB3NYH6gsA5{#1+<pk5Vn4-|PAG_+G-8)V&Fk)EDE
z@WuZDEPgQTzW6ktc>8tFoS{-KeR_h#uFYA;NW4GP*Q-QgQpPhgG`&&w=W_gQ<@I@R
zusU`c5?f;={1dkBd)*)t{_$iq_HZB*$9ubnM~CM5WNjYjjM{0TRV*)sqBU3o#lM_P
z6}aUNSrbkv&I{PAR;ZY$xkgkdL^IGMjjp<(^KLSg(=bTOsL$}%r0}Db7B}D?7d2u)
zJT-5PAh1)R&%b>GTRc3U%%Hbz<!FrF+XFee_UKt*G92d8Zp!7M$ow+1H1i7tr)y~Z
z-21f$>8$9TVX2I-tUU+lsZHqJI6=>6=gIx6-6g;B`o-eb5WQn0=lk}7KeYY;)CN?r
zp?xhCD`31qWYP-3m^yb_(ZJS&1V&<x%7*F~HR<3=TKGZRF(X|Uxz3Y|ezod!dIMrv
z7COmjGaRQMr(Eqd`RnJ)&U^0Y^{d{JF#gj}mo1*;ExUp|Anh}VGFq%ep$h7L0_Vn9
z9V4g^C8`yQHlgbnZ_J7!xYZakS%H4zRg62)aa8?hIL#~BOXCc9rr{e9(=XjKRENCC
zE*+aiGvtn*G2xDGc4+?9A0I5^PdYR&V(ce_$8v4&93Af-FMb(50(37csxqb)+PbX;
z1eFvW<dAu^1#gkccdaffc#@>0{e%<E980t;uh;?fKy3H`dt&a%TwhqfU%?l=zodD4
zJLml+;q!~Zv)UXM<S#Ml7)X?{6iKO|dy+Oz6_rY4345m`l(5vO`BxQ^fD&aKz>$sn
zVbXHcw%)gLI4)w^PBWSKCJ?icmXXzZ{f1|hjr##U@7JF_IFbs#{*1;R38i9pcXw~c
ztUudu?;#~I?d~YR-Il7Qr@;V*TqFgj;Gz^Aim)v%QUWpUxvQ<`Vq@0@VAKC`{2S1V
zx!%G%HnghWu{A-`$<!FhH-$3wWFT2iE2}=zc1B|br8$E2^kYUNm-82nI=3F)gyc;V
zBz^Av-Jh^Bc^zc(b)&H#4rTJ-XnPkm>l-b<gMgz(u>j>%WJa`uCQ;w?=rLG*(I9?R
zbxynUCZKPW^s64%Ky$T+iRE7!+NO`Jf7r!GCbQq8**`Lw{l5w2=;~%)K52))`!xG}
z!|bmc&;AatMSo{to!-3|#$+)2o!#A&qwU2v=~*9nQo+yDGn6_cFtyA(=v9rP9H)NW
zrmA(B*PvhWMu8}8k=@ihPC8uJa8+MG@pkEYEr!j4GT)IkYIku_r(dyPwsPx3_Hn3h
z^Icb-3$lW2Bx7zl$EAHB^^P%8kFV!w9xum8x#;L0jF5VFpd}8euUtJ+PGOd#nUpiH
zM`Ukbo$Wy_%kicOhPJdHOJ(=*Q{T<oQ@S(s!1>5TKJN(i>AP#Uy1MjTA4UGJ2UaVP
zAH`S|O4RZGp{wVj_?6J=^Csb_EV7d23T!WIFwAisqnMkE5)4%fykr+kP%ka&YNkg#
zq32YvgcZn~HL7Md6r#k2C|T+WSlTC&xeXYp`5^5V45niU({kud7_Es3V$w77UO|_^
zCr*nZZ=S8^e)NIWn4A#)Z=uu;XaXad04Az-OD44dDMgP-sTn<SqSCbINfmPxCvXn3
z*yN%@L=LGFN+kkRssK5dD5dB73^pg(lb}5v4Gp_^xZ+}eNj6?Z;yOYy`vVnzQlE&L
zO<D2vENCt#Xnx5d_d9O}n$LOp<k4Lx7<)z_o4flbhr7Gx=~g8@FP$}AQxw#8RZzna
zirv(`5tl;bB9D>RTrkA}>Hs#Is@oKLvYae(jk6<|{PWPAiLx6PJ8`)`*rM~&yD-0Z
z{MYY$@l0^}uI1J+mD}#H!t%D!l)oMbi<{m>W1>{t(q0BygDK9tinI@ZOiL-m1+zwe
zRubb-l*p4CaGO;jib}igC^r#vV@#2RnuwRS&ScKpCkokHow>&gndc0-&B4tpb9HK;
zSQOb!Ps@Hgdfzz}Ekj^#tnR(^F#vP<A8*eA^D)m9JmtYvrr=NCx>&qAxbJ(YnI72H
z^#yD(5NW{4bsZ4lNd8ewP)Sa!BRVGX28LbasPfS>S?Tfcw3joZC%n`s{<k`=q?E0Q
zyN4!LcDzsNu*TtZi?Zg5ek0gv26NhCekW$XbQ)7|<1AA^*o9V!F#bp&Xbw-ZN;x%;
z05~l=QB&)KqRtUf(39Y6z+2G1rAk!Lr!J`lLy%r4U<dL9x1p&4B`dWqVX(?;T*uj1
zl^7q>{dC-lgVcYWLvu4z@E19ArW&A#001A02m}BC000301^_}s0stET0{{R300000
F000^eh;IM@

literal 0
HcmV?d00001

diff --git a/src/umi_tools/umi_tools_prepareforrsem/test_data/test.sam b/src/umi_tools/umi_tools_prepareforrsem/test_data/test.sam
new file mode 100644
index 00000000..6465827d
--- /dev/null
+++ b/src/umi_tools/umi_tools_prepareforrsem/test_data/test.sam
@@ -0,0 +1,119 @@
+@HD	VN:1.6	SO:coordinate
+@SQ	SN:MT192765.1	LN:29829
+@RG	ID:1	LB:lib1	PL:ILLUMINA	SM:test	PU:barcode1
+@PG	ID:minimap2	PN:minimap2	VN:2.17-r941	CL:minimap2 -ax sr tests/data/fasta/sarscov2/GCA_011545545.1_ASM1154554v1_genomic.fna tests/data/fastq/dna/sarscov2_1.fastq.gz tests/data/fastq/dna/sarscov2_2.fastq.gz
+@PG	ID:samtools	PN:samtools	PP:minimap2	VN:1.11	CL:samtools view -Sb sarscov2_aln.sam
+@PG	ID:samtools.1	PN:samtools	PP:samtools	VN:1.11	CL:samtools sort -o sarscov2_paired_aln.sorted.bam sarscov2_paired_aln.bam
+@PG	ID:samtools.2	PN:samtools	PP:samtools.1	VN:1.20	CL:samtools view -h test_data/test_dedup.bam
+ERR5069949.29668	83	MT192765.1	267	60	89M	=	121	-235	CCTTGTCCCTGGTTACAACTAGAAACCACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTACGTGGCTTTGGAG	E////6/E/EE/EE/<<///6EEE/////<AAA<A<A6AE/E/AE6A/EAEEEAEEEAEEEEEA/AEAE<EEEAEEE////6EEAA/AA	s1:i:173	s2:i:0	RG:Z:1	NM:i:3	AS:i:148	de:f:0.0337	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:148
+ERR5069949.29668	163	MT192765.1	121	60	150M	=	267	235	TATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCTTCCGTGTTGCAGCCGATCATCAGCACATCTAGGTTTTGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTT	AAA/E/EEEEEEEEEAEEEEEEEEE/</E/E/EE<E/EEAAEA/E/EE//EA/EEEEEA/AEEE/EEEEE/E/EA/EE/EEE<E/E///E<AEE<<EEE/<EEEAA///AE/6A///A/AE/EAEE</EAEAE///AA/EEAEE/AAEAA	s1:i:173	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.155944	83	MT192765.1	1023	60	150M	=	978	-195	TGAAATTAAATTGGCAAAGAAATTTGACACCTTCAATGGGGAATGTCCAAATTTTGTATTTCACTTAAATTCCATAATCAAGACTATTCAACCAAGGGTTGAAAAGAAAAAGCTTGATGGCTTTATGGGTAGAATTCGATCTGTCTATCC	EA<EA/<A/6A/AEA/6/66/AAAEAEEE/EEA/6AAAAAAEE</AAEEEEAAEEEAA/EEE//A/EEEEE/AE/EEE6AEEEE/A/EAEEEEE/EEAEEEAE/AEA66AEEEEEEEEE<AEEEAEEEEEEEEE6EEEEEEEAEEAAAAA	s1:i:183	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.155944	163	MT192765.1	978	60	150M	=	1023	195	GTACACGGAACGTTCTGAAAAGAGCTATGAATTGCAGACACCTTTTGAAATTAAATTGGCAAAGAAATTTGACACCTTCAATGGGGAATGTCCAAATTTTGTATTTCCCTTAAATTCCATAATCAAGACTATTCAACCAAGGGTTGAAAA	AAAA/EEEEEEAEEEEEEEEEEEE/EEEEEEEEEE/EAEEEEEEEEEEEEEEEAEEEAEE/AEEEEEEAAEEEEEEAEAEEEE/AEE/<EAE/E<EEA<<<AAEEAEEE<AA<EE/EAAEEEE<<<EEEA/AEAEE6</EEA<AEEE<<E	s1:i:183	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.169513	99	MT192765.1	1098	60	92M	=	1098	92	AATCAAGACTATTCAACCAAGGGTTGAAAAGAAAAAGCTTGATGGCTTTATGGGTAGAATTCGATCTGTCTATCCAGTTGCGTCACCAAATG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EE6EEEE	s1:i:92	s2:i:0	RG:Z:1	NM:i:0	AS:i:184	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:184
+ERR5069949.169513	147	MT192765.1	1098	48	92M	=	1098	-92	AATCAAGACTATTCAACCAAGGGTTGAAAAGAAAAAGCTTGATGGCTTTATGGGTAGAATTCGATCTGTCTATCCAGTTGCGTCACCAAATG	EEEEEEEEEEEEEEEEEEEEEEE/EEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:32	s2:i:92	RG:Z:1	NM:i:0	AS:i:184	de:f:0	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:184
+ERR5069949.257821	83	MT192765.1	2834	49	139M	=	2833	-140	CCTATACAGTTGAACTCGGTACAGAAGTAAATGAGTTCGCCTGTGTTGTGGCAGATGCTGTCATAAAAACTTTGCAACCAGTATCTGAATTACTTACACCACTGGGCATTGATTTAGATGAGTGGAGTATGGCTACATA	A/AE<EE<EA</EAEAAA<AEEAEE/A/E<<E</E</EEEAAE/EE<E/EEEAEEEEEEE/AEEEEEEEEEEE/EEEE<EEEE/EE/EAEEE6EEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:121	s2:i:48	RG:Z:1	NM:i:0	AS:i:278	de:f:0	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:278
+ERR5069949.257821	163	MT192765.1	2833	60	140M	=	2834	140	GCCTATACAGTTGAACTCGGTACAGAAGTAAATGAGTTCGCCTGTGTTGTGGCAGATGCTGTCATAAAAACTTTGCAACCAGTATCTGAATTACTTACACCACTGGGCATTGATTTAGATGAGTGGAGTATGGCTACATA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEAEEEEEE	s1:i:121	s2:i:0	RG:Z:1	NM:i:0	AS:i:280	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:280
+ERR5069949.309410	99	MT192765.1	3184	60	151M	=	3348	314	GAAGAAGATTGGTTAGATGATGATAGTCAACAAACTGTTGGTCAACAAGACGGCAGTGAGGACAATCAGACAACTACTATTCAAACAATTGTTGAGGTTCAACCTCAATTAGAGATGGAACTTACACCAGTTGTTCAGACTATTGAAGTGA	AAAAA//EEEEA6EEEAE</EEE/EEEEE/EE6EEEEEEEEEEEEEEEAEEAAEEEEEEEEEAEEEEEE/EEAEEEEEAEAEEE/EEAEEE<AEEEAA////EEEEEEEEA//A/EE/EAAEA/AE<EE/E//E/</AEAEAE/AEA/AEA	s1:i:274	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.309410	147	MT192765.1	3348	60	150M	=	3184	-314	TTATTTAAAACTTACTGACAATGTATACATTAAAAATGCAGACATTGTGGAAGAAGCTAAAAAGGTAAAACCAACAGTGGTTGTTAATGCAGCCAATGTTTACCTTAAACATGGAGGAGGTGTTGCAGGAGCCTTAAATACGGCTACTAA	E//EEAEA<<EAAE/AAAAEAAAAEA</A/<6/E/<A<//AE/EEAAE<EEEAEEEEEEAEE/EEAEEEEEE/<E/EEE6EEAE/<EE//E</</EE/EEAAEE/EAA/EEEEAEEEEE///EA/EEEEEEEE//E66EE/E/EEA/AAA	s1:i:274	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.366975	83	MT192765.1	4166	59	106M	=	4166	-106	CTAAAAAGGCTGGTGGCACTACTGAAATGCTAGCGAAAGCTTTGAGAAAAGTGCCAACAGACAATTATATAACCACTTACCCGGGTCAGGGTTTAAATGGTTACAC	EEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEAEEEEEEEEEE<AEAEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:96	s2:i:0	RG:Z:1	NM:i:0	AS:i:212	de:f:0	rl:i:0	cm:i:4	nn:i:0	tp:A:P	ms:i:212
+ERR5069949.366975	163	MT192765.1	4166	60	106M	=	4166	106	CTAAAAAGGCTGGTGGCACTACTGAAATGCTAGCGAAAGCTTTGAGAAAAGTGCCAACAGACAATTATATAACCACTTACCCGGGTCAGGGTTTAAATGGTTACAC	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE	s1:i:96	s2:i:0	RG:Z:1	NM:i:0	AS:i:212	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:212
+ERR5069949.465452	99	MT192765.1	4695	60	151M	=	4827	282	ACCTGATGCTGTTACAGCGTATAATGGTTATCTTACTTCTTCTTCTAAAACACCTGAAGAACATTTTATTGAAACCATCTCACTTGCTGGTTCTTATAAAGATTGGTCCTATTCTGGACAATCTACACAACTAGGTATAGAATTTCTTAAG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEE/EEAEEEE/EEEEEEEEEEAEEEEEEEEEEEEEEE<EEEEAAAEAEEEEEEAA6AAEEEEEA<EEEEE</EEAEE/EE	s1:i:261	s2:i:0	RG:Z:1	NM:i:1	AS:i:292	de:f:0.0066	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.465452	147	MT192765.1	4827	60	150M	=	4695	-282	AGGTATAGAATTTCTTAAGAGAGGTGATAAAAGTGTATATTACACTAGTAATCCTACCACATTCCACCTAGATGGTGAAGTTATCACCTTTGACAATCTTAAGACACTTCTTTCTTTGAGAGAAGTGAGGACTATTAAGGTGTTTACAAC	AAAEEEEEEEEEEEEAA/<EA<AA/EAEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEAEEEEEEE/EEA/EEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:261	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.479807	83	MT192765.1	5123	60	150M	=	4968	-305	CTAATGATGACACTCTACGTGTTGAGGCTTTTGAGTACTACCACACAACTGATCCTAGTTTTCTGGGTAGGTACATGTCAGCATTAAATCACACTAAAAAGTGGAAATACCCACAAGTTAATGGTTTAACTTCTATTAAATGGGCAGATA	AA/EEEEAAAEAEEEAAAEEA/AAEAAEE/AAAEAAAAEEEEEEEEEEEAEEEEEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEAEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:280	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:23	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.479807	163	MT192765.1	4968	60	150M	=	5123	305	GTTTACAACAGTAGACAACATTAACCTCCACACGCAAGTTGTGGACATGTCAATGACATATGGACAACAGTTTGGTCCAACTTATTTGGATGGAGCTGATGTTACTAAAATAAAACCTCATAATTCACATGAAGGTAAAACATTTTATGT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<AEEEEEEEEEE<EEE<AEE/EEEEEEEEEAEEE<AA/EAA<AEEEEEEEAEEAAA	s1:i:280	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.501486	83	MT192765.1	5423	60	146M	=	5355	-214	TAGGTGAGTTAGGTGATGTTAGAGAAACAATGAGTTACTTGTTTCAACATGCCAATTTAGATTCTTGCAAAAGAGTCTTGAACGTGGTGTGTAAAACTTGTGGACAACAGCAGACAACCCTTAAGGGTGTAGAAGCTGTTATGTAC	EAAAAEAEEEE6E<AEEEEEEEE<EEEEEEAAEE/EEEEEE/<EEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:207	s2:i:0	RG:Z:1	NM:i:0	AS:i:292	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.501486	163	MT192765.1	5355	60	150M	=	5423	214	TTACAGAGCAAGGGCTGGTGAAGCTGCTAACTTTTGTGCACTTATCTTAGCCTACTGTAATAAGACAGTAGGTGAGTTAGGTGATGTTAGAGAAACAATGAGTTACTTGTTTCAACATGCCAATTTAGATTCTTGCAAAAGAGTCTTGAA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEAA/EEE/<AEEAAEAEA</EEEAEAAAAAEE	s1:i:207	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.573706	99	MT192765.1	5697	60	150M	=	5784	236	GTACGAACTTAAGCATGGTACATTTACTTGTGCTAGTGAGTACACTGGTAATTACCAGTGTGGTCACTATAAACATATATCTTCTAAAGAAACTTTGTATTGCATAGACGGTGCTTTACTTACAAAGTCCTCAGAATACAAAGGTCCTAT	AAAAA6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEAAEEEAEEEEEEEEEEE	s1:i:214	s2:i:0	RG:Z:1	NM:i:2	AS:i:282	de:f:0.0133	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:282
+ERR5069949.573706	147	MT192765.1	5784	60	149M	=	5697	-236	AGAAACTTTGTATTGCATAGACGGTGCTTTACTTACAAAGTCCTCAGAATACAAAGGTCCTATTACGGATGTTTTCTACAAAGAAAACAGTTACACAACAACCATAAAACCAGTTACTTATAAATTGGATGGTGTTGTTTGTACAGAAA	AA<E<EEEEEEEEA<AEEEAEEAA<<EEE<AEEEEEEAEAAAAEAEAEEEEEEAEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:214	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.576388	83	MT192765.1	5798	50	77M	=	5798	-77	GCATAGACGGTGCTTTACTTACAAAGTCCTCAGAATACAAAGGTCCTATTACGGATGTTTTCTACAAAGAAAACAGT	EA/AEEE/<EEEEEEEEEEEAA<EEEEEEEEEEEEEEEEEEEEEAEEEEEAEEEAEE6/EEEAEEEEEEEEEA6AAA	s1:i:62	s2:i:0	RG:Z:1	NM:i:0	AS:i:154	de:f:0	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:154
+ERR5069949.576388	163	MT192765.1	5798	60	77M	=	5798	77	GCATAGACGGTGCTTTACTTACAAAGTCCTCAGAATACAAAGGTCCTATTACGGATGTTTTCTACAAAGAAAACAGT	AAAAA6EEAEEEEEAEEAEEAEEEEEEA6EEEEAEEAEEEEE6EEEEEEAEEEEA///A<<EEEEEEEEEAEEEEEE	s1:i:62	s2:i:0	RG:Z:1	NM:i:0	AS:i:154	de:f:0	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:154
+ERR5069949.611123	83	MT192765.1	6481	48	125M	=	6481	-125	ATTATACTTAAACCAGCAAATAATAGTTTAAAAATTACAGAAGAGGTTGGCCACACAGATCTAATGGCTGCTTATGTAGACAATTCTAGTCTTACTATTAAGAAACCTAATGAATTATCTAGAGT	EEEAEEEEEEEEEEEA<EEEAEEEEA/EEEEEEEEEAEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:50	s2:i:117	RG:Z:1	NM:i:0	AS:i:250	de:f:0	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:250
+ERR5069949.611123	163	MT192765.1	6481	60	125M	=	6481	125	ATTATACTTAAACCAGCAAATAATAGTTTAAAAATTACAGAAGAGGTTGGCCACACAGATCTAATGGCTGCTTATGTAGACAATTCTAGTCTTACTATTAAGAAACCTAATGAATTATCTAGAGT	AAAAAEEEEEA6EEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEE<EEEEEEEAEEEEEEEEEEEEAEEEEEEEEEEE/EEEEEEEA/AAEAAEAAEAE	s1:i:117	s2:i:0	RG:Z:1	NM:i:0	AS:i:250	de:f:0	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:250
+ERR5069949.651338	83	MT192765.1	7745	60	4S138M	=	7629	-254	ACTCTGAAGAATGGTTCCATCCATCTTTACTTTGTTAAAGCTGGTCAAAAGACTTATGAAAGACATTCTCTCTCTCATTTTGTTAACTTAGACAACCTGAGAGCTAATAACACTAAAGGTTCATTGCCTATTAATGTTATAG	A///A/6/<EEEA//EE/EE<AEEE/<A/EAE<</A/A<EEE/E<EEEEE<</EEEA<E/EEAAEEEEAE/EEEEEEEEEEEEEE/E/A/EE//<AE/EEEAEEA</EE/AEEEE/AEEEEAEEEEEEEEEAEAEEEAAAAA	s1:i:223	s2:i:0	RG:Z:1	NM:i:1	AS:i:266	de:f:0.0072	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:266
+ERR5069949.651338	163	MT192765.1	7629	60	149M	=	7745	254	ATTCTGTGCTGGTAGTACATTTATTAGTGATGAAGATGCGAGAGACTTGTCACTACAGTTTAAAAGACCAATAAATCCTACTGACCAGTCTTCTTACATCGTTGATAGTGTTACAGTGAAGAATGGTTCCATCCATCTTTACTTTGATA	AAAAAE/EAEEE/AEAEEE/EEEAAEEEEAEEEEE/EEEEAEEEEEEAEE/EEEE/EEE</EE/AEAE/<E/EEAEE<EEEE//AEEEEEE<EEAEE/EEE//E/<EE<A<A/EAA<AA/AEEA//A<A/A<A<6A6/AEE/AEEA<AE	s1:i:223	s2:i:0	RG:Z:1	NM:i:1	AS:i:288	de:f:0.0067	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:288
+ERR5069949.686090	83	MT192765.1	8097	60	150M	=	7975	-272	TGCAACTGCAGAAGCTGAACTTGCAAAGAATGTGTCCTTAGACAATGTCTTATCTACTTTTATTTCAGCAGCTCGGCAAGGGTTTGTTGATTCAGATGTAGAAACTAAAGATGTTGTTGAATGTCTTAAATTGTCACATAAATCTGACAT	EEEAEAEEEEEEEEEEEEEAEEEEEAEEE<EAEE/EEEEEEEEAEEE6EEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEE/EEEEAEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:252	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.686090	163	MT192765.1	7975	60	151M	=	8097	272	GATCAGGCATTAGTGTCTGATGTTGGTGATAGTGCGGAAGTTGCAGTTAAAATGTTTGATGCTTACGTTAATACGTTTTCATCAACTTTTAACGTACCAATGGAAAAACTCAAAACACTAGTTGCAACTGCAGAAGCTGAACTTGCAAAGA	AAAAAEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEAEEEEEEEE/EEEEEEEEEEEEEEAEEEEEAEEEE<AEE/EEEEEEEAAAAEEEEEEEEEEEAEAEEEEEAEEEEA	s1:i:252	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:27	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.786562	83	MT192765.1	9096	60	151M	=	8904	-343	AAGTTTACGCCCTGACACACGTTATGTGCTCATGGATGGCTCTATTATTCAATTTCCTAACACCTACCTTGAAGGTTCTGTTAGAGTGGTAACAACTTTTGATTCTGAGTACTGTAGGCACGGCACTTGTGAAAGATCAGAAGCTGGTGTT	AEAE<AE/AAAEEAAEE<EEAEEEEAEEEEAAA/AEEEAEAEAEEEEEEEEAAEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAA6A	s1:i:272	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.786562	163	MT192765.1	8904	60	150M	=	9096	343	GCATTTCTTACCTAGAGTTTTTAGTGCAGTTGGTAACATCTGTTACACACCATCAAAACTTATAGAGTACACTGACTTTGCAACATCAGCTTGTGTTTTGGCTGCTGAATGTACAATTTTTAAAGATGCTTCTGGTAAGCCAGTACCATA	AAAAAEEEEEEEEAEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEAEEEEEEEEEEEEEEEAEEEEEEE<EEAEEEEE<EEEEEEEEEAEEEAEEEAEEAA6A<EEEEAAEEEEAA/AEEEEEE/EEEEEEE	s1:i:272	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.919671	83	MT192765.1	10501	60	151M	=	10467	-185	ATAGATTATGACTGTGTCTCTTTTTGTTACATGCACCATATGGAATTACCAACTGGAGTTCATGCTGGCACAGACTTAGAAGGTAACTTTTATGGACCTTTTGTTGACAGGCAAACAGCACAAGCAGCTGGTACGGACACAACTATTACAG	EEEEEEEEAAEAAAEEAA6AEEEEEEEEAEEAAAAE/AEEEAEEEAEEEAEEEEEEEEEEEEEEEEEEEEAAEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEAAAAA	s1:i:184	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.919671	163	MT192765.1	10467	60	150M	=	10501	185	CCTTAATGGTTCATGTGGTAGTGTTGGTTTTAACATAGATTATGACTGTGTCTCTTTTTGTTACATGCACCATATGGAATTACCAACTGGAGTTCATGCTGGCACAGACTTAGAAGGTAACTTTTATGGACCTTTTGTTGACAGGCAAAC	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAE/EEEEEEAEEEEEEEEAEEEEEEEEEEEAEEEEEEEAEEEEAEEEEAEEEEE6EEEEEEEAAEAEEEEEEE<EEEEEEE6AAEEAEEEAA6AEEAAAAAEEAAEEEAEAEEE	s1:i:184	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:24	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.973930	83	MT192765.1	10957	50	79M	=	10924	-112	ACTTTCCAAAGTGCAGTCAAAAGAACAATCACGGGTACACACCACTGGTTGTTACTCACAATTTTGACTTCACTTTTAG	<////E/EE/E//E/<//E/E//A/6EA/EE/EE///E/EAEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:101	s2:i:0	RG:Z:1	NM:i:2	AS:i:138	de:f:0.0253	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:138
+ERR5069949.973930	163	MT192765.1	10924	60	112M	=	10957	112	CCTTTTGATGTTGTTAGACAATGCTCAGGTGTTACTTTCCAAAGTGCAGTGAAAAGAACAATCAAGGGTACACACCACTGGTTGTTACTCACAATTTTGACTTCACTTTTAG	AAAAAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEAE<EAEEEEEEAEEAEE	s1:i:101	s2:i:0	RG:Z:1	NM:i:0	AS:i:224	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:224
+ERR5069949.986441	99	MT192765.1	11007	60	119M	=	11104	247	GTTACTCACAATTTTGACTTCACTTTTAGTCTTAGTCCAGAGTACTCAATGGTCTTTGTTCTTTTTTTTGTATGAAAATGCCTTTTTACCTTTTGCTATGGGTATTATTGCTATGTCTG	AAAAAEAEEEEEEE/EEE/EEEEEAEEEEEEEEEEEEEEEEEEEEE</EAAEA/EEEEEEEEAEAAEEEEEEEEEEEEE/E//<EAE/6///EE//E/EEE///E<EEEEA</A<<//<	s1:i:200	s2:i:0	RG:Z:1	NM:i:1	AS:i:228	de:f:0.0084	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:228
+ERR5069949.986441	147	MT192765.1	11104	60	150M	=	11007	-247	ATGGGTATTATTGCTATGTCTGCTTTTGCAATGATGTTTGTCAAACATAAGCATGCATTTCTCTGTTTGTTTTTGTTACCTTCTCTTGCCACTGTAGCTTATTTTAATATGGTCTATATGCCTGCTAGTTGGGTGATGCGTATTATGACA	A6A<AEEEEE<E<EAEAAEA<AAEEAEA</EAEEA<E/E/E/EEEEAEAA/<EAAAEAEEE/EEEEEEEAEEE/EAEAE/AEAAA/EAEEEEEEAEAEEEEEEEAEAEEEEE/EAEEEEEEAEEEEEAEEEEEEEEAEEEEEEEEAAAAA	s1:i:200	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1014693	99	MT192765.1	11215	60	150M	=	11215	150	GTCTATATGCCTGCTAGTTGGGTGATGCGTATTATGACATGGTTGGATATGGTTGATACTAGTTTGTCTGGTTTTAAGCTAAAAGACTGTGTTATGTATGCATCAGCTGTAGTGTTACTAATCCTTATGACAGCAAGAACTGTGTATGAT	AAAAAAEEAEEE6EAE//E/EEE6AEAA/EAEAEE6/E//EAE/EEEEAEE/EEE/EAEEEEEAE/EEEEEAEEEEEAAEEAEEE/AE/EAEAEEEEEEEEEEEEEE/AE/E/E/<<<AA<E<AEE</EEEEA6<AEEAAAA//A//EEE	s1:i:136	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1014693	147	MT192765.1	11215	48	150M	=	11215	-150	GGCTATATGCCTGCTAGTTGGGTGATGCGTATTATGACATGGTTGGATATGGTTGATACTAGTTTGTCTGGTTTTAAGCTAAAAGACTGTGTTATGTATGCATCAGCTGTAGTGTTACTAATCCTTATGACAGCAAGAACTGTGTATGAT	A/<EEEAA<<AA<AEAE<6<A<AA<EA<///EAEEE<AAEAA/EA6/EEEEE/E/EE/AEAEAEEE<AEEEEEEE6<AAEEEEE<EEEAEEEEEEAAEAEAEEEAAEEEEEEEEEE/EEEEEEEEE/EEEEEEEEAEE/EAEEEEAAAAA	s1:i:33	s2:i:136	RG:Z:1	NM:i:1	AS:i:296	de:f:0.0067	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.1020777	83	MT192765.1	11217	50	122M	=	11217	-122	CTATATGCCTGCTAGTTGGGTGATGCGTATTATGACATGGTTGGATATGGTTGATACTAGTTTGTCTGGTTTTAAGCTAAAAGACTGTGTTATGTATGCATCAGCTGTAGTGTTACTAATCC	EEEEA6AAAA6E/AA6AAAE/EEA<EE<AEEEAE<EAEAEAEAE<EEEEE/AEEAAEEEEAEEEEEEEE/EEEEE/EEEEEEEEEEEEE6EEEEEE/EEEEEE<EEEAEE6E6EEEEAAAAA	s1:i:110	s2:i:41	RG:Z:1	NM:i:0	AS:i:244	de:f:0	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:244
+ERR5069949.1020777	163	MT192765.1	11217	60	122M	=	11217	122	CTATATGCCTGCTAGTTGGGTGATGCGTATTATGACATGGTTGGATATGGTTGATACTAGTTTGTCTGGTTTTAAGCTAAAAGACTGTGTTATGTATGCATCAGCTGTAGTGTTACTAATCC	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEAEEEEEEAEEEAAEEEEEEEEEAEEEEA	s1:i:110	s2:i:0	RG:Z:1	NM:i:0	AS:i:244	de:f:0	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:244
+ERR5069949.1088785	99	MT192765.1	11864	60	149M	=	11912	198	CAGTAGTCTTACTCTCAGTTTTGCAACAACTCAGAGTAGAATCATCATCTAAATTGTGGGCTCAATGTGTCCAGTTACACAATGACATTCTCTTAGCTAAAGATACTACTGAATCCTTTGAAAAAAAGGTTTCACTACTTTCGGTTTTG	AAAAAE/EAEE<EEA///<AEEE/EE<AEEE<EA/EEEEEEE/EAAAEEEEEE<E/E6AE<<E/EEA//</E/EEE/EEE/EE/E/<<EEAAAE<EEEEEE/EAEA//<//AA/E</A<<E/EEEE/AEE<E/<EAE</A6///AEEAA	s1:i:182	s2:i:0	RG:Z:1	NM:i:3	AS:i:268	de:f:0.0201	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:268
+ERR5069949.1088785	147	MT192765.1	11912	60	150M	=	11864	-198	CTAAATTGTGGGCTCAATGTGTCCAGTTACACAATGACATTCTCTTAGCTAAAGATACTACTGAAGCCTTTGAAAAAATGGTTTCACTACTTTCTGTTTTGCTTTCCATGCAGGGTGCTGTAGACATAAACAAGCTTTGTGAAGAAATGC	AEEEEE<E//E<EAEE/AAAA<AEEEAEEEEE<AEEAEEEEEEAEAE</AE/EEE/<EEEEAEEEEEEEEEAEEEEEEE/EEEEEEEEEEEEEEEEEEEEAA/EEEAEE/EEAEEEEEEEEEEEEEEEE/EEEEEEEEEEAEEEEAAAAA	s1:i:182	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1132353	83	MT192765.1	12075	60	150M	=	12066	-159	AACCTTACAAGCTATAGCCTCAGAGTTTAGTTCCCTTCCATCATATGCAGCTTTTGCTACTGCTCAAGAAGCTTATGAGCAGGCTGTTGCTAATGGTGATTCTGAAGTTGTTCTTAAAAAGTTGAAGAAGTCTTTGAATGTGGCTAAATC	EEAEEEEEEEEEEEEEE<A<EEEEEEEEEEEAAEE<EAEEAAEAEEEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEAAAAA	s1:i:148	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1132353	163	MT192765.1	12066	60	151M	=	12075	159	CAACAGGGCAACCTTACAAGCTATAGCCTCAGAGTTTAGTTCCCTTCCATCATATGCAGCTTTTGCTACTGCTCAAGAAGCTTATGAGCAGGCTGTTGCTAATGGTGATTCTGAAGTTGTTCTTAAAAAGTTGAAGAAGTCTTTGAATGTG	AAAAAEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEE<EEEEEEEEAAEEAAEEEEEEEEEEEEEAE<AAAAAAE/AEEAEEEEEEEEEEEEEAAAEAAEEA	s1:i:148	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1151736	83	MT192765.1	12222	60	151M	=	12126	-247	ATCTGAATTTGACCGTGATGCAGCCATGCAACGTAAGTTGGAAAAGATGGCTGATCAAGCTATGACCCAAATGTATAAACAGGCTAGATCTGAGGACAAGAGGGCAAAAGTTACTAGTGCTATGCAGACAATGCTTTTCACTATGCTTAGA	AAAAAAEA//EE/EAAAEAEEEEAAEEAA</AEEEEEEAAEAAEEEEEA<EEEEEEAEEEEEAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEE<EE/EEEEEEAEE/EEEEEEEEEE/EEEEEEEEEEEAEEEE/EEAEEEEEAEEAAAAA	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1151736	163	MT192765.1	12126	60	151M	=	12222	247	TTTTGCTACTGCTCAAGAAGCTTATGAGCAGGCTGTTGCTAATGGTGATTCTGAAGTTGTTCTTAAAAAGTTGAAGAAGTCTTTGAATGTGGCTAAATCTGAATTTGACCGTGATGCAGCCATGCAACGTAAGTTGGAAAAGATGGCTGAT	AAAAAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEE<EEEEAEEEEEEEEEEEEEEEEAEEEEEAEEAAEEE<AEAEEE<A/AAEEEEEEEAAAAA<AAAE<EEEEAEEEAEEEEEEAEEAEA/A	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:23	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1189252	99	MT192765.1	12486	60	98M	=	12486	98	CTATAACACATATAAAAATACGTGTGATGGTACAACATTTACTTATGCATCAGCATTGTGGGAAATCCAACAGGTTGTAGATGCAGATAGTAAAATTG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEAEEE	s1:i:88	s2:i:0	RG:Z:1	NM:i:0	AS:i:196	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:196
+ERR5069949.1189252	147	MT192765.1	12486	52	98M	=	12486	-98	CTATAACACATATAAAAATACGTGTGATGGTACAACATTTACTTATGCATCAGCATTGTGGGAAATCCAACAGGTTGTAGATGCAGATAGTAAAATTG	EEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:88	s2:i:27	RG:Z:1	NM:i:0	AS:i:196	de:f:0	rl:i:0	cm:i:2	nn:i:0	tp:A:P	ms:i:196
+ERR5069949.1246538	99	MT192765.1	12601	60	148M	=	12627	177	AGTATGGACAATTCACCTAATTTAGCATGGCCTCTTATTGTAACAGCTTTAAGGGCCAATTCTGCTGTCAAATTACAGAATAATGAGCTTAGTCCTGTTGCACTACGACAGATGTCTTGTGCTGCCGGTACTACACAAACTGCTTGCA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEA/EEEEEAEEEEEE/EEEEEEEEEEEEAAAAEEAEEEEEEEEEEEEEEEEE	s1:i:168	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.1246538	147	MT192765.1	12627	60	151M	=	12601	-177	ATGGCCTCTTATTGTAACAGCTTTAAGGGCCAATTCTGCTGTCAAATTACAGAATAATGAGCTTAGTCCTGTTGCACTACGACAGATGTCTTGTGCTGCCGGTACTACACAAACTGCTTGCACTGATGACAATGCGTTAGCTTACTACAAC	AAAAAAEEEAAEEEEAAEAAAEEA<AAAEEAEEEAAEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEAAAAA	s1:i:168	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1328186	83	MT192765.1	12953	60	151M	=	12866	-238	AAGGATTAAACAACCTAAATAGAGGTATGGTACTTGGTAGTTTAGCTGCCACAGTACGTCTACAAGCTGGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGA	EE/<E6/E<AAE<E<EEAEE<AAEE//EEEEEA<A6</EEAEEEEE<AAAEEEEEEEEAEEEEEEAEE/EEEAEEEEEEEE/EAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1328186	163	MT192765.1	12866	60	151M	=	12953	238	GTACTATCTATACAGAACTGGAACCACCTTGTAGGTTTGTTACAGACACACCTAAAGGTCCTAAAGTGAAGTATTTATACTTTATTAAAGGATTAAACAACCTAAATAGAGGTATGGTACTTGGTAGTTTAGCTGCCACAGTACGTCTACA	AAAAAEEEEEEE/EEAEEEEAEEEEEAEEEEEEEEAEEEEEEEEEEEEEAE/EEEEEEAEE/EEEEEEEEEEEEEEEEEAAAEA/EEEEEEEAAEEEEE/EEEEAEEEEEAAEEEE/AAAE<A<EEEE6AEEAAA<<<<AA<AE/EEAEEA	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1331889	99	MT192765.1	13010	60	132M	=	13010	132	GTCTACAAGCTGGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTG	A/AAAEEEEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEEEEAEEEEEEEEEEEEEEE/EEEEE<AEAEEEEE/EAEAEEE/AEEEEEEEEEEEEEEEEEEEEAE/EEEEEEEEEEEEEEEEEEEEEEEA<EE	s1:i:122	s2:i:0	RG:Z:1	NM:i:0	AS:i:264	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:264
+ERR5069949.1331889	147	MT192765.1	13010	48	132M	=	13010	-132	GTCTACAAGCTGGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTG	A/EEEEEAEEEEEEEEAEEEEEEEEEA<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEAAEEEEEE/EEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEEEEAAAAA	s1:i:26	s2:i:122	RG:Z:1	NM:i:0	AS:i:264	de:f:0	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:264
+ERR5069949.1340552	83	MT192765.1	13029	60	151M	=	13021	-159	AACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTGTTAAGATGTTGTGTACACACACTGGTACTGGTCAGGCA	AEAAAAEE/A<EEAAEEE/EEEEEEEEEEAAEEEEEEEEAAEEEEEEEEE<EEEAEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEAAAAA	s1:i:145	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1340552	163	MT192765.1	13021	60	148M	=	13029	159	GGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTGTTAAGATGTTGTGTACACACACTGGTA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEAEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEAEEEEEEEAEAEEEEEEEEEE<EEEEEEEEEEEEEEAAA<AEEEEEEEEEEEEEE	s1:i:145	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.1412839	83	MT192765.1	13187	60	147M	=	13154	-180	TTACACCGGAAGCCAATATGGATCAAGAATCCTTTGGTGGTGCATCGTGTTGTCTGTACTGCCGTTGCCACATAGATCATCCAAATCCTAAAGGATTTTGTGACTTAAAAGGTAAGTATGTACAAATACCTACAACTTGTGCTAATG	EEA<AAEAAAAAAE<A<<EA<EAE</E<EEEEE/EEEEAAAEEE/EEEE/EEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEA<EEEEEEEAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEAEEAAAAA	s1:i:166	s2:i:0	RG:Z:1	NM:i:0	AS:i:294	de:f:0	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.1412839	163	MT192765.1	13154	60	150M	=	13187	180	GTACACACACTGGTACTGGTCAGGCAATAACAGTTACACCGGAAGCCAATATGGATCAAGAATCCTTTGGTGGTGCATCGTGTTGTCTGTACTGCCGTTGCCACATAGATCATCCAAATCCTAAAGGATTTTGTGACTTAAAAGGTAAGT	AAAA6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEAEEEAAAAEEEEEEEEEEAAEEAEAE<EEEAEAEEE/<AAAEAEAA/EAEEEEAEEAAE/AEA/EEEAEEAEAA	s1:i:166	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1476386	99	MT192765.1	13329	60	151M	=	13382	201	TAATGACCCTGTGGGTTTTACACTTAAAAACACAGTCTGTACCGTCTGCGGTATGTGGAAAGGTTATGGCTGTAGTTGTGATCAACTCCGCGAACCCATGCTTCAGTCAGCTGATGCACAATCGTTTTTAAACGGGTTTGCGGTGTAAGTG	AAAAA/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEEEAEEEEEEE/AEEE/EEEEEE/AEE/EEAE/EEE<EA/<EEA/EEEEE/EEEEAAEEEAAAAEEAEEE	s1:i:188	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1476386	147	MT192765.1	13382	60	148M	=	13329	-201	TGTGGAAAGGTTATGGCTGTAGTTGTGATCAACTCCGCGAACCCATGCTTCAGTCAGCTGATGCACAATCGTTTTTAAACGGGTTTGCGGTGTAAGTGCAGCCCGTCTTACACCGTGCGGCACAGGCACTAGTACTGATGTCGTATAC	AAEEEA<AEA/AAAEEE/E/AEE/E6AE/EAE/EEE<EEEAEEEEEEEEAAEE<<EEEEEEEEEEEEEEEEEEEEEA/EEEEEAA//EAEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6EEAA6AA	s1:i:188	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.1538968	83	MT192765.1	13817	48	150M	=	13799	-168	CTATGCTTTAAGGCATTTTGATGAAGGTAATTGTGACACATTAAAAGAAATACTTGTCACATACAATTGTTGTGATGATGATTATTTCAATAAAAAGGACTGGTATGATTTTGTAGAAAACCCAGATATATTACGCGTATACGCCAACTT	AEE6AA<E/EA/<AE<AEA<6AA6AAEEEAAA6/6</AEEEE<EEEEEEE/EEEE//EEEAEEE/EEEA/EEEAEE/EEEE/EAEEEEEE<AEEEEAEEEEAEAEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEAEEAEEEEEEEAAAAA	s1:i:41	s2:i:154	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1538968	163	MT192765.1	13799	60	151M	=	13817	168	CACGATGGCAGACCTCGTCTATGCTTTAAGGCATTTTGATGAAGGTAATTGTGACACATTAAAAGAAATACTTGTCACATACAATTGTTGTGATGATGATTATTTCAATAAAAAGGACTGGTATGATTTTGTAGAAAACCCAGATATATTA	AAAAAEEEAEEAEEEAEEEAEEEAE<EEE6EAEA<EAAAEEEEEEEEEEEEEA/</EEEEEEEEEEEEEEEEEEEEEEAEEEEE/AEEEEEEEEAEEEEEEEEEEEEEEEEAEEEAA<AEAEE<AAE<A<AEEEEE/EA6AAA/EE/EEEA	s1:i:154	s2:i:0	RG:Z:1	NM:i:1	AS:i:294	de:f:0.0066	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.1704586	99	MT192765.1	14601	60	149M	=	14761	310	GATAAACGCACTACGTGCTTTTCAGTAGCTGCACTTACTAACAATGTTGCTTTTCAAACTGTCAAACCCGGTAATTTTAACAAAGACTTCTATGACTTTGCTGTGTCTAAGGGTTTCTTTAAGGAAGGAAGTTCTGTTGAATTAAAACA	AAAA6EEEE/EE6EEEEEEEEEEEEEEEEEE<EEEEEEEE6EEAEEEEEA<EEEEE66EEEEE///EEEAEEEE<EEEEEEA/EE/EEEEEEEAE<E<AA<AAAEEAE/AEE<E<AA<EAAEEAE/AEE/E/EAEAAAEE/EA/A//EE	s1:i:277	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.1704586	147	MT192765.1	14761	60	150M	=	14601	-310	CTCAGGATGGTAATGCTGCTATCAGCGATTATGACTACTATCGTTATAATCTACCAACAATGTGTGATATCAGACAACTACTATTTGTAGTTGAAGTTGTTGATAAGTACTTTGATTGTTACGATGGTGGCTGTATTAATGCTAACCAAG	A//EEAE<AAA<AEAA6EEE</<AAA6EE//A<A<<AE<E//AEEEEE<EEEEAEAA<AEA<AE/EEEEAEEAEEEAEAEEAEEE/EEEEEEAE<EEEEEEEEEEEEEE/EEEEEEAEEEEEEEEEEE/EEEEEE/EEEEE<EEEA/AAA	s1:i:277	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1709367	83	MT192765.1	14886	50	129M	=	14886	-129	GGTGGCTGTATTAATGCTAACCAAGTCATCGTCAACAACCTAGACAAATCAGCTGGTTTTCCATTTAATAAATGGGGTAAGGCTAGACTTTATTATGATTCAATGAGTTATGAGGATCAAGATACACTT	AA/EEAAAEEEEAEE6A/EAAEAAEAAAAAAAAEEAEEE/AEAE<AEEAEAE/EEEEEEEEA/EEAA<AEE/EEE<AEA<EAAEAAEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEAEEEAEEEAAAAA	s1:i:117	s2:i:42	RG:Z:1	NM:i:1	AS:i:248	de:f:0.0078	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:248
+ERR5069949.1709367	163	MT192765.1	14886	60	129M	=	14886	129	GGTGGCTGTATTAATGCTAACCAAGTCATCGTCAACAACCTAGACAAATCAGCTGGTTTTCCATTTAATAAATGGGGTAAGGCTAGACTTTATTATGATTCAATGAGTTATGAGGATCAAGATACACTT	AAAAAEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEEEEAEEEEEEEEEEEEEEE	s1:i:117	s2:i:0	RG:Z:1	NM:i:1	AS:i:248	de:f:0.0078	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:248
+ERR5069949.1778133	83	MT192765.1	15491	48	146M1D5M	=	15485	-158	AACTGCTTATGCTAATAGTGTTTTTAACATTTGTCAAGCTGTCACGGCCAATGTTAATGCACTTTTATCTACTGATGGTAACAAAATTGCCGATAAGTATGTCCGCAATTTACAACACAGACTTTATGAGTGTCTCTATAGAAATAAGATG	AEEAEEEEEAAAAAA<AEEEEEEEEEEEEEEEEEEAEEEEEEEAEAEEEEEEEEEEEEEEAEEEEAEAEAEEEEEEEEEEEE<AEEEEAAAEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:55	s2:i:139	RG:Z:1	NM:i:1	AS:i:292	de:f:0.0066	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.1778133	163	MT192765.1	15485	60	150M	=	15491	158	TGCCACAACTGCTTATGCTAATAGTGTTTTTAACATTTGTCAAGCTGTCACGGCCAATGTTAATGCACTTTTATCTACTGATGGTAACAAAATTGCCGATAAGTATGTCCGCAATTTACAACACAGACTTTATGAGTGTCTCTATAGAAA	AAAAAEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAAEEEEEE<AEEEEEEE/AAAE<AAEEAAEEEA<EAAEEEA<AAEEEEEE/EEAAAEE/EAAAAEEEEEAEAEE	s1:i:139	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1980512	83	MT192765.1	16852	60	151M	=	16801	-202	CTGTTGTTTACCGAGGTACAACAACTTACAAATTAAATGTTGGTGATTATTTTGTGCTGACATCACATACAGTAATGCCATTAAGTGCACCTACACTAGTGCCACAAGAGCACTATGTTAGAATTACTGGCTTATACCCAACACTCAATAT	EEEEEEEEEEAEEEEEEAAEEEEEAAEAEAAAEAEEEAEAEEEAEEEAEEEEEAEAAEEEEAEAEEEEEEEAEEEEEEEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:193	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:12	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1980512	163	MT192765.1	16801	60	150M	=	16852	202	GTAAAGTACAAATAGGAGAGTACACCTTTGAAAAAGGTGACTATGGTGATGCTGTTGTTTACCGAGGTACAACAACTTACAAATTAAATGTTGGTGATTATTTTGTGCTGACATCACATACAGTAATGCCATTAAGTGCACCTACACTAG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEAEEEEEEEEEA<EEEEEEAEEEEAAAEEAAE<EEEAAAA<AA<EEEE/AE	s1:i:193	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2033605	83	MT192765.1	17101	48	150M	=	17083	-168	TTGCTATTGGCCTAGCTCTCTACTACCCTTCTGCTCGCATAGTGTATACAGCTTGCTCTCATGCCGCTGTTGATGCACTATGTGAGAAGGCATTAAAATATTTGCCTATAGATAAATGTAGTAGAATTATACCTGCACGTGCTCGTGTAG	AAA<EAA<EEEAAAA/E</EA/E6EAEE/EE/AEA<AAEEAEEA/EE<EEEEEEEEEEEE<AEE/AEEE/EAAEEEAEEAEEEEE<EEE<EEEEEAAEEEEEEEEAEEEEEAEEAEEEEEEEEEAEEEEEEEEEEEEEEEEE/EEAAAAA	s1:i:34	s2:i:160	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2033605	163	MT192765.1	17083	60	149M	=	17101	168	GTACTGGTAAGAGTCATTTTGCTATTGGCCTAGCTCTCTACTACCCTTCTGCTCGCATAGTGTATACAGCTTGCTCTCATGCCGCTGTTGATGCACTATGTGAGAAGGCATTAAAATATTTGCCTATAGATAAATGTAGTAGAATTATA	AAAAAEAEEEEEEEEEEEEAEEEEEEEEEEEEE<EEEEEEEEEEE<EEEEEEEEAAEAEEEEEEEEEEEE/EAAEEEA/EEEEEEAE<EEEEEEEEE<AEEEEAAAEAE<EAEEEEEE//</A/AEAAAEA/<E<AEEEAEE<EEEEEE	s1:i:160	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:24	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.2161340	99	MT192765.1	17482	60	80M	=	17482	82	AACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGT	A/AA//EEAEA/E/AEEEE6EE/EEEA/6AEEEEEEEEE6EEEAEAEE//A/EEEEEE//E/E/A//E/E/<<EE</E/E	s1:i:69	s2:i:0	RG:Z:1	NM:i:0	AS:i:160	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:160
+ERR5069949.2161340	147	MT192765.1	17482	55	82M	=	17482	-82	AACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCC	A//E/<EAEA/EE/EEEA/<AE<AE/AEA/EEEAE/EEE//EEE6////EEEEAEAE///EE//</E/E</AE/6EAAA6AA	s1:i:69	s2:i:0	RG:Z:1	NM:i:0	AS:i:164	de:f:0	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:164
+ERR5069949.2243023	83	MT192765.1	17854	60	150M	=	17713	-291	ACTATGTCATATTCACTCAAACCACTGAAACAGCTCACTCTTGTAATGTAAACAGATTTAATGTTGCTATTACCAGAGCAAAAGTAGGCATACTTTGCATAATGTCTGATAGAGACCTTTATGACAAGTTGCAATTTACAAGTCTTGAAA	EE<EAEEAE<EA<E/EEAEAEEEE<EEEEAA<AEEEEEEEEEAAEAEEE<EEEEAEEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:273	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2243023	163	MT192765.1	17713	60	151M	=	17854	291	TGGTAAGAGAATTCCTTACACGTAACCCTGCTTGGAGAAAAGCTGTCTTTATTTCACCTTATAATTCACAGAATGCTGTAGCCTCAAAGATTTTGGGACTACCAACTCAAACTGTTGATTCATCACAGGGCTCAGAATATGACTATGTCAT	AAAAAEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEAEEEEEEEEEEEEEE/EEEEAAEEAEEA<EEEEEEEEEEEEEEAEEEEE<<AA6AAEEEAEE	s1:i:273	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2257580	99	MT192765.1	17980	60	151M	=	18039	209	AGTTGCAATTTACAAGTCTTGAAATTCCACGTAGGAATGTGGCAACTTTACAAGCTGAAAATGTAACAGGACTCTTTAAAGATTGTAGTAAGGTAATCACTGGGTTACATCCTACACAGGCACCTACACACCTCAGTGTTGACACTAAATT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEEEEEEEEEAEEEEEEAEEEEEEEEEEEEAEEEEEEEEEAEEEEEEAEE/EEAEA<EAEEEAEEEEEEEEE<EEAAAEAEEE<EA	s1:i:196	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2257580	147	MT192765.1	18039	60	150M	=	17980	-209	AATGTAACAGGACTCTTTAAAGATTGTAGTAAGGTAATCACTGGGTTACATCCTACACAGGCACCTACACACCTCAGTGTTGACACTAAATTCAAAACTGAAGGTTTATGTGTTGACATACCTGGCATACCTAAGGACATGACCTATAGA	EEEEEEAEEAAEEEEAAAAEEEEEEAEEEEAEAEEEAEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:196	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2521353	99	MT192765.1	19597	60	150M	=	19698	251	CTTTTACAAGACTTCAGAGTTTAGAAATTGTGGCTTATAATGTTGTAATTAAGGGACACTTTGATGGACAACAGGGTGAAGTACCAGTTTCTATCATTAATAACTCTGTTTACACAAAAGTTGATGGTGTTGATGTAGAATTGTTTGAAA	AAA/AE/6E6EEEEAEE/EE/EEE/EE/EA/EAEA//EEEEE6EAEAE/EEEEEE/EAE////EEA/EEEEEEEEEEEEEE///A/EEAEEEEEEEE<AEAEEE/AE/E<E/EEEEEA/E///AE/66AEEAEEE<E//E/EA/A<6AEE	s1:i:175	s2:i:0	RG:Z:1	NM:i:4	AS:i:260	de:f:0.0267	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:260
+ERR5069949.2521353	147	MT192765.1	19698	60	150M	=	19597	-251	ATCACTGTTTTCACAAAAGTTGATGGTGTTGATGTAGAATTGTTTGAAAATAAAACAACATTACCTGTTAATGTAGCTTTTGTGCTTTGGGCTAAGCGCAACATTAAACCAGTACCAGAGGTGAAAATACTCAATAATTTGGGTGTGGAC	A//A</</EE/A<AEEA//E<EEE/E<A/<<A///<6EAEEEEE/AAA</A//<<EA/EEA//</AA6EEAE</EEA//AEE//</AEEAE/EEEA/A/EEEE//E/EAA/EEE/AEE<EEE<EE/EAEEEEE6EEEE/EEEEEEAAAAA	s1:i:175	s2:i:0	RG:Z:1	NM:i:4	AS:i:266	de:f:0.0267	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:266
+ERR5069949.2605155	99	MT192765.1	21717	60	146M	=	21726	159	GTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTCTCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTTCCACTGAGAAGTCTAACATAATAAGAG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEE/EEEEEEEEEEEEEE<EEAEEEAEAEAEEEEEEEEAAEEEEE<EEAEAEEEAA<E<EAAE</E/AA	s1:i:148	s2:i:0	RG:Z:1	NM:i:0	AS:i:292	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.2605155	147	MT192765.1	21726	60	150M	=	21717	-159	TTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTCTCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTTCCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGG	A/EEEE/EEAEAEEEEEAEEAEEEAAAEEEAEEEEEEAEE/EEEAEAEAEEEEEEAEEAEEEEEAEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:148	s2:i:30	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2650879	83	MT192765.1	22710	60	150M	=	22659	-201	TAAATTAAATGATCTCTGCTTTACTAATGTCTATGCAGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATTGCTGATTATAATTATAAATTACCAGATGATTTTACAGGCTGCGTTATAGC	EAEEEAEE<EEE/EEEEEEAEEEEEEEEEEEA<AAEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEAEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:192	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2650879	163	MT192765.1	22659	60	151M	=	22710	201	ATATAATTCCGCATCATTTTCCACTTTTAAGTGTTATGGAGTGTCTCCTACTAAATTAAATGATCTCTGCTTTACTAATGTCTATGCAGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATT	AAAAAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEAEE<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEEAEEE<A<EEEEAAAAEEEEEEEEEEEE	s1:i:192	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2730382	83	MT192765.1	23528	48	142M	=	23528	-142	ACTCATATGAGTGTGACATACCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGT	A<AA<A<EEEAAA/A<AEAEAEA<EAA<<AEA<EEEAAAEE<EEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEE<EEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEAEEEEEEE/EAAAAA	s1:i:48	s2:i:143	RG:Z:1	NM:i:0	AS:i:284	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:284
+ERR5069949.2730382	163	MT192765.1	23528	60	142M	=	23528	142	ACTCATATGAGTGTGACATACCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGT	AAAAAEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAE<EE/EEEEEEE/EEAEEEEEEEEEEEEEEEEEEAEEEEA<AEA<<EA<A<AEEEEEA<EAE<66A/AEEEEEEEAE<AAEA	s1:i:143	s2:i:0	RG:Z:1	NM:i:0	AS:i:284	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:284
+ERR5069949.2734474	81	MT192765.1	23547	1	149M	=	23548	-148	ACCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGTTGCTTACTCTAATAACTCTATTGCCA	AA/EEA/EAAAA<AAEEEEAAEEEEEEE<A/EEAEE<AEEEEEEEEAEEEEAEAAEAAEE/EEAAEEE/AEA/EEE/E/EEEEEEEEE/EEEEEEEEAEE/EEEE/EEEEEAEEEEEEEEEEEEEEEEE//EEEEAEEEEEEEAAA/AA	s1:i:58	s2:i:136	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.2734474	161	MT192765.1	23548	60	148M	=	23547	148	CCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGTTGCTTACTCTAATAACTCTATTGCCA	AAAA/EEEEEEEEE/E/EE6EEEEAEEEEEEAEEEEE/EEEEEEEEEEEAE/EAEE/EEEEEAE/EE<EAEEEEEEA/E<EEEEAE/EA<EEEEAEE/E/EE<EEEEE</EE/E//<<<AA6A<A<A/<AE/AE/EEEA6<A6A/</A	s1:i:136	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.2734873	83	MT192765.1	23550	48	98M	=	23550	-98	CATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGT	EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEE/EEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:25	s2:i:92	RG:Z:1	NM:i:0	AS:i:196	de:f:0	rl:i:0	cm:i:4	nn:i:0	tp:A:P	ms:i:196
+ERR5069949.2734873	163	MT192765.1	23550	60	98M	=	23550	98	CATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE	s1:i:92	s2:i:0	RG:Z:1	NM:i:0	AS:i:196	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:196
+ERR5069949.2772897	83	MT192765.1	23876	60	144M1D7M	=	23809	-219	AAGACAAAAACACCCAAGAAGTTTTTGCACAAGTCAAACAAATTTACAAAACACCACCAATTAAAGATTTTGGTGGTTTTAATTTTTCACAAATATTACCAGATCCATCAAAACCAAGCAAGAGGTCATTTATTGAAGATCTACTTTCAAC	AEEEEEE<AAEEAAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEAAEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:199	s2:i:0	RG:Z:1	NM:i:1	AS:i:294	de:f:0.0066	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:288
+ERR5069949.2772897	163	MT192765.1	23809	60	150M	=	23876	219	CTTTCGTTGCAATATGGCAGTTTTTGTACACAATTAAACCGTGCTTTAACTGGAATAGCTGTTGAACAAGACAAAAACACCCAAGAAGTTTTTGCACAAGTCAAACAAATTTACAAAACACCACCAATTAAAGATTTTGGTGGTTTTAAT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEA<EAEEEE<EEEEAEEAAEEEEEEEEEEE	s1:i:199	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.2787556	99	MT192765.1	24088	60	106M	=	24088	106	GCTGCTAGAGACCTCGTTTGTGCACAAAAGTTTAACGGCCTTACTGTTTTGCCACCTTTGCTCACAGATGAAATGATTGCTCAATACACTTCTGCACTGTTAGCGG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAE	s1:i:78	s2:i:0	RG:Z:1	NM:i:1	AS:i:202	de:f:0.0094	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:202
+ERR5069949.2787556	147	MT192765.1	24088	50	106M	=	24088	-106	GCTGCTAGAGACCTCGTTTGTGCACAAAAGTTTAACGGCCTTACTGTTTTGCCACCTTTGCTCACAGATGAAATGATTGCTCAATACACTTCTGCACTGTTAGCGG	EEAAEEEEEEEEA<EEEE<AAA<EEEEEAEEEEEEAEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:78	s2:i:0	RG:Z:1	NM:i:1	AS:i:202	de:f:0.0094	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:202
+ERR5069949.2832676	99	MT192765.1	24409	60	139M	=	24409	139	GTCAACCAAAATGCACAAGCTTTAAACACGCTTGTTAAACAACTTAGCTCCAATTTTGGTGCAATTTCAAGTGTTTTAAATGATATCCTTTCACGTCTTGACAAAGTTGAGGCTGAAGTGCAAATTGATAGGTTGATCA	AAAA6EEEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<E/EAEEAEEEAEEAEEEEEAEEEEEEEEEEEEEEAEEAEEEEEAAEEEEEEA<AEEEAAAAEEEEE<EEAAAEEAEEAAEEEEA	s1:i:132	s2:i:0	RG:Z:1	NM:i:0	AS:i:278	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:278
+ERR5069949.2832676	147	MT192765.1	24409	48	139M	=	24409	-139	GTCAACCAAAATGCACAAGCTTTAAACACGCTTGTTAAACAACTTAGCTCCAATTTTGGTGCAATTTCAAGTGTTTTAAATGATATCCTTTCACGTCTTGACAAAGTTGAGGCTGAAGTGCAAATTGATAGGTTGATCA	A<EEEE</EAEA6EEA</AEEEEAEEEAAE/EEAEE<A<AAAEEEEAAEEE/EEEEEEEEAEEAEEAA<EEEEEEEA<EEEAEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEAA6AA	s1:i:37	s2:i:132	RG:Z:1	NM:i:0	AS:i:278	de:f:0	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:278
+ERR5069949.2888794	83	MT192765.1	24853	60	151M	=	24758	-246	ACACACTGGTTTGTAACACAAAGGAATTTTTATGAACCACAAATCATTACTACAGACAACACATTTGTGTCTGGTAACTGTGATGTTGTAATAGGAATTGTCAACAACACAGTTTATGATCCTTTGCAACCTGAATTAGACTCATTCAAGG	AAEAAAEEEEEEEEEEEEEEEAAAEEEEAAEEAAAAEEEEAEEEEEEEEE/EEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:231	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2888794	163	MT192765.1	24758	60	150M	=	24853	246	TCCCTGCACAAGAAAAGAACTTCACAACTGCTCCTGCCATTTGTCATGATGGAAAAGCACACTTTCCTCGTGAAGGTGTCTTTGTTTCAAATGGCACACACTGGTTTGTAACACAAAGGAATTTTTATGAACCACAAATCATTACTACAG	AAAAAEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEAEE<<<6AEE</AAAEEEEEEEAA<EEAAEA	s1:i:231	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:25	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.3017828	99	MT192765.1	26176	60	107M	=	26177	107	ATGATGAACCGACGACGACTACTAGCGTGCCTTTGTAAGCACAAGCTGATGAGTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAAT	AAAAAE6EEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEEEEEEEEEEEEEEEEEAEEEEE	s1:i:96	s2:i:0	RG:Z:1	NM:i:0	AS:i:214	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:214
+ERR5069949.3017828	147	MT192765.1	26177	48	106M	=	26176	-107	TGATGAACCGACGACGACTACTAGCGTGCCTTTGTAAGCACAAGCTGATGAGTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAAT	A/EAAEEEAEEAE<E</EEEEEEEEEAE<EEEEEEAE<EE/E<EEEEEEEEEEEE<EEAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEAAAAA	s1:i:37	s2:i:96	RG:Z:1	NM:i:0	AS:i:212	de:f:0	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:212
+ERR5069949.3022231	99	MT192765.1	26228	60	147M	=	26228	147	GTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAATAGCGTACTTCTTTTTCTTGCTTTCGTGGTATTCTTGCTAGTTACACTAGCCATCCTTACTGCGCTTCGATTGTGTGCGTACTGCTGCAATAT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEAAAAEEEEEEEEAEEE	s1:i:139	s2:i:0	RG:Z:1	NM:i:0	AS:i:294	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.3022231	147	MT192765.1	26228	48	147M	=	26228	-147	GTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAATAGCGTACTTCTTTTTCTTGCTTTCGTGGTATTCTTGCTAGTTACACTAGCCATCCTTACTGCGCTTCGATTGTGTGCGTACTGCTGCAATAT	EAAAEEEEEEAEEEEE<EEEEAE<EEAAEAAEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:34	s2:i:139	RG:Z:1	NM:i:0	AS:i:294	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.3057020	99	MT192765.1	26621	60	86M9S	=	26621	86	CAATTTGCCTATGCCAACAGGAATAGGTTTTTGTATATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGGTTGTACGC	AAAAAEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAE	s1:i:71	s2:i:0	RG:Z:1	NM:i:0	AS:i:172	de:f:0	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:172
+ERR5069949.3057020	147	MT192765.1	26621	51	86M9S	=	26621	-86	CAATTTGCCTATGCCAACAGGAATAGGTTTTTGTATATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGGTTGTACGC	EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:71	s2:i:33	RG:Z:1	NM:i:0	AS:i:172	de:f:0	rl:i:0	cm:i:2	nn:i:0	tp:A:P	ms:i:172
+ERR5069949.3122970	83	MT192765.1	26996	48	127M	=	26996	-127	ATCAAGGACCTGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGTAGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCA	A//6AAAEAEEA/AAEEEEEEAAE/EEE//A<EEEEEEEEEAEEE/EEAAEEAEEEE/<EEAEEEEEAEEAEEAEEEEEEEEA<EAEEAEAEAEEA6EEEEEEEEEEEEEAEEEAEEEEEEEA/AAA	s1:i:52	s2:i:119	RG:Z:1	NM:i:0	AS:i:254	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:254
+ERR5069949.3122970	163	MT192765.1	26996	60	126M	=	26996	127	ATCAAGGACCTGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGTAGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGC	AAAAAEE6EEEEEEEAEEEEEEEEEEEAEEEEEEEEEEEEEE/EEEEEAE<EEAEAEEEEEEEEEAAEEEEAEAEEE/AEEE<A<A/AAAAAE/E<A66AEEEEEEEEEEEAE<</6AA<A/6/EA	s1:i:119	s2:i:0	RG:Z:1	NM:i:0	AS:i:252	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:252
+ERR5069949.3184655	83	MT192765.1	27352	60	150M	=	27311	-191	ATGAAGAGCAACCAATGGAGATTGATTAAACGAACATGAAAATTATTCTTTTCTTGGCACTGATAACACTCGCTACTTGTGAGCTTTATCACTACCAAGAGTGTGTTAGAGGTACAACAGTACTTTTAAAAGAACCTTGCTCTTCTGGAA	AAAE6E</EA6<A6/A/E6A</EEE<EEA///E/A<<</AEEEE<E<EEEEEEEEEE/E<E/EE/A<AEEAEAE/EEEEEEEAEEEEEEEEEEEEE/AEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEAAAAA	s1:i:185	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.3184655	163	MT192765.1	27311	60	150M	=	27352	191	TTTATCTAAGTCACTAACTGAGAATAAATATTCTCAATTAGATGAAGAGCAACCAATGGAGATTGATTAAACGAACATGAAAATTATTCTTTTCTTGGCACTGATAACACTCGCTACTTGTGAGCTTTATCACTACCAAGAGTGTGTTAG	AAAAAEEEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEE<EEEEE/EEEEEAEAEEEEE/EEEAEEE<EEEEEE<EEAAEEAEEEEEAAAEEE/E<AAEEAAAE6A/A<<A<AAAEE/AA6AE/A	s1:i:185	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.3249622	83	MT192765.1	28372	37	77M	=	28218	-231	CGATAAAAACAAGGTCGGCCCCAAGGTTTACCCATTAATACTGCGTCTTGGTTCACCGCTCTCACTCAACATGGCAA	E/E///<E<<////AE/EEA/EEEEEE/EEEEE//A//E/EEEEEEEE/EEE/EE/EAEEAEEEAEE/AE/EAAAAA	s1:i:97	s2:i:0	RG:Z:1	NM:i:3	AS:i:124	de:f:0.039	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:124
+ERR5069949.3249622	163	MT192765.1	28218	38	116M	=	28372	231	ATCATGACGTTCGTGTTGTTTTAGATTTCATCGAAACGAACAAACAAAAATGTCTGATAATGGACCCCAAAATCATCGAAATGCACCCCGCATTACGGTTGGTGGACCCTCCGATT	AAA/AE//EEE/EE6AE/A</EE//6AE6EE//EE/AE//A/EE//EEEE<EAA/EE//<E/A/E/EE//E/A/E/E//EE/<A/A<EE/A//</EE//E/E//A/EEE///A//6	s1:i:97	s2:i:0	RG:Z:1	NM:i:5	AS:i:182	de:f:0.0431	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:182
+ERR5069949.3338256	83	MT192765.1	29452	60	151M	=	29431	-172	CCTGCTGCAGATTTGGATGATTTCTCCAAACAATTGCAACAATCCATGAGCAGTGCTGACTCAACTCAGGCCTAAACTCATGCAGACCACACAAGGCAGATGGGCTATATAAACGTTTTCGCTTTTCCGTTTACGATATATAGTCTACTCT	AEEEEEEEEEEEA<AEEAEEEEEEAA<EEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEAAE<EEEEEAEEEEEEEEEEAEEA/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:163	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.3338256	163	MT192765.1	29431	60	150M	=	29452	172	CAGCAAACTGTGACTCTTCTTCCTGCTGCAGATTTGGATGATTTCTCCAAACAATTGCAACAATCCATGAGCAGTGCTGACTCAACTCAGGCCTAAACTCATGCAGACCACACAAGGCAGATGGGCTATATAAACGTTTTCGCTTTTCCG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEAEEEEEEEEAAAAAEA<AAAEA<AA	s1:i:163	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:25	nn:i:0	tp:A:P	ms:i:300
diff --git a/src/umi_tools/umi_tools_prepareforrsem/test_data/test_dedup.bam b/src/umi_tools/umi_tools_prepareforrsem/test_data/test_dedup.bam
new file mode 100644
index 0000000000000000000000000000000000000000..0694dec737c76228e68a5e50bb5bbffca8429716
GIT binary patch
literal 18822
zcmV)DK*7HsiwFb&00000{{{d;LjnM70fmy^PQox4#fx{vm)Hxe<Eso@uQnh-l5I{W
z+%DZ8a0y#+t!TXW?R+T1kS&s-cc=Zn{!Y$GCyv+qx<bglo8gtufQ)c>&k`Z3G%vZz
z`gZt$L!Wt1VA1i&B!FF?QR|jkefx2a7c&Ofov>{l0}foaaNVW1@Esg_Ol4BxV98=$
zB_hqBZwK{*A}{lT?<fxZR<C?U35@m18UmiW%|O%nyCy5`0Fy?_6*tygDsD(#$wcg_
zF`qio0KgoY=FlV%IidG++C#L-N>StqS(p4A@nWQ9i-~~Lmt^zt&mwIWPk|&aln`5a
z2-ND}S2!S0=Q_=`eV)B(dKhaBm~TrWd2vo9aL#RX7gvf(X}V~!JDyirdZdd=Whsey
z(K(Jg%;_a_0!Mo~=!o@PcNo<b9#xjU?m7)_E*j834C1ic;m}_XA#{xpYX2<yR0w?o
zuo~OM>jD4(ABzYC000000RIL6LPG)o{71EY3$!d*c~+l!F*6L6TQ$|ghC)(RR>sZ9
z8qWIx1Kz4z14V>5nZY<gAUq@*41^Uz&@7a@%QD#sBoaa5ii(315lxKo5t1nAM2Qbp
zmLY^S#EF<$goKz;7b-+T$l&+yN7b%f)!pZud+C{bPM_V?=id7Ie}4bJ|J`gY)Z;JU
zPk7f0qpih*i}x(_<7T|}7{1?q@4W}xhbJfdCwK0i93CDoUU}1EAp{dF<e`kZw&|j{
z%!*h<ZNnLFyR7DwjB44+ylJ|uDp=OWS=NeL$|kRyrp(K*7BQ>iIG1Uf21QWVN7_FN
z5?aSA34KY^LSGjI^h8}6(8c;Wy+q6O6I~zRvIH+DiTX`+b&9pL2$t$QJ)^%Xp|5z3
zC3-tn@C4VsY3I^Ee$(!y#l0_h>CWOCUVLe*yzjnz>(9LQTYuv1zxJH({Ps(W*S!AH
zliu)#ON;M%V|mZ(--Op5b8ypG-naPX#enbfD_{A_1j~0`zgXk|h1W6)c^pPrR<v2v
z#<I&hDWkY)tFq{LA&Rb&U3roIrNL4IK{uArk93RlNPuO6|CV%fxI^5k!qfiIkflXp
zeh&1TQ>;#I_}cQmOYg@0UVGEc&o%dZ!*IWs-u*%&I_))!MWk-`HNEIOhPAJZMQ3Mc
z|M+NI$xaxTRoB!xiy<UMUbZ4^GTB8kuF4|jT@`gKm#mDLY{N2)x-yDHn29RxnnvVB
z7xJttx|oY7rAJ_8#u1&-PrYQ(f3xdpLXwcC{mRT`_LVfTe_fKK8cSNI=PCUu3PAZe
z7s>@>=b0osgpI*+>B!DAxBj>R^L;&-4=#Shfcc(l7mNG0#$fIrotzvm-Uu)m595}}
zl8ZWz%1YK5FIz6Uu#_^3!;sfu#>0rkSyOj1%9}E3S=Hdmuqf*~6B#c!YYG--7gF^o
zmIgp2Wa&~rR}!UEO{=Q`-Rf<kE{7Z?&^7!?@g=}dDHa0rZhLvER@6mGY6}CSQtV_&
zFQr<RQ(7g-{G_jn1;P2T`d6(g-s-?vY+2cStcUYmy=;=aZjDvZmCaKj6-f^H<z-ii
zobxX3G8x7ZZ$%X~5bZGLcqfTUnvjfWZKUVw5s<Lpe|_V0=USxb=R^Z!Oi^k<?u9WK
z1T$48(aPei$OiqdP?yl-G_o0vWb^+za;U+)Z}E!7Ag}-U@iCZMHXnsylR}mdK7iK=
z!K;oSWo5<6P(n~eR+LfGc41gnkXKo$yDI{9^GZMnCS$CUrIE>0+v`NjB7Ip}Q8faV
zdN8Dgz41?aH-70u<NJQ1W8XexW$2gt+a6rw<5>H5o_#wwIN9G<GSoy-9Tt+8VH|T-
zvMwvLTuR(^$hs<wL#QhjGFI1N*JdG{B9l26q0Ctbi^o|T=3(6c8ExKro8*45!&Cob
zH=+=@qEQUOL@y=e^0eeBBc@(Tw7!`);Dz2_6w4&AQi^3j`7>veAq(c?jtp5a3E<~?
z3ORt;g$%&d85{vz1avIy>XJ1%K<tEUBVgKQf@N_eWEN#{4V+>2;6_-@C99h_lm+7m
zOmf@+8JLtJ0176S!4k$sn`|XGctKmh-WO=K(gGQnPeK_pKw{9e_y-nv`rXUr@S!AQ
z)m#prl9kJ!*%WBpJPI_dvv~S-gXgu*;<v8T0f-Cc@&3X7u5uP0c=;H-a2<HDtQw9t
zmaGc#t+{BB(h}HP_teovg3SD=U55_nAVGn?!n)4D3Z42W$baZxORhl$IHc~W@+lfj
z<v0p;or>E6<#gx@g7a^=a9#sApQ@e3{dXBSZ*ky!>elBBbT4$^e3`TMGEdPDPY!nW
z77xL`dCFRbVI|=cr08l<vbJoyR<v2u6>XG--2m9tdjv+FaMv&MjoZ(zHf}#Vy60`}
zAl-ZZF;5@Qd(W%?*;j;wRh$&}{IWIoe64%W|H)Ai8x&NFL6v^j^J7|VQo6dS5KT2A
ztTNseWUnd8Dk<uMy3}2+;ut9Y(%4ZIS(6uEYD=La9`o;BDx<Na=h{6}@I4V*Sb<A#
z#m#*CO@Gl!?TyaOy!F|}23&aJ;GN!KZYIRqJG{j0;OKaFXYtUDi$%p*6idW5aKL3O
z!Y-CY-gR_OWyhOLAZC=%@mRn$%Sc91#_Ni8OvbEi>R2G?$;7FJIlW5P6jR4;-v{je
zqVJB_8h6CDPPPW5q8;sy-o6+R{Vp$6)9C#a(94B@aEH8TqBv||4w0X6B)MG`v#M)Z
z7)G*#A8HscncyPJqpr?mDMg7ev20*hBX)uO4`m!hs?*O@xz<#>lSCQ7Brt}~q`y5#
zfs2ANl!<w!J<;+Ecxu5T@U~s>Zu7v~a=^Q7>qQ2<@3>{^er|ozV)5*;``Oz*+27e#
z?x&2AmDD6h9gEvA3whHu@H=IJ)D9E^L!cB1vMy05n+~~en75&fK@@}pWh|SPTvZu&
zI#)3X$x<g^fkOuLZq|_%M}Ew+-VO~hK<}_qrPKC$?fsRTG9R9DPeBsstTNE+fb+g+
z%NNEwJv?u7@Vs;D>$e8%{A7hN{`X_MWbmZeNHPg!6&%PlEJB<VQm6?{4$GLsjW;38
zG_o0(E>^{P*hvAGAAxo$k>ONG!x40fq7pn*4jTV{2p<WZ(r*2QlCfk-w@Rs8Y9j1p
z05Ns#d63wc99Qa`E(wyL56lA-P1&GnAait(uw2@_Q(Hw3&AH$xnhlO_yfBr{mtUAL
zT6;%uZ6``PD}+KqG<8$L7{beer;;LqNvtJ{cm#B7UW1$f-eJe%0%4LY5ifPX7@q*%
z3rh)lqHg1hSJ&64n_n9Lg+9xnUem$Rqh}M&>kXWD_i#SAc->-Hdz}a8;o-^A!Qz1%
z77G$UqIohNA%?F+RU%U85M4G^7R69-#=;!#1$<yuH;6>RfJLXpEj`C8;|HL4r5`bU
zVvNL1j>G-L2#Dusm*E2Op0UfgQXo!yPs`b>lC(%qfrWJdn}E2^1;VCsFTXG~SEO`H
z4+yPbid#AD&3B@#V<gH^+`&MFO+%M+DKg0;u*i~eEz-(w8i_H?Nudds)DWQ>jnhH7
z2B*z0SSTOelox-^C@;3Y^qZoowR!|=PaXTx{lkO(1D(o6oT4?6RSgTfMzo03cq<`m
zSq|<mV#K|KIpc^}!7Xzk$o01HtsQI?kBDq;7}C2|h8M4z)>%IgtbULFn9`n>LO^W(
zZv6==H?Ca@tpD{}XCwZsFMTAM3MXOwTVr2p@Fd~v(J0{?83`R@VEkgia*;<!lXFCH
zO&LoD>ZXfAx-tXeEu<NdU|AzBK`H<tjXW^n@F>u8c<Oav_F-O8%rZacc^KjJ(43Rb
zTSwAq(fqTwPARZ!;>BXelg^`)<Lx6&fuWj_H8H+Ogm76_WQg7Bh&352GXW7q3etgx
z-~u&`4&?yWAP5OX7;*3sEm%SdUNR|J^VLY3hezUCO`E$7z-d;Df|mY5&D#J?wh_&E
z7EMCV=fDWzU-D#gK$C|ZVB<VOq7he8mQ5sbQsJ`Yv6LJ<O+(mL2mxEFm4pZZS(Ha1
z0>2tTjO2I)c}OX2^ko!K2L^#5l7l|#D@G7Ze>(FAveF${+1!lglV=&l--)NPdFOJm
zcz7I`9BhN*Kh#lk6vyBR5zB>D$C2!I9pbiD#<}24DByKOjiflHI1s8GQHC7J1_T+a
zGRlHmq{m^|@GiV6vN`h$HvC#cNG3X`Q8D_!bF0wimo|YJjljILH2`Nt^RF)kfbSUl
zbOUBeb>P!NRiJhUmFAsNeoFL^iXg;}@gYFVBa>~=?JXUxOza)^Y8lw2v%`DpkIH)U
z35><oN>UB4H3r6i)5G|h#osV6ejaPT=*i^X?#a=~;vT@5K{+!HH{FH64XheG3A7cJ
zVd#7<!Yt+y%wsDWnAAFMBS<YOq#erYdBm$W#v8eav#z<YN+yG=;Yl>(t;9`POY=dI
z1<|RY$?Y_+F<byFKjLF~#~R;rN3Y*Mzntp#Q*T=={+Ea4{`SGH4l}PBlo7j1zQ?9x
z=|~u71T!%;mfl*XW6P=kH30L|XLIB>DgJy9=DYeZlZ18O({C-96lNA3%9&9J$}eOL
z(GYaEY^a*mh>ko?gm9CC?J7}-sTe3lDWKvUbPj^2S}>8v_zf9nVRS(e{Rw%QK$T(=
zgNe>o0v*q5^-j!<2YNk8hakQWiUJ2=k5JaKzH}ndw3rirtLGotloY#qerK=eB!|{q
zT0K|t>cOdHll1(&*da?obs56UQ7h~+Q5F|dTP@L@2e!>+X{vO_bgJdTEUB`el{70^
z=}f`Y0TRF1?XOrm*O*=zTLm*%etMIhUzpYNi?>bNNPYxs|HISsqrIbT?Z=zwRKPJ0
zxTeC@5a%Xu;}G8|DN_ITWpTA0!Tj<DPc$jv1I&kKOIgqR?QgzoM$ezx3+9j9Ht4w(
zOaeIe1XF`af(hqMCBcftQQdK({lmEBS;_Fd$%Tw+*2orcl_5fR#Gc@|5v^wpu%!Ad
zgOzPyV&f1FC>gZ1w`bJ;;KbXOU35fiJv!%iURE$4-Xxe$8VTkj2DiW8WBK6X#m?G`
zeZf53J3d}~4CSKJfq2;pon@dM)=tY}|MRl2mnbGW&`^$0!TmkYXK{XXe0xq2`O=S$
z?rv9`F!%2Mxi2Yay*t~SmyAA%Wd0NCzmkO+2P#Alq^G#ME%)wnqX+jqW%%s=(qdTq
zOXJV(aA#*{cW?2rCoC4AaX~rdaTW>|OJq{W7C;5d8u?btkcc5=5a6dWh5!Q8I}^|x
zEQ846vH47$kI?&+W*^DwrIlLIyET)#DOCbWZ}w68(io+{LFr2)l(w}DxG4RVu?$>2
zl)RfslR>y=?snFirsuH-))MRjr8loZ=|&eNYg2#m4-K-^+tjBo7LR+fghKh=v9hV)
z+Q7Xb&Sa7aq)1`e6>*IG2uv`c7DpKiK`-$#k3rputZh&i>wqOLMc$q>@ORL&j+vld
zJK~@(RvFK&fpDrSh0T@%!>6gY=+aDT>xH(CnDm#cdKQ`J#4sL8g;UjfL4T5Ex(rNX
z5!rPh`RhJCmwLq+*V(6A<<@{3VR;QC?uQlwzSnpXr?IT@>H|089j%9pL<y#Dkzi7=
zAA_W$2cvZk*#kpbR)SIcBPxlkgNZ@~jK#YBcd2`VZ6}JhRf?jc2E8CPfs=+v=hwCk
zc@ll<W))Q+R85UWJ`M7H&DJq$mV8m-I05ly0`W`#^Rc-;<D2_n{`Rk(_KH4$wF_Hg
zfjmCkJ~8#zHm)Fv4X9&Tlc*KoGpiUy#12AM$p~~&1RKt>NXoDfs2G+=*|QLwQiG~C
zs*5p4&;@GVO*7A^h?6j=UkK(dR9{_MZbDEw*Abjw-W1FyqhQ_!pbvcQl$IliKlk`p
zCN-QY(HtQXc3n$i$6)YUfog?BMp?BrwWM{jL=Fmr7(y0VgCFTC)VMPQQEeA7KRF!T
zeNwojWa<S3YhVtFDaNOKSlRsYrt0ghqw1^WIR8UF&Dy{34=)yfYAl;a$A<@pnt!ht
zEFd`cM#{L$8f2YW3sV@O;6pWTynwop>aAc|B~h9s9|IUsLV_tpEu_U;s;r5;-jwuo
zH@~K0;iOEded7J{RM#;~Z9{*x_SODoaGV#;$Qaw|5Fuwp(`q^){13;XY0xB14?)0J
zc?bBAYa+=6$zD<6tVM}~qeKKc1PnU>j$=YPk`Pc1h&xedMFkgChA<YO=9=cRYPZ!r
z0s8JN5avepou;k;r<;ZDe73{>dVoEP=lWvyeFo3J`bRXL*E-d<hq3nG$FBVN;P7Dg
zXmQ~NT#Z*=c`bOl2pOh`>K5WB%Pwl*$2sa4W!80!R}tqW{7@ysoQG-$gW#DgMBEC7
zx`yN+m8cdBdz)Q254q%au^7Xcx*So^zoI#nK(}m=BU8@{<=IpZnrcZ`n_-kwSJVMH
zDk%Lg%zE_|MYpuKpcYn__PmZS7PpO+{`hG7WLIaMXNFToEo+;w;bF_DT8G@fri{O_
zk+<t(-ETe>WL<RX_ERPH%GAnsF(b^Wv!t1L(<MxrpnGBMX8{?#VQW*`>B{IGy^KEG
z%jiJW5x`F#he$?77h76J-$-Fn4hDqwf2_i)g%@fXA!|fTq64wlbqMEU{EzrEit`XA
zqJ)iz#bt_>s9SoO^o=@+3J?)KB|0pm=5UQ(YJ;6rg-VHwJ>FpGyg+#`-PlI(>&x5^
zkHRgV<Tr?#(!MXF*8<jC2-e?x)%)g}d~ezMl!5RIj*R{ZvsOSxzuQy&<AamK!^P*2
z@A~-3rbSh~_VK%%nl4YZJ*NL(#o2*gN_FzCUkYrWl#(aiK5AO{)Wx{PZ}P~WOFw`+
z{6FO{**m=6NmG8n`U+AwpW-FC`JJ(^FiJ?i!Zk`!i)e+RM1zVUDmU=6M6sbzBTJE?
zqywRdkjOO*4yI`<>I06;tmIN=kf=&&p=ySujxiFFz9gV~993Qs=>K$XVuIyFZ`2zy
z-#~}lnknwP#-<M41m0s6SC6GyS(^Id4QKQf4?DtP_3&;-h<?D+LoG0m!bjw!hxoGz
zM;=~WYWdLn98(RC?tdfn%&i9f&P5Z_EiDeJu{fQRl*_oacYOWpW?P5vHInkveCh>X
z@eCwqV{?77ceKB|ySV3iq-WPGR6n#t;@VUKwdfp*p&B2c6o`J2oWXK8$YE<F5MWy+
zt3zBJbtNvSx++5Y8;3P2(s+d`FPG2i1*aElx-ls14mDR$bT?vPIEEyk_Cm5#nsQLP
zU<g7TEmQJl?ariIA}#N`^t)p(_+$swPg^JWX+Dj7uLG(-H#RUQJ12)nJ1X);9kc^F
zs7;}~Pc4TGVM7-oooFR82lzk4v|Y)Nj`2DMz#IiGq`cH3fi$BlsiM$9g~QXd&!uVM
zx0Q^uDd)SBwJwLZJMpl7sgFQt->EG^5BoXDl>O|cz?aR|s|Ywh@Fjp>FjhVTrrHj9
zZtUVLL%s%ESW{;O6WK)vGILAIaS)K2=pilE<Qc;UGEaUMrxkx^!_d!evSl}oY?<{9
zuXx7PH;@&0XzUw|#uJ?D5dvKRd99%AO@wT$K_#Fo%dCbJ^NbaU)-re$h<7B_R$Ub>
zn1CtKDbg~vk0kB4Vks=u7D*FqjigdPg1~C{5b6!mPiA1b21qNgtNNnW`-Z^a`QvvC
zy8cFk=P%x&t-p)s(ca14_G0k_(shKnsQ-Z`K&2Tjlgm7$e3$lJWei+_$Y{$z1KDjU
zwJmuITNzKH+w(nw73=8`tm(f6GWJ@ZN`7=@wdB&HpK|WrmJ@7vMJT<~Q&^1%g;$Ym
zQH!f$qVb}zjp~MSeoj5>JVOB=vXenmFD8MBnQY&^39e`-joAwy1kPs2U?m7viC()Q
zymBiFKkyX0fwBL{U$c0NxxsJwql?A=^FH$9!~K0&Bz)xK`vC3J<Z+BOMp=(U<b=9g
z2L=wJA@B!o6)`63I2a<+nCafqkl;-piP@eoe5#&lA;6T+TLys+#Wn3~!fk5xr|otL
z!1<5<W~9#moImowO?S=oMt{coJ_5q;x+K7E@;-eH4*5P-H%!nyx2Py}8G~|kEvmLC
z>k=Wv5oJ=jJjc@xY5`lrq+ozfhz`Z`SW>rs0ldmAT@L-eiP;=&wzisX6qS_(eT#}}
z%N%xp_P_@HhK|u_fx!mpXWrC-sW-K9_8&L-zT0No1phO@ywxj+)7pEy?TFhu`-dlc
zx+2aQt9S*j7VK^XWWg+=D8ulj6aWh-!(P+YkdnjpK<=_O<`k|)LQP!ADkx!xbzKoR
z7KZ{+o3H4USMLcnNsVP00|%6JB&hZmnVB1&^qS!Sf$H2&^w18ouO~4+kMx|DfTlcK
zXWIzP?XhUm+UvZHjt-jjRYcPaAW?Uy_%z&_y4zH3Z&i*gHP|i#BVV>~le&GX%Otf@
z?l``_qTnj~<XPH(Kvp(0pebFZhkNwywGNtm>*)r~kM*+o;Np80!`k=wvbno`bab?M
z0A}!tz&u-$ke=~nN00q2VuaBfd`I~Cl^y+;K0iXpI6@bp@Ac*FDj}r)u_~BaQYJ~y
zY}#WwFcL%2+E%I{9oG-t&2!FU>AqxzZmE~86cIwtSc8!3Nk9JrgHZF#!M?rAAoNMB
z-M;0?(Ba|k!O3D<WlFA6l^t@>8U!}dY$^bDElry!B%;tp0zMELT*ip0a)y#&Q&+8I
zVM|2?nf8u#UKnOmBMXELF~?hPj28(~*CC{VQO=|%Y5T9KTNTth2d8}Y?Q7}-xA$@V
z-+ShujyA6UFxLK=ua1YiDB`QYejPeI<Pim@F^wc@vJMeSm6gPNQ9nNQpu=UOnkqSn
zF<xIz&zi%Z_hJ8@#3}D+53!v7^(2`8U{hQl&F;kfhYp_BS^O&2eqn;=(e|DxUrAB6
zs6Qc^?Yf$yV8sx<2;Pbav0mMYMt}uDmM>+E_^)9=6_puO0`WBG4E$myB77<$8{k|n
zmu7EoFa#b0*=17Bz)X?R0+$Xln)G64MlR@n07KQ961NJW6Fpo(H|v1wP0YUm*U^M2
zs*3~7AK&D9FU(f2KHQ@@B=ID%-{70VK{~G(L*B+6-VSSex#uFRqKz%SBQP`hdFox3
zx{W<H)=rDF3BNU)8>RF5k#xRzYcP_xdRaUf(?=fn@l=LWQM^|Kp~O|Kj4Nn-ClpcU
z)}WM(E$s&OH0_HbCcaS&o7>r=1vXe?V@DrAy85Lto~I}W#<S}FtB!zLbte<>oQZ(;
z>V8%m8L}uMik#8TVM$kUQ3GxeCrWj-vsUxmw5%dPRFtqCX=f29jkHa-dg@kc!gDi`
zCLJ{krhRxG1jC>J^D&G){m@=y#Pi2DmHuxSmHurK_^0k1{JO0IejnEUy>C2^kB^QI
zbQ!RTTN$-&jPy688bmBgmZ8i-rIi|~a)X?inobcCwU9(=qM&Wqh_bto_PHaq29E&F
z*<{RmvY)Q2B*rtF9_U^WgQ9m@lotZLL^t>ZW=xI!qf!%%WzxS@U#42wRn~0!t<t{D
z8mr4dQ_BSA2WQJwKmUOryK81&=q<fye&3ygu3OP0fS>J)rUp}Q7F!QmtU>DxXpr2B
zoE9ot6?N>X4HBsT$Dx{FrqMCQJS7^=IHM$WOsTqMjaf2M&-IjyF&6VPVf?NPE1DnN
z<cWe=Pn11t8YkU>wZH3+D%{)MJJ{2nD2nSW;sT(sIEQ3{!fA6vOrVvsis%|%wKQ%4
z)ew{in~non>ZPDr6%w*3fn>v};b+)pyPBI?|CkN368BZ_3N@9m=c&Ed%%(rW^WB>a
z=W^C?-tnxd;UtV-<&W3Xc&a_%ISghcM8&hRk+IBq3q@xYWUk{;$Fmq^GFDb7NCI1i
zRH*Gju%T)ncn6?cNN?9wB5Wt}l8iif9~7lyACh|CXI?t(!(*7ObiR9&bY4FzoiCq}
z&JRCpLM`s>9PAwJ>C)|)<gbQhfX$R;4$cfk$S#W-U<&4$)x2C?i1Qa$OW}&l+R9~O
zsSGE6u+0DP3x?QCjZ~T2QF7;+ouNau<HOII#+`)mO}=yvc&@<*!96l^ntaAk38@h6
z)5Mw>)&Uqtg36&Z1q3D`<M<k1usNnKN%lOh*3!fo&Ntrv?$e3$pF~nPRXjJe@~;j?
zAHs?qI(M!amNdkja(gPDFW*@#zTHdMcMpyaw)Jq*hHPaCI#=Xy@L@(nXd<c-H<`%e
zNQj7bHX%4_06Fc)qpdl_YtRszGHhXe8#pB(E6y@fWgN(_4j}a_Gd<^e>fyk>8+T`a
zZ(?4hpAmQ7vN7(wbp+^_40ylL1Nxf9tDUu1`wD-2vU{+*NNJV`3$skX7K)<lXy;Re
zBAWzPo>k=aLzagb(2ZeGSu79<Tw!YNBQ*0e1nPdDA^XVc(Q_Xe-Tl4}ZQQ$mudkk0
zaQEl1>8F2Kb)vgZ*4+Iy?%mrcd3$FXCBGhP@Ap1?q{PSDdOHDXgfgbt38<3s5Or5p
zL#tRPA~?^mt}?hv-ee(u4h3AOj9d5v1bJmvf*V74m)FQzqA*gn-Xs?)Xw`$7EN8E&
zgym8%1$w+zpu=M`2TNT*om{3*KClBE&5&T#XsBlVs{NjcsmdtbQT&1$kCz(GKe3Y=
zzZXzGYh9Fl{U}PdRN}D%=DQ7;_hRjz`e5!K9_$@2F4BHC0+Ou<Qmz3~C?GrDWmlE_
zn)^-ZsOA@pFQ2ap1IiEhHi@sXNxXNO_wG!|1%mfacv@+oR8I3s(Box?45dJNg0(R1
zxv#$UQs1G|=ITedUzLZGycjM2z$P1i!>rSM`OY*5AxHY|$2~j;rzsmaN-+I(9!g%J
z9Lhvif;a#~O^&EI5=9iFI^1=<Dw;@SS;#9a(~J-l4p1Y-8tu>w>x(+v2u!%|6pSo~
zV4Cafji$30tiz``#XCm7)sQu}oRO@t^S55_2<W#h24nhCUqH3td?(z-d4Rl-1iD30
z<^E*E60?VDspkUfUIUx=_Z`D#a<`pTp>5-ka+nuW!_@?O?*8}s{`2E2dDTlFx0+h+
zPQ$UkxjPw*fZXeN=U9igxJMMuGt^JYD9hm}QC`Q7S(Xdh1|7yowU}fP2&ynHWf+Bc
zL4eglY$j_EfibVLtce;Pjk?!ukm-f4zNXGbtb<q#)QlULrOryAIcd#O>wq@V9>nrz
zrwVUxolO`1=I&He3FF8UEC<i9W}r*pLl{x1uxcGOu*1Mbu_#*N3~CUlVOGXn-a!aK
zz0&Y9$s1x0D6mDn5BY8s#uo}LTV@u%-eRGM{lI$VbeZ(geB$kJ8DQ;~N7JTGmDo)`
zlJp#SKFiKc@9})iqFW4WoiCqzJIBW-i;Fi>|3Vb1Mr6eOH1Umm3D{L8T1i_e!4Obv
zhZGkYoP{NACgpKg*N{`hL;^9OifUHf>N?}5K~CJ}j<oQGtvYXB*+`Wr=leZAWH+v{
zZ8we~GffIEWN-CF@ajS~1|%Kb%({m&Yd<JX<BR76(n{G=0onJggY4Q7WVS=}<Ga&R
z-5=kZY=Yd`JK6<mih??uVggBl8c1E2S(LF1@nX{m+QZkuU#y7z&KHzSnzi&J88kfT
zgLBQen&PL$(HI5tu3H;-nmuL2LD@+9zdCT*NcuCoQ-*YJfBOJQ8AZ}p2T7XSu|ATX
zQMq*H**vr^?dM#Zc$Yb2-pm7%`NQXnq(3v`PYB*u`O2)JRQ}|uz{u-1t}fU?ZmP_y
zU=7?Goj!9$!fbe~>SNxpYBl|b&lgFPR{MC8_Ivwtt){CPnPlH&NFBG-Rf@VM{?F<R
zGy>utWW%tQtY+YxTQ2LasaSzaIj+hZIB^!E2!(7L#<RTa&_BJ(O>ffpnN1MRyN`*J
zTK}+-^w!q-*!x%QO-*NuwSVF1`u@)D@!p9&+2o2)M7^^FlOKauO;0^>$0D*^d&Ssx
zn7&UV)2S&sr-f}_w1lXh+ifj`63_RaZM4?&w+7^_c-nR*Lik0Vx*IgN)gZ#CKshc1
z6#)vLikVFf@)O15wgatSNCey9nZar?3ecJCx(JkhEkIttnTs509`b3yF6s=~rf`Xx
z;;oC2w%M!b<u)ja`C{7$(Zm7rG!It;tfIevQ#aGiv)xP=_J_dHD*D}6`%k`H(o7m1
zh=XUyc~du%wv&b+2}%5lwksNxJs@tPgAIj+WGF5dMVMzDZ{s!w`H*F-pbg|jEpavE
zQuEBg>2B8il&-tXHK~DPhXY&l3`|`*>8T#`X^jXT;Q67mWz5#6-`(T+uHL5;#z($n
zYCOrOcc^;Q5@iqMGYy23=T#ZyC~IU*R&}h3!nTpf4}o}9cOpi)ByVU!e^b>NOaqSv
zux%R_>AOf&DaVMPzVW5bgM)D=t0~*97!wqjD|E-~nfF7elkS#EG(WV-r{6s5(|_w=
znsa{<Yaj5>g4#PiIn-=UR<JrNb2=H3NSz8=tcKeH*DQlJmm$)|He%|;18QnyLbf3d
zn}?NUWHI9q0$U0p`<&a^@vZ+Prb|0b3O|H0(;DaC)UviBUGL4R&WRFjSNiN|>9nQ*
z&mZ-BMQ-<Yj7K9?w=RgV(+ST|Kqidu_m6|pc&he>D~2(uAeR+Pr`|!S=Gz5kw^6dR
z^Qg%^1xr(>>o<n0FE-5%tV|B$b_|Be;L2B82WQJcADbG(`3#`>qw8GIO|w1jZ#kUq
z82BjGerIx0+3wDXMw2m76hag<iMggBt@N~_2|6fp3ZinM?O9iZ$RVj&49d>SOvdV*
zvbII7IYh+SF<Fe~G+(`0dUKD&hjnElKxqEv*@kY|3eEcu2VJ)nn#B>~O&`s}9mJfv
zLPNfXCX#TJGhr_2oCs<O>kxi+5fddHwZ&-bkI+)t)_^X9FV7*6AlT|yf|x|cewJ;q
z)9aGiIDY=u4TXCrMsS;abh9!QaVE2h=B63AVBXOi&W|2W%L*i}w@uD{Q=+Lll+Otr
zY7s(a>c|rg@s4;G=@U(qf~!r4`lQsQZaYv!u9`2D^h}7^d7<ZF>8F7{6fQ}xpnu2x
zFpR4I<|d#1HM6lh38LS5Ljrrj$5RWZirvo$T2{l*(tx8T%R1_;N92z5GnWz5yEn}l
zm3j<BYI_p=<Y<D`O3&>#d-?A=1)9IUN!6b;YdCK_nHFO|fVD%9L^|5uKRDKtOG<={
zsA*Apo;9GwBNSaw$ddFkHH3zF0p}!9geiF|XmAm48Xh8Gq9Pgoqv1Ox=wr>KFAV@Q
zcC(L#hEb7vX{j#`dVkap%@}QhPt>`NCXUn%in=qmU(lrt%@(K%hMruq+&H;pIns4Y
z$$j8t+OtRqf7DCV4VucSXEhX?cuJJ=K~k0+m5PS?zoQJO!U@@<p&+c1dYd{Hq9)P7
zB}FCDCSp8UC88`=|9ai`ru3aa(hcou=uJw=ky3jT_}C%D>gr_J&6f72ZxGGYr#}3h
z^iFi&|8jef(ejLkFFeD*`E}18{E%1-YhvLG=gHpT(c%I~;hNGN3FiZnw?RS)40Az!
z1K>TS%$Y=B)YVN`^O$NqFbo+hktD^Gha!cV^FC9_+~niekQ`G#?Oo-MvZNiTUj$mk
zk9_4hGuy7dI0DOTyK=#L+gE(qyP9APW>1BbL1Bk-+L~%=yol+Tb?OKDy>`4^VnTR-
zW7aH+sblyEtUK0#wdI0k&E8w@njwI&_FiAIj*d}s&?E2ih-#!zH5yb&vnpf*HoeIT
zkU-=;Xs`#5I&#w?9q9`-Wldg%bS_Fn0CsWLq6k^eot<#DjLxHb3U`;JsTB5mKN9=h
zDOgy8H+U?)@%`;*)6<u14aiY0bFITq62h<cMNgwihbPd)rhDiZ!m9)+XyA*({xj2C
zxf-~1Rtr;q-6S(B!_f^@qFzRifa}}W9p&TZ+`~~m50oUOUq6!4U%}c(Jt;jo-agpT
zyEB?FCVs4r@lAER$Dkdlm$;%K)lm^st0B!Vrc+U95~e_YSRu>=-<F}4mNTL>K(F!m
z3~~7BA1jUDs0Y-JQArGji5Z`)XSDtN+4e!(K>SyFGzTdqgbzI_HE62MLk*o9SW>$k
zox(_`SR*Wlmj)k+WRQ~X7-EVnys08iqe8)3#&O0Wy>td<&4tJzsz}E#Pj0%eUOD}i
z>0sW>rS9G>AHcKjzVaScI)8psAb!gz5Vu+4zpMu7w4viKRue{OcYAN|a9i(oA^JQ-
zR87s>vd%>X<>gT>dDT`h0YYSz#2Tv#AP@ByT^ENnksLyHIrJPtE9hiqI~I6!|6?$c
zx##{{hTc8%8-{lcy6=n#q0X2zFrQbD^aos<w*kxtHbstX6ggT|C*W?~{`yf?LjZep
zkOfn1#JW-pBTi@bgLEfVPt1sNO#vrr+uG7e2<=hnY2cZ?B<;yvm!UJeEiLM!k7#aK
z;pju@MKcGQ53E!58%C;b3uce>qB-#BZ@#oxY;Sp@N#{&$n<Fr<97b|tSRciZx&^*J
z(u@uiHTRv^ZD)FHpq}NG8Y(;;aOzK4r&HVQaAo~^qM)Y}*Hit$CAuxBABzy!O>uNR
zBJn3}ooz!wKibOy)arTyK!4KL^~3#>oo%J-rv@`y3np?(I}64V5GKdd16+#n220(q
zX0_C)xRy_~^-{I#((8d9+Nd>KouW=+Z(vLZLWG{D`rH;Z3RX{l#2TdY2RDrXcO6mM
z>pB5v!L+(AvGxTI%$?nXgA?u6SyPrYz&d11f~Eio$(op4jL5sJ=s4KRk_H1~y`^3@
zI)+M=a86xI8!bEFo8gURSwv@a>%*nV#w$iY_7du@j$NPL#A%82|9LjD^2sim%5uJI
z@#e)KuJ`(u(}?C16q?N$(2NE&FRL^816|Qc^ia#xZerCBC0V+>l@23cGzV8K)yTud
zUY+Q4eQ70CpWCC4II|{Ik2$;@;QXLFvFTx8^Wx<@=EfX8Yz6Jjy`T+ep^$0(*yA2F
z+6=10P}a&$OjU#i>nJmXC^B>icS6bw5r-pmM<i5AsIQ<1=ptA~H7J5cVJ>yWIY^Si
z+19Hz;s?5*qFqa(wN@$n(&W)5anUCy4Kk#A^3y?_T$4NVu$y~lY~cE_v<F**idr<K
zV*{V)37S#c%Sf;@q$^yaaL}NNz`DGPqcW>v#z5n6S#}{PNml0+jf0(p%yqytkC}iF
zhRRHeOz*bUo0!e`P?~b0Bay)DQFR{4#u~S;up6y`^~Mtoy|6|@FZBHZf6xQ>VBa5b
zxn3-u;(6np<Aa@@9n~M8MF<2q>nhZ@t2UJ68L}dSD2hnLbkJEGW^pJ4UdtLdj0l1l
zMncpr2(wP+Z5?tmWYY{AwT^Vy0Z!kRW(=4*03y)yifB}?9$chnLj-!}iAtFhJwPlm
zN~&l3nUOQL8(PhcNc8rP)c9lgW&O7T$uIhc8%2cV_ka8qcg^hLje5`VgnF6~J`-#I
z%J&=xJI8z0b8G@J2Z(Ylh;3cSCigc~1slcY4A)vg8@<)}+su*2iF1hxbyPz5Gw$A*
zGwg}3r%~b?u=X21nn#Cw+j>v*l>x|MG@CApI+)85)3}NmOuc3Ig86Ny&UJ|`Wd-(P
zOUb1}4|U?aMPCFw|I7J?Nj$U1bI4&xV(<11<RG0<1>xi&ssk0W=Q7GlMkcY1Vfob2
zCL!E&lgANjT3(cqY>Em-l2<UDsxkvlj+$))(9<+^IRx)CSM}V_M$YsY`<PQ)Z>{Ff
zoUJlrXB1yDXkP0?i9dz4Ydx#EyM3^`d$M@vjha;Z7zy^dg;Lhw)L5t{qSFB#r7NU?
zi-dW$l7jFzh>yN43p@3C^6s9tOJ|F_dTs7>j;F6_yLkH6uNwqk=;-`C&f2}c&L2{D
z>SA#{?b|;clqyTGai0!MObC+(&XA_1)$E|3-mM3ErutiwnBm~K$-DjCF%PWFelI=n
zY4;Y7bewXpv-Xp|8tPk2&v1*m`Zp$K{Exo1#2k@f`$0@vR@mJ_hV?g2lWt56%UG&5
z6Qv-NyZo`0?eCX<%%0c#EsiVvVRM%cVeRwY2Z`I<+eW!VZOPuK2<40-AP{3=j2JD0
z2gNJl1+{spKVq{FD%3<)l_#2gqCsEsP-y}+*d%@Ss&YwHp;JK!#T|h{ELFOpd&cy@
z8#T#&sUS9e@2Sc{=<lQ7N}}?JuMdp$;k8fs^mAr>AnR@R8+sUriY58QKjaIG_JL}S
z#i>oQU^Mt$8xmDjq9Fmux*93qJ3Gmop>TtlG4qfULxWH{KOXQg>n-QZkTFl`G@MxV
z9&5Az%lWG5muEa6MZceY+(T1Gx{9zr6^LRDhzLhI{FJq+CFc~Ap;E123Hb=z+tYKD
zOul6}qQQ#mV^WMRCuXRynhmdbkW>qD-wu{ow~!>xhtgBCOM~VYH;q$rr>Esx-?%k+
zJM967^p(8gA9!dQ5BQKd2;`l}@I4XqH5jE2$><1f(MA<b-fbC2RVmC=E*4i!En=`y
zxs0NVse;lnPIflO(2Z!un^HoMm<=oa=>3tTrTqxrbi6!V8u(FJF`8bJx*|GpfKOX<
zJk`_sWb7eFL~Sxgw)7TH;f>v-WNfn@_afM3Otdkv0-`R6>o4hSgscz|>}z+?_QDc{
zw$u?CrA*6oX*cSs9)&<{Y*f;f=$_bg*k`Iqxn5v(il#47BAsZjyHrbV1E}7)ujSRq
zxJL4kStP&z<Ns}@-j3HS$-I5{;DP#~HCX$@et@>Wx4pY(M^BCsDa#P`PL6^Ss&x$h
z7XdJ8@)f5IYqBn>38W1pb%<IU#Wkk@83ny2TiGUe-u}aM@}x)DZYr2;i!(%j(szz3
zk~uu%{$|@f^WnRv){{W~l&|j^P?bM`q++Zkj57Fd=y%jglrcpJCQ6`K$LU1mI73ym
z&IFeg3%j;saU22jGK;0ECC9BSLpw65NbGTkCXLefpSZb%(eim0GWYE~56f4DXFNL1
z%ID7Wr}FthtUb+_&!g?_Bi(p70Y&Cf6Vm`C)QoBGU<sv%l?2Ez1rnrb+=Ok^)iPqJ
z8E17yUvs2y@+?DZ&Wh3md2gQYFfYOWY&gY20eb7!`L;<v=lN5<;JdN*%YMjtaCC62
zt4db~OT+^qJM(cdV|?a#gmik%_|?F|HhMiN`g%29I?WmK^Rs5Z`}xz@lQ4dk?}{{@
zD)yvV8zqMej~OaPVJ%q3>qcZPs_(I?!ABfP48nL-I*PiG0(pWE+<t}fQdmc<r23sN
zIb$*=_3n8Nr>p$1j{PH>)cuLG>i)s!Pum;F1boJ~o{qYo9<4Y+h{Rb5@uctxq(AIL
z*fk>OArdKZc>pgBoU}+iOY}f{Lr7_t?ryzyXq(kU;ig`jRd}94-Jd+`j$Z$QDcSlM
z)?&|o?(H5QZSO1b%(_z6ye+%7tZR6tN^r!HRVQna!w%%o`$_=8R%8g9!W^{}-au$+
zn-(39l_Sy;@LaOJ;@LVbvFBhiT}uaPAAFoo_1I4oaNf9ezV@5{`huzTESkmQzj@Yk
zZ-4jbQ15NaY6%z4=-4&EqL@huUoMfI!`tT-uVa=m8IlZ(Ji?_>2;0yiszN!hD}*wu
zi02y-cjq~BGEL8^?c)<O(xJI$5OI4v2lV}uXY)o@JRf_(G+H8&{U4sbyW;7{SJ}|u
zzA%r998qWs=?vj)7{VyE!?KQ${nS*IuNtO|ZHA;Nq%B9Z&9F_KRvI@k*Qt8aPyHJL
z_0&d>snhvnUb_n03aqx@xOKigFTeMKX@|o-5YNYa@jTo)Jl@ld@K*uHw(TN&c)sZ}
z7(yA-o1P3%xv9Lnsd6|+UblabE^}koL>H&*$EDIQ^ZS?j@9t0gBH8?nv-QDS&rW*n
zdv?<Q-1F>4*Ht&u>GT*L3;qYLh?juA5E8{`hT;LMQBQ><WAIS}Ev-%+Nz<7KXv8m{
zS;;pON#mD|XaD3T(Hu{ax4T&HanQ88SV>%$KAKuIX&39caEqxI6j5nhqEKCAv^|D1
zB<h8p*{Rx#oKli*p((WFXyFZ#z|nWxd}El>gn|IIEj!SglKLI6_ApHQ7zTX|y9^BX
zVxjzvO}kjb(JoeNH2;1xZM}KX3m1#$c|LuA=iqop8%+>NF#@7is0mRWN>ZYZcv&IX
z1Y?J2iNz7MeS%kNGhWF|9mxUk>a1n0kTpZ{9sx-h&2#vmm9HclRy|kmD}iQQ_3**_
zuGwfbm$Q85KbnE_%UJtu-)J5m92hv)3R_bmE~mi>6<mEpJJlh!tOC##qw_=&UUiJ-
zO9_@YQgcbm(QU4L^lgiZ`&{aIjry(qKHy~RlpKmlTU&?aRNgE|%_B$#auCA#AI^8|
z)vwN=`C<s?6DPuXw0)@gkMqFBN;-&-HW#U>0kuE?3UV(US<2C4*4#NkzRkxI<MY#E
z<tH*6>D2d36eH>E_Z90iK7i&I&bBGRqWP&AG_MDmAD+nO@yW54%`>WVK_w#ao^6=1
z8c{vMc!cy>ScN$otNPjjKEqPF{`Da@oenq)oS)K>rmHW?P$wjt@7siCIE&_&XFNJ-
zKl6Ripy}t9#0X?EZ&=rcO|JIFMW)9t>0_b57KD<-2(6Q_rw*8X2c8RV>aV2U_x`bp
zOjXgEujzA@jhjZ54I6Bd9QuuUB(IkyXe!xM2SuDu4$HO^w5g`e)TFcw-124RMVE%i
z>8X#vOw6~`*$5A{OEBs0-M*&I*s^EVt&WOL86LfFQ#<YTqjp-`C~?;dr;QT#zi=|l
z2dpveeOp|<PM3)ur321SA%X*NYK%%1wjki+rr{v&^GFq%WLPy<lCNJOrDXbg%&-dc
z3sXB-_}zZ1S*#l+?w>n;Bkt*>7dawo({+lT{;ii@nn+0>7_m{25zup*tAaXF)<psw
ziKx0ZE2!d*Ftq>+!s|%Li&nbEj;6;eJ%4gOF`cJ<n@KRovC`aTt_!o9xnBIjsRbpE
z|Ah&ly?3A0=fc<LwPJ~At3$o0O9wc0|AsY<6vQu$?3yF^oeX`1(hyN@#BKh9<tTsE
zO8*64JXPPq^M3oA@0vlA^;-__@0ETKPcj5A@+_!P`iHL3O8-+gAk(}OHMe+%qJ`<b
zY~sJdrkVX{!g)wGJNV%dY`AvSXq$BABo4y$Hc#zcV|rUJrSEvrG-~?aSo?j?m>%rz
z*mF%dRWl-~4mF_zcq$Y!5tgEyUc+a>yq0v546>&vYY+ltG89qU;Z1aWMA-pSScOnF
zQf-XYy+KQJ*TYtiz;x4_X6L05UIT?{FbayopI#LNLFzU`n<=M(lKVdXSC`?hU7AlW
zvHMC?m71caf8wHf9nidv(EP&BJ#yE~2F~kxH2?RDraDguU++n&gC^=3jcg-2@`ZsT
zE;~`Ojy7_NkPeAJ(kaM@(gs9XS1_5>tsmwwl{qP&qP>Pp)=g7K)aQ`|x)~`k#Juj^
z&?R=-^|CbBs4YlA+IQ%yu5%S7=ps7(F0=iuFu<p#e@$c6Z(1<hzHErPbY#`a<^;`~
zJv7~3rJJ{EgXSk*GRWp%w^7qeCKEb$54R6?4i3~d<E8~-l0tc~AiQf}HaUYA;=C?%
zlrJIy)WE!>7>^24hLSM}B<=6yi2lnmZUr6T5nrXvuq!hH8;QC7l;-d2C;q4tf>ju-
zjz^n2ZKqh184aH3Q!klHC1Lw2Pbv+Lik)kbSwgELS<4({4Uu(VF6)Sf((tgXX|GHU
zLn&xzfD&A!_Z20hbOcYBfp;!zj+j-}Mra0VxUbfxBOeot@ko7dv=Z90K3t3W^waM(
zv~`X4{%M*0r|+N4?Atv&*giheXA&}oVlX8{00`wYI?}d;r^x{&ZOaBrS4ljlbQENL
zCOg4IS<}=n<WnIlcur^U@H$*KEon7QXRf3bqYq}hmZUu)=)MFzAKFycxG-B4{^|Rt
zbq&J!$d^uyCrPKEjoBpxlGA~}G;S_tEh861HW8i&$y3-?ZB|#Pah9M(D`cSp|A#Wl
z%8pS;z^g`x%DU;qv0CmOC#$T$v^lz1xpJ0=mClFG){$u2y<YOt!DiZauW!TJkNeVj
zczlc+`!?B33E#oP5VntpvQv}2!VWQ#Y(q|S&!|r>qXH%uyd>?0vy!~xun?%n)md3)
z062;+UlpTy`d^?22Iw#>8Siqi!$n9g-+Q)`hOJz_{H4=!@Pk-;#7FXIfA>UN&74kd
z;}Q8|nkok-z5zfPVkL$;JM}BX4SA@J+zcI9)^<5uRRq+lIHsKu2%sXG-QZKlBT$xW
zK^grtQ)y4ewl%dYJ-umm#rChK10@PHfB9_XHjC!By>#k>NLK%(ujN`Ub+6Y|z_I99
z9>w-BerwbcJCD~6OBsRZ+dP*yy7HJn|01L1@7;vv4YL)Z2YWQ{>nlVguebYXYS~m3
zqB8*o7OyNNr*U*y&hS>6cHCs}Tq5!jvJG?kt4%C*jx=--CZlgx5l{=|FK?<41)~bl
z^9+=q{nLY*|IlJs`yo%wkM_3rj&~Q2(zctHG5Bw4n#q6*vP;nwpgCApa{M1kp0{;T
zXN72p{%Auw_pzfHE3C;7lvZ&_J1<sQ%it9E?3{|XV)Lgli>cm@*v~W7vyzedI489z
z8XpM$H6OvJtx@f#jS)1XEL;S?(-X$80)mO2qhR>iB(;Sab<kE}Us)9a`9LQYxKoCl
z_UE9N!EGS;*VZ9;(+ELJ4}Xae+#&?Ov8RWBA8X$}L2!TnNYlen&IpEvu?hr+K%9vG
z1#4SgR4DVJ9!$hW#&SfR6-}z?+K7-w#@NP))T0(5I_CiOLTaW}=uH@7syyi@ACBe9
z4(<wu#sr-ZI-t5GieOlnf;;XX(~S`T^VtAXuIoj3;;0wF+Q#4S75aU>Z6tu-JyB={
zCfUX-62cBq5hsd6$VwH}Tm<Z#!%;LnW_p4iAG>waUL4p$o3j%>7z&$-IdUn{{n%<a
zrQVsPQmG~Je3ZWfO1a54#v|Kk&n^4|$2Pv&S$p*q%HyLwb#CFAk-R#I_PPh||79Ca
zZFJOfIJNN)9J}V;{d=ccdG5PE<t?O})`Qtsja7OI?*3(K?*2OW?)$N;FQ10Lm$3G0
z{%3!*dwg<ah`~Zup+HDMr{`xG@l=hPtXeX#s$B@$5aC>uhb3K+WxxW#oy206M|63q
z;ta4dr;>^*pS(PiyczYg`ZoGkoTdPH>!<)|>FY}dO?P4*A^df|ENL_sW@6qOX<{C7
zS>Tg_SOLWnA-P2Yh6ENsW;qh!801w$UAmHJL`M4`$m)kt7H3F@!EwnlW_12}IHX6@
z^Rs<K))n<P;yL@a<?K6*j81U%r>Z|`R13Vp;QHiO4C(Ic7Q@=>d?`IXIyg97JOCZ7
zI!@a`3NWgQkrq*%BQgfIG(eAM;0Hi1$O^n_#@i0`tf=a9S*f%0E_!R{H~8Z~KME+`
ze9cp5xaUhB9U-x+6D${r_xKWag-E!9qrKA5fH=b$ozJvesn~?XmW#x*ZK>#62AO#K
zVpw~-Clkke$d3*eKSf82p)wTGSr4?$Eh{)mKQsUk3=%0<MNCN3;H8c+<V~o;cM;Vx
zYF@@2l(7`GEZbqa@#t1IVUQGoy=WEZ=?uCw3wqK+>QKgZ$Cg%GVAuIR|F$)4+qZ3v
z&@<zeT=d@T$<ftE&vpi;YKECTH(cLnF$~~#B2>Q#W|%&e%!=MAPIIz*)V~hsb?eZZ
zFQ@(VE2myFe$`^}yT0rlgUi%yGXY2mxAtvLo-hnc&>LCQ@w@}4j`Ad{!>~dgj)=Ys
zQ8-6EvJF|S4!(kWji_lB{5mTmC~wOIk7kM%=jpRPg~}%W8xVsoQ$03*h~std4x#zk
zvmMc9sdhrn-{L|D-|WkxMpK=GMTa)gv9eiM!y}3=q#eGfqtW4?5e=MeIL*~Z4H7In
z5CqRjvt_BJ21YN7cnR*EXEKW~rfD&?`i}gisqZ9D*Y~yNvEgcK7e9M8s@?W@z#vYx
zWc&rJ-QqPIo*e9*?CA|{4Xl4$sxyv31!W>EpxM;bMYDLr79z{KGJ-gwWLZH>fpuJV
zJZgDMfr%^%@Jd-!ioCpXdN`e5oBy45<eF--Pwb2VyN^Mg@tqj?yl=5_%g}8jKy8Kc
z8(%Z1yJg#d@->rVNOn(-cIi-;Z51S!h|5s9ZNr-O3+0mbXYjVd^C~P@g#W{eXFTVk
zD5<#Ki5hWrB&jn&;_3=@wlEwWOPdBR8{}YRb8-}Zm&wwUZ}kR#wJjhW-m)|_K%fsv
zhb}MmTQzDys$S4ZX%H+^wN3*rkbdHq+ZyHQxS{LKc<%RHdg60u2G@PD*&2k<?|3I+
z{k+#JV+50Oc2BrO7Uyl$!oSq4=5(4yMJI8$C`=$Oj^hILUC1U1zb*LB7<M!gRn)dw
zT#s=ZLf--2V6;9FMhjx<|BAxJcZGaT9=7jjDwBTF{xzed{kdC%{8^*<gNs2<Z}W_%
zk;#v#lT~K`V=DpcWX5HKRF8KwFj<+~Mn;#Hff5okv6F^T^kTVOs#y}6!qCs`@QJ|8
zThqjbo|lrC7DJb#42A=O17`%@(sYU}i-AcpR`NrBON=^V|LOnW&&{<R+_H6}0q~D~
z>tH4SyaDhc*8cohsrR;bj*fSaRf`crq@0&UM29(4O$Bs93Wrd^ZK6``aA{fF$f88N
z9XC+}&m-;F*ky6<Fxi5$?ic76fW|9*4&>pLY}%!VZB{||ZKFY(RS-UZV=PP-3(6{R
z(-Dv;BEjPVWrmJsnb7%ju~5E4z_}Js(-39DS`;!AfFpH>2`BCthjgf6Db9O5i+HSb
z8$hyhL9yK{T_irSdj8NSY+?0H-#RU<(%QRxso34!-P1!2*L?Pn5*T#YeUz|^u3=C+
zz>x7cXOx1$T9t@Ya8U=RAkOSL(^IVUkCk&?)A3K^{Zn(N2i(496UpscBP5MXxk$d=
zm#MD?lFr<r;pTN6Ih~<IW-{7SJZ3a<Ie%d~jJ<yQIwWrxA!!-PFaKFBlh;5dzr|Vm
zCSN8Gj<$DERJ~ra;F+3&TV)Z#-xwi9L;Wcs;FK-rHM0D!%9@bN7$kQm`Z0p@&|K+5
zF&;1QZPQPTZ{H0Xeqwa@dvy2j8r}Ur^5y8t?!Ne{J?y7Xcb~1f`)l00FRT`Q+YoyG
z<;Ae}Ht)0F*@dUyUOY-;kP(_Ay9CWjb0?rDSqr_YB%O$b0KYCPS!5MR>a6ZiPHH4n
zhDC9U3v1R@MhvVZuVHy?HN!i+uJ4$&+Xc;eTJ&pGTk>-JI}?PUYAzV!2*T+tzLb1<
z<xZAMU%uVN$*}lub8r%#lo*^ocjY);pvcE=hYoskV<+XM<1Krpf~Et--k*6VhiO*Y
zjyD_IlGKfp0xePdK<X_nQjf2$cRX&ni=TYml)LyO*8YtzQOEm-woOp9B5ot(({U(5
zAvs8VghFK%=3!TsvIG-UMhrzqyaxR0jF(_8fE4e#n4?6(K~u+FC+8b3*OO<X2s&|=
zQYZUKN4*EBL#1i-4HupkDx<LkQ=qm)tJ>Mmoo}n;Cto*hYa@h9U+xAp85|oObY91-
zW0YxU9V(3QXmD;-)Uhz*NO)ue`4a#gWt66AggUJx790dy9OhtaC9gvrSQ42=Wk8C_
zm#GS>)U>!jWpzn^;%DMwsw42!KfcN1l}=q9@LGX4qIu&8&80!}<PAXcb}gIVWzhT;
ztbNv#&E5Tz!`<D*MWw}E)X)jjQi6%d+L8dJ-ZdHs1?kL@M7NBN`;77e1W}FBQ<?L;
zl%^})G@>gxP_<T?>bcZOhI%~>Y{rr3erT1+=v-Vu9GFZ+ohXp#oG39b+Hs(&V?9^`
znpgRm^9O;<1K+>>+?lZSgTLm0aO>A;F?;c10P889m>FO`cHLr8FzTtQ+ZqVek~%O#
zP!A1tOGgC<^N>Zz_AaP@q8f4+=yv&`+umehW`e2nLF>N#-X^Jc*-w6Sd)JotU3x2S
z?=AoOYv*q7tyYVk`W;i7^fs*hp8vTY?QL)C5yM>t=C90U$lAOuYusresZNGsnW*9x
zMU9AzI5M>y`Ud+`79mBBu;sNty@L*W#bwBN#fq@oo6zR~vm7afqa%s^qCS0lTtK1m
zA(O6tkpf#Qp+1N+)e5ZOB$ZPqNdwEr&bCF?@~JQTjw%25cd+*U37SXy`v-c0-KoKn
zbe;;2K?c@2&A=&nn+wqYbdqL7n;0*ogE#c?oB-y%Vni(MGdXM6gYkQNYn9rKBjy|t
zvtKS9{T=#5I{!@PIr`7F@xyWBZ~KmE8y-pQ6MW^<(n+*c$!dVtltn{RmFSq)26h~I
zizJL`JZ)WNWz1=g2%Y0a-L_>>fr#m9Vq8i@AG`}imZybbTg>!Xb9xqyS1gu_jY||S
zuU=D4Q2H!!HSf+0ATCTBi8;E$%LV<JSgG5_<9~)$%^&mBTu-{+e$o5yn%Qq0ZGFWN
z!&^^uQux}%Ag(W+K&eFY9wJ@F*oitU6n4c*>@MnqV)T(Pbh3idKgD<IQN`3R6PUId
zW4tv^rqwtw=dmvXAB5$Af-g_k7*qbY_x|2pbEe$dy5IfIsjYkBn-+_o@U(Mp?|An>
z4^hdeza23s_+wtt-hqyq+j$QAjvJ=#ud<3ej(P^-)QX2lpsN`5qAaeUvXu~sGNddJ
zniW?}&U^CUeP8()@AlOH3LS*eS77<z`D#amoL@U4gkRzbltGhhU5+>&p+Zfk2ZQ`X
zWh0BiHtXVyPRwgVp4CVScm|+zl;3K&lA0rXj2hX}BnEJxB_M53{kS}`V#(k!oSF5T
z(Oz*ynih%wdOF<;H+fe&kLR6hDw}t1{eRFwe8D&I001A02m}BC000301^_}s0stET
N0{{R300000007o0qmlps

literal 0
HcmV?d00001

diff --git a/src/umi_tools/umi_tools_prepareforrsem/test_data/test_dedup.sam b/src/umi_tools/umi_tools_prepareforrsem/test_data/test_dedup.sam
new file mode 100644
index 00000000..e9487b8b
--- /dev/null
+++ b/src/umi_tools/umi_tools_prepareforrsem/test_data/test_dedup.sam
@@ -0,0 +1,201 @@
+@HD	VN:1.6	SO:coordinate
+@SQ	SN:MT192765.1	LN:29829
+@RG	ID:1	LB:lib1	PL:ILLUMINA	SM:test	PU:barcode1
+@PG	ID:minimap2	PN:minimap2	VN:2.17-r941	CL:minimap2 -ax sr tests/data/fasta/sarscov2/GCA_011545545.1_ASM1154554v1_genomic.fna tests/data/fastq/dna/sarscov2_1.fastq.gz tests/data/fastq/dna/sarscov2_2.fastq.gz
+@PG	ID:samtools	PN:samtools	PP:minimap2	VN:1.11	CL:samtools view -Sb sarscov2_aln.sam
+@PG	ID:samtools.1	PN:samtools	PP:samtools	VN:1.11	CL:samtools sort -o sarscov2_paired_aln.sorted.bam sarscov2_paired_aln.bam
+@PG	ID:samtools.2	PN:samtools	PP:samtools.1	VN:1.20	CL:samtools view -h test_data/test_dedup.bam
+ERR5069949.29668	163	MT192765.1	121	60	150M	=	267	235	TATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCTTCCGTGTTGCAGCCGATCATCAGCACATCTAGGTTTTGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTT	AAA/E/EEEEEEEEEAEEEEEEEEE/</E/E/EE<E/EEAAEA/E/EE//EA/EEEEEA/AEEE/EEEEE/E/EA/EE/EEE<E/E///E<AEE<<EEE/<EEEAA///AE/6A///A/AE/EAEE</EAEAE///AA/EEAEE/AAEAA	s1:i:173	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.29668	83	MT192765.1	267	60	89M	=	121	-235	CCTTGTCCCTGGTTACAACTAGAAACCACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTACGTGGCTTTGGAG	E////6/E/EE/EE/<<///6EEE/////<AAA<A<A6AE/E/AE6A/EAEEEAEEEAEEEEEA/AEAE<EEEAEEE////6EEAA/AA	s1:i:173	s2:i:0	RG:Z:1	NM:i:3	AS:i:148	de:f:0.0337	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:148
+ERR5069949.114870	99	MT192765.1	643	60	150M	=	748	255	AAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTAGGCGACGAGCTTGGCACTGATCCTTATGAAGATTTTCAAGAAAACTGGAACACTAAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAAC	AAAAA/EAEEEEEEAEEEEEEEEE/EEEAEEEEEEEEEEEEEEEEAEAEAEEAEEEEEEEEEEEEEEEEAEAA<EE</AAEEEEEEEAEEEAEEEEEEEEEEEEEEEEEEEEEAEEA<AEEEEEEA<<AAE<EEEEEAE<AAEAAAEAEE	s1:i:240	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.147998	163	MT192765.1	674	60	151M	=	919	339	ATCTAAAGTCATTTGACTTAGGCCACGAGCTTGGCACTGATCCTTATGAAGATTTTCAAGAAAACTGGAACACTAAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAACGGAGGGGCATACACTCGCTATGTCGATAACAA	AAAAAAE6EEE/EEE/E/EEA6E/EEE/AE/E//EEEEAA/E/E/EAEEEE/EEEEEEE<EE/E/A/A</<E</<AE<///A<AA<//E/AE/E/EEE/EEEEA//E/A</<AE/////E<AAE<EE//EA/<6/A</A//<AAAA<EE/A	s1:i:215	s2:i:0	RG:Z:1	NM:i:1	AS:i:292	de:f:0.0066	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.114870	147	MT192765.1	748	60	150M	=	643	-255	AAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAACGGAGGGGCATACACTCGCTATGTCGATAACAACTTCTGTGGCCCTGATGGCTACCCTCTTGAGTGCATTAAAGACCTTCTAGCACGTGCTGGTAAAGCTTCATGC	AEEAA<<<AAAE/E/AA<<<<<<<</AE<AE<A/E<AAEE<EEA<AEEE/E<A<EEEEA/A/EEAEEAEAEEEE/EAEEEEEEEE<EEAEEEEEEEAEAAEAAEEEEEEAAEEEAEEEEEEEEEEEEEEEE/EEAEAEEEEEEEAAAAAA	s1:i:240	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.147998	83	MT192765.1	919	60	94M	=	674	-339	TTTATTGACACTAAGAGGGGTGTATACTGCTGCCGTGAACATGAGCATGAAATTGCTTGGTACACGGAACGTTCTGAAAAGAGCTATGAATTGC	EE<EEE//A/EEE/A</E<AEAE<EEEA<6EE/EEE/A/EAEAE<//EEEE/EEE6EEE/E/EE/EEE/EEAAEEEEEEEEEEEEEEAEAAAAA	s1:i:215	s2:i:0	RG:Z:1	NM:i:0	AS:i:188	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:188
+ERR5069949.155944	163	MT192765.1	978	60	150M	=	1023	195	GTACACGGAACGTTCTGAAAAGAGCTATGAATTGCAGACACCTTTTGAAATTAAATTGGCAAAGAAATTTGACACCTTCAATGGGGAATGTCCAAATTTTGTATTTCCCTTAAATTCCATAATCAAGACTATTCAACCAAGGGTTGAAAA	AAAA/EEEEEEAEEEEEEEEEEEE/EEEEEEEEEE/EAEEEEEEEEEEEEEEEAEEEAEE/AEEEEEEAAEEEEEEAEAEEEE/AEE/<EAE/E<EEA<<<AAEEAEEE<AA<EE/EAAEEEE<<<EEEA/AEAEE6</EEA<AEEE<<E	s1:i:183	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.155944	83	MT192765.1	1023	60	150M	=	978	-195	TGAAATTAAATTGGCAAAGAAATTTGACACCTTCAATGGGGAATGTCCAAATTTTGTATTTCACTTAAATTCCATAATCAAGACTATTCAACCAAGGGTTGAAAAGAAAAAGCTTGATGGCTTTATGGGTAGAATTCGATCTGTCTATCC	EA<EA/<A/6A/AEA/6/66/AAAEAEEE/EEA/6AAAAAAEE</AAEEEEAAEEEAA/EEE//A/EEEEE/AE/EEE6AEEEE/A/EAEEEEE/EEAEEEAE/AEA66AEEEEEEEEE<AEEEAEEEEEEEEE6EEEEEEEAEEAAAAA	s1:i:183	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.184542	99	MT192765.1	1055	60	151M	=	1255	266	TCAATGGGGAATGTCCAAATTTTGTATTTCCCTTAAATTCCATAATCAAGACTATTCAACAAAGGGTTGAAAAGAAAAAGCTTGATGGCTTTATGGGTAGAATTCGATCTGTCTATCCAGTTGCGTCTCCAAATGAATGCAACCAAATGTG	AAAAAEEEEE/EA/E/EEE/EEAEE/E/EE/EEEE//AEE/E/EEE//EEE/</E/EE<<//EE/EE<EEEEEAE/E/EAAEEEAEAEE<E</EEEE/E//E<<<///E<//A<AE</<AEEEAAE///EE</EE//AA///<E</A<AEA	s1:i:155	s2:i:0	RG:Z:1	NM:i:2	AS:i:282	de:f:0.0132	rl:i:0	cm:i:12	nn:i:0	tp:A:P	ms:i:282
+ERR5069949.169513	99	MT192765.1	1098	60	92M	=	1098	92	AATCAAGACTATTCAACCAAGGGTTGAAAAGAAAAAGCTTGATGGCTTTATGGGTAGAATTCGATCTGTCTATCCAGTTGCGTCACCAAATG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EE6EEEE	s1:i:92	s2:i:0	RG:Z:1	NM:i:0	AS:i:184	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:184
+ERR5069949.169513	147	MT192765.1	1098	48	92M	=	1098	-92	AATCAAGACTATTCAACCAAGGGTTGAAAAGAAAAAGCTTGATGGCTTTATGGGTAGAATTCGATCTGTCTATCCAGTTGCGTCACCAAATG	EEEEEEEEEEEEEEEEEEEEEEE/EEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:32	s2:i:92	RG:Z:1	NM:i:0	AS:i:184	de:f:0	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:184
+ERR5069949.184542	147	MT192765.1	1255	60	66M	=	1055	-266	ACGTGCGATTTTGTTAAAGCCACTTGCGAATTTTGTGGCACTGAGAATTTGACTAAAGAAGGTGCC	E////E/A6EAEEE<AEE///A/A/6/EEE6AA//E/EEEAAAA6EE/A/6EAAA/EEAEAA/AAA	s1:i:155	s2:i:0	RG:Z:1	NM:i:1	AS:i:124	de:f:0.0152	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:124
+ERR5069949.257821	163	MT192765.1	2833	60	140M	=	2834	140	GCCTATACAGTTGAACTCGGTACAGAAGTAAATGAGTTCGCCTGTGTTGTGGCAGATGCTGTCATAAAAACTTTGCAACCAGTATCTGAATTACTTACACCACTGGGCATTGATTTAGATGAGTGGAGTATGGCTACATA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEAEEEEEE	s1:i:121	s2:i:0	RG:Z:1	NM:i:0	AS:i:280	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:280
+ERR5069949.257821	83	MT192765.1	2834	49	139M	=	2833	-140	CCTATACAGTTGAACTCGGTACAGAAGTAAATGAGTTCGCCTGTGTTGTGGCAGATGCTGTCATAAAAACTTTGCAACCAGTATCTGAATTACTTACACCACTGGGCATTGATTTAGATGAGTGGAGTATGGCTACATA	A/AE<EE<EA</EAEAAA<AEEAEE/A/E<<E</E</EEEAAE/EE<E/EEEAEEEEEEE/AEEEEEEEEEEE/EEEE<EEEE/EE/EAEEE6EEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:121	s2:i:48	RG:Z:1	NM:i:0	AS:i:278	de:f:0	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:278
+ERR5069949.309410	99	MT192765.1	3184	60	151M	=	3348	314	GAAGAAGATTGGTTAGATGATGATAGTCAACAAACTGTTGGTCAACAAGACGGCAGTGAGGACAATCAGACAACTACTATTCAAACAATTGTTGAGGTTCAACCTCAATTAGAGATGGAACTTACACCAGTTGTTCAGACTATTGAAGTGA	AAAAA//EEEEA6EEEAE</EEE/EEEEE/EE6EEEEEEEEEEEEEEEAEEAAEEEEEEEEEAEEEEEE/EEAEEEEEAEAEEE/EEAEEE<AEEEAA////EEEEEEEEA//A/EE/EAAEA/AE<EE/E//E/</AEAEAE/AEA/AEA	s1:i:274	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.309410	147	MT192765.1	3348	60	150M	=	3184	-314	TTATTTAAAACTTACTGACAATGTATACATTAAAAATGCAGACATTGTGGAAGAAGCTAAAAAGGTAAAACCAACAGTGGTTGTTAATGCAGCCAATGTTTACCTTAAACATGGAGGAGGTGTTGCAGGAGCCTTAAATACGGCTACTAA	E//EEAEA<<EAAE/AAAAEAAAAEA</A/<6/E/<A<//AE/EEAAE<EEEAEEEEEEAEE/EEAEEEEEE/<E/EEE6EEAE/<EE//E</</EE/EEAAEE/EAA/EEEEAEEEEE///EA/EEEEEEEE//E66EE/E/EEA/AAA	s1:i:274	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.376959	99	MT192765.1	4105	60	151M	=	4190	235	GCTCCATATATAGTGGGTGATGTTGTTCAAGAGGGTGTTTTAACTGCTGTGGTTATACCTACTAAAAAGGCTGGTGGCACTACTGAAATGCTAGCGAAAGCTTTGAGAAAAGTGCCAACAGACAATTATATAACCACTTACCCGGGTCAGG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEAAAAAEEEEEEEEEAEEAEEEEEEEEEEEEAAAEEAEA	s1:i:224	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.366975	163	MT192765.1	4166	60	106M	=	4166	106	CTAAAAAGGCTGGTGGCACTACTGAAATGCTAGCGAAAGCTTTGAGAAAAGTGCCAACAGACAATTATATAACCACTTACCCGGGTCAGGGTTTAAATGGTTACAC	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE	s1:i:96	s2:i:0	RG:Z:1	NM:i:0	AS:i:212	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:212
+ERR5069949.366975	83	MT192765.1	4166	59	106M	=	4166	-106	CTAAAAAGGCTGGTGGCACTACTGAAATGCTAGCGAAAGCTTTGAGAAAAGTGCCAACAGACAATTATATAACCACTTACCCGGGTCAGGGTTTAAATGGTTACAC	EEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEAEEEEEEEEEE<AEAEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:96	s2:i:0	RG:Z:1	NM:i:0	AS:i:212	de:f:0	rl:i:0	cm:i:4	nn:i:0	tp:A:P	ms:i:212
+ERR5069949.376959	147	MT192765.1	4190	60	150M	=	4105	-235	AAATGCTAGCGAAAGCTTTGAGAAAAGTGCCAACAGACAATTATATAACCACTTACCCGGGTCAGGGTTTAAATGGTTACACTGTAGAGGAGGCAAAGACAGTGCTTAAAAAGTGTAAAAGTGCCTTTTACATTCTACCATCTATTATCT	EEAAAEAAA<AAAAAEEEA<EEEEAE<<<AAAAAAA<A<AEEEEE<EEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEAAAAA	s1:i:224	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.465452	99	MT192765.1	4695	60	151M	=	4827	282	ACCTGATGCTGTTACAGCGTATAATGGTTATCTTACTTCTTCTTCTAAAACACCTGAAGAACATTTTATTGAAACCATCTCACTTGCTGGTTCTTATAAAGATTGGTCCTATTCTGGACAATCTACACAACTAGGTATAGAATTTCTTAAG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEE/EEAEEEE/EEEEEEEEEEAEEEEEEEEEEEEEEE<EEEEAAAEAEEEEEEAA6AAEEEEEA<EEEEE</EEAEE/EE	s1:i:261	s2:i:0	RG:Z:1	NM:i:1	AS:i:292	de:f:0.0066	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.465452	147	MT192765.1	4827	60	150M	=	4695	-282	AGGTATAGAATTTCTTAAGAGAGGTGATAAAAGTGTATATTACACTAGTAATCCTACCACATTCCACCTAGATGGTGAAGTTATCACCTTTGACAATCTTAAGACACTTCTTTCTTTGAGAGAAGTGAGGACTATTAAGGTGTTTACAAC	AAAEEEEEEEEEEEEAA/<EA<AA/EAEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEAEEEEEEE/EEA/EEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:261	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.479807	163	MT192765.1	4968	60	150M	=	5123	305	GTTTACAACAGTAGACAACATTAACCTCCACACGCAAGTTGTGGACATGTCAATGACATATGGACAACAGTTTGGTCCAACTTATTTGGATGGAGCTGATGTTACTAAAATAAAACCTCATAATTCACATGAAGGTAAAACATTTTATGT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<AEEEEEEEEEE<EEE<AEE/EEEEEEEEEAEEE<AA/EAA<AEEEEEEEAEEAAA	s1:i:280	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.479807	83	MT192765.1	5123	60	150M	=	4968	-305	CTAATGATGACACTCTACGTGTTGAGGCTTTTGAGTACTACCACACAACTGATCCTAGTTTTCTGGGTAGGTACATGTCAGCATTAAATCACACTAAAAAGTGGAAATACCCACAAGTTAATGGTTTAACTTCTATTAAATGGGCAGATA	AA/EEEEAAAEAEEEAAAEEA/AAEAAEE/AAAEAAAAEEEEEEEEEEEAEEEEEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEAEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:280	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:23	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.501486	163	MT192765.1	5355	60	150M	=	5423	214	TTACAGAGCAAGGGCTGGTGAAGCTGCTAACTTTTGTGCACTTATCTTAGCCTACTGTAATAAGACAGTAGGTGAGTTAGGTGATGTTAGAGAAACAATGAGTTACTTGTTTCAACATGCCAATTTAGATTCTTGCAAAAGAGTCTTGAA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEAA/EEE/<AEEAAEAEA</EEEAEAAAAAEE	s1:i:207	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.501486	83	MT192765.1	5423	60	146M	=	5355	-214	TAGGTGAGTTAGGTGATGTTAGAGAAACAATGAGTTACTTGTTTCAACATGCCAATTTAGATTCTTGCAAAAGAGTCTTGAACGTGGTGTGTAAAACTTGTGGACAACAGCAGACAACCCTTAAGGGTGTAGAAGCTGTTATGTAC	EAAAAEAEEEE6E<AEEEEEEEE<EEEEEEAAEE/EEEEEE/<EEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:207	s2:i:0	RG:Z:1	NM:i:0	AS:i:292	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.532979	99	MT192765.1	5568	60	149M	=	5621	204	CATGGGCACACTTTCTTATGAACAATTTAAGAAAGGTGTTCAGATACCTTGTACGTGTGGTAAACAAGCTACAAAATATCTAGTACAACAGGAGTCACCTTTTGTTATGATGTCAGCACCACCTGCTCAGTATGAACTTAAGCATGGTA	AAAAAEEEEEEEEEEEEEEEEEEE/EEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/A/</EEE<EEE<<AEEEEEA/AA/AE/EE/EEEEAEA</EAEEE<<AEEEEE	s1:i:196	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.540529	163	MT192765.1	5570	60	150M	=	5659	238	TGGGCACACTTTCTTATGAACAATTTAAGAAAGGTGTTCAGATACCTTGTACGTGTGGTAAACAAGCTACAAAATATCTAGTACAACAGGAGTCACCTTTTGTTATGATGTCAGCACCACCTGCTCAGTATGAACTTAAGCATGGTACAT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEAEEEEAEAEEEEEEEEEEAAEEEEEEEEEEAEEEEEEE<EA<AEEEAEEEAEEEEAEEAEEEAEEEEEEEAAAEEE	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.532979	147	MT192765.1	5621	60	151M	=	5568	-204	CGTGTGGTAAACAAGCTACAAAATATCTAGTACAACAGGAGTCACCTTTTGTTATGATGTCAGCACCACCTGCTCAGTATGAACTTAAGCATGGTACATTTACTTGTGCTAGTGAGTACACTGGTAATTACCAGTGTGGTCACTATAAACA	AE/E/<E/AA/EA<EA<EEEEAEA<AEAEE/AEAAA</<EEEE<AEEAEEE/EE/AEA<AE<EEEEEEEE/EEEEEEAE/EEEEEEEEEEE/EEAEEEEEEEEEEE/EEEAE6EEE/EEEEEEEAEEEEAEEEEEEEEEEEEEEEEAAAAA	s1:i:196	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.540529	83	MT192765.1	5659	60	149M	=	5570	-238	GAGTCACCTTTTGTTATGATGTCAGCACCACCTGCTCAGTATGAACTTAAGCATGGTACATTTACTTGTGCTAGTGAGTACACTGGTAATTACCAGTGTGGTCACTATAAACATATAACTTCTAAAGAAACTTTGTATTGCATAGACGG	AEAEAEE<EE<AAEA<EEE/<EE6A<AEEE<EE<EEEE<EEE/E<AEEE<E/<EAEEEEEEE<EEEAEEEAEAEAAEEEEEEEEEEEEEEAEEEEEEEEEE/EA<E/EAEEEEEEAEE6EEEEEEEAEEEAEE/AAEEEE/A/EAAAAA	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.573706	99	MT192765.1	5697	60	150M	=	5784	236	GTACGAACTTAAGCATGGTACATTTACTTGTGCTAGTGAGTACACTGGTAATTACCAGTGTGGTCACTATAAACATATATCTTCTAAAGAAACTTTGTATTGCATAGACGGTGCTTTACTTACAAAGTCCTCAGAATACAAAGGTCCTAT	AAAAA6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEAAEEEAEEEEEEEEEEE	s1:i:214	s2:i:0	RG:Z:1	NM:i:2	AS:i:282	de:f:0.0133	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:282
+ERR5069949.573706	147	MT192765.1	5784	60	149M	=	5697	-236	AGAAACTTTGTATTGCATAGACGGTGCTTTACTTACAAAGTCCTCAGAATACAAAGGTCCTATTACGGATGTTTTCTACAAAGAAAACAGTTACACAACAACCATAAAACCAGTTACTTATAAATTGGATGGTGTTGTTTGTACAGAAA	AA<E<EEEEEEEEA<AEEEAEEAA<<EEE<AEEEEEEAEAAAAEAEAEEEEEEAEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:214	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.576388	163	MT192765.1	5798	60	77M	=	5798	77	GCATAGACGGTGCTTTACTTACAAAGTCCTCAGAATACAAAGGTCCTATTACGGATGTTTTCTACAAAGAAAACAGT	AAAAA6EEAEEEEEAEEAEEAEEEEEEA6EEEEAEEAEEEEE6EEEEEEAEEEEA///A<<EEEEEEEEEAEEEEEE	s1:i:62	s2:i:0	RG:Z:1	NM:i:0	AS:i:154	de:f:0	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:154
+ERR5069949.576388	83	MT192765.1	5798	50	77M	=	5798	-77	GCATAGACGGTGCTTTACTTACAAAGTCCTCAGAATACAAAGGTCCTATTACGGATGTTTTCTACAAAGAAAACAGT	EA/AEEE/<EEEEEEEEEEEAA<EEEEEEEEEEEEEEEEEEEEEAEEEEEAEEEAEE6/EEEAEEEEEEEEEA6AAA	s1:i:62	s2:i:0	RG:Z:1	NM:i:0	AS:i:154	de:f:0	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:154
+ERR5069949.611123	163	MT192765.1	6481	60	125M	=	6481	125	ATTATACTTAAACCAGCAAATAATAGTTTAAAAATTACAGAAGAGGTTGGCCACACAGATCTAATGGCTGCTTATGTAGACAATTCTAGTCTTACTATTAAGAAACCTAATGAATTATCTAGAGT	AAAAAEEEEEA6EEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEE<EEEEEEEAEEEEEEEEEEEEAEEEEEEEEEEE/EEEEEEEA/AAEAAEAAEAE	s1:i:117	s2:i:0	RG:Z:1	NM:i:0	AS:i:250	de:f:0	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:250
+ERR5069949.611123	83	MT192765.1	6481	48	125M	=	6481	-125	ATTATACTTAAACCAGCAAATAATAGTTTAAAAATTACAGAAGAGGTTGGCCACACAGATCTAATGGCTGCTTATGTAGACAATTCTAGTCTTACTATTAAGAAACCTAATGAATTATCTAGAGT	EEEAEEEEEEEEEEEA<EEEAEEEEA/EEEEEEEEEAEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:50	s2:i:117	RG:Z:1	NM:i:0	AS:i:250	de:f:0	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:250
+ERR5069949.651338	163	MT192765.1	7629	60	149M	=	7745	254	ATTCTGTGCTGGTAGTACATTTATTAGTGATGAAGATGCGAGAGACTTGTCACTACAGTTTAAAAGACCAATAAATCCTACTGACCAGTCTTCTTACATCGTTGATAGTGTTACAGTGAAGAATGGTTCCATCCATCTTTACTTTGATA	AAAAAE/EAEEE/AEAEEE/EEEAAEEEEAEEEEE/EEEEAEEEEEEAEE/EEEE/EEE</EE/AEAE/<E/EEAEE<EEEE//AEEEEEE<EEAEE/EEE//E/<EE<A<A/EAA<AA/AEEA//A<A/A<A<6A6/AEE/AEEA<AE	s1:i:223	s2:i:0	RG:Z:1	NM:i:1	AS:i:288	de:f:0.0067	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:288
+ERR5069949.651338	83	MT192765.1	7745	60	4S138M	=	7629	-254	ACTCTGAAGAATGGTTCCATCCATCTTTACTTTGTTAAAGCTGGTCAAAAGACTTATGAAAGACATTCTCTCTCTCATTTTGTTAACTTAGACAACCTGAGAGCTAATAACACTAAAGGTTCATTGCCTATTAATGTTATAG	A///A/6/<EEEA//EE/EE<AEEE/<A/EAE<</A/A<EEE/E<EEEEE<</EEEA<E/EEAAEEEEAE/EEEEEEEEEEEEEE/E/A/EE//<AE/EEEAEEA</EE/AEEEE/AEEEEAEEEEEEEEEAEAEEEAAAAA	s1:i:223	s2:i:0	RG:Z:1	NM:i:1	AS:i:266	de:f:0.0072	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:266
+ERR5069949.686090	163	MT192765.1	7975	60	151M	=	8097	272	GATCAGGCATTAGTGTCTGATGTTGGTGATAGTGCGGAAGTTGCAGTTAAAATGTTTGATGCTTACGTTAATACGTTTTCATCAACTTTTAACGTACCAATGGAAAAACTCAAAACACTAGTTGCAACTGCAGAAGCTGAACTTGCAAAGA	AAAAAEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEAEEEEEEEE/EEEEEEEEEEEEEEAEEEEEAEEEE<AEE/EEEEEEEAAAAEEEEEEEEEEEAEAEEEEEAEEEEA	s1:i:252	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:27	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.686090	83	MT192765.1	8097	60	150M	=	7975	-272	TGCAACTGCAGAAGCTGAACTTGCAAAGAATGTGTCCTTAGACAATGTCTTATCTACTTTTATTTCAGCAGCTCGGCAAGGGTTTGTTGATTCAGATGTAGAAACTAAAGATGTTGTTGAATGTCTTAAATTGTCACATAAATCTGACAT	EEEAEAEEEEEEEEEEEEEAEEEEEAEEE<EAEE/EEEEEEEEAEEE6EEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEE/EEEEAEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:252	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.786562	163	MT192765.1	8904	60	150M	=	9096	343	GCATTTCTTACCTAGAGTTTTTAGTGCAGTTGGTAACATCTGTTACACACCATCAAAACTTATAGAGTACACTGACTTTGCAACATCAGCTTGTGTTTTGGCTGCTGAATGTACAATTTTTAAAGATGCTTCTGGTAAGCCAGTACCATA	AAAAAEEEEEEEEAEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEAEEEEEEEEEEEEEEEAEEEEEEE<EEAEEEEE<EEEEEEEEEAEEEAEEEAEEAA6A<EEEEAAEEEEAA/AEEEEEE/EEEEEEE	s1:i:272	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.786562	83	MT192765.1	9096	60	151M	=	8904	-343	AAGTTTACGCCCTGACACACGTTATGTGCTCATGGATGGCTCTATTATTCAATTTCCTAACACCTACCTTGAAGGTTCTGTTAGAGTGGTAACAACTTTTGATTCTGAGTACTGTAGGCACGGCACTTGTGAAAGATCAGAAGCTGGTGTT	AEAE<AE/AAAEEAAEE<EEAEEEEAEEEEAAA/AEEEAEAEAEEEEEEEEAAEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAA6A	s1:i:272	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.856527	99	MT192765.1	10118	60	97M1D54M	=	10199	233	CAACTACACTTAACGGTCTTTGGCTTGATGACGTAGTTTACTGTCCAAGACATGTGATCTGCACCTCTGAAGACATGCTTAACCCTAATTATGAAGATTACTCATTCGTAAGTCTAATCATAATTTCTTGGTACAGGCTGGTAATGTTCAA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEAAEEEEEEEAEEEE<AAAEEAEEEAEEEE/EEEEEAEEEAEAEE//<//AE//E<E//<//EA/A<EA6EE//E/AA/6A//6/AEE<EE6AE/AE	s1:i:197	s2:i:0	RG:Z:1	NM:i:1	AS:i:288	de:f:0.0066	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:288
+ERR5069949.870926	99	MT192765.1	10118	60	149M	=	10245	278	CAACTACACTTAACGGTCTTTGGCTTGATGACGTAGTTTACTGTCCAAGACATGTGATCTGCACCTCTGAAGACATGCTTAACCCTAATTATGAAGATTTACTCATTCGTAAGTCTAATCATAATTTCTTGGTACAGGCTGGTAATGTT	AAAAAEEAEEEEEEEEEAEEEEEEAEEEEEEEEE/EEEEEEEAEEEEEEEAEEA<AE/AEEEEEEEEE<EEEEEEE/AEAEEEEAAEEEEAAEEEEEAEEEEEEEEAEEAAEEEEEAEAA/EEEAAEEEAAAA/A/EA/E/AEEEE/EE	s1:i:262	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.856527	147	MT192765.1	10199	60	16M1D135M	=	10118	-233	ACCCTAATTATGAAGATTACTCATTCGTAAGTCTAATCATAATTTCTTGGTACAGGCTGGTAATGTTCAACTAAGTGTTATTGGACATTCTATGCAAAATTGTGTACTTAAGCTTAAGGTTGATACAGCCAATCCTAAGACACCTAAGTAT	A///6A/A6<//EA/EEEE<E<A<A6/<<A<A/A<EE6<EEEEE<A/AEEEE/AAA<E/E<EAEEEEEEEEE/A6/EEE/EE//E6EEEAE/EE<<AE/<EAEEEAAAEEAEEEEEE<</E<EEEEEEAEEEEEEEEAEEEE/EAAAAAAA	s1:i:197	s2:i:0	RG:Z:1	NM:i:3	AS:i:268	de:f:0.0197	rl:i:0	cm:i:12	nn:i:0	tp:A:P	ms:i:268
+ERR5069949.885966	99	MT192765.1	10230	60	79M	=	10277	118	GTCTAATCATAATTTCTTGGTACAGGCTGGTATTGTTCATCTCAGGGTTATTGGACATTCTATGCAAAATTGTGTACTT	AAA//E/EAA/E//E//E//E/E//AE/A/E//EAEA///AE//E///E/EEE6EEEAEEA///E/AEE/EAEE/E//E	s1:i:86	s2:i:0	RG:Z:1	NM:i:2	AS:i:138	de:f:0.0253	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:138
+ERR5069949.870926	147	MT192765.1	10245	60	151M	=	10118	-278	CTTGGTACAGGCTGGTAATGTTCAACTCAGGGTTATTGGACATTCTATGCAAAATTGTGTACTTAAGCTTAAGGTTGATACAGCCAATCCTAAGACACCTAAGTATAAGTTTGTTCGCATTCAACCAGGACAGACTTTTTCAGTGTTAGCT	AAAAE////<6/EA6/</EE/EEEEAAAA<AE/EAA</</</</EEE</E/EEEAEE<E<<EEEE<EEEEEEEA//EEEA</EA<EA/EAA/EEEEEEEAEEEAEEEEEEEEEE/E/A/EEEEEEEE/EEEEEEEEEEEE6EEEE/6AAAA	s1:i:262	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.885966	147	MT192765.1	10277	60	62M2D7M	=	10230	-118	TTATTGGACATTCTATGCAAAATTGTGTACTTAAGCTTAAGGTTGATACAGCCAATCCTAAGACCTAAG	6/E//AE</E/E/AAE/EAAEE/E/E/EA6EAEEEAE/EAA///AE/AEE/EEE6EEEEEAEE6AA//A	s1:i:86	s2:i:0	RG:Z:1	NM:i:2	AS:i:128	de:f:0.0143	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:124
+ERR5069949.937422	99	MT192765.1	10422	60	85M32D66M	=	10591	320	TTACCAATGTGCTATGAGGCCCAATTTCACTATTAAGGGTTCATTCCTTAATGGTTCATGTGGTAGTGTTGGTTTTAACATAGATTATGGAATTACCAACTGGAGTTCATGCTGGCACAGACTTAGAAGGTAACTTTTATGGACCTTTTGT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEA<E<EE/EAE/E//EE/EEEEEEEAEEE<E/EEE/EEA<EEE</66EE<A/AA<EEEA<EAE/A//AEEAEE///<A<EEEEEEA	s1:i:261	s2:i:0	RG:Z:1	NM:i:32	AS:i:246	de:f:0.0066	rl:i:0	cm:i:23	nn:i:0	tp:A:P	ms:i:226
+ERR5069949.919671	163	MT192765.1	10467	60	150M	=	10501	185	CCTTAATGGTTCATGTGGTAGTGTTGGTTTTAACATAGATTATGACTGTGTCTCTTTTTGTTACATGCACCATATGGAATTACCAACTGGAGTTCATGCTGGCACAGACTTAGAAGGTAACTTTTATGGACCTTTTGTTGACAGGCAAAC	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAE/EEEEEEAEEEEEEEEAEEEEEEEEEEEAEEEEEEEAEEEEAEEEEAEEEEE6EEEEEEEAAEAEEEEEEE<EEEEEEE6AAEEAEEEAA6AEEAAAAAEEAAEEEAEAEEE	s1:i:184	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:24	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.919671	83	MT192765.1	10501	60	151M	=	10467	-185	ATAGATTATGACTGTGTCTCTTTTTGTTACATGCACCATATGGAATTACCAACTGGAGTTCATGCTGGCACAGACTTAGAAGGTAACTTTTATGGACCTTTTGTTGACAGGCAAACAGCACAAGCAGCTGGTACGGACACAACTATTACAG	EEEEEEEEAAEAAAEEAA6AEEEEEEEEAEEAAAAE/AEEEAEEEAEEEAEEEEEEEEEEEEEEEEEEEEAAEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEAAAAA	s1:i:184	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.937422	147	MT192765.1	10591	60	151M	=	10422	-320	TATGGACCTTTTGTTGACAGGCAAACAGCACAAGCAGCTGGTACGGACACAACTATTACAGTTAATGTTTTAGCTTGGTTGTACGCTGCTGTTATAAATGGAGACAGGTGGTTTCTCAATCGATTTACCACAACTCTTAATGACTTTAACC	AA/A<EE/EEEAAE<EAA/AE6AAAAAAAAA<AAAAEAEEE/AEEEA<AE<AEAEEAAEAEEEEEEEAEEEEEEEEEE//EEAEEE<EEEAEEEEEEAAAAAEEEEEE/EE/6EEEEEEEEEEEEEEEEEEEEEEEEAEEEEAEEEAAAAA	s1:i:261	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.973930	163	MT192765.1	10924	60	112M	=	10957	112	CCTTTTGATGTTGTTAGACAATGCTCAGGTGTTACTTTCCAAAGTGCAGTGAAAAGAACAATCAAGGGTACACACCACTGGTTGTTACTCACAATTTTGACTTCACTTTTAG	AAAAAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEAE<EAEEEEEEAEEAEE	s1:i:101	s2:i:0	RG:Z:1	NM:i:0	AS:i:224	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:224
+ERR5069949.973930	83	MT192765.1	10957	50	79M	=	10924	-112	ACTTTCCAAAGTGCAGTCAAAAGAACAATCACGGGTACACACCACTGGTTGTTACTCACAATTTTGACTTCACTTTTAG	<////E/EE/E//E/<//E/E//A/6EA/EE/EE///E/EAEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:101	s2:i:0	RG:Z:1	NM:i:2	AS:i:138	de:f:0.0253	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:138
+ERR5069949.986441	99	MT192765.1	11007	60	119M	=	11104	247	GTTACTCACAATTTTGACTTCACTTTTAGTCTTAGTCCAGAGTACTCAATGGTCTTTGTTCTTTTTTTTGTATGAAAATGCCTTTTTACCTTTTGCTATGGGTATTATTGCTATGTCTG	AAAAAEAEEEEEEE/EEE/EEEEEAEEEEEEEEEEEEEEEEEEEEE</EAAEA/EEEEEEEEAEAAEEEEEEEEEEEEE/E//<EAE/6///EE//E/EEE///E<EEEEA</A<<//<	s1:i:200	s2:i:0	RG:Z:1	NM:i:1	AS:i:228	de:f:0.0084	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:228
+ERR5069949.986441	147	MT192765.1	11104	60	150M	=	11007	-247	ATGGGTATTATTGCTATGTCTGCTTTTGCAATGATGTTTGTCAAACATAAGCATGCATTTCTCTGTTTGTTTTTGTTACCTTCTCTTGCCACTGTAGCTTATTTTAATATGGTCTATATGCCTGCTAGTTGGGTGATGCGTATTATGACA	A6A<AEEEEE<E<EAEAAEA<AAEEAEA</EAEEA<E/E/E/EEEEAEAA/<EAAAEAEEE/EEEEEEEAEEE/EAEAE/AEAAA/EAEEEEEEAEAEEEEEEEAEAEEEEE/EAEEEEEEAEEEEEAEEEEEEEEAEEEEEEEEAAAAA	s1:i:200	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1014693	99	MT192765.1	11215	60	150M	=	11215	150	GTCTATATGCCTGCTAGTTGGGTGATGCGTATTATGACATGGTTGGATATGGTTGATACTAGTTTGTCTGGTTTTAAGCTAAAAGACTGTGTTATGTATGCATCAGCTGTAGTGTTACTAATCCTTATGACAGCAAGAACTGTGTATGAT	AAAAAAEEAEEE6EAE//E/EEE6AEAA/EAEAEE6/E//EAE/EEEEAEE/EEE/EAEEEEEAE/EEEEEAEEEEEAAEEAEEE/AE/EAEAEEEEEEEEEEEEEE/AE/E/E/<<<AA<E<AEE</EEEEA6<AEEAAAA//A//EEE	s1:i:136	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1014693	147	MT192765.1	11215	48	150M	=	11215	-150	GGCTATATGCCTGCTAGTTGGGTGATGCGTATTATGACATGGTTGGATATGGTTGATACTAGTTTGTCTGGTTTTAAGCTAAAAGACTGTGTTATGTATGCATCAGCTGTAGTGTTACTAATCCTTATGACAGCAAGAACTGTGTATGAT	A/<EEEAA<<AA<AEAE<6<A<AA<EA<///EAEEE<AAEAA/EA6/EEEEE/E/EE/AEAEAEEE<AEEEEEEE6<AAEEEEE<EEEAEEEEEEAAEAEAEEEAAEEEEEEEEEE/EEEEEEEEE/EEEEEEEEAEE/EAEEEEAAAAA	s1:i:33	s2:i:136	RG:Z:1	NM:i:1	AS:i:296	de:f:0.0067	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.1020777	163	MT192765.1	11217	60	122M	=	11217	122	CTATATGCCTGCTAGTTGGGTGATGCGTATTATGACATGGTTGGATATGGTTGATACTAGTTTGTCTGGTTTTAAGCTAAAAGACTGTGTTATGTATGCATCAGCTGTAGTGTTACTAATCC	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEAEEEEEEAEEEAAEEEEEEEEEAEEEEA	s1:i:110	s2:i:0	RG:Z:1	NM:i:0	AS:i:244	de:f:0	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:244
+ERR5069949.1020777	83	MT192765.1	11217	50	122M	=	11217	-122	CTATATGCCTGCTAGTTGGGTGATGCGTATTATGACATGGTTGGATATGGTTGATACTAGTTTGTCTGGTTTTAAGCTAAAAGACTGTGTTATGTATGCATCAGCTGTAGTGTTACTAATCC	EEEEA6AAAA6E/AA6AAAE/EEA<EE<AEEEAE<EAEAEAEAE<EEEEE/AEEAAEEEEAEEEEEEEE/EEEEE/EEEEEEEEEEEEE6EEEEEE/EEEEEE<EEEAEE6E6EEEEAAAAA	s1:i:110	s2:i:41	RG:Z:1	NM:i:0	AS:i:244	de:f:0	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:244
+ERR5069949.1066259	99	MT192765.1	11337	60	147M	=	11480	294	CCTTATGACAGCAAGAACTGTGTATGATGATGGTGCTAGGAGAGTGTGGACACTTATGAATGTCTTGACACTCGTTTATAAAGTTTATTATGGTAATGCTTTAGATCAAGCCATTTCCATGTGGGCTCTTATAATCTCTGTTACTTC	AAAAAEAEEAEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEAEEEEEEEEEEEEEEEEE/EAEEEEEE/6EEEEEEEEEEAEEAEEE/EE/AEEAEEEEEAEEEA/EEAAEAE<AEEAEEEAEAEEEAEAEEAE/AEEEEAEEEEAEA	s1:i:272	s2:i:0	RG:Z:1	NM:i:0	AS:i:294	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.1062611	163	MT192765.1	11427	60	151M	=	11454	178	TGGTAATGCTTTAGATCAAGCCATTTCCATGTGGGCTCTTATAATCTCTGTTACTTCTAACTACTCAGGTGTAGTTACAACTGTCATGTTTTTGGCCAGAGGTATTGTTTTTATGTGTGTTGAGTATTGCCCTATTTTCTTCATAACTGGT	AAAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAAEEE<AAEEEEEEEEAAEEAAA6AEEEEEEEEEEEEEEEEEA	s1:i:167	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1067032	163	MT192765.1	11434	60	150M	=	11481	197	GCTTTAGATCAAGCCATTTCCATGTGGGCTCTTATAATCTCTGTTACTTCTAACTACTCAGGTGTAGTTACAACTGTCATGTTTTTGGCCAGAGGTATTGTTTTTATGTGTGTTGAGTATTGCCCTATTTTCTTCATAACTGGTAATACA	AAAAAAEEEE666<EEEE/E/EEEAEAEEEE/EEEEEEEE/AEEEAEE/<AAEE<EAEEEA/AEEE/EAEEEE<E<AEEAEEEE<<//EEE/EEE<EEE<A/A/A<EEE///A/6<A<AE<//<EEEE6</<AAAAAAE<A//<</<A/E	s1:i:171	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1062611	83	MT192765.1	11454	60	151M	=	11427	-178	CATGTGGGCTCTTATAATCTCTGTTACTTCTAACTACTCAGGTGTAGTTACAACTGTCATGTTTTTGGCCAGAGGTATTGTTTTTATGTGTGTTGAGTATTGCCCTATTTTCTTCATAACTGGTAATACACTTCAGTGTATAATGCTAGTT	AEEAAEEEAAEEEEAEAEEEAEEEEEEAEEEEEEEEEEEEEA<EEEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEEEAEEA6EEEEEEEEAEA/EEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:167	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1066259	147	MT192765.1	11480	60	151M	=	11337	-294	CTTCTAACTACTCAGGTGTAGTTACAACTGTCATGTTTTTGGCCAGAGGTATTGTTTTTATGTGTGTTGAGTATTGCCCTATTTTCTTCATAACTGGTAATACACTTCAGTGTATAATGCTAGTTTATTGTTTCTTAGGCTATTTTTGTAC	EE//AAEEEEEEEAEE<AEEA6A<AEEAEEAAAEAA/EEEA<AA<EA<E/A//EA/EEEEEEEEEE/<AAE/AEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEAAAAA	s1:i:272	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1067032	83	MT192765.1	11481	60	150M	=	11434	-197	TTCTAACTACTCAGGTGTAGTTACAACTGTCATGTTTTTGGCCAGAGGTATTGTTTTTATGTGTGTTGAGTATTGCCCTATTTTCTTCATAACTGGAAATACACTTCAGTGTATAATGCTAGTTTATTGTTTCTTAGGCTATTTTTGTAC	EE<EAAE/EEAEE/<<AEEEAA<6</E/AAA/EE/EEEAAEEEEEE<A///AAEEEE/EE<EE/A6EAE//EEE6AEEEA6EEEEEEAEEEEAAAE/EEEEAE//EE<EEEE/EEEEEEEE/E/EEEEEEEEEEEEAE/EAEEE/AAAAA	s1:i:171	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.1088785	99	MT192765.1	11864	60	149M	=	11912	198	CAGTAGTCTTACTCTCAGTTTTGCAACAACTCAGAGTAGAATCATCATCTAAATTGTGGGCTCAATGTGTCCAGTTACACAATGACATTCTCTTAGCTAAAGATACTACTGAATCCTTTGAAAAAAAGGTTTCACTACTTTCGGTTTTG	AAAAAE/EAEE<EEA///<AEEE/EE<AEEE<EA/EEEEEEE/EAAAEEEEEE<E/E6AE<<E/EEA//</E/EEE/EEE/EE/E/<<EEAAAE<EEEEEE/EAEA//<//AA/E</A<<E/EEEE/AEE<E/<EAE</A6///AEEAA	s1:i:182	s2:i:0	RG:Z:1	NM:i:3	AS:i:268	de:f:0.0201	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:268
+ERR5069949.1088785	147	MT192765.1	11912	60	150M	=	11864	-198	CTAAATTGTGGGCTCAATGTGTCCAGTTACACAATGACATTCTCTTAGCTAAAGATACTACTGAAGCCTTTGAAAAAATGGTTTCACTACTTTCTGTTTTGCTTTCCATGCAGGGTGCTGTAGACATAAACAAGCTTTGTGAAGAAATGC	AEEEEE<E//E<EAEE/AAAA<AEEEAEEEEE<AEEAEEEEEEAEAE</AE/EEE/<EEEEAEEEEEEEEEAEEEEEEE/EEEEEEEEEEEEEEEEEEEEAA/EEEAEE/EEAEEEEEEEEEEEEEEEE/EEEEEEEEEEAEEEEAAAAA	s1:i:182	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1132353	163	MT192765.1	12066	60	151M	=	12075	159	CAACAGGGCAACCTTACAAGCTATAGCCTCAGAGTTTAGTTCCCTTCCATCATATGCAGCTTTTGCTACTGCTCAAGAAGCTTATGAGCAGGCTGTTGCTAATGGTGATTCTGAAGTTGTTCTTAAAAAGTTGAAGAAGTCTTTGAATGTG	AAAAAEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEE<EEEEEEEEAAEEAAEEEEEEEEEEEEEAE<AAAAAAE/AEEAEEEEEEEEEEEEEAAAEAAEEA	s1:i:148	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1132353	83	MT192765.1	12075	60	150M	=	12066	-159	AACCTTACAAGCTATAGCCTCAGAGTTTAGTTCCCTTCCATCATATGCAGCTTTTGCTACTGCTCAAGAAGCTTATGAGCAGGCTGTTGCTAATGGTGATTCTGAAGTTGTTCTTAAAAAGTTGAAGAAGTCTTTGAATGTGGCTAAATC	EEAEEEEEEEEEEEEEE<A<EEEEEEEEEEEAAEE<EAEEAAEAEEEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEAAAAA	s1:i:148	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1151736	163	MT192765.1	12126	60	151M	=	12222	247	TTTTGCTACTGCTCAAGAAGCTTATGAGCAGGCTGTTGCTAATGGTGATTCTGAAGTTGTTCTTAAAAAGTTGAAGAAGTCTTTGAATGTGGCTAAATCTGAATTTGACCGTGATGCAGCCATGCAACGTAAGTTGGAAAAGATGGCTGAT	AAAAAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEE<EEEEAEEEEEEEEEEEEEEEEAEEEEEAEEAAEEE<AEAEEE<A/AAEEEEEEEAAAAA<AAAE<EEEEAEEEAEEEEEEAEEAEA/A	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:23	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1151736	83	MT192765.1	12222	60	151M	=	12126	-247	ATCTGAATTTGACCGTGATGCAGCCATGCAACGTAAGTTGGAAAAGATGGCTGATCAAGCTATGACCCAAATGTATAAACAGGCTAGATCTGAGGACAAGAGGGCAAAAGTTACTAGTGCTATGCAGACAATGCTTTTCACTATGCTTAGA	AAAAAAEA//EE/EAAAEAEEEEAAEEAA</AEEEEEEAAEAAEEEEEA<EEEEEEAEEEEEAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEE<EE/EEEEEEAEE/EEEEEEEEEE/EEEEEEEEEEEAEEEE/EEAEEEEEAEEAAAAA	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1258508	163	MT192765.1	12425	60	151M	=	12638	364	GTGTTCCCTTGAACATAATACCTCTTACAACAGCAGCCAAACTAATGGTTGTCATACCAGACTATAACACATATAAAAATACGTGTGATGGTACAACATTTACTTATGCATCAGCATTGTGGGAAATCCAACAGGTTGTAGATGCAGATAG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEE/EEEEEEEEEAEEEEEEEEA/AEAEAAAEAEEEEEAEEEEE<<EEEEEEE<AEAEAAA<EEE	s1:i:268	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1189252	99	MT192765.1	12486	60	98M	=	12486	98	CTATAACACATATAAAAATACGTGTGATGGTACAACATTTACTTATGCATCAGCATTGTGGGAAATCCAACAGGTTGTAGATGCAGATAGTAAAATTG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEAEEE	s1:i:88	s2:i:0	RG:Z:1	NM:i:0	AS:i:196	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:196
+ERR5069949.1189252	147	MT192765.1	12486	52	98M	=	12486	-98	CTATAACACATATAAAAATACGTGTGATGGTACAACATTTACTTATGCATCAGCATTGTGGGAAATCCAACAGGTTGTAGATGCAGATAGTAAAATTG	EEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:88	s2:i:27	RG:Z:1	NM:i:0	AS:i:196	de:f:0	rl:i:0	cm:i:2	nn:i:0	tp:A:P	ms:i:196
+ERR5069949.1261808	99	MT192765.1	12593	60	149M	=	12654	166	GTGAAATTAGTATGGACAAATCACCTAATTTAGCATGGCCTCTTATTGTAACAGCTTTAAGGGCCAATTCTGCTGTCAAATAACAGAATAATGAGCTTAGTCCTGTTGCACTACGACAGATGTCTTGTGCTGCCGGAACTACACAAACT	AAAA/AAA/EEEE/AE<EE//EE/EEEEEA<EAEEE66//EE/E/A6EEEA/E<<E/E//A/EE/AEEE6/E6EA<EEE/E//EAAEEEA/E//EEE/EA/A/A</<<E/AA<EEE<E<EEEE<A6</<A//A/AA/<<<AA<<A<AEA	s1:i:134	s2:i:47	RG:Z:1	NM:i:3	AS:i:268	de:f:0.0201	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:268
+ERR5069949.1246538	99	MT192765.1	12601	60	148M	=	12627	177	AGTATGGACAATTCACCTAATTTAGCATGGCCTCTTATTGTAACAGCTTTAAGGGCCAATTCTGCTGTCAAATTACAGAATAATGAGCTTAGTCCTGTTGCACTACGACAGATGTCTTGTGCTGCCGGTACTACACAAACTGCTTGCA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEA/EEEEEAEEEEEE/EEEEEEEEEEEEAAAAEEAEEEEEEEEEEEEEEEEE	s1:i:168	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.1246538	147	MT192765.1	12627	60	151M	=	12601	-177	ATGGCCTCTTATTGTAACAGCTTTAAGGGCCAATTCTGCTGTCAAATTACAGAATAATGAGCTTAGTCCTGTTGCACTACGACAGATGTCTTGTGCTGCCGGTACTACACAAACTGCTTGCACTGATGACAATGCGTTAGCTTACTACAAC	AAAAAAEEEAAEEEEAAEAAAEEA<AAAEEAEEEAAEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEAAAAA	s1:i:168	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1258508	83	MT192765.1	12638	60	151M	=	12425	-364	TTGTAACAGCTTTAAGGGCCAATTCTGCTGTCAAATTACAGAATAATGAGCTTAGTCCTGTTGCACTACGACAGATGTCTTGTGCTGCCGGTACTACACAAACTGCTTGCACTGATGACAATGCGTTAGCTTACTACAACACAACAAAGGG	EAAEEA/EEEAAAEEEAEEEEEEAA/AAEEEE/<EA/EAAEEEAAAAAAEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEAAAAA	s1:i:268	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1261808	147	MT192765.1	12654	60	105M	=	12593	-166	GGCCAATTCTGCTGTCAAATTACAGAATAATGAGCTTAGTCCTGTTGCACTACGACAGATGTCTTGTGCTGCCGGTACTACACAAACTGCTTGCACTGATGACAA	<//</EEE/<<EE<E/A<AEAE/<E6////EE/E/EAE<E/EEEE//AEAEEEEA/A/EEAE/EEEEEE/EE/E//AEEEEEEEAE/EEAE/EAE6AEEEA//AA	s1:i:134	s2:i:0	RG:Z:1	NM:i:0	AS:i:210	de:f:0	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:210
+ERR5069949.1328186	163	MT192765.1	12866	60	151M	=	12953	238	GTACTATCTATACAGAACTGGAACCACCTTGTAGGTTTGTTACAGACACACCTAAAGGTCCTAAAGTGAAGTATTTATACTTTATTAAAGGATTAAACAACCTAAATAGAGGTATGGTACTTGGTAGTTTAGCTGCCACAGTACGTCTACA	AAAAAEEEEEEE/EEAEEEEAEEEEEAEEEEEEEEAEEEEEEEEEEEEEAE/EEEEEEAEE/EEEEEEEEEEEEEEEEEAAAEA/EEEEEEEAAEEEEE/EEEEAEEEEEAAEEEE/AAAE<A<EEEE6AEEAAA<<<<AA<AE/EEAEEA	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1328186	83	MT192765.1	12953	60	151M	=	12866	-238	AAGGATTAAACAACCTAAATAGAGGTATGGTACTTGGTAGTTTAGCTGCCACAGTACGTCTACAAGCTGGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGA	EE/<E6/E<AAE<E<EEAEE<AAEE//EEEEEA<A6</EEAEEEEE<AAAEEEEEEEEAEEEEEEAEE/EEEAEEEEEEEE/EAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:226	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1331889	99	MT192765.1	13010	60	132M	=	13010	132	GTCTACAAGCTGGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTG	A/AAAEEEEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEEEEAEEEEEEEEEEEEEEE/EEEEE<AEAEEEEE/EAEAEEE/AEEEEEEEEEEEEEEEEEEEEAE/EEEEEEEEEEEEEEEEEEEEEEEA<EE	s1:i:122	s2:i:0	RG:Z:1	NM:i:0	AS:i:264	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:264
+ERR5069949.1331889	147	MT192765.1	13010	48	132M	=	13010	-132	GTCTACAAGCTGGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTG	A/EEEEEAEEEEEEEEAEEEEEEEEEA<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEAAEEEEEE/EEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEEEEAAAAA	s1:i:26	s2:i:122	RG:Z:1	NM:i:0	AS:i:264	de:f:0	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:264
+ERR5069949.1372331	163	MT192765.1	13011	60	150M	=	13132	272	TCTACAAGCTGGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTGTTAAGATGTTGTGTACACA	AAAAAEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEE/EEEEEEE<EEAEEEEEEA/EEA<EAEEEEEEAEAAAEEAAAEEEEEAAA<AAAEEEA	s1:i:257	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:25	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1340552	163	MT192765.1	13021	60	148M	=	13029	159	GGTAATGCAACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTGTTAAGATGTTGTGTACACACACTGGTA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEAEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEAEEEEEEEAEAEEEEEEEEEE<EEEEEEEEEEEEEEAAA<AEEEEEEEEEEEEEE	s1:i:145	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.1340552	83	MT192765.1	13029	60	151M	=	13021	-159	AACAGAAGTGCCTGCCAATTCAACTGTATTATCTTTCTGTGCTTTTGCTGTAGATGCTGCTAAAGCTTACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTGTTAAGATGTTGTGTACACACACTGGTACTGGTCAGGCA	AEAAAAEE/A<EEAAEEE/EEEEEEEEEEAAEEEEEEEEAAEEEEEEEEE<EEEAEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEAAAAA	s1:i:145	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1372331	83	MT192765.1	13132	60	151M	=	13011	-272	ACTAATTGTGTTAAGATGTTGTGTACACACACTGGTACTGGTCAGGCAATAACAGTTACACCGGAAGCCAATATGGATCAAGAATCCTTTGGTGGTGCATCGTGTTGTCTGTACTGCCGTTGCCACATAGATCATCCAAATCCTAAAGGAT	EE<<EEEEEEEAAAEEEEEAEEEEEEEEEAEEEEEEEEAEEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:257	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1412839	163	MT192765.1	13154	60	150M	=	13187	180	GTACACACACTGGTACTGGTCAGGCAATAACAGTTACACCGGAAGCCAATATGGATCAAGAATCCTTTGGTGGTGCATCGTGTTGTCTGTACTGCCGTTGCCACATAGATCATCCAAATCCTAAAGGATTTTGTGACTTAAAAGGTAAGT	AAAA6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEAEEEAAAAEEEEEEEEEEAAEEAEAE<EEEAEAEEE/<AAAEAEAA/EAEEEEAEEAAE/AEA/EEEAEEAEAA	s1:i:166	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1412839	83	MT192765.1	13187	60	147M	=	13154	-180	TTACACCGGAAGCCAATATGGATCAAGAATCCTTTGGTGGTGCATCGTGTTGTCTGTACTGCCGTTGCCACATAGATCATCCAAATCCTAAAGGATTTTGTGACTTAAAAGGTAAGTATGTACAAATACCTACAACTTGTGCTAATG	EEA<AAEAAAAAAE<A<<EA<EAE</E<EEEEE/EEEEAAAEEE/EEEE/EEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEA<EEEEEEEAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEAEEAAAAA	s1:i:166	s2:i:0	RG:Z:1	NM:i:0	AS:i:294	de:f:0	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.1476386	99	MT192765.1	13329	60	151M	=	13382	201	TAATGACCCTGTGGGTTTTACACTTAAAAACACAGTCTGTACCGTCTGCGGTATGTGGAAAGGTTATGGCTGTAGTTGTGATCAACTCCGCGAACCCATGCTTCAGTCAGCTGATGCACAATCGTTTTTAAACGGGTTTGCGGTGTAAGTG	AAAAA/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEEEAEEEEEEE/AEEE/EEEEEE/AEE/EEAE/EEE<EA/<EEA/EEEEE/EEEEAAEEEAAAAEEAEEE	s1:i:188	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1476386	147	MT192765.1	13382	60	148M	=	13329	-201	TGTGGAAAGGTTATGGCTGTAGTTGTGATCAACTCCGCGAACCCATGCTTCAGTCAGCTGATGCACAATCGTTTTTAAACGGGTTTGCGGTGTAAGTGCAGCCCGTCTTACACCGTGCGGCACAGGCACTAGTACTGATGTCGTATAC	AAEEEA<AEA/AAAEEE/E/AEE/E6AE/EAE/EEE<EEEAEEEEEEEEAAEE<<EEEEEEEEEEEEEEEEEEEEEA/EEEEEAA//EAEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6EEAA6AA	s1:i:188	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.1538968	163	MT192765.1	13799	60	151M	=	13817	168	CACGATGGCAGACCTCGTCTATGCTTTAAGGCATTTTGATGAAGGTAATTGTGACACATTAAAAGAAATACTTGTCACATACAATTGTTGTGATGATGATTATTTCAATAAAAAGGACTGGTATGATTTTGTAGAAAACCCAGATATATTA	AAAAAEEEAEEAEEEAEEEAEEEAE<EEE6EAEA<EAAAEEEEEEEEEEEEEA/</EEEEEEEEEEEEEEEEEEEEEEAEEEEE/AEEEEEEEEAEEEEEEEEEEEEEEEEAEEEAA<AEAEE<AAE<A<AEEEEE/EA6AAA/EE/EEEA	s1:i:154	s2:i:0	RG:Z:1	NM:i:1	AS:i:294	de:f:0.0066	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.1538968	83	MT192765.1	13817	48	150M	=	13799	-168	CTATGCTTTAAGGCATTTTGATGAAGGTAATTGTGACACATTAAAAGAAATACTTGTCACATACAATTGTTGTGATGATGATTATTTCAATAAAAAGGACTGGTATGATTTTGTAGAAAACCCAGATATATTACGCGTATACGCCAACTT	AEE6AA<E/EA/<AE<AEA<6AA6AAEEEAAA6/6</AEEEE<EEEEEEE/EEEE//EEEAEEE/EEEA/EEEAEE/EEEE/EAEEEEEE<AEEEEAEEEEAEAEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEAEEAEEEEEEEAAAAA	s1:i:41	s2:i:154	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1552198	99	MT192765.1	13944	60	150M	=	14027	234	ATATTACGCGTATACGCCAACTTAGGTGAACGTGTACGCCAAGCTTTGTTAAAAACAGTACAATTCTGTGATGCCATGCGAAATGCTGGTATTGTTGGTGTACTGACATTAGATAATCAAGATCTCAATGGTAACTGGTATGATTTCGGT	AAAAAEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEAEAEEEEEEEEEEEAEEEEEEEEEAEEEEEEEEEEEEEEA	s1:i:229	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1561137	163	MT192765.1	13991	60	149M	=	14081	240	GTTAAAAACAGTACAATTCTGTGATGCCATGCGAAATGCTGGTATTGTTGGTGTACTGACATTAGATAATCAAGATCTCAATGGTAACTGGTATGATTTCGGTGATTTCATACAAACCACGCCAGGTAGTGGAGTTCCTGTTGTAGATT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEE<EAEEEAEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEE<EEEEAEEEE/EEEEAAAEEEA<AEEEAEEEEEAEAEEA/AA<A	s1:i:223	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.1552198	147	MT192765.1	14027	60	151M	=	13944	-234	TGCTGGTATTGTTGGTGTACTGACATTAGATAATCAAGATCTCAATGGTAACTGGTATGATTTCGGTGATTTCATACAAACCACGCCAGGTAGTGGAGTTCCTGTTGTAGATTCTTATTATTCATTGTTAATGCCTATATTAACCTTGACC	AE/AAE<AEAAA/A<///<AA6AAAE<E/E/EA<AEE/</EEEEEAEE/EE/AEA/E/<EEE/AEA//EE</AA<AEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:229	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.1561137	83	MT192765.1	14081	60	150M	=	13991	-240	GTATGATTTCGGTGATTTCATACAAACCACGCCAGGTAGTGGAGTTCCTGTTGTAGATTCTTATTATTCATTGTTAATGCCTATATTAACCTTGACCAGGGCTTTAACTGCAGAGTCACATGTTGACACTGACTTAACAAAGCCTTACAT	AE<EAAA/EEAEE<A<A/AAEE<EE/EEAAAEEEEEAEEEEEEE/EEEEEEEEEEEEEEEEAEEAEEAEEEEEEEEEEEEEEEEEE/EEEEEEEEEEAEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:223	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1704586	99	MT192765.1	14601	60	149M	=	14761	310	GATAAACGCACTACGTGCTTTTCAGTAGCTGCACTTACTAACAATGTTGCTTTTCAAACTGTCAAACCCGGTAATTTTAACAAAGACTTCTATGACTTTGCTGTGTCTAAGGGTTTCTTTAAGGAAGGAAGTTCTGTTGAATTAAAACA	AAAA6EEEE/EE6EEEEEEEEEEEEEEEEEE<EEEEEEEE6EEAEEEEEA<EEEEE66EEEEE///EEEAEEEE<EEEEEEA/EE/EEEEEEEAE<E<AA<AAAEEAE/AEE<E<AA<EAAEEAE/AEE/E/EAEAAAEE/EA/A//EE	s1:i:277	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.1704586	147	MT192765.1	14761	60	150M	=	14601	-310	CTCAGGATGGTAATGCTGCTATCAGCGATTATGACTACTATCGTTATAATCTACCAACAATGTGTGATATCAGACAACTACTATTTGTAGTTGAAGTTGTTGATAAGTACTTTGATTGTTACGATGGTGGCTGTATTAATGCTAACCAAG	A//EEAE<AAA<AEAA6EEE</<AAA6EE//A<A<<AE<E//AEEEEE<EEEEAEAA<AEA<AE/EEEEAEEAEEEAEAEEAEEE/EEEEEEAE<EEEEEEEEEEEEEE/EEEEEEAEEEEEEEEEEE/EEEEEE/EEEEE<EEEA/AAA	s1:i:277	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1709367	163	MT192765.1	14886	60	129M	=	14886	129	GGTGGCTGTATTAATGCTAACCAAGTCATCGTCAACAACCTAGACAAATCAGCTGGTTTTCCATTTAATAAATGGGGTAAGGCTAGACTTTATTATGATTCAATGAGTTATGAGGATCAAGATACACTT	AAAAAEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEEEEAEEEEEEEEEEEEEEE	s1:i:117	s2:i:0	RG:Z:1	NM:i:1	AS:i:248	de:f:0.0078	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:248
+ERR5069949.1709367	83	MT192765.1	14886	50	129M	=	14886	-129	GGTGGCTGTATTAATGCTAACCAAGTCATCGTCAACAACCTAGACAAATCAGCTGGTTTTCCATTTAATAAATGGGGTAAGGCTAGACTTTATTATGATTCAATGAGTTATGAGGATCAAGATACACTT	AA/EEAAAEEEEAEE6A/EAAEAAEAAAAAAAAEEAEEE/AEAE<AEEAEAE/EEEEEEEEA/EEAA<AEE/EEE<AEA<EAAEAAEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEAEEEAEEEAAAAA	s1:i:117	s2:i:42	RG:Z:1	NM:i:1	AS:i:248	de:f:0.0078	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:248
+ERR5069949.1778133	163	MT192765.1	15485	60	150M	=	15491	158	TGCCACAACTGCTTATGCTAATAGTGTTTTTAACATTTGTCAAGCTGTCACGGCCAATGTTAATGCACTTTTATCTACTGATGGTAACAAAATTGCCGATAAGTATGTCCGCAATTTACAACACAGACTTTATGAGTGTCTCTATAGAAA	AAAAAEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAAEEEEEE<AEEEEEEE/AAAE<AAEEAAEEEA<EAAEEEA<AAEEEEEE/EEAAAEE/EAAAAEEEEEAEAEE	s1:i:139	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1778133	83	MT192765.1	15491	48	146M1D5M	=	15485	-158	AACTGCTTATGCTAATAGTGTTTTTAACATTTGTCAAGCTGTCACGGCCAATGTTAATGCACTTTTATCTACTGATGGTAACAAAATTGCCGATAAGTATGTCCGCAATTTACAACACAGACTTTATGAGTGTCTCTATAGAAATAAGATG	AEEAEEEEEAAAAAA<AEEEEEEEEEEEEEEEEEEAEEEEEEEAEAEEEEEEEEEEEEEEAEEEEAEAEAEEEEEEEEEEEE<AEEEEAAAEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:55	s2:i:139	RG:Z:1	NM:i:1	AS:i:292	de:f:0.0066	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.1980512	163	MT192765.1	16801	60	150M	=	16852	202	GTAAAGTACAAATAGGAGAGTACACCTTTGAAAAAGGTGACTATGGTGATGCTGTTGTTTACCGAGGTACAACAACTTACAAATTAAATGTTGGTGATTATTTTGTGCTGACATCACATACAGTAATGCCATTAAGTGCACCTACACTAG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEAEEEEEEEEEA<EEEEEEAEEEEAAAEEAAE<EEEAAAA<AA<EEEE/AE	s1:i:193	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.1980512	83	MT192765.1	16852	60	151M	=	16801	-202	CTGTTGTTTACCGAGGTACAACAACTTACAAATTAAATGTTGGTGATTATTTTGTGCTGACATCACATACAGTAATGCCATTAAGTGCACCTACACTAGTGCCACAAGAGCACTATGTTAGAATTACTGGCTTATACCCAACACTCAATAT	EEEEEEEEEEAEEEEEEAAEEEEEAAEAEAAAEAEEEAEAEEEAEEEAEEEEEAEAAEEEEAEAEEEEEEEAEEEEEEEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:193	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:12	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2033605	163	MT192765.1	17083	60	149M	=	17101	168	GTACTGGTAAGAGTCATTTTGCTATTGGCCTAGCTCTCTACTACCCTTCTGCTCGCATAGTGTATACAGCTTGCTCTCATGCCGCTGTTGATGCACTATGTGAGAAGGCATTAAAATATTTGCCTATAGATAAATGTAGTAGAATTATA	AAAAAEAEEEEEEEEEEEEAEEEEEEEEEEEEE<EEEEEEEEEEE<EEEEEEEEAAEAEEEEEEEEEEEE/EAAEEEA/EEEEEEAE<EEEEEEEEE<AEEEEAAAEAE<EAEEEEEE//</A/AEAAAEA/<E<AEEEAEE<EEEEEE	s1:i:160	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:24	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.2033605	83	MT192765.1	17101	48	150M	=	17083	-168	TTGCTATTGGCCTAGCTCTCTACTACCCTTCTGCTCGCATAGTGTATACAGCTTGCTCTCATGCCGCTGTTGATGCACTATGTGAGAAGGCATTAAAATATTTGCCTATAGATAAATGTAGTAGAATTATACCTGCACGTGCTCGTGTAG	AAA<EAA<EEEAAAA/E</EA/E6EAEE/EE/AEA<AAEEAEEA/EE<EEEEEEEEEEEE<AEE/AEEE/EAAEEEAEEAEEEEE<EEE<EEEEEAAEEEEEEEEAEEEEEAEEAEEEEEEEEEAEEEEEEEEEEEEEEEEE/EEAAAAA	s1:i:34	s2:i:160	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2098070	99	MT192765.1	17115	60	151M	=	17270	304	GCTCTCTACTACCCTTCTGCTCGCATAGTGTATACAGCTTGCTCTCATGCCGCTGTTGATGCACTATGTGAGAAGGCATTAAAATATTTGCCTATAGATAAATGTAGTAGAATTATACCTGCACGTGCTCGTGTAGAGTGTTTTGATAAAT	AAAAAEEEEEEE/EE/EA/EEA/EEEEA/<6EEEEEEA<AE/EAEEEE/AAA<A<E<EEA<EEA/EEAEEEEAEEAEE/EAEEEEE//6/6AEEA</EEAEEEEA<EE/AE66AEAEAAAA/<AA<<<<EAAEAEAEE/EA6EEEEEAEEE	s1:i:269	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:23	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2064910	99	MT192765.1	17123	60	149M	=	17180	174	CTACCCTTCTGCTCGCATAGTGTATACAGCTTGCTCTCATGCCGCTGTTGATGCACTATGTGAGAAGGCATTAAAATATTTGCATATAGATAAATGTAGTAGAATTATACCTGCACGTGCTCGTGTAGAGTGTTTTGATAAATTCAAAG	AAAAAEA<AEEE/EE/EE/EEE/EEE//E/EA/EEEEEEEEEEE<E/A</</A/AEAEEEE/EAE/AEEE<AAE/E//EA</<//E<A/AE<EAEEE///<EA/E<AEAAAA/A/</EEEEEAE/A/<A/AA/EAE<AE/6/<<A</<A	s1:i:141	s2:i:0	RG:Z:1	NM:i:1	AS:i:288	de:f:0.0067	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:288
+ERR5069949.2125592	99	MT192765.1	17180	60	150M	=	17289	245	ATGTGAGAAGGCATTAAAATATTTGCCTATAGATAAATGTAGTAGAATTATACCTGCACGTGCTCGTGTAGAGTGTTTTGATAAATTCAAAGTGAATTCAACATTAGAACAGTATGTCTTTTGTACTGTAAATGCATTGCCTGAGACGAC	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEAEEEEEEEAEEEEA<EEEEEEEAEEEEEEAEEEEEEAAEEEEEE<EE/A/EEEA	s1:i:237	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2064910	147	MT192765.1	17180	48	117M	=	17123	-174	ATGTGAGTAGGCATTAAAATATTTGCCTATAGATAAATGTAGTAGAATTATACCTGCACGTGCTCGTGTAGAGTGTTTTGATAAATTCAAAGTGACTTCAACATTAGAACAGTATGT	<<////A/AAAE<EA///AA<EAAE/EEEEEEEE//E<AE/EEAEA/EAEAEEEEEAAE<AEE6/AE</<E/EEEEEE<EAE<AA6EAEEEE/EE6EEE/A/EEE/AEEE/EAA//A	s1:i:38	s2:i:141	RG:Z:1	NM:i:2	AS:i:214	de:f:0.0171	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:214
+ERR5069949.2098070	147	MT192765.1	17270	60	149M	=	17115	-304	AGTGAATTCAACATTAGAACAGTATGTCTTTTGTACTGTAAATGCATTGCCTGAGACGACAGCAGATATAGTTGTCTTTGATGAAATTTCAATGGCCACAAATTATGATTTGAGTGTTGTCAATGCCAGATTACGTGCTAAGCACTATG	A6A/6EEE6/</6EEAAE//<<EA/EE/EEEAAEA/A<E/A6AAA/AEEA/E</AEAEEAEA<A6EE/EEEE<AAEEEEA/EA<EEEEAEEEEEE<<E/E/AEEEEAAEEEEAAEEEEEEE/EEEEEEEEEEEEEEEEEEEEE/AAAAA	s1:i:269	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.2125592	147	MT192765.1	17289	60	136M	=	17180	-245	CAGTATGTCTTTTGTACTGTAAATGCATTGCCTGAGACGACAGCAGATATAGTTGTCTTTGATGAAATTTCAATGGCCACAAATTATGATTTGAGTGTTGTCAATGCCAGATTACGTGCTAAGCACTATGTGTACA	A//<//E//EE</</</<//AA6//</A//EE<E//EEEEEEEEEEEE<EEE/EEAEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:237	s2:i:0	RG:Z:1	NM:i:0	AS:i:272	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:272
+ERR5069949.2185111	163	MT192765.1	17406	60	147M	=	17537	281	GCTAAGCACTATGTGTACATTGGCGACCCTGCTCAATTACCTGCACCACGCACATTGCTAACTAAGGGCACACTAGAACAAGAATATATCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGT	AAAAA6/E//AEEAEEEEE/EEE/E/EEEE/E/E6E///E<E/<EE</A/<EEE//E6/<EEEAE<//<E/E/6EEE/EAAA<//EE//<EEE/AEEAA/A<EAE/EEA<//AEAEEE/<A/E</AA<EEA<<EAAEA<<</E/EEE	s1:i:248	s2:i:0	RG:Z:1	NM:i:2	AS:i:274	de:f:0.0136	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:274
+ERR5069949.2151832	163	MT192765.1	17416	60	150M	=	17453	187	ATGTGTACATTGGCGACCCTGCTCAATTACCTGCACCACGCACATTGCTAACTAAGGGCACACTAGAACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCCTG	AAAAAEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEAEEEEEAAEEEEEEEEEAAEAAA<<EAAEEEEEEEAAA<<<AE	s1:i:183	s2:i:47	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2176303	99	MT192765.1	17442	60	151M	=	17519	227	TTACCTGCACCACGCACATTGCTAACTAAGGGCACACTAGAACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCCTGCTGAAATTGTTGACACTGTGAGTGCTT	AAAAAEEEEEEAEEEEEEAEEEEEEEEEEEEEEAEAEEEEEAEEEEEEEEEAEEEEEEEEEEE<EEEEAEEEEEEEEEEEEEEEEEEEEEEAEEEE<A<AEEEAE/EE<EEEEAAAAAAEEAA<AAAEEEEEE<EEEEEEEEAEE<EEEEA	s1:i:217	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2151832	83	MT192765.1	17453	60	150M	=	17416	-187	ACGCACATTGCTAACTAAGGGCACACTAGAACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCCTGCTGAAATTGTTGACACTGTGAGTGCTTTGGTTTATGA	AAAA<EEEEEEAEEEAEAAAAEEEEEEEEEAAAEE<EEEEEAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAAA	s1:i:183	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2205229	99	MT192765.1	17476	60	137M1D13M	=	17585	259	CACTAGAACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCCTGCTGAAATTGTTGACACTGTGAGTGCTTTGGTTTATGATAATAAGCTTAAGCACATAAAGA	AAAAAEEEEEEA/EEEEEEEAEEEEEEEEEAEAEAEEEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEAEEEEEEAEEEEEE6EE<E<<EEEAEEEEEEEEEEEEEEEEA<AEEEEEEAAAEEEEEEEEEEEEEEEE<EAAEEEEE	s1:i:252	s2:i:0	RG:Z:1	NM:i:1	AS:i:286	de:f:0.0066	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:286
+ERR5069949.2161340	99	MT192765.1	17482	60	80M	=	17482	82	AACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGT	A/AA//EEAEA/E/AEEEE6EE/EEEA/6AEEEEEEEEE6EEEAEAEE//A/EEEEEE//E/E/A//E/E/<<EE</E/E	s1:i:69	s2:i:0	RG:Z:1	NM:i:0	AS:i:160	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:160
+ERR5069949.2161340	147	MT192765.1	17482	55	82M	=	17482	-82	AACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCC	A//E/<EAEA/EE/EEEA/<AE<AE/AEA/EEEAE/EEE//EEE6////EEEEAEAE///EE//</E/E</AE/6EAAA6AA	s1:i:69	s2:i:0	RG:Z:1	NM:i:0	AS:i:164	de:f:0	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:164
+ERR5069949.2216307	163	MT192765.1	17504	60	145M	=	17601	244	GTGTAGACTTATGAAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCCTGCTGAAATTGATGACACTGTGAGTGCTTTGGTTTATGATAATAAGCTTAAAGCACATAAAGACAAATCAGCTCAATGCTTTAAA	A//AA6EEE/EEEEAEEEEE/EE/A/6E/EAE</EE/AEE/AEEAEAE/E//AA<6AA6<E/EE/EEE/AE/6/EEE<//E/E6A/<E/////EAE<E<</AAAEE//AAEE/6AAA6/AEA/AAEEAAAA////AA/6E<6AAE	s1:i:218	s2:i:0	RG:Z:1	NM:i:1	AS:i:280	de:f:0.0069	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:280
+ERR5069949.2176303	147	MT192765.1	17519	60	150M	=	17442	-227	AACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCCTGCTGAAATTGTTGACACTGTGAGTGCTTTGGTTTATGATAATAAGCTTAAAGCACATAAAGACAAATCAGCTCAATGCTTTAAAATGTTTTATAAGGGTGTTAT	EAEAEEEAEAEAAAEEEEEEAAA<AAAA<A/EEAEE/A</EAAEEAAEEEEEEEAEEEEEEAEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEAEAEAEEAEAEEEEEAAEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEAAAAA	s1:i:217	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2185111	83	MT192765.1	17537	60	150M	=	17406	-281	GTTCCTCGGAACTTGTCGGCGTTGTCCTGCTGAAATTGTTGACACTGTGAGTGCTTTGGTTTATGATAATAAGCTTTAAGCACATAAAGACAAATCAGCTCAATGCTTTAAAATGTTTTATAAGGGTGTTATCACGCATGATGTTTCATC	AEA/EE<EEA/E<A<<EA//6<6A/EEEEEEEEEAAAEE<A//A/AEEA/AEAEE/EEAEAEEEEEE//EA/AAEA/EEE</E/EAEE/<A<E/A/<AAE//AA<EEE/EEEE/<EEEA/EEE<<AEEEEEEAEEEAAAAAEAEE6AAAA	s1:i:248	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.2205229	147	MT192765.1	17585	60	28M1D121M	=	17476	-259	GAGTGCTTTGGTTTATGATAATAAGCTTAAGCACATAAAGACAAATCAGCTCAATGCTTTAAAATGTTTTATAAGGGTGTTATCACGCATGATGTTTCATCTGCAATTAACAGGCCACAAATAGGCGTGGTAAGAGAATTCCTTACACG	A<A<<EE/EEE/EEAEEAEA/AAAAEEEAEEA<EEEAA<//<E<<EEAEEE<E/EEE/EEEEEEEEEEEAEEEAE/E/E/EEEAEEEEEEEEAEEEAEEE/EEEEEEE/AEEEEEE<EEEEEEEEEE/AEEAEEEEEEEAEEEEAAAAA	s1:i:252	s2:i:0	RG:Z:1	NM:i:1	AS:i:284	de:f:0.0067	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:284
+ERR5069949.2216307	83	MT192765.1	17601	60	147M	=	17504	-244	GATAATAAGCTTAAAGCACATAAAGACAAATCAGCTCAATGCTTTAAAATGTTTTATAAGGGTGTTATCACGCATGATGTTTCATCTGCAATTATCAGGCCACAAATAGGCGTGGTAAGAGAATTCCTTACACGTAACCCTGCTTGG	AEA/AAAE<<A<6AEAAAA<//A6A6A/EEEAAA<A<<A/<<AA</<EEE<AEE<<EAE//AEAEEEEEEAE/AEAEEEEEE/EEAE</<<EAE/EEA/A<E6EE/E6<<EAE</EEEEEEEEEE/AEEE6EA/EEE/AAEA/EAAA	s1:i:218	s2:i:0	RG:Z:1	NM:i:1	AS:i:284	de:f:0.0068	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:284
+ERR5069949.2243023	163	MT192765.1	17713	60	151M	=	17854	291	TGGTAAGAGAATTCCTTACACGTAACCCTGCTTGGAGAAAAGCTGTCTTTATTTCACCTTATAATTCACAGAATGCTGTAGCCTCAAAGATTTTGGGACTACCAACTCAAACTGTTGATTCATCACAGGGCTCAGAATATGACTATGTCAT	AAAAAEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEAEEEEEEEEEEEEEE/EEEEAAEEAEEA<EEEEEEEEEEEEEEAEEEEE<<AA6AAEEEAEE	s1:i:273	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2243023	83	MT192765.1	17854	60	150M	=	17713	-291	ACTATGTCATATTCACTCAAACCACTGAAACAGCTCACTCTTGTAATGTAAACAGATTTAATGTTGCTATTACCAGAGCAAAAGTAGGCATACTTTGCATAATGTCTGATAGAGACCTTTATGACAAGTTGCAATTTACAAGTCTTGAAA	EE<EAEEAE<EA<E/EEAEAEEEE<EEEEAA<AEEEEEEEEEAAEAEEE<EEEEAEEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:273	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2270078	163	MT192765.1	17970	60	151M	=	18103	284	CTTTATGACAAGTTGCAATTTACAAGTCTTGAAATTCCACGTAGGAATGTGGCAACTTTACAAGCTGAAAATGTAACAGGACTCTTTAAAGATTGTAGTAAGGTAATCACTGGGTTACATCCTACACAGGCACCTACACACCTCAGTGTTG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEAEEEEEEEEEEEAEEAAEEEEAEEEEEAEEAEEEAAEAEEEEEAEAEEAEA<EAA	s1:i:275	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2257580	99	MT192765.1	17980	60	151M	=	18039	209	AGTTGCAATTTACAAGTCTTGAAATTCCACGTAGGAATGTGGCAACTTTACAAGCTGAAAATGTAACAGGACTCTTTAAAGATTGTAGTAAGGTAATCACTGGGTTACATCCTACACAGGCACCTACACACCTCAGTGTTGACACTAAATT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEEEEEEEEEAEEEEEEAEEEEEEEEEEEEAEEEEEEEEEAEEEEEEAEE/EEAEA<EAEEEAEEEEEEEEE<EEAAAEAEEE<EA	s1:i:196	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2257580	147	MT192765.1	18039	60	150M	=	17980	-209	AATGTAACAGGACTCTTTAAAGATTGTAGTAAGGTAATCACTGGGTTACATCCTACACAGGCACCTACACACCTCAGTGTTGACACTAAATTCAAAACTGAAGGTTTATGTGTTGACATACCTGGCATACCTAAGGACATGACCTATAGA	EEEEEEAEEAAEEEEAAAAEEEEEEAEEEEAEAEEEAEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:196	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2270078	83	MT192765.1	18103	60	151M	=	17970	-284	CTACACACCTCAGTGTTGACACTAAATTCAAAACTGAAGGTTTATGTGTTGACATACCTGGCATACCTAAGGACATGACCTATAGAAGACTCATCTCTATGATGGGTTTTAAAATGAATTATCAAGTTAATGGTTACCCTAACATGTTTAT	AEEEEEEAEEA//EEEEAEEEEEEEEEA<EEA6<A<A<AEEE<AEE<</EEEEEAEEEEE<EEEEEEAEEE/EEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:275	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:23	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2328704	163	MT192765.1	18286	60	150M	=	18412	276	CATGGATTGGCTTCGATGTCGAGGGGTGTCATGCTACTAGAGAAGCTGTTGGTACCAATTTACCTTTACAGCTAGGTTTTTCTACAGGTGTTAACCTAGTTGCTGTACCTACAGGTTATGTTGATACACCTAATAATACAGATTTTTCCA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEAEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEAEEEAEAEEEA<AEEEEEEEE/EEEEEEEAEEEEEEE/EEEEAEE	s1:i:264	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2342766	99	MT192765.1	18397	60	151M	=	18469	222	CAGGTTATGTTGATACACCTAATAATACAGATTTTTCCAGAGTTAGTGCTAAACCACCGCCTGGAGATCAATTTAAACACCTCATACCACTTATGTACAAAGGACTTCCTTGGAATGTAGTGCGTATAAAGATTGTACAAATGTTAAGTGA	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEAEEEEEEEAEAEAAAAEAEEEAEEAEEE/EEEE<AAEEAEA	s1:i:215	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2328704	83	MT192765.1	18412	60	150M	=	18286	-276	CACCTAATAATACAGATTTTTCCAGAGTTAGTGCTAAACCACCGCCTGGAGATCAATTTAAACACCTCATACCACTTATGTACAAAGGACTTCCTTGGAATGTAGTGCGTATAAAGATTGTACAAATGTTAAGTGACACACTTAAAAATC	AEAAEAEEEEEEAAEEEEEEEAEE/EAAEE</EAAAEAEEAEAEEEEEE/AEA<EEEEEAEAAEEEEEAAEEEEEEE/E/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:264	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2361683	99	MT192765.1	18426	60	149M	=	18513	235	GATTTTTCCAGAGTTAGTGCTAAACCACCGCCTGGAGATCAATTTAAACACCTCATACCACTTATGTACAAAGGACTTCCTTGGAATGTAGTGCGTATAAAGATTGTACAAATGTTAAGTGACACACTTAAAAATCTCTCTGACAGAGT	AAAAA/AA/EAEEAAEEEEAEE/EAEAAA<EEAAEEEEEE/EEEEEEEEEAAEEE/AEEE/EEEA<EEEAEEEEE<AAA<EEEEEEEEEAAEEA<AEEEEEEEEE<EEE/<AEEEEEAEEA<//A<EEAAEE6EAEEAAAEEAA6AEEA	s1:i:227	s2:i:0	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.2342766	147	MT192765.1	18469	60	150M	=	18397	-222	TTAAACACCTCATACCACTTATGTACAAAGGACTTCCTTGGAATGTAGTGCGTATAAAGATTGTACAAATGTTAAGTGACACACTTAAAAATCTCTCTGACAGAGTCGTATTTGTCTTATGGGCACATGGCTTTGAGTTGACATCTATGA	EAEAEAEEEEA<<AAAAEEEAEEEEEAEEEEEEEEEEEAAAEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:215	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2361683	147	MT192765.1	18513	60	148M	=	18426	-235	GTAGTGCGTATAAAGATTGTACAAATGTTAAGTGACACACTTAAAAATCTCTCTGACAGAGTCGTATTTGTCTTATGGGCACATGGCTTTGAGTTGACATCTATGAAGTATTTTGTGAAAATAGGACCTGAGCGCACCTGTTGTCTAT	A<6EA</AEEAA/<AEE<EEEEAAAA//E<A/EAEE6EAA/AA/E/</EAEEEEEE/AEEEE/EAE/6EEE/EE<EA6<</E<E/AE/AAEE/EEE<EEEE</E/EEEEEEEEEEE<EAEEEEEEA/EEEEEEAEE/EEAEEAAAAAA	s1:i:227	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.2415814	99	MT192765.1	18598	60	150M	=	18765	318	GCTTTGAGTTGACATCTATGAAGTATTTTGTGAAAATAGGACCTGAGCGCACCTGTTGTCTATGTGATAGACGTGCCACATGCTTTTCCACTGCTTCAGACACTTATGCCTGTTGGCATCATTCTATTGGATTTGATTACGTCTATAATC	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEAEEEEEEAEEEEEEEAEEEAEEEEEAEEEEEAEAAAE<AEA	s1:i:258	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2385514	99	MT192765.1	18603	60	150M	=	18685	232	GAGTTGACATCTATGAAGTATTTTGTGAAAATAGGACCTGAGCGCACCTGTTGTCTATGTGATAGACGTGCCACATGCTTTTCCACTGCTTCAGACACTTATGCCTGTTGGCATCATTCTATTGGATTTGATTACGTCTATAATCCGTTT	A/AAAE6EEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EE<EEEEE/A/AE6EEA/E/EEEEEA/AEEEEEEE<EEEAAEEEEEEE/EAEEEEEE/EEAAAEEE/<<AEEEEEEAEAEA<E/AAAAAAAA/<EE/EEAEEAE	s1:i:199	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2417063	99	MT192765.1	18649	60	150M	=	18766	267	CCTGTTGTCTATGTGATAGACGTGCCACATGCTTTTCCACTGCTTCAGACACTTATGCCTGTTGGCATCATTCTATTGGATTTGATTACGTCTATAATCCGTTTATGATTGATGTTCAACAATGGGGTTTTACAGGTAACCTACAAAGCA	AAAAAEEEAEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEAEEEE/EEEEAEEEEE<EEEEAEE<AAEAEEAAEEEEAEEEEEEEEEEEEEEEEEEEEEAEAEEE<AEE<EAE/EEA<EEEEAEEEAEEEEEEEA/EEEAE/AEEEA	s1:i:245	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2388984	99	MT192765.1	18654	60	150M	=	18694	189	TGTCTATGTGATAGACGTGCCACATGCTTTTCCACTGCTTCAGACACTTATGCCTGTTGGCATCATTCTATTGGATTTGATTACGTCTATAATCCGTTTATGATTGATGTTCAACAATGGGGTTTTACAGGTAACCTACAAAGCAACCAT	AAAAAEEEEEEEEE/EEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEAEEEEAE/EAEEEEEEEEEEAEEEE/EEEEEEEEAEEAEEAEEEEEAEEEEAEEEE<A/EA<E	s1:i:161	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2385514	147	MT192765.1	18685	60	150M	=	18603	-232	CCACTGCTTCAGACACTTATGCCTGTTGGCATCATTCTATTGGATTTGATTACGTCTATAATCCGTTTATGATTGATGTTCAACAATGGGGTTTTACAGGTAACCTACAAAGCAACCATGATCTGTATTGTCAAGTCCATGGTAATGCAC	AA<EAAE<AA<EEAAEE/AAEEAAEE<<AAEEEAEAEAEEEAEEEEAEEEEAAEEEEE/EAEAEEEEAAEEEEEEEEEEAAEEEEAAEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEAAA/A	s1:i:199	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.2388984	147	MT192765.1	18694	60	149M	=	18654	-189	CAGACACTTATGCCTGTTGGCATCATTCTATTGGATTTGATTACGTCTATAATCCGTTTATGATTGATGTTCAACAATGGGGTTTTACAGGTAACCTACAAAGCAACCATGATCTGTATTGTCAAGTCCATGGTAATGCACATGTAGCT	EAAAA6EEE<EEAEEEAAAAEE/AE<AAAAEAEEEAAEEEEEAEEEEEEEEAEAA<<EEEEEEAAAEEEEAEEEA<EE<EE</EEEEEAEEEEEEEEEEEEEEEAEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:161	s2:i:0	RG:Z:1	NM:i:1	AS:i:288	de:f:0.0067	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:288
+ERR5069949.2431709	99	MT192765.1	18749	60	72M1D78M	=	18777	180	GTTTATGATTGATGTTCAACAATGGGGTTTTACAGGTAACCTACAAAGCAACCATGATCTGTATTGTCAAGTCATGGTAATGCACATGTAGCTAGTTGTGATGCAATCATGACTAGGTGTCTAGCTGTCCACGAGTGCTTTGTTAAGCGT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAAAEAEAEE<AEEEEAEEAA<AEA	s1:i:148	s2:i:0	RG:Z:1	NM:i:2	AS:i:276	de:f:0.0132	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:276
+ERR5069949.2415814	147	MT192765.1	18765	60	151M	=	18598	-318	CAACAATGGGGTTTTACAGGTAACCTACAAAGCAACCATGATCTGTATTGTCAAGTCCATGGTAATGCACATGTAGCTAGTTGTGATGCAATCATGACTAGGTGTCTAGCTGTCCACGAGTGCTTTGTTAAGCGTGTTGACTGGACTATTG	AEEEA<EEEEE/EEEEAEEEEEEEEEEEEAEAEAAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:258	s2:i:0	RG:Z:1	NM:i:1	AS:i:292	de:f:0.0066	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.2417063	147	MT192765.1	18766	60	150M	=	18649	-267	AACAATGGGGTTTTACAGGTAACCTACAAAGCAACCATGATCCGTATTGTCAAGTCCATGGTAATGCACATGTAGCTAGTTGTGATGCAATCATGACTAGGTGTCTAGCTGTCCACGAGTGCTTTGTTAAGCGTGTTGACTGGACTATTG	AEEA<EEEEE//<EAEAEE/EAEAE/E<A6AAAAEEE/EAEE/EEAEAAEEEEEAEEEEEAEEEEEEEAEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEE6E/EEEEEEEEEAAAAA	s1:i:245	s2:i:0	RG:Z:1	NM:i:2	AS:i:280	de:f:0.0133	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:280
+ERR5069949.2431709	147	MT192765.1	18777	60	44M1D107M	=	18749	-180	TTTACAGGTAACCTACAAAGCAACCATGATCTGTATTGTCAAGTCATGGTAATGCACATGTAGCTAGTTGTGATGCAATCATGACTAGGTGTCTAGCTGTCCACGAGTGCTTTGTTAAGCGTGTTGACTGGACTATTGAATATCCTATAAT	AAAAAAAE<AAAAEEEEAEAAAEEAEEEEEEEEEEEEEEEEEEAEEEAEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEAEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:148	s2:i:0	RG:Z:1	NM:i:2	AS:i:278	de:f:0.0132	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:278
+ERR5069949.2521353	99	MT192765.1	19597	60	150M	=	19698	251	CTTTTACAAGACTTCAGAGTTTAGAAATTGTGGCTTATAATGTTGTAATTAAGGGACACTTTGATGGACAACAGGGTGAAGTACCAGTTTCTATCATTAATAACTCTGTTTACACAAAAGTTGATGGTGTTGATGTAGAATTGTTTGAAA	AAA/AE/6E6EEEEAEE/EE/EEE/EE/EA/EAEA//EEEEE6EAEAE/EEEEEE/EAE////EEA/EEEEEEEEEEEEEE///A/EEAEEEEEEEE<AEAEEE/AE/E<E/EEEEEA/E///AE/66AEEAEEE<E//E/EA/A<6AEE	s1:i:175	s2:i:0	RG:Z:1	NM:i:4	AS:i:260	de:f:0.0267	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:260
+ERR5069949.2521353	147	MT192765.1	19698	60	150M	=	19597	-251	ATCACTGTTTTCACAAAAGTTGATGGTGTTGATGTAGAATTGTTTGAAAATAAAACAACATTACCTGTTAATGTAGCTTTTGTGCTTTGGGCTAAGCGCAACATTAAACCAGTACCAGAGGTGAAAATACTCAATAATTTGGGTGTGGAC	A//A</</EE/A<AEEA//E<EEE/E<A/<<A///<6EAEEEEE/AAA</A//<<EA/EEA//</AA6EEAE</EEA//AEE//</AEEAE/EEEA/A/EEEE//E/EAA/EEE/AEE<EEE<EE/EAEEEEE6EEEE/EEEEEEAAAAA	s1:i:175	s2:i:0	RG:Z:1	NM:i:4	AS:i:266	de:f:0.0267	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:266
+ERR5069949.2605155	99	MT192765.1	21717	60	146M	=	21726	159	GTTCTTACCTTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTCTCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTTCCACTGAGAAGTCTAACATAATAAGAG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEE/EEEEEEEEEEEEEE<EEAEEEAEAEAEEEEEEEEAAEEEEE<EEAEAEEEAA<E<EAAE</E/AA	s1:i:148	s2:i:0	RG:Z:1	NM:i:0	AS:i:292	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:292
+ERR5069949.2605155	147	MT192765.1	21726	60	150M	=	21717	-159	TTTCTTTTCCAATGTTACTTGGTTCCATGCTATACATGTCTCTGGGACCAATGGTACTAAGAGGTTTGATAACCCTGTCCTACCATTTAATGATGGTGTTTATTTTGCTTCCACTGAGAAGTCTAACATAATAAGAGGCTGGATTTTTGG	A/EEEE/EEAEAEEEEEAEEAEEEAAAEEEAEEEEEEAEE/EEEAEAEAEEEEEEAEEAEEEEEAEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:148	s2:i:30	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2650879	163	MT192765.1	22659	60	151M	=	22710	201	ATATAATTCCGCATCATTTTCCACTTTTAAGTGTTATGGAGTGTCTCCTACTAAATTAAATGATCTCTGCTTTACTAATGTCTATGCAGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATT	AAAAAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEAEE<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEEAEEE<A<EEEEAAAAEEEEEEEEEEEE	s1:i:192	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2650879	83	MT192765.1	22710	60	150M	=	22659	-201	TAAATTAAATGATCTCTGCTTTACTAATGTCTATGCAGATTCATTTGTAATTAGAGGTGATGAAGTCAGACAAATCGCTCCAGGGCAAACTGGAAAGATTGCTGATTATAATTATAAATTACCAGATGATTTTACAGGCTGCGTTATAGC	EAEEEAEE<EEE/EEEEEEAEEEEEEEEEEEA<AAEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEAEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:192	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2668880	99	MT192765.1	23125	60	147M	=	23146	171	GTTTGTGGACCTAAAAAGTCTACTAATTTGGTTAAAAACAAATGTGTCAATTTCAACTTCAATGGTTTAACAGGCACAGGTGTTCTTACTGAGTCTAACAAAAAGTTTCTGCCTTTCCAACAATTTGGCAGAGACATTGCTGACACT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAE<EEAEEEEA<EAA<AAAEEEEEE<AEA<EAAEE	s1:i:158	s2:i:0	RG:Z:1	NM:i:0	AS:i:294	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.2674295	163	MT192765.1	23134	60	150M	=	23204	218	CCTAAAAAGTCTACTAATTTGGTTAAAAACAAATGTGTCAATTTCAACTTCAATGGTTTAACAGGCACAGGTGTTCTTACTGAGTCTAACAAAAAGTTTCTGCCTTTCCAACAATTTGGCAGAGACATTGCTGACACTACTGATGCTGTC	AAAAAEEEEEEEEEEAEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEE<EEEEEEAEEE/EEEEEEE<EEAEEAEEEEEAEEAEE<EEAEE<E/AAAAAAE<AEAAAEEEEAEEAEAEE/EEAAAEE	s1:i:209	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2668880	147	MT192765.1	23146	60	150M	=	23125	-171	ACTAATTTGGTTAAAAACAAATGTGTCAATTTCAACTTCAATGGTTTAACAGGCACAGGTGTTCTTACTGAGTCTAACAAAAAGTTTCTGCCTTTCCAACAATTTGGCAGAGACATTGCTGACACTACTGATGCTGTCCGTGATCCACAG	AE/EAEAEAEEEEEEA<A6EEEEEE<EAAEEEAEEEEEEEAEEEEEAEEEEEEEEEEEEAEEAEEEEEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:158	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2674295	83	MT192765.1	23204	60	148M	=	23134	-218	GTGTTCTTACTGAGTCTAACAAAAAGTTTCTGCCTTTCCAACAATTTGGCAGAGACATTGCTGACACTACTGATGCTGTCCGTGATCCACAGACACTTGAGATTCTTGACATTACACCATGTTCTTTTGGTGGTGTCAGTGTTATAAC	EEEAEEEEEEEEEEEE<EEEEAA<EEEAA<AAEEE/EAAE<AAAEA<EEEEEEE<EEEEEE<EEEEEEEEEEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:209	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.2730382	163	MT192765.1	23528	60	142M	=	23528	142	ACTCATATGAGTGTGACATACCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGT	AAAAAEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAE<EE/EEEEEEE/EEAEEEEEEEEEEEEEEEEEEAEEEEA<AEA<<EA<A<AEEEEEA<EAE<66A/AEEEEEEEAE<AAEA	s1:i:143	s2:i:0	RG:Z:1	NM:i:0	AS:i:284	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:284
+ERR5069949.2730382	83	MT192765.1	23528	48	142M	=	23528	-142	ACTCATATGAGTGTGACATACCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGT	A<AA<A<EEEAAA/A<AEAEAEA<EAA<<AEA<EEEAAAEE<EEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEE<EEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEAEEEEEEE/EAAAAA	s1:i:48	s2:i:143	RG:Z:1	NM:i:0	AS:i:284	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:284
+ERR5069949.2734474	81	MT192765.1	23547	1	149M	=	23548	-148	ACCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGTTGCTTACTCTAATAACTCTATTGCCA	AA/EEA/EAAAA<AAEEEEAAEEEEEEE<A/EEAEE<AEEEEEEEEAEEEEAEAAEAAEE/EEAAEEE/AEA/EEE/E/EEEEEEEEE/EEEEEEEEAEE/EEEE/EEEEEAEEEEEEEEEEEEEEEEE//EEEEAEEEEEEEAAA/AA	s1:i:58	s2:i:136	RG:Z:1	NM:i:0	AS:i:298	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:298
+ERR5069949.2734474	161	MT192765.1	23548	60	148M	=	23547	148	CCCATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGTTGCTTACTCTAATAACTCTATTGCCA	AAAA/EEEEEEEEE/E/EE6EEEEAEEEEEEAEEEEE/EEEEEEEEEEEAE/EAEE/EEEEEAE/EE<EAEEEEEEA/E<EEEEAE/EA<EEEEAEE/E/EE<EEEEE</EE/E//<<<AA6A<A<A/<AE/AE/EEEA6<A6A/</A	s1:i:136	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:20	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.2734873	163	MT192765.1	23550	60	98M	=	23550	98	CATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE	s1:i:92	s2:i:0	RG:Z:1	NM:i:0	AS:i:196	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:196
+ERR5069949.2734873	83	MT192765.1	23550	48	98M	=	23550	-98	CATTGGTGCAGGTATATGCGCTAGTTATCAGACTCAGACTAATTCTCCTCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGT	EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEE/EEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:25	s2:i:92	RG:Z:1	NM:i:0	AS:i:196	de:f:0	rl:i:0	cm:i:4	nn:i:0	tp:A:P	ms:i:196
+ERR5069949.2772897	163	MT192765.1	23809	60	150M	=	23876	219	CTTTCGTTGCAATATGGCAGTTTTTGTACACAATTAAACCGTGCTTTAACTGGAATAGCTGTTGAACAAGACAAAAACACCCAAGAAGTTTTTGCACAAGTCAAACAAATTTACAAAACACCACCAATTAAAGATTTTGGTGGTTTTAAT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEA<EAEEEE<EEEEAEEAAEEEEEEEEEEE	s1:i:199	s2:i:0	RG:Z:1	NM:i:1	AS:i:290	de:f:0.0067	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:290
+ERR5069949.2772897	83	MT192765.1	23876	60	144M1D7M	=	23809	-219	AAGACAAAAACACCCAAGAAGTTTTTGCACAAGTCAAACAAATTTACAAAACACCACCAATTAAAGATTTTGGTGGTTTTAATTTTTCACAAATATTACCAGATCCATCAAAACCAAGCAAGAGGTCATTTATTGAAGATCTACTTTCAAC	AEEEEEE<AAEEAAEEEEEEEEEEEEEEEEEEEEAEEEEEEEEAAEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:199	s2:i:0	RG:Z:1	NM:i:1	AS:i:294	de:f:0.0066	rl:i:0	cm:i:13	nn:i:0	tp:A:P	ms:i:288
+ERR5069949.2787556	99	MT192765.1	24088	60	106M	=	24088	106	GCTGCTAGAGACCTCGTTTGTGCACAAAAGTTTAACGGCCTTACTGTTTTGCCACCTTTGCTCACAGATGAAATGATTGCTCAATACACTTCTGCACTGTTAGCGG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAE	s1:i:78	s2:i:0	RG:Z:1	NM:i:1	AS:i:202	de:f:0.0094	rl:i:0	cm:i:10	nn:i:0	tp:A:P	ms:i:202
+ERR5069949.2787556	147	MT192765.1	24088	50	106M	=	24088	-106	GCTGCTAGAGACCTCGTTTGTGCACAAAAGTTTAACGGCCTTACTGTTTTGCCACCTTTGCTCACAGATGAAATGATTGCTCAATACACTTCTGCACTGTTAGCGG	EEAAEEEEEEEEA<EEEE<AAA<EEEEEAEEEEEEAEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:78	s2:i:0	RG:Z:1	NM:i:1	AS:i:202	de:f:0.0094	rl:i:0	cm:i:1	nn:i:0	tp:A:P	ms:i:202
+ERR5069949.2832676	99	MT192765.1	24409	60	139M	=	24409	139	GTCAACCAAAATGCACAAGCTTTAAACACGCTTGTTAAACAACTTAGCTCCAATTTTGGTGCAATTTCAAGTGTTTTAAATGATATCCTTTCACGTCTTGACAAAGTTGAGGCTGAAGTGCAAATTGATAGGTTGATCA	AAAA6EEEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<E/EAEEAEEEAEEAEEEEEAEEEEEEEEEEEEEEAEEAEEEEEAAEEEEEEA<AEEEAAAAEEEEE<EEAAAEEAEEAAEEEEA	s1:i:132	s2:i:0	RG:Z:1	NM:i:0	AS:i:278	de:f:0	rl:i:0	cm:i:18	nn:i:0	tp:A:P	ms:i:278
+ERR5069949.2832676	147	MT192765.1	24409	48	139M	=	24409	-139	GTCAACCAAAATGCACAAGCTTTAAACACGCTTGTTAAACAACTTAGCTCCAATTTTGGTGCAATTTCAAGTGTTTTAAATGATATCCTTTCACGTCTTGACAAAGTTGAGGCTGAAGTGCAAATTGATAGGTTGATCA	A<EEEE</EAEA6EEA</AEEEEAEEEAAE/EEAEE<A<AAAEEEEAAEEE/EEEEEEEEAEEAEEAA<EEEEEEEA<EEEAEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEAA6AA	s1:i:37	s2:i:132	RG:Z:1	NM:i:0	AS:i:278	de:f:0	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:278
+ERR5069949.2888794	163	MT192765.1	24758	60	150M	=	24853	246	TCCCTGCACAAGAAAAGAACTTCACAACTGCTCCTGCCATTTGTCATGATGGAAAAGCACACTTTCCTCGTGAAGGTGTCTTTGTTTCAAATGGCACACACTGGTTTGTAACACAAAGGAATTTTTATGAACCACAAATCATTACTACAG	AAAAAEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEAEE<<<6AEE</AAAEEEEEEEAA<EEAAEA	s1:i:231	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:25	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.2888794	83	MT192765.1	24853	60	151M	=	24758	-246	ACACACTGGTTTGTAACACAAAGGAATTTTTATGAACCACAAATCATTACTACAGACAACACATTTGTGTCTGGTAACTGTGATGTTGTAATAGGAATTGTCAACAACACAGTTTATGATCCTTTGCAACCTGAATTAGACTCATTCAAGG	AAEAAAEEEEEEEEEEEEEEEAAAEEEEAAEEAAAAEEEEAEEEEEEEEE/EEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:231	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:16	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2953930	99	MT192765.1	25345	60	151M	=	25465	268	GTGCTCAAAGGAGTCAAATTACATTACACATAAACGAACTTATGGATTTGTTTATGAGAATCTTCACAATTGGAACTGTAACTTTGAAGCAAGGTGAAATCAAGGATGCTACTCCTTCAGATTTTGTTCGCGCTACTGCAACGATACCGAT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEE/EEEEEE<AA/EA<A<AAAA<AAEAAEAEE/E<<E<EAAEA	s1:i:256	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:22	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.2972968	163	MT192765.1	25426	60	147M	=	25519	234	CTTTGAAGCAAGGTGAAATCAAGGATGCTACTCCTTCAGATTTTCTTCGCGCTACTGCAACGATACCGATACAAGCCTCACTCCCTTACGGATGGCTTATTGTAGGCGTTGCACTTCTAGCTGTTTTTCAGAGCGCTTCCAAAAACA	AAAAAEEEEEEA/E/EEEEEEE/EEEEEEEAEEEEE/EEE/E/E/<66<6/EEEE///EEE<<E/<AEAEEEE/EEEEE6A/EEA/E//AE<EEE</6E/E/E/A<AAEA/A//AE<A/E<EE//6A/A<AAA6<E<<A66</E/AA	s1:i:188	s2:i:0	RG:Z:1	NM:i:5	AS:i:248	de:f:0.034	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:248
+ERR5069949.2953930	147	MT192765.1	25465	60	148M	=	25345	-268	ATTTTGTTCGCGCTACTGCAACGATACCGATACAAGCCTCACTCCCTTTCGGATGGCTTATTGTTGGCGTTGCACTTCTTGCTGTTTTTCAGAGCGCTTCCAAAATCATAACCCTCAAAAAGAGATGGCAACTAGCACTCTCCAAGGG	EEEEEE/EEEEEEEEEEAAEEEEAAAAAEEEEEE/EEEEEEAAEEEEAEEEEEEEAEEEEEEEEEAEEEE/EEAEEEEEEEEEEAAEEEEEEAEEEE/EEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:256	s2:i:0	RG:Z:1	NM:i:0	AS:i:296	de:f:0	rl:i:0	cm:i:15	nn:i:0	tp:A:P	ms:i:296
+ERR5069949.2972968	83	MT192765.1	25519	60	141M	=	25426	-234	GTCTTATTGTTGGCGTTGCACTTCTTGCTGTTTTTCAGAGCGATTCCAAAATCATAACCCTCAAAAAGAGATGGCAACTAGCACTCTCCAAGGGTGTTCACTTTGTTTGCAACTTGCTGTTGTTGTTTGTAACAGTTTACT	6//A//A/EE/EE/A//6/E/EEEEEE66AAE//EEAEE/AE//EEEE//EA/A///<E/E/E/EE<E<E/EE/<E</EEEEAEEEEEEEAE<A/AEE//EEEEE/E//EEEEEEEE6E/EA/EA6EEEE//EEEEAAAAA	s1:i:188	s2:i:0	RG:Z:1	NM:i:2	AS:i:268	de:f:0.0142	rl:i:0	cm:i:14	nn:i:0	tp:A:P	ms:i:268
+ERR5069949.3017828	99	MT192765.1	26176	60	107M	=	26177	107	ATGATGAACCGACGACGACTACTAGCGTGCCTTTGTAAGCACAAGCTGATGAGTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAAT	AAAAAE6EEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEEEEEEEEEEEEEEEEEAEEEEE	s1:i:96	s2:i:0	RG:Z:1	NM:i:0	AS:i:214	de:f:0	rl:i:0	cm:i:11	nn:i:0	tp:A:P	ms:i:214
+ERR5069949.3017828	147	MT192765.1	26177	48	106M	=	26176	-107	TGATGAACCGACGACGACTACTAGCGTGCCTTTGTAAGCACAAGCTGATGAGTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAAT	A/EAAEEEAEEAE<E</EEEEEEEEEAE<EEEEEEAE<EE/E<EEEEEEEEEEEE<EEAEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEAAAAA	s1:i:37	s2:i:96	RG:Z:1	NM:i:0	AS:i:212	de:f:0	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:212
+ERR5069949.3022231	99	MT192765.1	26228	60	147M	=	26228	147	GTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAATAGCGTACTTCTTTTTCTTGCTTTCGTGGTATTCTTGCTAGTTACACTAGCCATCCTTACTGCGCTTCGATTGTGTGCGTACTGCTGCAATAT	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEE<EEEEEEEEEEEEEEEEEEEEEEEAAEEEEEEEEEEEEAAAAEEEEEEEEAEEE	s1:i:139	s2:i:0	RG:Z:1	NM:i:0	AS:i:294	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.3022231	147	MT192765.1	26228	48	147M	=	26228	-147	GTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAATAGCGTACTTCTTTTTCTTGCTTTCGTGGTATTCTTGCTAGTTACACTAGCCATCCTTACTGCGCTTCGATTGTGTGCGTACTGCTGCAATAT	EAAAEEEEEEAEEEEE<EEEEAE<EEAAEAAEEEEEEEEEEEEEEEEAEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEAEEEEEEEEEEEEE6EEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:34	s2:i:139	RG:Z:1	NM:i:0	AS:i:294	de:f:0	rl:i:0	cm:i:6	nn:i:0	tp:A:P	ms:i:294
+ERR5069949.3057020	99	MT192765.1	26621	60	86M9S	=	26621	86	CAATTTGCCTATGCCAACAGGAATAGGTTTTTGTATATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGGTTGTACGC	AAAAAEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAE	s1:i:71	s2:i:0	RG:Z:1	NM:i:0	AS:i:172	de:f:0	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:172
+ERR5069949.3057020	147	MT192765.1	26621	51	86M9S	=	26621	-86	CAATTTGCCTATGCCAACAGGAATAGGTTTTTGTATATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGGTTGTACGC	EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:71	s2:i:33	RG:Z:1	NM:i:0	AS:i:172	de:f:0	rl:i:0	cm:i:2	nn:i:0	tp:A:P	ms:i:172
+ERR5069949.3122970	163	MT192765.1	26996	60	126M	=	26996	127	ATCAAGGACCTGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGTAGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGC	AAAAAEE6EEEEEEEAEEEEEEEEEEEAEEEEEEEEEEEEEE/EEEEEAE<EEAEAEEEEEEEEEAAEEEEAEAEEE/AEEE<A<A/AAAAAE/E<A66AEEEEEEEEEEEAE<</6AA<A/6/EA	s1:i:119	s2:i:0	RG:Z:1	NM:i:0	AS:i:252	de:f:0	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:252
+ERR5069949.3122970	83	MT192765.1	26996	48	127M	=	26996	-127	ATCAAGGACCTGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGTAGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCA	A//6AAAEAEEA/AAEEEEEEAAE/EEE//A<EEEEEEEEEAEEE/EEAAEEAEEEE/<EEAEEEEEAEEAEEAEEEEEEEEA<EAEEAEAEAEEA6EEEEEEEEEEEEEAEEEAEEEEEEEA/AAA	s1:i:52	s2:i:119	RG:Z:1	NM:i:0	AS:i:254	de:f:0	rl:i:0	cm:i:9	nn:i:0	tp:A:P	ms:i:254
+ERR5069949.3184655	163	MT192765.1	27311	60	150M	=	27352	191	TTTATCTAAGTCACTAACTGAGAATAAATATTCTCAATTAGATGAAGAGCAACCAATGGAGATTGATTAAACGAACATGAAAATTATTCTTTTCTTGGCACTGATAACACTCGCTACTTGTGAGCTTTATCACTACCAAGAGTGTGTTAG	AAAAAEEEEEEEEEEEEEEEEAEEAEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEEEEEEE<EEEEE/EEEEEAEAEEEEE/EEEAEEE<EEEEEE<EEAAEEAEEEEEAAAEEE/E<AAEEAAAE6A/A<<A<AAAEE/AA6AE/A	s1:i:185	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.3184655	83	MT192765.1	27352	60	150M	=	27311	-191	ATGAAGAGCAACCAATGGAGATTGATTAAACGAACATGAAAATTATTCTTTTCTTGGCACTGATAACACTCGCTACTTGTGAGCTTTATCACTACCAAGAGTGTGTTAGAGGTACAACAGTACTTTTAAAAGAACCTTGCTCTTCTGGAA	AAAE6E</EA6<A6/A/E6A</EEE<EEA///E/A<<</AEEEE<E<EEEEEEEEEE/E<E/EE/A<AEEAEAE/EEEEEEEAEEEEEEEEEEEEE/AEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEEEAAAAA	s1:i:185	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:8	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.3249622	163	MT192765.1	28218	38	116M	=	28372	231	ATCATGACGTTCGTGTTGTTTTAGATTTCATCGAAACGAACAAACAAAAATGTCTGATAATGGACCCCAAAATCATCGAAATGCACCCCGCATTACGGTTGGTGGACCCTCCGATT	AAA/AE//EEE/EE6AE/A</EE//6AE6EE//EE/AE//A/EE//EEEE<EAA/EE//<E/A/E/EE//E/A/E/E//EE/<A/A<EE/A//</EE//E/E//A/EEE///A//6	s1:i:97	s2:i:0	RG:Z:1	NM:i:5	AS:i:182	de:f:0.0431	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:182
+ERR5069949.3249622	83	MT192765.1	28372	37	77M	=	28218	-231	CGATAAAAACAAGGTCGGCCCCAAGGTTTACCCATTAATACTGCGTCTTGGTTCACCGCTCTCACTCAACATGGCAA	E/E///<E<<////AE/EEA/EEEEEE/EEEEE//A//E/EEEEEEEE/EEE/EE/EAEEAEEEAEE/AE/EAAAAA	s1:i:97	s2:i:0	RG:Z:1	NM:i:3	AS:i:124	de:f:0.039	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:124
+ERR5069949.3273002	163	MT192765.1	28443	60	150M	=	28544	249	TGGCAAGGAAGACCTTAAATTCCCTCGAGGACAAGGCGTTCCAATTAACACCAATAGCAGTCCAGATGACCAAATTGGCTACTACCGAAGAGCTACCAGACGAATTCGTGGTGGTGACGGTAAAATGAAAGATCTCAGTCCAAGATGGTA	AAAAAEEEEEEEEEEEEEEEEEEAEEAEEEEEEEAEEE/EEA/EEEEEE6EEEAEEEEEEEEEAEEEEAEEEEE<EEEE<EEE/EE//AE/EEAEAEAE/EAAEEA6AEEE/<E<</EEE/E</AEA//A/EA6<AAEEEA/AEE6AE/E	s1:i:235	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:19	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.3277445	99	MT192765.1	28509	60	151M	=	28574	166	TGACCAAATTGGCTACTACCGAAGAGCTACCAGACGAATTCGTGGTGGTGACGGTAAAATGAAAGATCTCAGTCCAAGATGGTATTTCTACTACCTAGGAACTGGGCCAGAAGCTGGACTTCCCTATGGTGCTAACAAAGACGGCATCATA	AA/AAEEEEEEEEEEEEEEEEEEEAEEEEEEEEAEEEEAEEEEEEEEEEEAEEEEEEEEEEEEEE/AEEEAEEEAAEEAEEE<E/EEEEEEEEAEEEEA/EEEEEEEAAA//EEEEEAEA<AEEAAEAEAEAEAEEEEAEEEEEEA/EEAA	s1:i:154	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:21	nn:i:0	tp:A:P	ms:i:302
+ERR5069949.3273002	83	MT192765.1	28544	60	148M	=	28443	-249	GAATGGGTGGTGGTGACGGTAAAATGAAAGATCTCAGTCCAAGATGGTATTTCTACTACCTCGGAACTGGGCCAGAAGCTGGACTTCCCTATGGTGCTAACAAAGACGGCATCATATGGGTTGCAACTGAGGGAGCCTTGAATACACC	AE/A//A/E</EE/AEAE<EEEA//A6E6/E/AA<EE<<<E/AEAAAEE<//EAEEE<EA</E/E/A/EEEE</EEAEA/EAEEE<EEEEEEEEEEEEAEAEEEAEEEEEEEEEAE/EEEE/EEEEEEEEEEEEEEEEEEEEAAAAAA	s1:i:235	s2:i:0	RG:Z:1	NM:i:3	AS:i:274	de:f:0.0203	rl:i:0	cm:i:17	nn:i:0	tp:A:P	ms:i:274
+ERR5069949.3277445	147	MT192765.1	28574	57	101M	=	28509	-166	ATCTCAGTCCAAGATGGTATTTCTACTACCTAGGAACGGGGCCAGAAGCGGGACTTCCCTATGGTGCTAACAAAGACGGCATCATATGGGTTGCAACTGAG	</</A///EA<//</<AE/EA/AE<E//</E/A/<///EE/E///E/E//E/E/A/EAAE<EEA/A//EAEE6//EEEEEEEEEEEEEEE6EEEEEAAAAA	s1:i:154	s2:i:0	RG:Z:1	NM:i:2	AS:i:182	de:f:0.0198	rl:i:0	cm:i:3	nn:i:0	tp:A:P	ms:i:182
+ERR5069949.3338256	163	MT192765.1	29431	60	150M	=	29452	172	CAGCAAACTGTGACTCTTCTTCCTGCTGCAGATTTGGATGATTTCTCCAAACAATTGCAACAATCCATGAGCAGTGCTGACTCAACTCAGGCCTAAACTCATGCAGACCACACAAGGCAGATGGGCTATATAAACGTTTTCGCTTTTCCG	AAAAAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE/EEEEAEEEEEEEEAAAAAEA<AAAEA<AA	s1:i:163	s2:i:0	RG:Z:1	NM:i:0	AS:i:300	de:f:0	rl:i:0	cm:i:25	nn:i:0	tp:A:P	ms:i:300
+ERR5069949.3338256	83	MT192765.1	29452	60	151M	=	29431	-172	CCTGCTGCAGATTTGGATGATTTCTCCAAACAATTGCAACAATCCATGAGCAGTGCTGACTCAACTCAGGCCTAAACTCATGCAGACCACACAAGGCAGATGGGCTATATAAACGTTTTCGCTTTTCCGTTTACGATATATAGTCTACTCT	AEEEEEEEEEEEA<AEEAEEEEEEAA<EEEEEEAEAEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEEEEEEEEEEEEEEEEEEAAE<EEEEEAEEEEEEEEEEAEEA/EEEEEEEEEEEEEEEEEEEEEEEEEEEEEAAAAA	s1:i:163	s2:i:0	RG:Z:1	NM:i:0	AS:i:302	de:f:0	rl:i:0	cm:i:5	nn:i:0	tp:A:P	ms:i:302

From 80aaf333dc1245b8bbec9aa7b628d85c5e413f4b Mon Sep 17 00:00:00 2001
From: Emma Rousseau <emmarou1@icloud.com>
Date: Fri, 13 Sep 2024 09:10:30 +0200
Subject: [PATCH 2/9] Add Kallisto index (#149)

---
 CHANGELOG.md                                  |   6 +-
 src/kallisto/kallisto_index/Kallisto          | Bin 0 -> 2439 bytes
 src/kallisto/kallisto_index/config.vsh.yaml   |  94 ++++++++++++++++++
 src/kallisto/kallisto_index/help.txt          |  21 ++++
 src/kallisto/kallisto_index/script.sh         |  34 +++++++
 src/kallisto/kallisto_index/test.sh           |  35 +++++++
 .../kallisto_index/test_data/d_list.fasta     |   5 +
 .../test_data/transcriptome.fasta             |  23 +++++
 8 files changed, 217 insertions(+), 1 deletion(-)
 create mode 100644 src/kallisto/kallisto_index/Kallisto
 create mode 100644 src/kallisto/kallisto_index/config.vsh.yaml
 create mode 100644 src/kallisto/kallisto_index/help.txt
 create mode 100644 src/kallisto/kallisto_index/script.sh
 create mode 100644 src/kallisto/kallisto_index/test.sh
 create mode 100644 src/kallisto/kallisto_index/test_data/d_list.fasta
 create mode 100644 src/kallisto/kallisto_index/test_data/transcriptome.fasta

diff --git a/CHANGELOG.md b/CHANGELOG.md
index d88d0996..846007d8 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -149,7 +149,11 @@
 * `sortmerna`: Local sequence alignment tool for mapping, clustering, and filtering rRNA from metatranscriptomic 
                data. (PR #146)
 
-*  `fq_subsample`: Sample a subset of records from single or paired FASTQ files (PR #147).
+* `fq_subsample`: Sample a subset of records from single or paired FASTQ files (PR #147).
+
+* `kallisto`:
+    - `kallisto_index`: Create a kallisto index (PR #149).
+
 
 ## MINOR CHANGES
 
diff --git a/src/kallisto/kallisto_index/Kallisto b/src/kallisto/kallisto_index/Kallisto
new file mode 100644
index 0000000000000000000000000000000000000000..3c7b5b2bff962965d99ca3f9a4a6b6af6da1f3f0
GIT binary patch
literal 2439
zcmeHJTTBx{6rFCj(iW7(R4PH@f{iwcTCEBOksY_VO)N&jMkQb@MkU0z5<nES+iDtq
ztcrfC@k>b%pZJItq>6y3i5QJ<W1@)>C02jb;7mKSNlWm{Po|xmnK|d)x%cj5cE^Hf
zo5Ms=gP>q-=Dx`Y&8Tam%b*(*sAYc)aw*sH`%Qmb#irI!wJd#g^%N{jJ942Y*B;7v
zR8myiWp1c$UHLL&=A`AC^o$*g(yPKxE9&k2TL(+#tPc&Aci!%O@N%%KUe}u^mgT!#
zi%Y`WO!oXjbAkQw#f0xZP+kZo&F8eXH{r?boldZcY~7r&DBNCpW#D;g<%>%V>88S*
zn(fP&_poKg&FeY4ul8ovgjcuEYhCLuEry9t<T_<r;)x-6Y*vFQbgQZF#X(b>sbgo;
zfcbNEMVB@;wf0@jF3-`vqIs3Vln>G5z~*-Q*|O7R4?+L_8<&^;{;|Iv=yw^0x?1Fq
zKKH{t-pk+KZ7B%++|bB;H`mVIyPQk@FmSG}@6usnuL2HvP5$1gzh1Rfd<xy4PRpnY
z$lwb>lA=oM8O*p9pU%UxMoXtZa4MiI;e6lN9)Zj9SsczoL4F-nxW<!$M?XHx=`41$
zNSX;JB>7gjS;lL#ITXLZTe7Tm{6y<^@7*BFcmyOu`fe-N>GMM_MNm8n3s15~-A-du
zs>S(M$mE>7gVQsBMnsW@M&}f>b(D#qkcNO}MG=t0Wgt?+7*11VW2Q|{Q<m5`y=8^|
z9+;~?zuCji5Og|U(_<Ox<qoL${owUfYj%<xv>bnyveDt-4O(8?_>}HQ+|nsHK}JD>
zEI}_&#snCR!wU`=ImWmY2!IuUp@YzBuGIbjA?Q;}NCbS6Ej{38{Q(Ed(9~7CHlh~@
z(zu?LfHTHk>o~Hk>ib8~11>`F@%qmr>8X$)4UE=ZAnP=qIJp|ns6M_j(fMdSqjeZP
zKmX@E#Gf*HzUVyzWeLinBtr;M7o$H(mPA>GqA1d9hM{`wuLpH{uWG16io*!3&Oq!~
zY>JwOK3Z%+$HT0KEnpYTsK*f41@5@T5O@KlCdndB3}+_eA<9%le@sX@NTS*o#e2qq
z{mZk6y~(I%5^AViqJ%~m(IWP&+TTT!n9y(~NA!$eA9;u!LWn;?@K-_t>bR9cmu<nq
hRn%Ezn!9QyjNx;|7(NH_$x(BVXNzpCjqI)ke*rf>5}*J8

literal 0
HcmV?d00001

diff --git a/src/kallisto/kallisto_index/config.vsh.yaml b/src/kallisto/kallisto_index/config.vsh.yaml
new file mode 100644
index 00000000..2c4f65c7
--- /dev/null
+++ b/src/kallisto/kallisto_index/config.vsh.yaml
@@ -0,0 +1,94 @@
+name: kallisto_index
+namespace: kallisto
+description: |
+  Build a Kallisto index for the transcriptome to use Kallisto in the mapping-based mode.
+keywords: [kallisto, index]
+links:
+  homepage: https://pachterlab.github.io/kallisto/about
+  documentation: https://pachterlab.github.io/kallisto/manual
+  repository: https://github.com/pachterlab/kallisto
+  issue_tracker: https://github.com/pachterlab/kallisto/issues
+references: 
+  doi: https://doi.org/10.1038/nbt.3519
+license: BSD 2-Clause License
+
+argument_groups:
+- name: "Input"
+  arguments: 
+  - name: "--input"
+    type: file
+    description: |
+      Path to a FASTA-file containing the transcriptome sequences, either in plain text or 
+      compressed (.gz) format.
+    required: true
+  - name: "--d_list"
+    type: file
+    description: |
+      Path to a FASTA-file containing sequences to mask from quantification.
+
+- name: "Output"
+  arguments:
+  - name: "--index"
+    type: file
+    direction: output
+    example: Kallisto_index
+
+- name: "Options"
+  arguments:
+  - name: "--kmer_size"
+    type: integer
+    description: |
+      Kmer length passed to indexing step of pseudoaligners (default: '31').
+    example: 31
+  - name: "--make_unique"
+    type: boolean_true
+    description: |
+      Replace repeated target names with unique names.
+  - name: "--aa"
+    type: boolean_true
+    description: |
+      Generate index from a FASTA-file containing amino acid sequences.
+  - name: "--distiguish"
+    type: boolean_true
+    description: |
+       Generate index where sequences are distinguished by the sequence names.
+  - name: "--min_size"
+    alternatives: ["-m"]
+    type: integer
+    description: |
+      Length of minimizers (default: automatically chosen).
+  - name: "--ec_max_size"
+    alternatives: ["-e"]
+    type: integer
+    description: |
+      Maximum number of targets in an equivalence class (default: no maximum).
+  - name: "--tmp"
+    alternatives: ["-T"]
+    type: string
+    description: |
+      Path to a directory for temporary files.
+    example: "tmp"
+
+resources:
+  - type: bash_script
+    path: script.sh
+
+test_resources:
+  - type: bash_script
+    path: test.sh
+  - path: test_data
+
+engines:
+  - type: docker
+    image: ubuntu:22.04
+    setup:
+      - type: docker
+        run: |
+          apt-get update && \
+          apt-get install -y --no-install-recommends wget && \
+          wget --no-check-certificate https://github.com/pachterlab/kallisto/releases/download/v0.50.1/kallisto_linux-v0.50.1.tar.gz && \
+          tar -xzf kallisto_linux-v0.50.1.tar.gz && \
+          mv kallisto/kallisto /usr/local/bin/
+runners:
+  - type: executable
+  - type: nextflow  
diff --git a/src/kallisto/kallisto_index/help.txt b/src/kallisto/kallisto_index/help.txt
new file mode 100644
index 00000000..28778ac0
--- /dev/null
+++ b/src/kallisto/kallisto_index/help.txt
@@ -0,0 +1,21 @@
+```
+kallisto index
+```
+kallisto 0.50.1
+Builds a kallisto index
+
+Usage: kallisto index [arguments] FASTA-files
+
+Required argument:
+-i, --index=STRING          Filename for the kallisto index to be constructed 
+
+Optional argument:
+-k, --kmer-size=INT         k-mer (odd) length (default: 31, max value: 31)
+-t, --threads=INT           Number of threads to use (default: 1)
+-d, --d-list=STRING         Path to a FASTA-file containing sequences to mask from quantification
+    --make-unique           Replace repeated target names with unique names
+    --aa                    Generate index from a FASTA-file containing amino acid sequences
+    --distinguish           Generate index where sequences are distinguished by the sequence name
+-T, --tmp=STRING            Temporary directory (default: tmp)
+-m, --min-size=INT          Length of minimizers (default: automatically chosen)
+-e, --ec-max-size=INT       Maximum number of targets in an equivalence class (default: no maximum)
diff --git a/src/kallisto/kallisto_index/script.sh b/src/kallisto/kallisto_index/script.sh
new file mode 100644
index 00000000..59a5d3de
--- /dev/null
+++ b/src/kallisto/kallisto_index/script.sh
@@ -0,0 +1,34 @@
+#!/bin/bash
+
+## VIASH START
+## VIASH END
+
+set -eo pipefail
+
+unset_if_false=( par_make_unique par_aa par_distinguish )
+
+for var in "${unset_if_false[@]}"; do
+    temp_var="${!var}"
+    [[ "$temp_var" == "false" ]] && unset $var
+done
+
+if [ -n "$par_kmer_size" ]; then
+    if [[ "$par_kmer_size" -lt 1 || "$par_kmer_size" -gt 31 || $(( par_kmer_size % 2 )) -eq 0 ]]; then
+        echo "Error: Kmer size must be an odd number between 1 and 31."
+        exit 1
+    fi
+fi
+
+kallisto index \
+    -i "${par_index}" \
+    ${par_kmer_size:+--kmer-size "${par_kmer_size}"} \
+    ${par_make_unique:+--make-unique} \
+    ${par_aa:+--aa} \
+    ${par_distinguish:+--distinguish} \
+    ${par_min_size:+--min-size "${par_min_size}"} \
+    ${par_ec_max_size:+--ec-max-size "${par_ec_max_size}"} \
+    ${par_d_list:+--d-list "${par_d_list}"} \
+    ${meta_cpus:+--cpu "${meta_cpus}"} \
+    ${par_tmp:+--tmp "${par_tmp}"} \
+    "${par_input}"
+
diff --git a/src/kallisto/kallisto_index/test.sh b/src/kallisto/kallisto_index/test.sh
new file mode 100644
index 00000000..2646dcd8
--- /dev/null
+++ b/src/kallisto/kallisto_index/test.sh
@@ -0,0 +1,35 @@
+#!/bin/bash
+
+echo ">>>Test 1: Testing $meta_functionality_name with non-default k-mer size"
+
+"$meta_executable" \
+  --input "$meta_resources_dir/test_data/transcriptome.fasta" \
+  --index Kallisto \
+  --kmer_size 21
+
+
+echo ">>> Checking whether output exists and is correct"
+[ ! -f "Kallisto" ] && echo "Kallisto index does not exist!" && exit 1
+[ ! -s "Kallisto" ] && echo "Kallisto index is empty!" && exit 1
+
+kallisto inspect Kallisto 2> test.txt
+grep "number of k-mers: 989" test.txt || { echo "The content of the index seems to be incorrect." && exit 1; }
+
+################################################################################
+
+echo ">>>Test 2: Testing $meta_functionality_name with d_list argument"
+
+"$meta_executable" \
+  --input "$meta_resources_dir/test_data/transcriptome.fasta" \
+  --index Kallisto \
+  --d_list "$meta_resources_dir/test_data/d_list.fasta"
+
+echo ">>> Checking whether output exists and is correct"
+[ ! -f "Kallisto" ] && echo "Kallisto index does not exist!" && exit 1
+[ ! -s "Kallisto" ] && echo "Kallisto index is empty!" && exit 1
+
+kallisto inspect Kallisto 2> test.txt
+grep "number of k-mers: 959" test.txt || { echo "The content of the index seems to be incorrect." && exit 1; }
+
+echo "All tests succeeded!"
+exit 0
diff --git a/src/kallisto/kallisto_index/test_data/d_list.fasta b/src/kallisto/kallisto_index/test_data/d_list.fasta
new file mode 100644
index 00000000..ad5e05bf
--- /dev/null
+++ b/src/kallisto/kallisto_index/test_data/d_list.fasta
@@ -0,0 +1,5 @@
+>YAL067W-A CDS=1-228
+ATGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGG
+TCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCTAAGCCTGAATTCAGT
+CTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTG
+GGAGTCGTATACTGTTAG
diff --git a/src/kallisto/kallisto_index/test_data/transcriptome.fasta b/src/kallisto/kallisto_index/test_data/transcriptome.fasta
new file mode 100644
index 00000000..94c06163
--- /dev/null
+++ b/src/kallisto/kallisto_index/test_data/transcriptome.fasta
@@ -0,0 +1,23 @@
+>YAL069W CDS=1-315
+ATGATCGTAAATAACACACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCACCCTC
+ACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTC
+AGATTCCACTTCACTCCATGGCCCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACG
+GCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATAT
+CTATATCTCATTCGGCGGTCCCAAATATTGTATAA
+>YAL068W-A CDS=1-255
+ATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATT
+TTGATATCTATATCTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACT
+TTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAAAAA
+TCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAA
+>YAL068C CDS=1-363
+ATGGTCAAATTAACTTCAATCGCCGCTGGTGTCGCTGCCATCGCTGCTACTGCTTCTGCAACCACCACTC
+TAGCTCAATCTGACGAAAGAGTCAACTTGGTGGAATTGGGTGTCTACGTCTCTGATATCAGAGCTCACTT
+AGCCCAATACTACATGTTCCAAGCCGCCCACCCAACTGAAACCTACCCAGTCGAAGTTGCTGAAGCCGTT
+TTCAACTACGGTGACTTCACCACCATGTTGACCGGTATTGCTCCAGACCAAGTGACCAGAATGATCACCG
+GTGTTCCATGGTACTCCAGCAGATTAAAGCCAGCCATCTCCAGTGCTCTATCCAAGGACGGTATCTACAC
+TATCGCAAACTAG
+>YAL067W-A CDS=1-228
+ATGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGG
+TCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCTAAGCCTGAATTCAGT
+CTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTG
+GGAGTCGTATACTGTTAG
\ No newline at end of file

From fe56ee7c53ca30f25aa31cb9a025e17cd75b636e Mon Sep 17 00:00:00 2001
From: Sai Nirmayi Yasa <92786623+sainirmayi@users.noreply.github.com>
Date: Fri, 13 Sep 2024 09:15:19 +0200
Subject: [PATCH 3/9] change output quant file to an optional argument (#151)

---
 src/salmon/salmon_quant/config.vsh.yaml | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/src/salmon/salmon_quant/config.vsh.yaml b/src/salmon/salmon_quant/config.vsh.yaml
index 1f96f0c9..5fa3d48f 100644
--- a/src/salmon/salmon_quant/config.vsh.yaml
+++ b/src/salmon/salmon_quant/config.vsh.yaml
@@ -24,7 +24,7 @@ argument_groups:
         description: |
           Format string describing the library.
           The library type string consists of three parts: 
-          1. Relative orientation of the reads: This part is only provided if the library is paired-end, THe possible options are
+          1. Relative orientation of the reads: This part is only provided if the library is paired-end, The possible options are
             I = inward
             O = outward
             M = matching
@@ -118,7 +118,7 @@ argument_groups:
         direction: output
         description: |
           Salmon quantification file.
-        required: true
+        required: false
         example: quant.sf
 
   - name: Basic options
@@ -327,7 +327,7 @@ argument_groups:
           If this option is provided, then the selective-alignment results will be written out in SAM-compatible format. By default, output will be directed to stdout, but an alternative file name can be provided instead.
       - name: --mapping_sam
         type: file
-        description: Path to file that should output the selective-alignment results in SAM-compatible format. THis option must be provided while using --write_mappings
+        description: Path to file that should output the selective-alignment results in SAM-compatible format. This option must be provided while using --write_mappings
         required: false
         direction: output
         example: mappings.sam

From 124d50ce5318b612e4a1e4da1be705523cd6eab7 Mon Sep 17 00:00:00 2001
From: Robrecht Cannoodt <rcannood@gmail.com>
Date: Mon, 16 Sep 2024 09:50:24 +0200
Subject: [PATCH 4/9] update changelog for viash 0.2.0

---
 CHANGELOG.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 846007d8..1f733203 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -1,4 +1,4 @@
-# biobox x.x.x
+# biobox 0.2.0
 
 ## BREAKING CHANGES
 

From c3b40a15350235b00144f9f6735090d45bc24963 Mon Sep 17 00:00:00 2001
From: Robrecht Cannoodt <rcannood@gmail.com>
Date: Mon, 16 Sep 2024 09:53:23 +0200
Subject: [PATCH 5/9] update to viash 0.9.0

---
 CHANGELOG.md | 6 ++++++
 _viash.yaml  | 2 +-
 2 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 1f733203..0370a216 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -1,3 +1,9 @@
+# biobox x.x.x
+
+## MINOR CHANGES
+
+* Upgrade to Viash 0.9.0.
+
 # biobox 0.2.0
 
 ## BREAKING CHANGES
diff --git a/_viash.yaml b/_viash.yaml
index ab4f3828..d08f2fb2 100644
--- a/_viash.yaml
+++ b/_viash.yaml
@@ -7,7 +7,7 @@ links:
   issue_tracker: https://github.com/viash-hub/biobox/issues
   repository: https://github.com/viash-hub/biobox
 
-viash_version: 0.9.0-RC7
+viash_version: 0.9.0
 
 config_mods: |
   .requirements.commands := ['ps']

From 38f635ad57ef05550bba3a0864c81627f84f5ad2 Mon Sep 17 00:00:00 2001
From: Leila011 <leilapaquay@gmail.com>
Date: Mon, 16 Sep 2024 10:44:10 +0200
Subject: [PATCH 6/9] Add agat convert genscan2gff (#100)

* add config

* add help

* add test data and expected output adn the script to obtain them

* add running script

* add test script

* update changelog

* cleanup

* fix tests

* format description

* remove unused argument --inflate-off

* update --config description

* add requirements

* create temporary directory and clean up on exit

* add GENSCAN in keywords

* add set -e to test

* fix create temporary directory

* add set -eo pipefail to test

* add set -eo pipefail to script

* fix create temporary directory

* update --config description

* cleanup changelog

* cleanup changelog

* Update deprecated variable

---------

Co-authored-by: Robrecht Cannoodt <rcannood@gmail.com>
---
 CHANGELOG.md                                  |   5 +
 .../agat_convert_genscan2gff/config.vsh.yaml  |  95 +++++++++++++
 src/agat/agat_convert_genscan2gff/help.txt    |  94 +++++++++++++
 src/agat/agat_convert_genscan2gff/script.sh   |  21 +++
 src/agat/agat_convert_genscan2gff/test.sh     |  35 +++++
 .../test_data/agat_convert_genscan2gff_1.gff  |  25 ++++
 .../test_data/script.sh                       |  11 ++
 .../test_data/test.genscan                    | 127 ++++++++++++++++++
 8 files changed, 413 insertions(+)
 create mode 100644 src/agat/agat_convert_genscan2gff/config.vsh.yaml
 create mode 100644 src/agat/agat_convert_genscan2gff/help.txt
 create mode 100644 src/agat/agat_convert_genscan2gff/script.sh
 create mode 100644 src/agat/agat_convert_genscan2gff/test.sh
 create mode 100644 src/agat/agat_convert_genscan2gff/test_data/agat_convert_genscan2gff_1.gff
 create mode 100755 src/agat/agat_convert_genscan2gff/test_data/script.sh
 create mode 100644 src/agat/agat_convert_genscan2gff/test_data/test.genscan

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 0370a216..b31f43d9 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -1,5 +1,10 @@
 # biobox x.x.x
 
+## NEW FUNCTIONALITY
+
+* `agat`:
+  - `agat/agat_convert_genscan2gff`: convert a genscan file into a GFF file (PR #100).
+
 ## MINOR CHANGES
 
 * Upgrade to Viash 0.9.0.
diff --git a/src/agat/agat_convert_genscan2gff/config.vsh.yaml b/src/agat/agat_convert_genscan2gff/config.vsh.yaml
new file mode 100644
index 00000000..2adce1da
--- /dev/null
+++ b/src/agat/agat_convert_genscan2gff/config.vsh.yaml
@@ -0,0 +1,95 @@
+name: agat_convert_genscan2gff
+namespace: agat
+description: |
+  The script takes a GENSCAN file as input, and will translate it in gff
+  format. The GENSCAN format is described [here](http://genome.crg.es/courses/Bioinformatics2003_genefinding/results/genscan.html).
+  
+  **Known problem** 
+
+  You must have submited only DNA sequence, without any header!! Indeed the tool expects only DNA
+  sequences and does not crash/warn if an header is submited along the
+  sequence. e.g If you have an header ">seq" s-e-q are seen as the 3 first
+  nucleotides of the sequence. Then all prediction location are shifted
+  accordingly. (checked only on the [online version](http://argonaute.mit.edu/GENSCAN.html). 
+  I don't know if there is the same problem elsewhere.)
+keywords: [gene annotations, GFF conversion, GENSCAN]
+links:
+  homepage: https://github.com/NBISweden/AGAT
+  documentation: https://agat.readthedocs.io/en/latest/tools/agat_convert_genscan2gff.html
+  issue_tracker: https://github.com/NBISweden/AGAT/issues
+  repository: https://github.com/NBISweden/AGAT
+references: 
+  doi: 10.5281/zenodo.3552717
+license: GPL-3.0
+requirements:
+  - commands: [agat]
+authors:
+  - __merge__: /src/_authors/leila_paquay.yaml
+    roles: [ author, maintainer ]
+
+argument_groups:
+  - name: Inputs
+    arguments:
+      - name: --genscan
+        alternatives: [-g]
+        description: Input genscan bed file that will be converted.
+        type: file
+        required: true
+        direction: input
+  - name: Outputs
+    arguments:       
+      - name: --output
+        alternatives: [-o, --out, --outfile, --gff]
+        description: Output GFF file. If no output file is specified, the output will be written to STDOUT.
+        type: file
+        direction: output
+        required: true
+        example: output.gff
+  - name: Arguments
+    arguments:
+      - name: --source
+        description: |
+          The source informs about the tool used to produce the data and is stored in 2nd field of a gff file. Example: Stringtie, Maker, Augustus, etc. [default: data]
+        type: string
+        required: false
+        example: Stringtie
+      - name: --primary_tag
+        description: |
+          The primary_tag corresponds to the data type and is stored in 3rd field of a gff file. Example: gene, mRNA, CDS, etc. [default: gene]
+        type: string
+        required: false
+        example: gene
+      - name: --inflate_type
+        description: |
+          Feature type (3rd column in gff) created when inflate parameter activated [default: exon].
+        type: string
+        required: false
+        example: exon
+      - name: --verbose
+        description: add verbosity
+        type: boolean_true
+      - name: --config
+        alternatives: [-c]
+        description: |
+          AGAT config file. By default AGAT takes the original agat_config.yaml shipped with AGAT. The `--config` option gives you the possibility to use your own AGAT config file (located elsewhere or named differently).
+        type: file
+        required: false
+        example: custom_agat_config.yaml
+resources:
+  - type: bash_script
+    path: script.sh
+test_resources:
+  - type: bash_script
+    path: test.sh
+  - type: file
+    path: test_data
+engines:
+  - type: docker
+    image: quay.io/biocontainers/agat:1.4.0--pl5321hdfd78af_0
+    setup:
+      - type: docker
+        run: |
+          agat --version | sed 's/AGAT\s\(.*\)/agat: "\1"/' > /var/software_versions.txt
+runners:
+  - type: executable
+  - type: nextflow
\ No newline at end of file
diff --git a/src/agat/agat_convert_genscan2gff/help.txt b/src/agat/agat_convert_genscan2gff/help.txt
new file mode 100644
index 00000000..8a9e9f52
--- /dev/null
+++ b/src/agat/agat_convert_genscan2gff/help.txt
@@ -0,0 +1,94 @@
+```sh
+agat_convert_genscan2gff.pl --help
+```
+ ------------------------------------------------------------------------------
+|   Another GFF Analysis Toolkit (AGAT) - Version: v1.4.0                      |
+|   https://github.com/NBISweden/AGAT                                          |
+|   National Bioinformatics Infrastructure Sweden (NBIS) - www.nbis.se         |
+ ------------------------------------------------------------------------------
+
+Name:
+    agat_convert_genscan2gff.pl
+
+Description:
+    The script takes a genscan file as input, and will translate it in gff
+    format. The genscan format is described here:
+    http://genome.crg.es/courses/Bioinformatics2003_genefinding/results/gens
+    can.html /!\ vvv Known problem vvv /!\ You must have submited only DNA
+    sequence, wihtout any header!! Indeed the tool expects only DNA
+    sequences and does not crash/warn if an header is submited along the
+    sequence. e.g If you have an header ">seq" s-e-q are seen as the 3 first
+    nucleotides of the sequence. Then all prediction location are shifted
+    accordingly. (checked only on the online version
+    http://argonaute.mit.edu/GENSCAN.html. I don't know if there is the same
+    pronlem elsewhere.) /!\ ^^^ Known problem ^^^^ /!\
+
+Usage:
+        agat_convert_genscan2gff.pl --genscan infile.bed [ -o outfile ]
+        agat_convert_genscan2gff.pl -h
+
+Options:
+    --genscan or -g
+            Input genscan bed file that will be convert.
+
+    --source
+            The source informs about the tool used to produce the data and
+            is stored in 2nd field of a gff file. Example:
+            Stringtie,Maker,Augustus,etc. [default: data]
+
+    --primary_tag
+            The primary_tag corresponf to the data type and is stored in 3rd
+            field of a gff file. Example: gene,mRNA,CDS,etc. [default: gene]
+
+    --inflate_off
+            By default we inflate the block fields (blockCount, blockSizes,
+            blockStarts) to create subfeatures of the main feature
+            (primary_tag). Type of subfeature created based on the
+            inflate_type parameter. If you don't want this inflating
+            behaviour you can deactivate it by using the option
+            --inflate_off.
+
+    --inflate_type
+            Feature type (3rd column in gff) created when inflate parameter
+            activated [default: exon].
+
+    --verbose
+            add verbosity
+
+    -o , --output , --out , --outfile or --gff
+            Output GFF file. If no output file is specified, the output will
+            be written to STDOUT.
+
+    -c or --config
+            String - Input agat config file. By default AGAT takes as input
+            agat_config.yaml file from the working directory if any,
+            otherwise it takes the orignal agat_config.yaml shipped with
+            AGAT. To get the agat_config.yaml locally type: "agat config
+            --expose". The --config option gives you the possibility to use
+            your own AGAT config file (located elsewhere or named
+            differently).
+
+    -h or --help
+            Display this helpful text.
+
+Feedback:
+  Did you find a bug?:
+    Do not hesitate to report bugs to help us keep track of the bugs and
+    their resolution. Please use the GitHub issue tracking system available
+    at this address:
+
+                https://github.com/NBISweden/AGAT/issues
+
+     Ensure that the bug was not already reported by searching under Issues.
+     If you're unable to find an (open) issue addressing the problem, open a new one.
+     Try as much as possible to include in the issue when relevant:
+     - a clear description,
+     - as much relevant information as possible,
+     - the command used,
+     - a data sample,
+     - an explanation of the expected behaviour that is not occurring.
+
+  Do you want to contribute?:
+    You are very welcome, visit this address for the Contributing
+    guidelines:
+    https://github.com/NBISweden/AGAT/blob/master/CONTRIBUTING.md
diff --git a/src/agat/agat_convert_genscan2gff/script.sh b/src/agat/agat_convert_genscan2gff/script.sh
new file mode 100644
index 00000000..38afb084
--- /dev/null
+++ b/src/agat/agat_convert_genscan2gff/script.sh
@@ -0,0 +1,21 @@
+#!/bin/bash
+
+set -eo pipefail
+
+## VIASH START
+## VIASH END
+
+# unset flags
+[[ "$par_inflate_off" == "true" ]] && unset par_inflate_off
+[[ "$par_verbose" == "false" ]] && unset par_verbose
+
+# run agat_convert_genscan2gff
+agat_convert_genscan2gff.pl \
+  --genscan "$par_genscan" \
+  --output "$par_output" \
+  ${par_source:+--source "${par_source}"} \
+  ${par_primary_tag:+--primary_tag "${par_primary_tag}"} \
+  ${par_inflate_off:+--inflate_off} \
+  ${par_inflate_type:+--inflate_type "${par_inflate_type}"} \
+  ${par_verbose:+--verbose} \
+  ${par_config:+--config "${par_config}"}
\ No newline at end of file
diff --git a/src/agat/agat_convert_genscan2gff/test.sh b/src/agat/agat_convert_genscan2gff/test.sh
new file mode 100644
index 00000000..b666dacf
--- /dev/null
+++ b/src/agat/agat_convert_genscan2gff/test.sh
@@ -0,0 +1,35 @@
+#!/bin/bash
+
+set -eo pipefail
+
+## VIASH START
+## VIASH END
+
+test_dir="${meta_resources_dir}/test_data"
+
+# create temporary directory and clean up on exit
+TMPDIR=$(mktemp -d "$meta_temp_dir/$meta_name-XXXXXX")
+function clean_up {
+ [[ -d "$TMPDIR" ]] && rm -rf "$TMPDIR"
+}
+trap clean_up EXIT
+
+echo "> Run $meta_name with test data"
+"$meta_executable" \
+  --genscan "$test_dir/test.genscan" \
+  --output "$TMPDIR/output.gff" 
+
+echo ">> Checking output"
+[ ! -f "$TMPDIR/output.gff" ] && echo "Output file output.gff does not exist" && exit 1
+
+echo ">> Check if output is empty"
+[ ! -s "$TMPDIR/output.gff" ] && echo "Output file output.gff is empty" && exit 1
+
+echo ">> Check if output matches expected output"
+diff "$TMPDIR/output.gff" "$test_dir/agat_convert_genscan2gff_1.gff"
+if [ $? -ne 0 ]; then
+  echo "Output file output.gff does not match expected output"
+  exit 1
+fi
+
+echo "> Test successful"
diff --git a/src/agat/agat_convert_genscan2gff/test_data/agat_convert_genscan2gff_1.gff b/src/agat/agat_convert_genscan2gff/test_data/agat_convert_genscan2gff_1.gff
new file mode 100644
index 00000000..695fb46c
--- /dev/null
+++ b/src/agat/agat_convert_genscan2gff/test_data/agat_convert_genscan2gff_1.gff
@@ -0,0 +1,25 @@
+##gff-version 3
+unknown	genscan	gene	2223	4605	75.25	+	.	ID=gene_1
+unknown	genscan	mRNA	2223	4605	75.25	+	.	ID=mrna_1;Parent=gene_1
+unknown	genscan	exon	2223	3020	75.25	+	.	ID=exon_1;Parent=mrna_1
+unknown	genscan	exon	4249	4605	13.03	+	.	ID=exon_2;Parent=mrna_1
+unknown	genscan	CDS	2223	3020	75.25	+	0	ID=cds_1;Parent=mrna_1
+unknown	genscan	CDS	4249	4605	13.03	+	0	ID=cds_2;Parent=mrna_1
+unknown	genscan	gene	6829	8789	20.06	-	.	ID=gene_2
+unknown	genscan	mRNA	6829	8789	20.06	-	.	ID=mrna_2;Parent=gene_2
+unknown	genscan	exon	6829	7297	20.06	-	.	ID=exon_3;Parent=mrna_2
+unknown	genscan	exon	7730	7888	12.78	-	.	ID=exon_4;Parent=mrna_2
+unknown	genscan	exon	8029	8185	7.45	-	.	ID=exon_5;Parent=mrna_2
+unknown	genscan	exon	8278	8546	17.45	-	.	ID=exon_6;Parent=mrna_2
+unknown	genscan	exon	8647	8789	18.65	-	.	ID=exon_7;Parent=mrna_2
+unknown	genscan	CDS	6829	7297	20.06	-	1	ID=cds_3;Parent=mrna_2
+unknown	genscan	CDS	7730	7888	12.78	-	1	ID=cds_4;Parent=mrna_2
+unknown	genscan	CDS	8029	8185	7.45	-	2	ID=cds_5;Parent=mrna_2
+unknown	genscan	CDS	8278	8546	17.45	-	1	ID=cds_6;Parent=mrna_2
+unknown	genscan	CDS	8647	8789	18.65	-	0	ID=cds_7;Parent=mrna_2
+unknown	genscan	gene	10209	11924	16.18	+	.	ID=gene_3
+unknown	genscan	mRNA	10209	11924	16.18	+	.	ID=mrna_3;Parent=gene_3
+unknown	genscan	exon	10209	11313	16.18	+	.	ID=exon_8;Parent=mrna_3
+unknown	genscan	exon	11850	11924	3.27	+	.	ID=exon_9;Parent=mrna_3
+unknown	genscan	CDS	10209	11313	16.18	+	0	ID=cds_8;Parent=mrna_3
+unknown	genscan	CDS	11850	11924	3.27	+	2	ID=cds_9;Parent=mrna_3
diff --git a/src/agat/agat_convert_genscan2gff/test_data/script.sh b/src/agat/agat_convert_genscan2gff/test_data/script.sh
new file mode 100755
index 00000000..c1693653
--- /dev/null
+++ b/src/agat/agat_convert_genscan2gff/test_data/script.sh
@@ -0,0 +1,11 @@
+#!/bin/bash
+
+# clone repo
+if [ ! -d /tmp/agat_source ]; then
+  git clone --depth 1 --single-branch --branch master https://github.com/NBISweden/AGAT /tmp/agat_source
+fi
+
+# copy test data
+cp -r /tmp/agat_source/t/scripts_output/in/test.genscan src/agat/agat_convert_genscan2gff/test_data/test.genscan
+cp -r /tmp/agat_source/t/scripts_output/out/agat_convert_genscan2gff_1.gff src/agat/agat_convert_genscan2gff/test_data/agat_convert_genscan2gff_1.gff
+
diff --git a/src/agat/agat_convert_genscan2gff/test_data/test.genscan b/src/agat/agat_convert_genscan2gff/test_data/test.genscan
new file mode 100644
index 00000000..a88037db
--- /dev/null
+++ b/src/agat/agat_convert_genscan2gff/test_data/test.genscan
@@ -0,0 +1,127 @@
+GENSCAN 1.0	Date run:  7-Mar-120	Time: 14:46:49
+
+
+
+Sequence /tmp/03_07_20-14:46:49.fasta : 12217 bp : 42.83% C+G : Isochore 1 ( 0 - 43 C+G%)
+
+
+
+Parameter matrix: HumanIso.smat
+
+
+
+Predicted genes/exons:
+
+
+
+Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
+
+----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
+
+
+
+ 1.01 Init +   2223   3020  798  2  0   55    2   924 0.940  75.25
+
+ 1.02 Term +   4249   4605  357  0  0   26   38   307 0.976  13.03
+
+ 1.03 PlyA +   4711   4716    6                              -0.45
+
+
+
+ 2.06 PlyA -   4852   4847    6                              -0.45
+
+ 2.05 Term -   7297   6829  469  0  1   13   42   387 0.281  20.06
+
+ 2.04 Intr -   7888   7730  159  0  0   85   93   144 0.998  12.78
+
+ 2.03 Intr -   8185   8029  157  2  1   65   60   144 0.787   7.45
+
+ 2.02 Intr -   8546   8278  269  1  2   36   65   287 0.946  17.45
+
+ 2.01 Init -   8789   8647  143  2  2   94   96   176 0.550  18.65
+
+ 2.00 Prom -   9720   9681   40                              -6.55
+
+
+
+ 3.00 Prom +  10160  10199   40                             -11.84
+
+ 3.01 Init +  10209  11313 1105  2  1   66   57   269 0.512  16.18
+
+ 3.02 Intr +  11850  11924   75  1  0   80   86    57 0.507   3.27
+
+
+
+Suboptimal exons with probability > 1.000
+
+
+
+Exnum Type S .Begin ...End .Len Fr Ph B/Ac Do/T CodRg P.... Tscr..
+
+----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
+
+
+
+NO EXONS FOUND AT GIVEN PROBABILITY CUTOFF
+
+
+
+
+
+Predicted peptide sequence(s):
+
+
+
+
+
+>/tmp/03_03_20-07:33:11.fasta|GENSCAN_predicted_peptide_1|384_aa
+
+MSSKNKVSKQDIDSIVESLMKKQKSYFEPRLAQIQQVGMENVQKLSAIHAELALLTASIS
+
+TVKSDVDKLKCKVENNFSAIDGHDQAFGELELKMADMEDRSRRCNIRVIGLKERLEGFNA
+
+IQYLTHSLPKWFPALADVPVEVMSAHRIYSDAKRGDNRTLIFNVLRYTTRQAILRAAKKD
+
+PLSVDDRKVRFSPDYSNFTVKRCQAFHQAKDAARNKCLDFFLLYPATLKIKEGAQYRSFT
+
+SPKEAEDYVNSAASNHAATPASPRQHGTILTIYRRIHSLYDGERARKIQLLEQAASVALT
+
+GDNWTSVRNDNYLGVTAHFIDNVWKLRCFALEVKKKKKHSRHTAEDCAEEFIDVSNRWEI
+
+NGKLTTLGTDSALIMLAAARLLPF
+
+
+
+>/tmp/03_03_20-07:33:11.fasta|GENSCAN_predicted_peptide_2|398_aa
+
+MASTMPSSSSTEDEENTPECLNKDHYHFHHYTMEYIQDKPTNVARVGGFTDKKSIAKVER
+
+CLARERQEATEDHEAIPSTSGATSLTKKLRSRSGLPIAGSGLVLPALCIICQKKEKFINR
+
+AGKRQRDPLSKAETLTVGQLQKAAELKDDQSILLHIKDKDCVALEVQYHKGCYNQYTRFM
+
+TRPEKPEKEQNEPTFDVGYKILCERIIRQRLLVNQEVLRMGQLRMAFIELVKANEGLDAS
+
+NYSIKNLERSRRADAGSQRIQIFDPDQRTPTQWKKFLSEGTKKEALAEFLYVAWKNADLT
+
+IVGKNLCLYIAHTNQCHCVTVKEGVQSVRVVEDLLLFLHAQHAAREHKAVIIKSSDTDVA
+
+VIAVSVQTDLPCSLYVFTGTGNRTRIIDITKVSSANKI
+
+
+
+>/tmp/03_03_20-07:33:11.fasta|GENSCAN_predicted_peptide_3|394_aa
+
+MQRGRAAGINGIPPEFYVAFWEQLSPFFLHMINFSIEKGGFLRDVNTALISLLMKKDKNP
+
+TDCSSYRPLSLLNSDVKIFAKLLPLRLEPHMPELVSSDQTGFIKSRTAADNIRRLLHIIA
+
+AAPGCETPMSVLSLDAMKAFDRLEWSFLWSVLEAMGFISTFIGMVKVLYSNPSARVLTGQ
+
+TFSSLFPVSRSSRQGCPLSPALFVLSLEPLAQAVRLSNLVLPICICDTQHKLSLFADDVI
+
+VFLEHPTQSLPHFLSICEEFRKLSGFKMNWSKSALMHLNDNARKSVTPVNIPLVGQLKYL
+
+GIEVFPSLNQIVKHNYSLAFTNVLKDMDRWISLPMSIQARISIIKMNGLPRIHFVSSMVP
+
+LPPPSDYWIKISAQGVRCPLAKPFTHSPYSKTKX

From 7f8bcc2b3e1ffaac9778b6acb42420b19660d1a1 Mon Sep 17 00:00:00 2001
From: Robrecht Cannoodt <rcannood@gmail.com>
Date: Tue, 17 Sep 2024 11:47:31 +0200
Subject: [PATCH 7/9] BD rhapsody sequence analysis (#96)

* wip

* fix test

* add help

* update 2.2 args

* fix bug

* extend test data

* output separate files

* analyse missing args

* tweaks to test

* fix script

* fix test

* fix test

* move small reference

* wip generate wta test data

* don't forget about umi in r1

* remove unneeded pkg

* load reference in memory just once

* fix random choices

* extend test

* add abc immunediscoverypanel

* wip abc testing code

* fix abc test; need unique instrument, run and flowcell ids for each sample

* add smk data

* add entry to changelog

* remove old test file

* adapt test for missing read

* update description

* add comment

* ensure cwl files are absolute

* Apply suggestions from code review

Co-authored-by: Dries Schaumont <5946712+DriesSchaumont@users.noreply.github.com>

* fix suggestion

* newer pipelines have docker requirements as a hint instead of a strict requirement

* rename str to content

* remove deleted resources

* fix containers

* fix script

* fix suggestion

* fix suggestion...

* fix test

* fix component name

* fix test

* apply suggestions

* fix test

* added note

* fix changelog

* fix changelog again

* splitting hairs here

---------

Co-authored-by: Dries Schaumont <5946712+DriesSchaumont@users.noreply.github.com>
---
 CHANGELOG.md                                  |   2 +
 .../config.vsh.yaml                           |  14 +-
 .../make_rhap_reference_2.2.1_nodocker.cwl    | 115 ---
 .../bd_rhapsody_make_reference/script.py      |  12 +-
 .../test_data/script.sh                       |  47 --
 .../_process_cwl.R                            | 116 +++
 .../config.vsh.yaml                           | 661 ++++++++++++++++++
 .../bd_rhapsody_sequence_analysis/help.txt    | 167 +++++
 .../pipeline_inputs_template_2.2.1.yaml       | 203 ++++++
 .../bd_rhapsody_sequence_analysis/script.py   | 243 +++++++
 .../bd_rhapsody_sequence_analysis/test.py     | 494 +++++++++++++
 .../helpers/rhapsody_cell_label.py            | 405 +++++++++++
 .../BDAbSeq_ImmuneDiscoveryPanel.fasta        |  60 ++
 .../SampleTagSequences_HomoSapiens_ver1.fasta |  24 +
 .../test_data/reference_small.fa              |   0
 .../test_data/reference_small.gtf             |   0
 src/bd_rhapsody/test_data/script.sh           | 141 ++++
 17 files changed, 2532 insertions(+), 172 deletions(-)
 delete mode 100644 src/bd_rhapsody/bd_rhapsody_make_reference/make_rhap_reference_2.2.1_nodocker.cwl
 delete mode 100644 src/bd_rhapsody/bd_rhapsody_make_reference/test_data/script.sh
 create mode 100644 src/bd_rhapsody/bd_rhapsody_sequence_analysis/_process_cwl.R
 create mode 100644 src/bd_rhapsody/bd_rhapsody_sequence_analysis/config.vsh.yaml
 create mode 100644 src/bd_rhapsody/bd_rhapsody_sequence_analysis/help.txt
 create mode 100644 src/bd_rhapsody/bd_rhapsody_sequence_analysis/pipeline_inputs_template_2.2.1.yaml
 create mode 100644 src/bd_rhapsody/bd_rhapsody_sequence_analysis/script.py
 create mode 100644 src/bd_rhapsody/bd_rhapsody_sequence_analysis/test.py
 create mode 100644 src/bd_rhapsody/helpers/rhapsody_cell_label.py
 create mode 100644 src/bd_rhapsody/test_data/BDAbSeq_ImmuneDiscoveryPanel.fasta
 create mode 100644 src/bd_rhapsody/test_data/SampleTagSequences_HomoSapiens_ver1.fasta
 rename src/bd_rhapsody/{bd_rhapsody_make_reference => }/test_data/reference_small.fa (100%)
 rename src/bd_rhapsody/{bd_rhapsody_make_reference => }/test_data/reference_small.gtf (100%)
 create mode 100644 src/bd_rhapsody/test_data/script.sh

diff --git a/CHANGELOG.md b/CHANGELOG.md
index b31f43d9..07a83c15 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -5,6 +5,8 @@
 * `agat`:
   - `agat/agat_convert_genscan2gff`: convert a genscan file into a GFF file (PR #100).
 
+* `bd_rhapsody/bd_rhapsody_sequence_analysis`: BD Rhapsody Sequence Analysis CWL pipeline (PR #96).
+
 ## MINOR CHANGES
 
 * Upgrade to Viash 0.9.0.
diff --git a/src/bd_rhapsody/bd_rhapsody_make_reference/config.vsh.yaml b/src/bd_rhapsody/bd_rhapsody_make_reference/config.vsh.yaml
index e596bf06..dc71262b 100644
--- a/src/bd_rhapsody/bd_rhapsody_make_reference/config.vsh.yaml
+++ b/src/bd_rhapsody/bd_rhapsody_make_reference/config.vsh.yaml
@@ -116,12 +116,11 @@ argument_groups:
 resources:
   - type: python_script
     path: script.py
-  - path: make_rhap_reference_2.2.1_nodocker.cwl
 
 test_resources:
   - type: bash_script
     path: test.sh
-  - path: test_data
+  - path: ../test_data
 
 requirements:
   commands: [ "cwl-runner" ]
@@ -131,12 +130,19 @@ engines:
     image: bdgenomics/rhapsody:2.2.1
     setup:
       - type: apt
-        packages: [procps]
+        packages: [procps, git]
       - type: python
         packages: [cwlref-runner, cwl-runner]
       - type: docker
         run: |
-          echo "bdgenomics/rhapsody: 2.2.1" > /var/software_versions.txt
+          mkdir /var/bd_rhapsody_cwl && \
+            cd /var/bd_rhapsody_cwl && \
+            git clone https://bitbucket.org/CRSwDev/cwl.git . && \
+            git checkout 8feeace1141b24749ea6003f8e6ad6d3ad5232de
+      - type: docker
+        run:
+          - VERSION=$(ls -v /var/bd_rhapsody_cwl | grep '^v' | sed 's#v##' | tail -1)
+          - 'echo "bdgenomics/rhapsody: \"$VERSION\"" > /var/software_versions.txt'
 
 runners:
   - type: executable
diff --git a/src/bd_rhapsody/bd_rhapsody_make_reference/make_rhap_reference_2.2.1_nodocker.cwl b/src/bd_rhapsody/bd_rhapsody_make_reference/make_rhap_reference_2.2.1_nodocker.cwl
deleted file mode 100644
index fead2c02..00000000
--- a/src/bd_rhapsody/bd_rhapsody_make_reference/make_rhap_reference_2.2.1_nodocker.cwl
+++ /dev/null
@@ -1,115 +0,0 @@
-requirements:
-  InlineJavascriptRequirement: {}
-class: CommandLineTool
-label: Reference Files Generator for BD Rhapsodyâ„¢ Sequencing Analysis Pipeline
-cwlVersion: v1.2
-doc: >- 
-    The Reference Files Generator creates an archive containing Genome Index and Transcriptome annotation files needed for the BD Rhapsodyâ„¢ Sequencing Analysis Pipeline. The app takes as input one or more FASTA and GTF files and produces a compressed archive in the form of a tar.gz file. The archive contains:\n  - STAR index\n  - Filtered GTF file
-
-
-baseCommand: run_reference_generator.sh 
-inputs: 
-    Genome_fasta:
-        type: File[]
-        label: Reference Genome
-        doc: |-
-            Reference genome file in FASTA format. The BD Rhapsodyâ„¢ Sequencing Analysis Pipeline uses GRCh38 for Human and GRCm39 for Mouse.
-        inputBinding:
-            prefix: --reference-genome
-            shellQuote: false
-    Gtf:
-        type: File[]
-        label: Transcript Annotations
-        doc: |-
-            Transcript annotation files in GTF format. The BD Rhapsodyâ„¢ Sequencing Analysis Pipeline uses Gencode v42 for Human and M31 for Mouse.
-        inputBinding:
-            prefix: --gtf
-            shellQuote: false
-    Extra_sequences:
-        type: File[]?
-        label: Extra Sequences
-        doc: |-
-            Additional sequences in FASTA format to use when building the STAR index. (E.g. phiX genome)
-        inputBinding:
-            prefix: --extra-sequences
-            shellQuote: false
-    Mitochondrial_Contigs:
-        type: string[]?
-        default: ["chrM", "chrMT", "M", "MT"]
-        label: Mitochondrial Contig Names
-        doc: |-
-            Names of the Mitochondrial contigs in the provided Reference Genome. Fragments originating from contigs other than these are identified as 'nuclear fragments' in the ATACseq analysis pipeline.
-        inputBinding:
-            prefix: --mitochondrial-contigs
-            shellQuote: false
-    Filtering_off:
-        type: boolean?
-        label: Turn off filtering
-        doc: |-
-            By default the input Transcript Annotation files are filtered based on the gene_type/gene_biotype attribute. Only features having the following attribute values are are kept:
-            - protein_coding
-            - lncRNA (lincRNA and antisense for Gencode < v31/M22/Ensembl97)
-            - IG_LV_gene
-            - IG_V_gene
-            - IG_V_pseudogene
-            - IG_D_gene
-            - IG_J_gene
-            - IG_J_pseudogene
-            - IG_C_gene
-            - IG_C_pseudogene
-            - TR_V_gene
-            - TR_V_pseudogene
-            - TR_D_gene
-            - TR_J_gene
-            - TR_J_pseudogene
-            - TR_C_gene
-            If you have already pre-filtered the input Annotation files and/or wish to turn-off the filtering, please set this option to True.
-        inputBinding: 
-            prefix: --filtering-off
-            shellQuote: false
-    WTA_Only:
-        type: boolean?
-        label: WTA only index
-        doc: Build a WTA only index, otherwise builds a WTA + ATAC index.
-        inputBinding:
-            prefix: --wta-only-index
-            shellQuote: false
-    Archive_prefix:
-        type: string?
-        label: Archive Prefix
-        doc: |-
-            A prefix for naming the compressed archive file containing the Reference genome index and annotation files. The default value is constructed based on the input Reference files.
-        inputBinding:
-            prefix: --archive-prefix
-            shellQuote: false
-    Extra_STAR_params:
-        type: string?
-        label: Extra STAR Params
-        doc: |-
-            Additional parameters to pass to STAR when building the genome index. Specify exactly like how you would on the command line.
-            Example:
-              --limitGenomeGenerateRAM 48000 --genomeSAindexNbases 11
-        inputBinding:
-            prefix: --extra-star-params 
-            shellQuote: true
-  
-    Maximum_threads:
-        type: int?
-        label: Maximum Number of Threads
-        doc: |-
-            The maximum number of threads to use in the pipeline. By default, all available cores are used.
-        inputBinding:
-            prefix: --maximum-threads
-            shellQuote: false
-
-outputs:
-
-    Archive:
-        type: File
-        doc: |- 
-            A Compressed archive containing the Reference Genome Index and annotation GTF files. This archive is meant to be used as an input in the BD Rhapsodyâ„¢ Sequencing Analysis Pipeline.
-        id: Reference_Archive
-        label: Reference Files Archive
-        outputBinding:
-            glob: '*.tar.gz'
-
diff --git a/src/bd_rhapsody/bd_rhapsody_make_reference/script.py b/src/bd_rhapsody/bd_rhapsody_make_reference/script.py
index ca635508..dcbfe933 100644
--- a/src/bd_rhapsody/bd_rhapsody_make_reference/script.py
+++ b/src/bd_rhapsody/bd_rhapsody_make_reference/script.py
@@ -83,21 +83,21 @@ def generate_config(par: dict[str, Any], meta, config) -> str:
 
     for config_key, arg_type, par_value in config_key_value_pairs:
         if arg_type == "file":
-            str = strip_margin(f"""\
+            content = strip_margin(f"""\
                 |{config_key}:
                 |""")
             if isinstance(par_value, list):
                 for file in par_value:
-                    str += strip_margin(f"""\
+                    content += strip_margin(f"""\
                         | - class: File
                         |   location: "{file}"
                         |""")
             else:
-                str += strip_margin(f"""\
+                content += strip_margin(f"""\
                     |   class: File
                     |   location: "{par_value}"
                     |""")
-            content_list.append(str)
+            content_list.append(content)
         else:
             content_list.append(strip_margin(f"""\
                 |{config_key}: {par_value}
@@ -108,9 +108,9 @@ def generate_config(par: dict[str, Any], meta, config) -> str:
 
 def get_cwl_file(meta: dict[str, Any]) -> str:
     # create cwl file (if need be)
-    cwl_file=os.path.join(meta["resources_dir"], "make_rhap_reference_2.2.1_nodocker.cwl")
+    cwl_file="/var/bd_rhapsody_cwl/v2.2.1/Extra_Utilities/make_rhap_reference_2.2.1.cwl"
 
-    return cwl_file
+    return os.path.abspath(cwl_file)
 
 def main(par: dict[str, Any], meta: dict[str, Any]):
     config = read_config(meta["config"])
diff --git a/src/bd_rhapsody/bd_rhapsody_make_reference/test_data/script.sh b/src/bd_rhapsody/bd_rhapsody_make_reference/test_data/script.sh
deleted file mode 100644
index 8d468064..00000000
--- a/src/bd_rhapsody/bd_rhapsody_make_reference/test_data/script.sh
+++ /dev/null
@@ -1,47 +0,0 @@
-#!/bin/bash
-
-TMP_DIR=/tmp/bd_rhapsody_make_reference
-OUT_DIR=src/bd_rhapsody/bd_rhapsody_make_reference/test_data
-
-# check if seqkit is installed
-if ! command -v seqkit &> /dev/null; then
-  echo "seqkit could not be found"
-  exit 1
-fi
-
-# create temporary directory and clean up on exit
-mkdir -p $TMP_DIR
-function clean_up {
-    rm -rf "$TMP_DIR"
-}
-trap clean_up EXIT
-
-# fetch reference
-ORIG_FA=$TMP_DIR/reference.fa.gz
-if [ ! -f $ORIG_FA ]; then
-  wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_41/GRCh38.primary_assembly.genome.fa.gz \
-    -O $ORIG_FA
-fi
-
-ORIG_GTF=$TMP_DIR/reference.gtf.gz
-if [ ! -f $ORIG_GTF ]; then
-  wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_41/gencode.v41.annotation.gtf.gz \
-    -O $ORIG_GTF
-fi
-
-# create small reference
-START=30000
-END=31500
-CHR=chr1
-
-# subset to small region
-seqkit grep -r -p "^$CHR\$" "$ORIG_FA" | \
-  seqkit subseq -r "$START:$END" > $OUT_DIR/reference_small.fa
-
-zcat "$ORIG_GTF" | \
-  awk -v FS='\t' -v OFS='\t' "
-    \$1 == \"$CHR\" && \$4 >= $START && \$5 <= $END {
-      \$4 = \$4 - $START + 1;
-      \$5 = \$5 - $START + 1;
-      print;
-    }" > $OUT_DIR/reference_small.gtf
diff --git a/src/bd_rhapsody/bd_rhapsody_sequence_analysis/_process_cwl.R b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/_process_cwl.R
new file mode 100644
index 00000000..e33b8ea7
--- /dev/null
+++ b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/_process_cwl.R
@@ -0,0 +1,116 @@
+# Extract arguments from CWL file and write them to arguments.yaml
+#
+# This script:
+#  - reads the CWL file
+#  - extracts the main workflow arguments
+#  - compares cwl arguments to viash config arguments
+#  - writes the arguments to arguments.yaml
+#
+# It can be used to update the arguments in the viash config after an
+# update to the CWL file has been made.
+#
+# Dependencies: tidyverse, jsonlite, yaml, dynutils
+#
+# Install dependencies:
+# ```R
+# install.packages(c("tidyverse", "jsonlite", "yaml", "dynutils"))
+# ```
+#
+# Usage:
+# ```bash
+# Rscript src/bd_rhapsody/bd_rhapsody_sequence_analysis/_process_cwl.R
+# ```
+
+library(tidyverse)
+
+# fetch and read cwl file
+lines <- read_lines("https://bitbucket.org/CRSwDev/cwl/raw/8feeace1141b24749ea6003f8e6ad6d3ad5232de/v2.2.1/rhapsody_pipeline_2.2.1.cwl")
+cwl_header <- lines[[1]]
+cwl_obj <- jsonlite::fromJSON(lines[-1], simplifyVector = FALSE)
+
+# detect main workflow arguments
+gr <- dynutils::list_as_tibble(cwl_obj$`$graph`)
+
+gr %>% print(n = 100)
+
+main <- gr %>% filter(gr$id == "#main")
+
+main_inputs <- main$inputs[[1]]
+
+input_ids <- main_inputs %>% map_chr("id") %>% gsub("^#main/", "", .)
+
+# check whether in config
+config <- yaml::read_yaml("src/bd_rhapsody/bd_rhapsody_sequence_analysis/config.vsh.yaml")
+config$all_arguments <- config$argument_groups %>% map("arguments") %>% list_flatten()
+arg_names <- config$all_arguments %>% map_chr("name") %>% gsub("^--", "", .)
+
+# arguments in cwl but not in config
+setdiff(tolower(input_ids), arg_names)
+
+# arguments in config but not in cwl
+setdiff(arg_names, tolower(input_ids))
+
+# create arguments from main_inputs
+arguments <- map(main_inputs, function(main_input) {
+  input_id <- main_input$id %>% gsub("^#main/", "", .)
+  input_type <- main_input$type[[2]]
+
+  if (is.list(input_type) && input_type$type == "array") {
+    multiple <- TRUE
+    input_type <- input_type$items
+  } else {
+    multiple <- FALSE
+  }
+
+  if (is.list(input_type) && input_type$type == "enum") {
+    choices <- input_type$symbols %>%
+      gsub(paste0(input_type$name, "/"), "", .)
+    input_type <- "enum"
+  } else {
+    choices <- NULL
+  }
+
+  description <-
+    if (is.null(main_input$label)) {
+      main_input$doc
+    } else if (is.null(main_input$doc)) {
+      main_input$label
+    } else {
+      paste0(main_input$label, ". ", main_input$doc)
+    }
+
+  type_map <- c(
+    "float" = "double",
+    "int" = "integer",
+    "string" = "string",
+    "boolean" = "boolean",
+    "File" = "file",
+    "enum" = "string"
+  )
+
+  out <- list(
+    name = paste0("--", tolower(input_id)),
+    type = type_map[input_type],
+    # TODO: use summary when viash 0.9 is released
+    # summary = main_input$doc,
+    # description = main_input$doc,
+    description = description,
+    multiple = multiple,
+    choices = choices,
+    info = list(
+      config_key = input_id
+    )
+  )
+
+  out[!sapply(out, is.null)]
+})
+
+
+
+yaml::write_yaml(
+  arguments,
+  "src/bd_rhapsody/bd_rhapsody_sequence_analysis/arguments.yaml",
+  handlers = list(
+    logical = yaml::verbatim_logical
+  )
+)
diff --git a/src/bd_rhapsody/bd_rhapsody_sequence_analysis/config.vsh.yaml b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/config.vsh.yaml
new file mode 100644
index 00000000..eb3eaf38
--- /dev/null
+++ b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/config.vsh.yaml
@@ -0,0 +1,661 @@
+name: bd_rhapsody_sequence_analysis
+namespace: bd_rhapsody
+description: |
+  BD Rhapsody Sequence Analysis CWL pipeline v2.2.
+
+  This pipeline performs analysis of single-cell multiomic sequence read (FASTQ) data. The supported
+  sequencing libraries are those generated by the BD Rhapsody™ assay kits, including: Whole Transcriptome
+  mRNA (WTA), Targeted mRNA, AbSeq Antibody-Oligonucleotides (ABC), Single-Cell Multiplexing (SMK),
+  TCR/BCR (VDJ), and ATAC-Seq.
+keywords: [rna-seq, single-cell, multiomic, atac-seq, targeted, abseq, tcr, bcr]
+links:
+  repository: https://bitbucket.org/CRSwDev/cwl/src/master/v2.2.1
+  documentation: https://bd-rhapsody-bioinfo-docs.genomics.bd.com
+license: Unknown
+authors:
+  - __merge__: /src/_authors/robrecht_cannoodt.yaml
+    roles: [ author, maintainer ]
+  - __merge__: /src/_authors/weiwei_schultz.yaml
+    roles: [ contributor ]
+
+argument_groups:
+  - name: Inputs
+    arguments:
+      - name: "--reads"
+        type: file
+        description: |
+          Reads (optional) - Path to your FASTQ.GZ formatted read files from libraries that may include:
+          
+          - WTA mRNA
+          - Targeted mRNA
+          - AbSeq
+          - Sample Multiplexing
+          - VDJ
+          
+          You may specify as many R1/R2 read pairs as you want.
+        required: false
+        multiple: true
+        example:
+          - WTALibrary_S1_L001_R1_001.fastq.gz
+          - WTALibrary_S1_L001_R2_001.fastq.gz
+        info:
+          config_key: Reads
+      - name: "--reads_atac"
+        type: file
+        description: |
+          Path to your FASTQ.GZ formatted read files from ATAC-Seq libraries.
+          You may specify as many R1/R2/I2 files as you want.
+        required: false
+        multiple: true
+        example:
+          - ATACLibrary_S2_L001_R1_001.fastq.gz
+          - ATACLibrary_S2_L001_R2_001.fastq.gz
+          - ATACLibrary_S2_L001_I2_001.fastq.gz
+        info:
+          config_key: Reads_ATAC
+  - name: References
+    description: |
+      Assay type will be inferred from the provided reference(s).
+      Do not provide both reference_archive and targeted_reference at the same time.
+      
+      Valid reference input combinations:
+        - reference_archive: WTA only
+        - reference_archive & abseq_reference: WTA + AbSeq
+        - reference_archive & supplemental_reference: WTA + extra transgenes
+        - reference_archive & abseq_reference & supplemental_reference: WTA + AbSeq + extra transgenes
+        - reference_archive: WTA + ATAC or ATAC only
+        - reference_archive & supplemental_reference: WTA + ATAC + extra transgenes
+        - targeted_reference: Targeted only
+        - targeted_reference & abseq_reference: Targeted + AbSeq
+        - abseq_reference: AbSeq only
+
+      The reference_archive can be generated with the bd_rhapsody_make_reference component.
+      Alternatively, BD also provides standard references which can be downloaded from these locations:
+
+        - Human: https://bd-rhapsody-public.s3.amazonaws.com/Rhapsody-WTA/Pipeline-version2.x_WTA_references/RhapRef_Human_WTA_2023-02.tar.gz
+        - Mouse: https://bd-rhapsody-public.s3.amazonaws.com/Rhapsody-WTA/Pipeline-version2.x_WTA_references/RhapRef_Mouse_WTA_2023-02.tar.gz
+    arguments:
+      - name: "--reference_archive"
+        type: file
+        description: |
+          Path to Rhapsody WTA Reference in the tar.gz format.
+
+          Structure of the reference archive:
+          
+          - `BD_Rhapsody_Reference_Files/`: top level folder
+            - `star_index/`: sub-folder containing STAR index, that is files created with `STAR --runMode genomeGenerate`
+            - GTF for gene-transcript-annotation e.g. "gencode.v43.primary_assembly.annotation.gtf"
+        example: "RhapRef_Human_WTA_2023-02.tar.gz"
+        required: false
+        info:
+          config_key: Reference_Archive
+      - name: "--targeted_reference"
+        type: file
+        description: |
+          Path to the targeted reference file in FASTA format.
+        example: "BD_Rhapsody_Immune_Response_Panel_Hs.fasta"
+        multiple: true
+        info:
+          config_key: Targeted_Reference
+      - name: "--abseq_reference"
+        type: file
+        description: Path to the AbSeq reference file in FASTA format.  Only needed if BD AbSeq Ab-Oligos are used.
+        example: "AbSeq_reference.fasta"
+        multiple: true
+        info:
+          config_key: AbSeq_Reference
+      - name: "--supplemental_reference"
+        type: file
+        alternatives: [-s]
+        description: Path to the supplemental reference file in FASTA format.  Only needed if there are additional transgene sequences to be aligned against in a WTA assay experiment.
+        example: "supplemental_reference.fasta"
+        multiple: true
+        info:
+          config_key: Supplemental_Reference
+  - name: Outputs
+    description: Outputs for all pipeline runs
+    # based on https://bd-rhapsody-bioinfo-docs.genomics.bd.com/outputs/top_outputs.html
+    arguments:
+      - name: "--output_dir"
+        type: file
+        direction: output
+        alternatives: [-o]
+        description: "The unprocessed output directory containing all the outputs from the pipeline."
+        required: true
+        example: output_dir/
+      - name: "--output_seurat"
+        type: file
+        direction: output
+        description: "Single-cell analysis tool inputs. Seurat (.rds) input file containing RSEC molecules data table and all cell annotation metadata."
+        example: output_seurat.rds
+        required: false
+        info:
+          template: "[sample_name]_Seurat.rds"
+      - name: "--output_mudata"
+        type: file
+        direction: output
+        description: "Single-cell analysis tool inputs. Scanpy / Muon input file containing RSEC molecules data table and all cell annotation metadata."
+        example: output_mudata.h5mu
+        required: false
+        info:
+          template: "[sample_name].h5mu"
+      - name: "--metrics_summary"
+        type: file
+        direction: output
+        description: "Metrics Summary. Report containing sequencing, molecules, and cell metrics."
+        example: metrics_summary.csv
+        required: false
+        info:
+          template: "[sample_name]_Metrics_Summary.csv"
+      - name: "--pipeline_report"
+        type: file
+        direction: output
+        description: "Pipeline Report. Summary report containing the results from the sequencing analysis pipeline run."
+        example: pipeline_report.html
+        required: false
+        info:
+          template: "[sample_name]_Pipeline_Report.html"
+      - name: "--rsec_mols_per_cell"
+        type: file
+        direction: output
+        description: "Molecules per bioproduct per cell bassed on RSEC"
+        example: RSEC_MolsPerCell_MEX.zip 
+        required: false
+        info:
+          template: "[sample_name]_RSEC_MolsPerCell_MEX.zip"
+      - name: "--dbec_mols_per_cell"
+        type: file
+        direction: output
+        description: "Molecules per bioproduct per cell bassed on DBEC. DBEC data table is only output if the experiment includes targeted mRNA or AbSeq bioproducts."
+        example: DBEC_MolsPerCell_MEX.zip 
+        required: false
+        info:
+          template: "[sample_name]_DBEC_MolsPerCell_MEX.zip"
+      - name: "--rsec_mols_per_cell_unfiltered"
+        type: file
+        direction: output
+        description: "Unfiltered tables containing all cell labels with ≥10 reads."
+        example: RSEC_MolsPerCell_Unfiltered_MEX.zip 
+        required: false
+        info:
+          template: "[sample_name]_RSEC_MolsPerCell_Unfiltered_MEX.zip"
+      - name: "--bam"
+        type: file
+        direction: output
+        description: "Alignment file of R2 with associated R1 annotations for Bioproduct."
+        example: BioProduct.bam
+        required: false
+        info:
+          template: "[sample_name]_Bioproduct.bam"
+      - name: "--bam_index"
+        type: file
+        direction: output
+        description: "Index file for the alignment file."
+        example: BioProduct.bam.bai
+        required: false
+        info:
+          template: "[sample_name]_Bioproduct.bam.bai"
+      - name: "--bioproduct_stats"
+        type: file
+        direction: output
+        description: "Bioproduct Stats. Metrics from RSEC and DBEC Unique Molecular Identifier adjustment algorithms on a per-bioproduct basis."
+        example: Bioproduct_Stats.csv
+        required: false
+        info:
+          template: "[sample_name]_Bioproduct_Stats.csv"
+      - name: "--dimred_tsne"
+        type: file
+        direction: output
+        description: "t-SNE dimensionality reduction coordinates per cell index"
+        example: tSNE_coordinates.csv
+        required: false
+        info:
+          template: "[sample_name]_(assay)_tSNE_coordinates.csv"
+      - name: "--dimred_umap"
+        type: file
+        direction: output
+        description: "UMAP dimensionality reduction coordinates per cell index"
+        example: UMAP_coordinates.csv
+        required: false
+        info:
+          template: "[sample_name]_(assay)_UMAP_coordinates.csv"
+      - name: "--immune_cell_classification"
+        type: file
+        direction: output
+        description: "Immune Cell Classification. Cell type classification based on the expression of immune cell markers."
+        example: Immune_Cell_Classification.csv
+        required: false
+        info:
+          template: "[sample_name]_(assay)_cell_type_experimental.csv"
+  - name: Multiplex outputs
+    description: Outputs when multiplex option is selected
+    arguments:
+      - name: "--sample_tag_metrics"
+        type: file
+        direction: output
+        description: "Sample Tag Metrics. Metrics from the sample determination algorithm."
+        example: Sample_Tag_Metrics.csv
+        required: false
+        info:
+          template: "[sample_name]_Sample_Tag_Metrics.csv"
+      - name: "--sample_tag_calls"
+        type: file
+        direction: output
+        description: "Sample Tag Calls. Assigned Sample Tag for each putative cell"
+        example: Sample_Tag_Calls.csv
+        required: false
+        info:
+          template: "[sample_name]_Sample_Tag_Calls.csv"
+      - name: "--sample_tag_counts"
+        type: file
+        direction: output
+        description: "Sample Tag Counts. Separate data tables and metric summary for cells assigned to each sample tag. Note: For putative cells that could not be assigned a specific Sample Tag, a Multiplet_and_Undetermined.zip file is also output."
+        example: Sample_Tag1.zip
+        required: false
+        multiple: true
+        info:
+          template: "[sample_name]_Sample_Tag[number].zip"
+      - name: "--sample_tag_counts_unassigned"
+        type: file
+        direction: output
+        description: "Sample Tag Counts Unassigned. Data table and metric summary for cells that could not be assigned a specific Sample Tag."
+        example: Multiplet_and_Undetermined.zip
+        required: false
+        info:
+          template: "[sample_name]_Multiplet_and_Undetermined.zip"
+  - name: VDJ Outputs
+    description: Outputs when VDJ option selected
+    arguments:
+      - name: "--vdj_metrics"
+        type: file
+        direction: output
+        description: "VDJ Metrics. Overall metrics from the VDJ analysis."
+        example: VDJ_Metrics.csv
+        required: false
+        info:
+          template: "[sample_name]_VDJ_Metrics.csv"
+      - name: "--vdj_per_cell"
+        type: file
+        direction: output
+        description: "VDJ Per Cell. Cell specific read and molecule counts, VDJ gene segments, CDR3 sequences, paired chains, and cell type."
+        example: VDJ_perCell.csv
+        required: false
+        info:
+          template: "[sample_name]_VDJ_perCell.csv"
+      - name: "--vdj_per_cell_uncorrected"
+        type: file
+        direction: output
+        description: "VDJ Per Cell Uncorrected. Cell specific read and molecule counts, VDJ gene segments, CDR3 sequences, paired chains, and cell type."
+        example: VDJ_perCell_uncorrected.csv
+        required: false
+        info:
+          template: "[sample_name]_VDJ_perCell_uncorrected.csv"
+      - name: "--vdj_dominant_contigs"
+        type: file
+        direction: output
+        description: "VDJ Dominant Contigs. Dominant contig for each cell label chain type combination (putative cells only)."
+        example: VDJ_Dominant_Contigs_AIRR.csv
+        required: false
+        info:
+          template: "[sample_name]_VDJ_Dominant_Contigs_AIRR.csv"
+      - name: "--vdj_unfiltered_contigs"
+        type: file
+        direction: output
+        description: "VDJ Unfiltered Contigs. All contigs that were assembled and annotated successfully (all cells)."
+        example: VDJ_Unfiltered_Contigs_AIRR.csv
+        required: false
+        info:
+          template: "[sample_name]_VDJ_Unfiltered_Contigs_AIRR.csv"
+  - name: "ATAC-Seq outputs"
+    description: Outputs when ATAC-Seq option selected
+    arguments:
+      - name: "--atac_metrics"
+        type: file
+        direction: output
+        description: "ATAC Metrics. Overall metrics from the ATAC-Seq analysis."
+        example: ATAC_Metrics.csv
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Metrics.csv"
+      - name: "--atac_metrics_json"
+        type: file
+        direction: output
+        description: "ATAC Metrics JSON. Overall metrics from the ATAC-Seq analysis in JSON format."
+        example: ATAC_Metrics.json
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Metrics.json"
+      - name: "--atac_fragments"
+        type: file
+        direction: output
+        description: "ATAC Fragments. Chromosomal location, cell index, and read support for each fragment detected"
+        example: ATAC_Fragments.bed.gz
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Fragments.bed.gz"
+      - name: "--atac_fragments_index"
+        type: file
+        direction: output
+        description: "Index of ATAC Fragments."
+        example: ATAC_Fragments.bed.gz.tbi
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Fragments.bed.gz.tbi"
+      - name: "--atac_transposase_sites"
+        type: file
+        direction: output
+        description: "ATAC Transposase Sites. Chromosomal location, cell index, and read support for each transposase site detected"
+        example: ATAC_Transposase_Sites.bed.gz
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Transposase_Sites.bed.gz"
+      - name: "--atac_transposase_sites_index"
+        type: file
+        direction: output
+        description: "Index of ATAC Transposase Sites."
+        example: ATAC_Transposase_Sites.bed.gz.tbi
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Transposase_Sites.bed.gz.tbi"
+      - name: "--atac_peaks"
+        type: file
+        direction: output
+        description: "ATAC Peaks. Peak regions of transposase activity"
+        example: ATAC_Peaks.bed.gz
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Peaks.bed.gz"
+      - name: "--atac_peaks_index"
+        type: file
+        direction: output
+        description: "Index of ATAC Peaks."
+        example: ATAC_Peaks.bed.gz.tbi
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Peaks.bed.gz.tbi"
+      - name: "--atac_peak_annotation"
+        type: file
+        direction: output
+        description: "ATAC Peak Annotation. Estimated annotation of peak-to-gene connections"
+        example: peak_annotation.tsv.gz
+        required: false
+        info:
+          template: "[sample_name]_peak_annotation.tsv.gz"
+      - name: "--atac_cell_by_peak"
+        type: file
+        direction: output
+        description: "ATAC Cell by Peak. Peak regions of transposase activity per cell"
+        example: ATAC_Cell_by_Peak_MEX.zip
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Cell_by_Peak_MEX.zip"
+      - name: "--atac_cell_by_peak_unfiltered"
+        type: file
+        direction: output
+        description: "ATAC Cell by Peak Unfiltered. Unfiltered file containing all cell labels with >=1 transposase sites in peaks."
+        example: ATAC_Cell_by_Peak_Unfiltered_MEX.zip
+        required: false
+        info:
+          template: "[sample_name]_ATAC_Cell_by_Peak_Unfiltered_MEX.zip"
+      - name: "--atac_bam"
+        type: file
+        direction: output
+        description: "ATAC BAM. Alignment file for R1 and R2 with associated I2 annotations for ATAC-Seq. Only output if the BAM generation flag is set to true."
+        example: ATAC.bam
+        required: false
+        info:
+          template: "[sample_name]_ATAC.bam"
+      - name: "--atac_bam_index"
+        type: file
+        direction: output
+        description: "Index of ATAC BAM."
+        example: ATAC.bam.bai
+        required: false
+        info:
+          template: "[sample_name]_ATAC.bam.bai"
+  - name: AbSeq Cell Calling outputs
+    description: Outputs when Cell Calling Abseq is selected
+    arguments:
+      - name: "--protein_aggregates_experimental"
+        type: file
+        direction: output
+        description: "Protein Aggregates Experimental"
+        example: Protein_Aggregates_Experimental.csv
+        required: false
+        info:
+          template: "[sample_name]_Protein_Aggregates_Experimental.csv"
+  - name: Putative Cell Calling Settings
+    arguments:
+      - name: "--cell_calling_data"
+        type: string
+        description: |
+          Specify the dataset to be used for putative cell calling: mRNA, AbSeq, ATAC, mRNA_and_ATAC
+          
+          For putative cell calling using an AbSeq dataset, please provide an AbSeq_Reference fasta file above.
+          
+          For putative cell calling using an ATAC dataset, please provide a WTA+ATAC-Seq Reference_Archive file above.
+          
+          The default data for putative cell calling, will be determined the following way:
+          
+          - If mRNA Reads and ATAC Reads exist: mRNA_and_ATAC
+          - If only ATAC Reads exist: ATAC
+          - Otherwise: mRNA
+        choices: [mRNA, AbSeq, ATAC, mRNA_and_ATAC]
+        example: mRNA
+        info:
+          config_key: Cell_Calling_Data
+      - name: "--cell_calling_bioproduct_algorithm"
+        type: string
+        description: |
+          Specify the bioproduct algorithm to be used for putative cell calling: Basic or Refined
+          
+          By default, the Basic algorithm will be used for putative cell calling.
+        choices: [Basic, Refined]
+        example: Basic
+        info:
+          config_key: Cell_Calling_Bioproduct_Algorithm
+      - name: "--cell_calling_atac_algorithm"
+        type: string
+        description: |
+          Specify the ATAC-seq algorithm to be used for putative cell calling: Basic or Refined
+          
+          By default, the Basic algorithm will be used for putative cell calling.
+        choices: [Basic, Refined]
+        example: Basic
+        info:
+          config_key: Cell_Calling_ATAC_Algorithm
+      - name: "--exact_cell_count"
+        type: integer
+        description: |
+          Set a specific number (>=1) of cells as putative, based on those with the highest error-corrected read count
+        example: 10000
+        min: 1
+        info:
+          config_key: Exact_Cell_Count
+      - name: "--expected_cell_count"
+        type: integer
+        description: |
+          Guide the basic putative cell calling algorithm by providing an estimate of the number of cells expected.  Usually this can be the number of cells loaded into the Rhapsody cartridge.  If there are multiple inflection points on the second derivative cumulative curve, this will ensure the one selected is near the expected. 
+        example: 20000
+        min: 1
+        info:
+          config_key: Expected_Cell_Count
+  - name: Intronic Reads Settings
+    arguments:
+      - name: --exclude_intronic_reads
+        type: boolean
+        description: |
+          By default, the flag is false, and reads aligned to exons and introns are considered and represented in molecule counts. When the flag is set to true, intronic reads will be excluded.
+          The value can be true or false.
+        example: false
+        info:
+          config_key: Exclude_Intronic_Reads
+  - name: Multiplex Settings
+    arguments:
+      - name: "--sample_tags_version"
+        type: string
+        description: |
+          Specify the version of the Sample Tags used in the run:
+
+          * If Sample Tag Multiplexing was done, specify the appropriate version: human, mouse, flex, nuclei_includes_mrna, nuclei_atac_only
+          * If this is an SMK + Nuclei mRNA run or an SMK + Multiomic ATAC-Seq (WTA+ATAC-Seq) run (and not an SMK + ATAC-Seq only run), choose the "nuclei_includes_mrna" option.
+          * If this is an SMK + ATAC-Seq only run (and not SMK + Multiomic ATAC-Seq (WTA+ATAC-Seq)), choose the "nuclei_atac_only" option.
+        choices: [human, mouse, flex, nuclei_includes_mrna, nuclei_atac_only]
+        example: human
+        info:
+          config_key: Sample_Tags_Version
+      - name: "--tag_names"
+        type: string
+        description: |
+          Specify the tag number followed by '-' and the desired sample name to appear in Sample_Tag_Metrics.csv
+          Do not use the special characters: &, (), [], {},  <>, ?, |
+        multiple: true
+        example: [4-mySample, 9-myOtherSample, 6-alsoThisSample]
+        info:
+          config_key: Tag_Names
+  - name: VDJ arguments
+    arguments:
+      - name: "--vdj_version"
+        type: string
+        description: |
+          If VDJ was done, specify the appropriate option: human, mouse, humanBCR, humanTCR, mouseBCR, mouseTCR
+        choices: [human, mouse, humanBCR, humanTCR, mouseBCR, mouseTCR]
+        example: human
+        info:
+          config_key: VDJ_Version
+  - name: ATAC options
+    arguments:
+      - name: "--predefined_atac_peaks"
+        type: file
+        description: An optional BED file containing pre-established chromatin accessibility peak regions for generating the ATAC cell-by-peak matrix.
+        example: predefined_peaks.bed
+        info:
+          config_key: Predefined_ATAC_Peaks
+  - name: Additional options
+    arguments:
+      - name: "--run_name"
+        type: string
+        description: |
+          Specify a run name to use as the output file base name. Use only letters, numbers, or hyphens. Do not use special characters or spaces.
+        default: sample
+        info:
+          config_key: Run_Name
+      - name: "--generate_bam"
+        type: boolean
+        description: |
+          Specify whether to create the BAM file output
+        default: false
+        info:
+          config_key: Generate_Bam
+      - name: "--long_reads"
+        type: boolean
+        description: |
+          Use STARlong (default: undefined - i.e. autodetects based on read lengths) - Specify if the STARlong aligner should be used instead of STAR. Set to true if the reads are longer than 650bp.
+        info:
+          config_key: Long_Reads
+  - name: Advanced options
+    description: |
+      NOTE: Only change these if you are really sure about what you are doing
+    arguments:
+      - name: "--custom_star_params"
+        type: string
+        description: |
+          Modify STAR alignment parameters - Set this parameter to fully override default STAR mapping parameters used in the pipeline.
+          For reference this is the default that is used:
+
+            Short Reads: `--outFilterScoreMinOverLread 0 --outFilterMatchNminOverLread 0 --outFilterMultimapScoreRange 0 --clip3pAdapterSeq AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA --seedSearchStartLmax 50 --outFilterMatchNmin 25 --limitOutSJcollapsed 2000000`
+            Long Reads: Same as Short Reads + `--seedPerReadNmax 10000`
+
+          This applies to fastqs provided in the Reads user input 
+          Do NOT set any non-mapping related params like `--genomeDir`, `--outSAMtype`, `--outSAMunmapped`, `--readFilesIn`, `--runThreadN`, etc.
+          We use STAR version 2.7.10b
+        example: "--alignIntronMax 6000 --outFilterScoreMinOverLread 0.1 --limitOutSJcollapsed 2000000"
+        info:
+          config_key: Custom_STAR_Params
+      - name: "--custom_bwa_mem2_params"
+        type: string
+        description: |
+          Modify bwa-mem2 alignment parameters - Set this parameter to fully override bwa-mem2 mapping parameters used in the pipeline
+          The pipeline does not specify any custom mapping params to bwa-mem2 so program default values are used
+          This applies to fastqs provided in the Reads_ATAC user input 
+          Do NOT set any non-mapping related params like `-C`, `-t`, etc.
+          We use bwa-mem2 version 2.2.1
+        example: "-k 16 -w 200 -r"
+        info:
+          config_key: Custom_bwa_mem2_Params
+  - name: CWL-runner arguments
+    arguments:
+      - name: "--parallel"
+        type: boolean
+        description: "Run jobs in parallel."
+        default: true
+      - name: "--timestamps"
+        type: boolean_true
+        description: "Add timestamps to the errors, warnings, and notifications."
+  - name: Undocumented arguments
+    arguments:
+      - name: --abseq_umi
+        type: integer
+        multiple: false
+        info:
+          config_key: AbSeq_UMI
+      - name: --target_analysis
+        type: boolean
+        multiple: false
+        info:
+          config_key: Target_analysis
+      - name: --vdj_jgene_evalue
+        type: double
+        description: |
+          e-value threshold for J gene. The e-value threshold for J gene call by IgBlast/PyIR, default is set as 0.001
+        multiple: false
+        info:
+          config_key: VDJ_JGene_Evalue
+      - name: --vdj_vgene_evalue
+        type: double
+        description: |
+          e-value threshold for V gene. The e-value threshold for V gene call by IgBlast/PyIR, default is set as 0.001
+        multiple: false
+        info:
+          config_key: VDJ_VGene_Evalue
+      - name: --write_filtered_reads
+        type: boolean
+        multiple: false
+        info:
+          config_key: Write_Filtered_Reads
+resources:
+  - type: python_script
+    path: script.py
+test_resources:
+  - type: python_script
+    path: test.py
+  - path: ../test_data
+  - path: ../helpers
+
+requirements:
+  commands: [ "cwl-runner" ]
+
+engines:
+  - type: docker
+    image: bdgenomics/rhapsody:2.2.1
+    setup:
+      - type: apt
+        packages: [procps, git]
+      - type: python
+        packages: [cwlref-runner, cwl-runner]
+      - type: docker
+        run: |
+          mkdir /var/bd_rhapsody_cwl && \
+            cd /var/bd_rhapsody_cwl && \
+            git clone https://bitbucket.org/CRSwDev/cwl.git . && \
+            git checkout 8feeace1141b24749ea6003f8e6ad6d3ad5232de
+      - type: docker
+        run:
+          - VERSION=$(ls -v /var/bd_rhapsody_cwl | grep '^v' | sed 's#v##' | tail -1)
+          - 'echo "bdgenomics/rhapsody: \"$VERSION\"" > /var/software_versions.txt'
+    test_setup:
+      - type: python
+        packages: [biopython, gffutils]
+runners:
+  - type: executable
+  - type: nextflow
diff --git a/src/bd_rhapsody/bd_rhapsody_sequence_analysis/help.txt b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/help.txt
new file mode 100644
index 00000000..618faa3e
--- /dev/null
+++ b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/help.txt
@@ -0,0 +1,167 @@
+```bash
+cwl-runner src/bd_rhapsody/bd_rhapsody_sequence_analysis/rhapsody_pipeline_2.2.1_nodocker.cwl --help
+```
+
+usage: src/bd_rhapsody/bd_rhapsody_sequence_analysis/rhapsody_pipeline_2.2.1_nodocker.cwl
+       [-h] [--AbSeq_Reference ABSEQ_REFERENCE] [--AbSeq_UMI ABSEQ_UMI]
+       [--Cell_Calling_ATAC_Algorithm CELL_CALLING_ATAC_ALGORITHM]
+       [--Cell_Calling_Bioproduct_Algorithm CELL_CALLING_BIOPRODUCT_ALGORITHM]
+       [--Cell_Calling_Data CELL_CALLING_DATA]
+       [--Custom_STAR_Params CUSTOM_STAR_PARAMS]
+       [--Custom_bwa_mem2_Params CUSTOM_BWA_MEM2_PARAMS]
+       [--Exact_Cell_Count EXACT_CELL_COUNT] [--Exclude_Intronic_Reads]
+       [--Expected_Cell_Count EXPECTED_CELL_COUNT] [--Generate_Bam]
+       [--Long_Reads] [--Maximum_Threads MAXIMUM_THREADS]
+       [--Predefined_ATAC_Peaks PREDEFINED_ATAC_PEAKS] [--Reads READS]
+       [--Reads_ATAC READS_ATAC] [--Reference_Archive REFERENCE_ARCHIVE]
+       [--Run_Name RUN_NAME] [--Sample_Tags_Version SAMPLE_TAGS_VERSION]
+       [--Supplemental_Reference SUPPLEMENTAL_REFERENCE]
+       [--Tag_Names TAG_NAMES] [--Target_analysis]
+       [--Targeted_Reference TARGETED_REFERENCE]
+       [--VDJ_JGene_Evalue VDJ_JGENE_EVALUE]
+       [--VDJ_VGene_Evalue VDJ_VGENE_EVALUE] [--VDJ_Version VDJ_VERSION]
+       [--Write_Filtered_Reads]
+       [job_order]
+
+The BD Rhapsody™ assays are used to create sequencing libraries from single
+cell transcriptomes. After sequencing, the analysis pipeline takes the FASTQ
+files and a reference file for gene alignment. The pipeline generates
+molecular counts per cell, read counts per cell, metrics, and an alignment
+file.
+
+positional arguments:
+  job_order             Job input json file
+
+options:
+  -h, --help            show this help message and exit
+  --AbSeq_Reference ABSEQ_REFERENCE
+                        AbSeq Reference
+  --AbSeq_UMI ABSEQ_UMI
+  --Cell_Calling_ATAC_Algorithm CELL_CALLING_ATAC_ALGORITHM
+                        Specify the ATAC algorithm to be used for ATAC
+                        putative cell calling. The Basic algorithm is the
+                        default.
+  --Cell_Calling_Bioproduct_Algorithm CELL_CALLING_BIOPRODUCT_ALGORITHM
+                        Specify the bioproduct algorithm to be used for
+                        mRNA/AbSeq putative cell calling. The Basic algorithm
+                        is the default.
+  --Cell_Calling_Data CELL_CALLING_DATA
+                        Specify the data to be used for putative cell calling.
+                        The default data for putative cell calling will be
+                        determined the following way: - If mRNA and ATAC Reads
+                        exist, mRNA_and_ATAC is the default. - If only ATAC
+                        Reads exist, ATAC is the default. - Otherwise, mRNA is
+                        the default.
+  --Custom_STAR_Params CUSTOM_STAR_PARAMS
+                        Allows you to specify custom STAR aligner mapping
+                        parameters. Only the mapping parameters you provide
+                        here will be used with STAR, meaning that you must
+                        provide the complete list of parameters that you want
+                        to take effect. For reference, the parameters used by
+                        default in the pipeline are: 1. Short Reads:
+                        --outFilterScoreMinOverLread 0
+                        --outFilterMatchNminOverLread 0
+                        --outFilterMultimapScoreRange 0 --clip3pAdapterSeq
+                        AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
+                        --seedSearchStartLmax 50 --outFilterMatchNmin 25
+                        --limitOutSJcollapsed 2000000 2. Long Reads: Same
+                        options as short reads + --seedPerReadNmax 10000
+                        Example input: --alignIntronMax 500000
+                        --outFilterScoreMinOverLread 0 --limitOutSJcollapsed
+                        2000000 Important: 1. This applies to fastqs provided
+                        in the Reads user input 2. Please do not specify any
+                        non-mapping related params like: --runThreadN,
+                        --genomeDir --outSAMtype, etc. 3. Please only use
+                        params supported by STAR version 2.7.10b
+  --Custom_bwa_mem2_Params CUSTOM_BWA_MEM2_PARAMS
+                        Allows you to specify custom bwa-mem2 mapping
+                        parameters. Only the mapping parameters you provide
+                        here will be used with bwa-mem2, meaning that you must
+                        provide the complete list of parameters that you want
+                        to take effect. The pipeline uses program default
+                        mapping parameters. Example input: -k 15 -w 200 -r 2
+                        Important: 1. This applies to fastqs provided in the
+                        Reads_ATAC user input 2. Please do not specify any
+                        non-mapping related params like: -C, -t, etc. 3.
+                        Please only use params supported by bwa-mem2 version
+                        2.2.1
+  --Exact_Cell_Count EXACT_CELL_COUNT
+                        Set a specific number (>=1) of cells as putative,
+                        based on those with the highest error-corrected read
+                        count
+  --Exclude_Intronic_Reads
+                        By default, reads aligned to exons and introns are
+                        considered and represented in molecule counts.
+                        Including intronic reads may increase sensitivity,
+                        resulting in an increase in molecule counts and the
+                        number of genes per cell for both cellular and nuclei
+                        samples. Intronic reads may indicate unspliced mRNAs
+                        and are also useful, for example, in the study of
+                        nuclei and RNA velocity. When set to true, intronic
+                        reads will be excluded.
+  --Expected_Cell_Count EXPECTED_CELL_COUNT
+                        Optional. Guide the basic putative cell calling
+                        algorithm by providing an estimate of the number of
+                        cells expected. Usually this can be the number of
+                        cells loaded into the Rhapsody cartridge. If there are
+                        multiple inflection points on the second derivative
+                        cumulative curve, this will ensure the one selected is
+                        near the expected.
+  --Generate_Bam        Default: false. A Bam read alignment file contains
+                        reads from all the input libraries, but creating it
+                        can consume a lot of compute and disk resources. By
+                        setting this field to true, the Bam file will be
+                        created. This option is shared for both Bioproduct and
+                        ATAC libraries.
+  --Long_Reads          By default, we detect if there are any reads longer
+                        than 650bp and then flag QualCLAlign to use STARlong
+                        instead of STAR. This flag can be explicitly set if it
+                        is known in advance that there are reads longer than
+                        650bp.
+  --Maximum_Threads MAXIMUM_THREADS
+                        The maximum number of threads to use in the pipeline.
+                        By default, all available cores are used.
+  --Predefined_ATAC_Peaks PREDEFINED_ATAC_PEAKS
+                        An optional BED file containing pre-established
+                        chromatin accessibility peak regions for generating
+                        the ATAC cell-by-peak matrix. Only applies to ATAC
+                        assays.
+  --Reads READS         FASTQ files from libraries that may include WTA mRNA,
+                        Targeted mRNA, AbSeq, Sample Multiplexing, and related
+                        technologies
+  --Reads_ATAC READS_ATAC
+                        FASTQ files from libraries generated using the ATAC
+                        assay protocol. Each lane of a library is expected to
+                        have 3 FASTQs - R1, R2 and I1/I2, where the index read
+                        contains the Cell Barcode and UMI sequence. Only
+                        applies to ATAC assays.
+  --Reference_Archive REFERENCE_ARCHIVE
+                        Reference Files Archive
+  --Run_Name RUN_NAME   This is a name for output files, for example
+                        Experiment1_Metrics_Summary.csv. Default if left empty
+                        is to name run based on a library. Any non-alpha
+                        numeric characters will be changed to a hyphen.
+  --Sample_Tags_Version SAMPLE_TAGS_VERSION
+                        The sample multiplexing kit version. This option
+                        should only be set for a multiplexed experiment.
+  --Supplemental_Reference SUPPLEMENTAL_REFERENCE
+                        Supplemental Reference
+  --Tag_Names TAG_NAMES
+                        Specify the Sample Tag number followed by - (hyphen)
+                        and a sample name to appear in the output files. For
+                        example: 4-Ramos. Should be alpha numeric, with + -
+                        and _ allowed. Any special characters: &, (), [], {},
+                        <>, ?, | will be corrected to underscores.
+  --Target_analysis
+  --Targeted_Reference TARGETED_REFERENCE
+                        Targeted Reference
+  --VDJ_JGene_Evalue VDJ_JGENE_EVALUE
+                        The e-value threshold for J gene call by IgBlast/PyIR,
+                        default is set as 0.001
+  --VDJ_VGene_Evalue VDJ_VGENE_EVALUE
+                        The e-value threshold for V gene call by IgBlast/PyIR,
+                        default is set as 0.001
+  --VDJ_Version VDJ_VERSION
+                        The VDJ species and chain types. This option should
+                        only be set for VDJ experiment.
+  --Write_Filtered_Reads
diff --git a/src/bd_rhapsody/bd_rhapsody_sequence_analysis/pipeline_inputs_template_2.2.1.yaml b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/pipeline_inputs_template_2.2.1.yaml
new file mode 100644
index 00000000..19728a57
--- /dev/null
+++ b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/pipeline_inputs_template_2.2.1.yaml
@@ -0,0 +1,203 @@
+#!/usr/bin/env cwl-runner
+
+cwl:tool: rhapsody
+
+# This is a template YML file used to specify the inputs for a BD Rhapsody Sequence Analysis pipeline run.
+# See the BD Rhapsody Sequence Analysis Pipeline User Guide for more details. Enter the following information:
+
+
+## Reads (optional) - Path to your FASTQ.GZ formatted read files from libraries that may include:
+#   - WTA mRNA
+#   - Targeted mRNA
+#   - AbSeq
+#   - Sample Multiplexing
+#   - VDJ
+# You may specify as many R1/R2 read pairs as you want.
+Reads:
+
+ - class: File
+   location: "test/WTALibrary_S1_L001_R1_001.fastq.gz"
+
+ - class: File
+   location: "test/WTALibrary_S1_L001_R2_001.fastq.gz"
+
+## Reads_ATAC (optional) - Path to your FASTQ.GZ formatted read files from ATAC-Seq libraries.
+## You may specify as many R1/R2/I2 files as you want.
+Reads_ATAC:
+
+ - class: File
+   location: "test/ATACLibrary_S2_L001_R1_001.fastq.gz"
+
+ - class: File
+   location: "test/ATACLibrary_S2_L001_R2_001.fastq.gz"
+
+ - class: File
+   location: "test/ATACLibrary_S2_L001_I2_001.fastq.gz"
+
+
+## Assay type will be inferred from the provided reference(s)
+## Do not provide both Reference_Archive and Targeted_Reference at the same time
+##
+## Valid reference input combinations:
+##   WTA Reference_Archive                                              (WTA only)
+##   WTA Reference_Archive + AbSeq_Reference                            (WTA + AbSeq)
+##   WTA Reference_Archive + Supplemental_Reference                     (WTA + extra transgenes)
+##   WTA Reference_Archive + AbSeq_Reference + Supplemental_Reference   (WTA + AbSeq + extra transgenes)
+##   WTA+ATAC-Seq Reference_Archive                                     (WTA + ATAC, ATAC only)
+##   WTA+ATAC-Seq Reference_Archive + Supplemental_Reference            (WTA + ATAC + extra transgenes)
+##   Targeted_Reference                                                 (Targeted only)
+##   Targeted_Reference + AbSeq_Reference                               (Targeted + AbSeq)
+##   AbSeq_Reference                                                    (AbSeq only)
+
+## See the BD Rhapsody Sequence Analysis Pipeline User Guide for instructions on how to:
+##    - Obtain a pre-built Rhapsody Reference file
+##    - Create a custom Rhapsody Reference file
+
+## WTA Reference_Archive (required for WTA mRNA assay) - Path to Rhapsody WTA Reference in the tar.gz format.
+##
+##   --Structure of reference archive--
+##   BD_Rhapsody_Reference_Files/ # top level folder
+##       star_index/ # sub-folder containing STAR index
+##           [files created with STAR --runMode genomeGenerate]
+##       [GTF for gene-transcript-annotation e.g. "gencode.v43.primary_assembly.annotation.gtf"]
+##
+## WTA+ATAC-Seq Reference_Archive (required for ATAC-Seq or Multiomic ATAC-Seq (WTA+ATAC-Seq) assays) - Path to Rhapsody WTA+ATAC-Seq Reference in the tar.gz format.
+##
+##   --Structure of reference archive--
+##   BD_Rhapsody_Reference_Files/ # top level folder
+##       star_index/ # sub-folder containing STAR index
+##           [files created with STAR --runMode genomeGenerate]
+##       [GTF for gene-transcript-annotation e.g. "gencode.v43.primary_assembly.annotation.gtf"]
+##
+##       mitochondrial_contigs.txt # mitochondrial contigs in the reference genome - one contig name per line. e.g. chrMT or chrM, etc.
+##
+##       bwa-mem2_index/ # sub-folder containing bwa-mem2 index
+##          [files created with bwa-mem2 index]
+##
+Reference_Archive:
+  class: File
+  location: "test/RhapRef_Human_WTA_2023-02.tar.gz"
+# location: "test/RhapRef_Human_WTA-ATAC_2023-08.tar.gz"
+
+## Targeted_Reference (required for Targeted mRNA assay) - Path to the targeted reference file in FASTA format.
+#Targeted_Reference:
+# - class: File
+#   location: "test/BD_Rhapsody_Immune_Response_Panel_Hs.fasta"
+
+## AbSeq_Reference (optional) - Path to the AbSeq reference file in FASTA format.  Only needed if BD AbSeq Ab-Oligos are used.
+## For putative cell calling using an AbSeq dataset, please provide an AbSeq reference fasta file as the AbSeq_Reference.
+#AbSeq_Reference:
+# - class: File
+#   location: "test/AbSeq_reference.fasta"
+
+## Supplemental_Reference (optional) - Path to the supplemental reference file in FASTA format.  Only needed if there are additional transgene sequences to be aligned against in a WTA assay experiment
+#Supplemental_Reference:
+# - class: File
+#   location: "test/supplemental_reference.fasta"
+
+####################################
+## Putative Cell Calling Settings ##
+####################################
+
+## Putative cell calling dataset (optional) - Specify the dataset to be used for putative cell calling: mRNA, AbSeq, ATAC, mRNA_and_ATAC
+## For putative cell calling using an AbSeq dataset, please provide an AbSeq_Reference fasta file above.
+## For putative cell calling using an ATAC dataset, please provide a WTA+ATAC-Seq Reference_Archive file above.
+## The default data for putative cell calling, will be determined the following way:
+## If mRNA Reads and ATAC Reads exist:
+##    Cell_Calling_Data: mRNA_and_ATAC
+## If only ATAC Reads exist:
+##    Cell_Calling_Data: ATAC
+## Otherwise:
+##    Cell_Calling_Data: mRNA
+#Cell_Calling_Data: mRNA
+
+## Putative cell calling bioproduct algorithm (optional) - Specify the bioproduct algorithm to be used for putative cell calling: Basic or Refined
+## By default, the Basic algorithm will be used for putative cell calling.
+#Cell_Calling_Bioproduct_Algorithm: Basic
+
+## Putative cell calling ATAC algorithm (optional) - Specify the ATAC-seq algorithm to be used for putative cell calling: Basic or Refined
+## By default, the Basic algorithm will be used for putative cell calling.
+#Cell_Calling_ATAC_Algorithm: Basic
+
+## Exact cell count (optional) - Set a specific number (>=1) of cells as putative, based on those with the highest error-corrected read count
+#Exact_Cell_Count: 10000
+
+## Expected Cell Count (optional) - Guide the basic putative cell calling algorithm by providing an estimate of the number of cells expected.  Usually this can be the number of cells loaded into the Rhapsody cartridge.  If there are multiple inflection points on the second derivative cumulative curve, this will ensure the one selected is near the expected. 
+#Expected_Cell_Count: 20000
+
+
+####################################
+## Intronic Reads Settings ##
+####################################
+
+## Exclude_Intronic_Reads (optional)
+## By default, the flag is false, and reads aligned to exons and introns are considered and represented in molecule counts. When the flag is set to true, intronic reads will be excluded.
+## The value can be true or false.
+#Exclude_Intronic_Reads: true
+
+#######################
+## Multiplex options ##
+#######################
+
+## Sample Tags Version (optional) - If Sample Tag Multiplexing was done, specify the appropriate version: human, mouse, flex, nuclei_includes_mrna, nuclei_atac_only
+## If this is an SMK + Nuclei mRNA run or an SMK + Multiomic ATAC-Seq (WTA+ATAC-Seq) run (and not an SMK + ATAC-Seq only run), choose the "nuclei_includes_mrna" option.
+## If this is an SMK + ATAC-Seq only run (and not SMK + Multiomic ATAC-Seq (WTA+ATAC-Seq)), choose the "nuclei_atac_only" option.
+#Sample_Tags_Version: human
+
+## Tag_Names (optional) - Specify the tag number followed by '-' and the desired sample name to appear in Sample_Tag_Metrics.csv
+# Do not use the special characters: &, (), [], {},  <>, ?, |
+#Tag_Names: [4-mySample, 9-myOtherSample, 6-alsoThisSample]
+
+################
+## VDJ option ##
+################
+
+## VDJ Version (optional) - If VDJ was done, specify the appropriate option: human, mouse, humanBCR, humanTCR, mouseBCR, mouseTCR
+#VDJ_Version: human
+
+##################
+## ATAC options ##
+##################
+
+## Predefined ATAC Peaks - An optional BED file containing pre-established chromatin accessibility peak regions for generating the ATAC cell-by-peak matrix.
+#Predefined_ATAC_Peaks:
+#  class: File
+#  location: "path/predefined_peaks.bed"
+
+########################
+## Additional Options ##
+########################
+
+## Run Name (optional)-  Specify a run name to use as the output file base name. Use only letters, numbers, or hyphens. Do not use special characters or spaces.
+#Run_Name: my-experiment
+
+## Generate Bam (optional, default: false) - Specify whether to create the BAM file output
+#Generate_Bam: true
+
+## Maximum_Threads (integer, optional, default: [use all cores of CPU]) - Set the maximum number of threads to use in the read processing steps of the pipeline:  QualCLAlign, AlignmentAnalysis, VDJ assembly
+#Maximum_Threads: 16
+
+## Use STARlong (optional, default: "auto" - i.e. autodetects based on read lengths) - Specify if the STARlong aligner should be used instead of STAR. Set to true if the reads are longer than 650bp.
+## The value can be true or false.
+#Long_Reads: true
+
+########################
+## Advanced Options   ##
+########################
+## NOTE: Only change these if you are really sure about what you are doing
+
+## Modify STAR alignment parameters - Set this parameter to fully override default STAR mapping parameters used in the pipeline.
+## For reference this is the default that is used:
+##   Short Reads: --outFilterScoreMinOverLread 0 --outFilterMatchNminOverLread 0 --outFilterMultimapScoreRange 0 --clip3pAdapterSeq AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA --seedSearchStartLmax 50 --outFilterMatchNmin 25 --limitOutSJcollapsed 2000000
+##   Long Reads: Same as Short Reads + --seedPerReadNmax 10000
+## This applies to fastqs provided in the Reads user input 
+## Do NOT set any non-mapping related params like --genomeDir, --outSAMtype, --outSAMunmapped, --readFilesIn, --runThreadN, etc.
+## We use STAR version 2.7.10b
+#Custom_STAR_Params: --alignIntronMax 6000 --outFilterScoreMinOverLread 0.1 --limitOutSJcollapsed 2000000
+
+## Modify bwa-mem2 alignment parameters - Set this parameter to fully override bwa-mem2 mapping parameters used in the pipeline
+## The pipeline does not specify any custom mapping params to bwa-mem2 so program default values are used
+## This applies to fastqs provided in the Reads_ATAC user input 
+## Do NOT set any non-mapping related params like -C, -t, etc.
+## We use bwa-mem2 version 2.2.1
+#Custom_bwa_mem2_Params: -k 16 -w 200 -r
diff --git a/src/bd_rhapsody/bd_rhapsody_sequence_analysis/script.py b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/script.py
new file mode 100644
index 00000000..cbddf6bf
--- /dev/null
+++ b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/script.py
@@ -0,0 +1,243 @@
+import os
+import re
+import subprocess
+import tempfile
+from typing import Any
+import yaml
+import shutil
+import glob
+
+## VIASH START
+par = {
+    'reads': [
+        'resources_test/bdrhap_5kjrt/raw/12ABC_S1_L432_R1_001_subset.fastq.gz', 
+        'resources_test/bdrhap_5kjrt/raw/12ABC_S1_L432_R2_001_subset.fastq.gz'
+    ],
+    'reads_atac': None,
+    'reference_archive': "resources_test/reference_gencodev41_chr1/reference_bd_rhapsody.tar.gz",
+    'targeted_reference': [],
+    'abseq_reference': [],
+    'supplemental_reference': [],
+    'output': 'output_dir',
+    'cell_calling_data': None,
+    'cell_calling_bioproduct_algorithm': None,
+    'cell_calling_atac_algorithm': None,
+    'exact_cell_count': None,
+    'expected_cell_count': None,
+    'exclude_intronic_reads': None,
+    'sample_tags_version': None,
+    'tag_names': [],
+    'vdj_version': None,
+    'predefined_atac_peaks': None,
+    'run_name': "sample",
+    'generate_bam': None,
+    'alignment_star_params': None,
+    'alignment_bwa_mem2_params': None,
+    'parallel': True,
+    'timestamps': False,
+    'dryrun': False
+}
+meta = {
+    'config': "target/nextflow/bd_rhaspody/bd_rhaspody_sequence_analysis/.config.vsh.yaml",
+    'resources_dir': os.path.abspath('src/bd_rhaspody/bd_rhaspody_sequence_analysis'),
+    'temp_dir': os.getenv("VIASH_TEMP"),
+    'memory_mb': None,
+    'cpus': None
+}
+## VIASH END
+
+def clean_arg(argument):
+    argument["clean_name"] = argument["name"].lstrip("-")
+    return argument
+
+def read_config(path: str) -> dict[str, Any]:
+    with open(path, 'r') as f:
+        config = yaml.safe_load(f)
+    
+    config["arguments"] = [
+        clean_arg(arg)
+        for grp in config["argument_groups"]
+        for arg in grp["arguments"]
+    ]
+    
+    return config
+
+def strip_margin(text: str) -> str:
+    return re.sub('(\n?)[ \t]*\|', '\\1', text)
+
+def process_params(par: dict[str, Any], config, temp_dir: str) -> str:
+    # check input parameters
+    assert par["reads"] or par["reads_atac"], "Pass at least one set of inputs to --reads or --reads_atac."
+
+    # output to temp dir if output_dir was not passed
+    if not par["output_dir"]:
+        par["output_dir"] = os.path.join(temp_dir, "output")
+
+    # checking sample prefix
+    if par["run_name"] and re.match("[^A-Za-z0-9]", par["run_name"]):
+        print("--run_name should only consist of letters, numbers or hyphens. Replacing all '[^A-Za-z0-9]' with '-'.", flush=True)
+        par["run_name"] = re.sub("[^A-Za-z0-9\\-]", "-", par["run_name"])
+
+    # make paths absolute
+    for argument in config["arguments"]:
+        arg_clean_name = argument["clean_name"]
+        if not par[arg_clean_name] or not argument["type"] == "file":
+            continue
+        par_value = par[arg_clean_name]
+        if isinstance(par_value, list):
+            par_value_absolute = list(map(os.path.abspath, par_value))
+        else:
+            par_value_absolute = os.path.abspath(par_value)
+        par[arg_clean_name] = par_value_absolute
+    
+    return par
+
+def generate_config(par: dict[str, Any], config) -> str:
+    content_list = [strip_margin(f"""\
+        |#!/usr/bin/env cwl-runner
+        |
+        |cwl:tool: rhapsody
+        |""")]
+
+    for argument in config["arguments"]:
+        arg_clean_name = argument["clean_name"]
+        arg_par_value = par[arg_clean_name]
+        arg_info = argument.get("info") or {} # Note: .info might be None
+        config_key = arg_info.get("config_key")
+        if arg_par_value and config_key:
+
+            if argument["type"] == "file":
+                content = strip_margin(f"""\
+                    |{config_key}:
+                    |""")
+                if isinstance(arg_par_value, list):
+                    for file in arg_par_value:
+                        content += strip_margin(f"""\
+                            | - class: File
+                            |   location: "{file}"
+                            |""")
+                else:
+                    content += strip_margin(f"""\
+                        |   class: File
+                        |   location: "{arg_par_value}"
+                        |""")
+                content_list.append(content)
+            else:
+                content_list.append(strip_margin(f"""\
+                    |{config_key}: {arg_par_value}
+                    |"""))
+
+    ## Write config to file
+    return ''.join(content_list)
+
+def generate_config_file(par: dict[str, Any], config: dict[str, Any], temp_dir: str) -> str:
+    config_file = os.path.join(temp_dir, "config.yml")
+    config_content = generate_config(par, config)
+    with open(config_file, "w") as f:
+        f.write(config_content)
+    return config_file
+
+def generate_cwl_file(meta: dict[str, Any], dir: str) -> str:
+    # create cwl file (if need be)
+    # orig_cwl_file=os.path.join(meta["resources_dir"], "rhapsody_pipeline_2.2.1_nodocker.cwl")
+    orig_cwl_file="/var/bd_rhapsody_cwl/v2.2.1/rhapsody_pipeline_2.2.1.cwl"
+
+    if not meta["memory_mb"] and not meta["cpus"]:
+        return os.path.abspath(orig_cwl_file)
+     
+    # Inject computational requirements into pipeline
+    cwl_file = os.path.join(dir, "pipeline.cwl")
+
+    # Read in the file
+    with open(orig_cwl_file, 'r') as file :
+        cwl_data = file.read()
+
+    # Inject computational requirements into pipeline
+    if meta["memory_mb"]:
+        memory = int(meta["memory_mb"]) - 2000 # keep 2gb for OS
+        cwl_data = re.sub('"ramMin": [^\n]*[^,](,?)\n', f'"ramMin": {memory}\\1\n', cwl_data)
+    if meta["cpus"]:
+        cwl_data = re.sub('"coresMin": [^\n]*[^,](,?)\n', f'"coresMin": {meta["cpus"]}\\1\n', cwl_data)
+
+    # Write the file out again
+    with open(cwl_file, 'w') as file:
+        file.write(cwl_data)
+        
+    return os.path.abspath(cwl_file)
+
+def copy_outputs(par: dict[str, Any], config: dict[str, Any]):
+    for arg in config["arguments"]:
+        par_value = par[arg["clean_name"]]
+        if par_value and arg["type"] == "file" and arg["direction"] == "output":
+            # example template: '[sample_name]_(assay)_cell_type_experimental.csv'
+            template = (arg.get("info") or {}).get("template") # Note: .info might be None
+            if template:
+                template_glob = template\
+                    .replace("[sample_name]", par["run_name"])\
+                    .replace("(assay)", "*")\
+                    .replace("[number]", "*")
+                files = glob.glob(os.path.join(par["output_dir"], template_glob))
+                if not files and arg["required"]:
+                    raise ValueError(f"Expected output file '{template_glob}' not found.")
+                elif len(files) > 1 and not arg["multiple"]:
+                    raise ValueError(f"Expected single output file '{template_glob}', but found multiple.")
+                
+                if not arg["multiple"]:
+                    shutil.copy(files[0], par_value)
+                else:
+                    # replace '*' in par_value with index
+                    for i, file in enumerate(files):
+                        shutil.copy(file, par_value.replace("*", str(i)))
+
+
+def main(par: dict[str, Any], meta: dict[str, Any], temp_dir: str):
+    config = read_config(meta["config"])
+    
+    # Preprocess params
+    par = process_params(par, config, temp_dir)
+
+    ## Process parameters
+    cmd = [
+        "cwl-runner",
+        "--no-container",
+        "--preserve-entire-environment",
+        "--outdir", par["output_dir"],
+    ]
+
+    if par["parallel"]:
+        cmd.append("--parallel")
+
+    if par["timestamps"]:
+        cmd.append("--timestamps")
+
+    # Create cwl file (if need be)
+    cwl_file = generate_cwl_file(meta, temp_dir)
+    cmd.append(cwl_file)
+
+    # Create params file
+    config_file = generate_config_file(par, config, temp_dir)
+    cmd.append(config_file)
+    
+    # keep environment variables but set TMPDIR to temp_dir
+    env = dict(os.environ)
+    env["TMPDIR"] = temp_dir
+
+    # Create output dir if not exists
+    if not os.path.exists(par["output_dir"]):
+        os.makedirs(par["output_dir"])
+
+    # Run command
+    print("> " + ' '.join(cmd), flush=True)
+    _ = subprocess.run(
+        cmd,
+        cwd=os.path.dirname(config_file),
+        env=env,
+        check=True
+    )
+
+    # Copy outputs
+    copy_outputs(par, config)
+
+if __name__ == "__main__":
+    with tempfile.TemporaryDirectory(prefix="cwl-bd_rhapsody-", dir=meta["temp_dir"]) as temp_dir:
+        main(par, meta, temp_dir)
diff --git a/src/bd_rhapsody/bd_rhapsody_sequence_analysis/test.py b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/test.py
new file mode 100644
index 00000000..aed8e80b
--- /dev/null
+++ b/src/bd_rhapsody/bd_rhapsody_sequence_analysis/test.py
@@ -0,0 +1,494 @@
+import subprocess
+import gzip
+from pathlib import Path
+from typing import Tuple
+import numpy as np
+import random
+import mudata as md
+
+## VIASH START
+meta = {
+  "name": "bd_rhapsody_sequence_analysis",
+  "executable": "target/docker/bd_rhapsody/bd_rhapsody_sequence_analysis/bd_rhapsody_sequence_analysis",
+  "resources_dir": "src/bd_rhapsody",
+  "cpus": 8,
+  "memory_mb": 4096,
+}
+## VIASH END
+
+import sys
+sys.path.append(meta["resources_dir"])
+
+from helpers.rhapsody_cell_label import index_to_sequence
+
+meta["executable"] = Path(meta["executable"])
+meta["resources_dir"] = Path(meta["resources_dir"])
+
+#########################################################################################
+
+# Generate index
+print("> Generate index", flush=True)
+# cwl_file = meta["resources_dir"] / "bd_rhapsody_make_reference.cwl"
+cwl_file = "/var/bd_rhapsody_cwl/v2.2.1/Extra_Utilities/make_rhap_reference_2.2.1.cwl"
+reference_small_gtf = meta["resources_dir"] / "test_data" / "reference_small.gtf"
+reference_small_fa = meta["resources_dir"] / "test_data" / "reference_small.fa"
+bdabseq_panel_fa = meta["resources_dir"] / "test_data" / "BDAbSeq_ImmuneDiscoveryPanel.fasta"
+sampletagsequences_fa = meta["resources_dir"] / "test_data" / "SampleTagSequences_HomoSapiens_ver1.fasta"
+
+config_file = Path("reference_config.yml")
+reference_file = Path("Rhap_reference.tar.gz")
+
+subprocess.run([
+    "cwl-runner", 
+    "--no-container",
+    "--preserve-entire-environment",
+    "--outdir",
+    ".",
+    str(cwl_file),
+    "--Genome_fasta",
+    str(reference_small_fa),
+    "--Gtf", 
+    str(reference_small_gtf),
+    "--Extra_STAR_params",
+    "--genomeSAindexNbases 4"
+])
+
+#########################################################################################
+# Load reference in memory
+
+from Bio import SeqIO
+import gffutils
+
+# Load FASTA sequence
+with open(str(reference_small_fa), "r") as handle:
+  reference_fasta_dict = SeqIO.to_dict(SeqIO.parse(handle, "fasta"))
+with open(str(bdabseq_panel_fa), "r") as handle:
+  bdabseq_panel_fasta_dict = SeqIO.to_dict(SeqIO.parse(handle, "fasta"))
+with open(str(sampletagsequences_fa), "r") as handle:
+  sampletagsequences_fasta_dict = SeqIO.to_dict(SeqIO.parse(handle, "fasta"))
+
+# create in memory db
+reference_gtf_db = gffutils.create_db(
+  str(reference_small_gtf),
+  dbfn=":memory:",
+  force=True,
+  keep_order=True,
+  merge_strategy="merge",
+  sort_attribute_values=True,
+  disable_infer_transcripts=True,
+  disable_infer_genes=True
+)
+
+#############################################
+# TODO: move helper functions to separate helper file
+
+
+def generate_bd_read_metadata(
+  instrument_id: str = "A00226",
+  run_id: str = "970",
+  flowcell_id: str = "H5FGVMXY",
+  lane: int = 1,
+  tile: int = 1101,
+  x: int = 1000,
+  y: int = 1000,
+  illumina_flag: str = "1:N:0",
+  sample_id: str = "CAGAGAGG",
+) -> str:
+  """
+  Generate a FASTQ metadata line for a BD Rhapsody FASTQ file.
+
+  Args:
+    instrument_id: The instrument ID.
+    run_id: The run ID.
+    flowcell_id: The flowcell ID.
+    lane: The lane number.
+    tile: The tile number. Between 1101 and 1112 in the used example data.
+    x: The x-coordinate. Between 1000 and 32967 in the used example data.
+    y: The y-coordinate. Between 1000 and 37059 in the used example data.
+    illumina_flag: The Illumina flag. Either 1:N:0 or 2:N:0 in the used example data.
+    sample_id: The sample ID.
+  """
+  # format: @A00226:970:H5FGVDMXY:1:1101:2645:1000 2:N:0:CAGAGAGG
+  return f"@{instrument_id}:{run_id}:{flowcell_id}:{lane}:{tile}:{x}:{y} {illumina_flag}:{sample_id}"
+
+
+def generate_bd_wta_transcript(
+  transcript_length: int = 42,
+) -> str:
+  """
+  Generate a WTA transcript from a given GTF and FASTA file.
+  """
+
+  # Randomly select a gene
+  gene = random.choice(list(reference_gtf_db.features_of_type("gene")))
+
+  # Find all exons within the gene
+  exons = list(reference_gtf_db.children(gene, featuretype="exon", order_by="start"))
+
+  # Calculate total exon length
+  total_exon_length = sum(exon.end - exon.start + 1 for exon in exons)
+
+  # If total exon length is less than desired transcript length, use it as is
+  max_transcript_length = min(total_exon_length, transcript_length)
+
+  # Build the WTA transcript sequence
+  sequence = ""
+  for exon in exons:
+    exon_seq = str(reference_fasta_dict[exon.seqid].seq[exon.start - 1 : exon.end])  
+    sequence += exon_seq
+
+    # Break if desired length is reached
+    if len(sequence) >= max_transcript_length:
+      sequence = sequence[:max_transcript_length]
+      break
+  
+  # add padding if need be
+  if len(sequence) < max_transcript_length:
+    sequence += "N" * (max_transcript_length - len(sequence))
+
+  return sequence
+
+
+def generate_bd_wta_read(
+  cell_index: int = 0,
+  bead_version: str = "EnhV2",
+  umi_length: int = 14,
+  transcript_length: int = 42,
+) -> Tuple[str, str]:
+  """
+  Generate a BD Rhapsody WTA read pair for a given cell index.
+
+  Args:
+    cell_index: The cell index to generate reads for.
+    bead_version: The bead version to use for generating the cell label.
+    umi_length: The length of the UMI to generate.
+    transcript_length: The length of the transcript to generate
+
+  Returns:
+    A tuple of two strings, the first string being the R1 read and the second string being the R2 read.
+
+  More info:
+    
+    See structure of reads:
+    - https://bd-rhapsody-bioinfo-docs.genomics.bd.com/steps/top_steps.html
+    - https://bd-rhapsody-bioinfo-docs.genomics.bd.com/steps/steps_cell_label.html
+    - https://scomix.bd.com/hc/en-us/articles/360057714812-All-FAQ
+    R1 is Cell Label + UMI + PolyT -> 60 bp
+      actually, CLS1 + "GTGA" + CLS2 + "GACA" + CLS3 + UMI
+    R2 is the actual read -> 42 bp
+
+    Example R1
+    CLS1       Link CLS2      Link CLS3       UMI
+    AAAATCCTGT GTGA AACCAAAGT GACA GATAGAGGAG CGCATGTTTATAAC
+  """
+  
+  # generate metadata
+  per_row = np.floor((32967 - 1000) / 9)
+  per_col = np.floor((37059 - 1000) / 9)
+  
+  assert cell_index >= 0 and cell_index < per_row * per_col, f"cell_index must be between 0 and {per_row} * {per_col}"
+  x = 1000 + (cell_index % per_row) * 9
+  y = 1000 + (cell_index // per_row) * 9
+  instrument_id = "A00226"
+  run_id = "970"
+  flowcell_id = "H5FGVMXY"
+  meta_r1 = generate_bd_read_metadata(instrument_id=instrument_id, run_id=run_id, flowcell_id=flowcell_id, x=x, y=y, illumina_flag="1:N:0")
+  meta_r2 = generate_bd_read_metadata(instrument_id=instrument_id, run_id=run_id, flowcell_id=flowcell_id, x=x, y=y, illumina_flag="2:N:0")
+
+  # generate r1 (cls1 + link + cls2 + link + cls3 + umi)
+  assert cell_index >= 0 and cell_index < 384 * 384 * 384
+  cell_label = index_to_sequence(cell_index + 1, bead_version=bead_version)
+  # sample random umi
+  umi = "".join(random.choices("ACGT", k=umi_length))
+  quality_r1 = "I" * (len(cell_label) + len(umi))
+  r1 = f"{meta_r1}\n{cell_label}{umi}\n+\n{quality_r1}\n"
+
+  # generate r2 by extracting sequence from fasta and gtf
+  wta_transcript = generate_bd_wta_transcript(transcript_length=transcript_length)
+  quality_r2 = "I" * transcript_length
+  r2 = f"{meta_r2}\n{wta_transcript}\n+\n{quality_r2}\n"
+
+  return r1, r2
+
+def generate_bd_wta_fastq_files(
+  num_cells: int = 100,
+  num_reads_per_cell: int = 1000,
+) -> Tuple[str, str]:
+  """
+  Generate BD Rhapsody WTA FASTQ files for a given number of cells and transcripts per cell.
+
+  Args:
+    num_cells: The number of cells to generate
+    num_reads_per_cell: The number of reads to generate per cell
+
+  Returns:
+    A tuple of two strings, the first string being the R1 reads and the second string being the R2 reads.
+  """
+  r1_reads = ""
+  r2_reads = ""
+  for cell_index in range(num_cells):
+    for _ in range(num_reads_per_cell):
+      r1, r2 = generate_bd_wta_read(cell_index)
+      r1_reads += r1
+      r2_reads += r2
+
+  return r1_reads, r2_reads
+
+def generate_bd_abc_read(
+  cell_index: int = 0,
+  bead_version: str = "EnhV2",
+  umi_length: int = 14,
+  transcript_length: int = 72,
+) -> Tuple[str, str]:
+  """
+  Generate a BD Rhapsody ABC read pair for a given cell index.
+
+  Args:
+    cell_index: The cell index to generate reads for.
+    bead_version: The bead version to use for generating the cell label.
+    umi_length: The length of the UMI to generate.
+    transcript_length: The length of the transcript to generate
+
+  Returns:
+    A tuple of two strings, the first string being the R1 read and the second string being the R2 read.
+  """
+  # generate metadata
+  per_row = np.floor((32967 - 1000) / 9)
+  per_col = np.floor((37059 - 1000) / 9)
+  
+  assert cell_index >= 0 and cell_index < per_row * per_col, f"cell_index must be between 0 and {per_row} * {per_col}"
+  x = 1000 + (cell_index % per_row) * 9
+  y = 1000 + (cell_index // per_row) * 9
+  instrument_id = "A01604"
+  run_id = "19"
+  flowcell_id = "HMKLYDRXY"
+  meta_r1 = generate_bd_read_metadata(instrument_id=instrument_id, run_id=run_id, flowcell_id=flowcell_id, x=x, y=y, illumina_flag="1:N:0")
+  meta_r2 = generate_bd_read_metadata(instrument_id=instrument_id, run_id=run_id, flowcell_id=flowcell_id, x=x, y=y, illumina_flag="2:N:0")
+
+  # generate r1 (cls1 + link + cls2 + link + cls3 + umi)
+  assert cell_index >= 0 and cell_index < 384 * 384 * 384
+  cell_label = index_to_sequence(cell_index + 1, bead_version=bead_version)
+  # sample random umi
+  umi = "".join(random.choices("ACGT", k=umi_length))
+  quality_r1 = "I" * (len(cell_label) + len(umi))
+  r1 = f"{meta_r1}\n{cell_label}{umi}\n+\n{quality_r1}\n"
+
+  # generate r2 by sampling sequence from bdabseq_panel_fa
+  abseq_seq = str(random.choice(list(bdabseq_panel_fasta_dict.values())).seq)
+  abc_suffix = "AAAAAAAAAAAAAAAAAAAAAAA"
+  abc_data = abseq_seq[:transcript_length - len(abc_suffix) - 1]
+  abc_prefix = "N" + "".join(random.choices("ACGT", k=transcript_length - len(abc_data) - len(abc_suffix) - 1))
+
+  abc_transcript = f"{abc_prefix}{abc_data}{abc_suffix}"
+
+  quality_r2 = "#" + "I" * (len(abc_transcript) - 1)
+  r2 = f"{meta_r2}\n{abc_transcript}\n+\n{quality_r2}\n"
+
+  return r1, r2
+
+def generate_bd_abc_fastq_files(
+  num_cells: int = 100,
+  num_reads_per_cell: int = 1000,
+) -> Tuple[str, str]:
+  """
+  Generate BD Rhapsody ABC FASTQ files for a given number of cells and transcripts per cell.
+
+  Args:
+    num_cells: The number of cells to generate
+    num_reads_per_cell: The number of reads to generate per cell
+
+  Returns:
+    A tuple of two strings, the first string being the R1 reads and the second string being the R2 reads.
+  """
+  r1_reads = ""
+  r2_reads = ""
+  for cell_index in range(num_cells):
+    for _ in range(num_reads_per_cell):
+      r1, r2 = generate_bd_abc_read(cell_index)
+      r1_reads += r1
+      r2_reads += r2
+
+  return r1_reads, r2_reads
+
+def generate_bd_smk_read(
+  cell_index: int = 0,
+  bead_version: str = "EnhV2",
+  umi_length: int = 14,
+  transcript_length: int = 72,
+  num_sample_tags: int = 3,
+):
+  """
+  Generate a BD Rhapsody SMK read pair for a given cell index.
+
+  Args:
+    cell_index: The cell index to generate reads for.
+    bead_version: The bead version to use for generating the cell label.
+    umi_length: The length of the UMI to generate.
+    transcript_length: The length of the transcript to generate
+    num_sample_tags: The number of sample tags to use
+
+  Returns:
+    A tuple of two strings, the first string being the R1 read and the second string being the R2 read.
+  """
+  # generate metadata
+  per_row = np.floor((32967 - 1000) / 9)
+  per_col = np.floor((37059 - 1000) / 9)
+  
+  assert cell_index >= 0 and cell_index < per_row * per_col, f"cell_index must be between 0 and {per_row} * {per_col}"
+  x = 1000 + (cell_index % per_row) * 9
+  y = 1000 + (cell_index // per_row) * 9
+  instrument_id = "A00226"
+  run_id = "970"
+  flowcell_id = "H5FGVDMXY"
+  
+  meta_r1 = generate_bd_read_metadata(instrument_id=instrument_id, run_id=run_id, flowcell_id=flowcell_id, x=x, y=y, illumina_flag="1:N:0")
+  meta_r2 = generate_bd_read_metadata(instrument_id=instrument_id, run_id=run_id, flowcell_id=flowcell_id, x=x, y=y, illumina_flag="2:N:0")
+
+  # generate r1 (cls1 + link + cls2 + link + cls3 + umi)
+  assert cell_index >= 0 and cell_index < 384 * 384 * 384
+  cell_label = index_to_sequence(cell_index + 1, bead_version=bead_version)
+  # sample random umi
+  umi = "".join(random.choices("ACGT", k=umi_length))
+  quality_r1 = "I" * (len(cell_label) + len(umi))
+  r1 = f"{meta_r1}\n{cell_label}{umi}\n+\n{quality_r1}\n"
+
+  # generate r2 by selecting the cell_index %% num_sample_tags sample tags
+  sampletag_index = cell_index % num_sample_tags
+  sampletag_seq = str(list(sampletagsequences_fasta_dict.values())[sampletag_index].seq)
+  smk_data = sampletag_seq[:transcript_length]
+  smk_suffix = "A" * (transcript_length - len(smk_data))
+  quality_r2 = "I" * len(smk_data) + "#" * len(smk_suffix)
+  r2 = f"{meta_r2}\n{smk_data}{smk_suffix}\n+\n{quality_r2}\n"
+
+  return r1, r2
+
+def generate_bd_smk_fastq_files(
+  num_cells: int = 100,
+  num_reads_per_cell: int = 1000,
+  num_sample_tags: int = 3,
+) -> Tuple[str, str]:
+  """
+  Generate BD Rhapsody SMK FASTQ files for a given number of cells and transcripts per cell.
+
+  Args:
+    num_cells: The number of cells to generate
+    num_reads_per_cell: The number of reads to generate per cell
+    num_sample_tags: The number of sample tags to use
+
+  Returns:
+    A tuple of two strings, the first string being the R1 reads and the second string being the R2 reads.
+  """
+  r1_reads = ""
+  r2_reads = ""
+  for cell_index in range(num_cells):
+    for _ in range(num_reads_per_cell):
+      r1, r2 = generate_bd_smk_read(cell_index, num_sample_tags=num_sample_tags)
+      r1_reads += r1
+      r2_reads += r2
+
+  return r1_reads, r2_reads
+
+#########################################################################################
+
+# Prepare WTA, ABC, and SMK test data
+print("> Prepare WTA test data", flush=True)
+wta_reads_r1_str, wta_reads_r2_str = generate_bd_wta_fastq_files(num_cells=100, num_reads_per_cell=1000)
+with gzip.open("WTAreads_R1.fq.gz", "wt") as f:
+  f.write(wta_reads_r1_str)
+with gzip.open("WTAreads_R2.fq.gz", "wt") as f:
+  f.write(wta_reads_r2_str)
+
+print("> Prepare ABC test data", flush=True)
+abc_reads_r1_str, abc_reads_r2_str = generate_bd_abc_fastq_files(num_cells=100, num_reads_per_cell=1000)
+with gzip.open("ABCreads_R1.fq.gz", "wt") as f:
+  f.write(abc_reads_r1_str)
+with gzip.open("ABCreads_R2.fq.gz", "wt") as f:
+  f.write(abc_reads_r2_str)
+
+print("> Prepare SMK test data", flush=True)
+smk_reads_r1_str, smk_reads_r2_str = generate_bd_smk_fastq_files(num_cells=100, num_reads_per_cell=1000, num_sample_tags=3)
+with gzip.open("SMKreads_R1.fq.gz", "wt") as f:
+  f.write(smk_reads_r1_str)
+with gzip.open("SMKreads_R2.fq.gz", "wt") as f:
+  f.write(smk_reads_r2_str)
+
+#########################################################################################
+
+# Run executable
+print(f">> Run {meta['name']}", flush=True)
+output_dir = Path("output")
+subprocess.run([
+  meta['executable'],
+  "--reads=WTAreads_R1.fq.gz;WTAreads_R2.fq.gz",
+  f"--reference_archive={reference_file}",
+  "--reads=ABCreads_R1.fq.gz;ABCreads_R2.fq.gz",
+  f"--abseq_reference={bdabseq_panel_fa}",
+  "--reads=SMKreads_R1.fq.gz;SMKreads_R2.fq.gz",
+  "--tag_names=1-Sample1;2-Sample2;3-Sample3",
+  "--sample_tags_version=human",
+  "--output_dir=output",
+  "--exact_cell_count=100",
+  f"---cpus={meta['cpus'] or 1}",
+  f"---memory={meta['memory_mb'] or 2048}mb",
+  # "--output_seurat=seurat.rds",
+  "--output_mudata=mudata.h5mu",
+  "--metrics_summary=metrics_summary.csv",
+  "--pipeline_report=pipeline_report.html",
+])
+
+
+# Check if output exists
+print(">> Check if output exists", flush=True)
+assert (output_dir / "sample_Bioproduct_Stats.csv").exists()
+assert (output_dir / "sample_Metrics_Summary.csv").exists()
+assert (output_dir / "sample_Pipeline_Report.html").exists()
+assert (output_dir / "sample_RSEC_MolsPerCell_MEX.zip").exists()
+assert (output_dir / "sample_RSEC_MolsPerCell_Unfiltered_MEX.zip").exists()
+# seurat object is not generated when abc data is added
+# assert (output_dir / "sample_Seurat.rds").exists()
+assert (output_dir / "sample.h5mu").exists()
+
+# check individual outputs
+# assert Path("seurat.rds").exists()
+assert Path("mudata.h5mu").exists()
+assert Path("metrics_summary.csv").exists()
+assert Path("pipeline_report.html").exists()
+
+print(">> Check contents of output", flush=True)
+data = md.read_h5mu("mudata.h5mu")
+
+assert data.n_obs == 100, "Number of cells is incorrect"
+assert "rna" in data.mod, "RNA data is missing"
+assert "prot" in data.mod, "Protein data is missing"
+
+# check rna data
+data_rna = data.mod["rna"]
+assert data_rna.n_vars == 1, "Number of genes is incorrect"
+assert data_rna.X.sum(axis=1).min() > 950, "Number of reads per cell is incorrect"
+# assert data_rna.var.Raw_Reads.sum() == 100000, "Number of reads is incorrect"
+assert data_rna.var.Raw_Reads.sum() >= 99990 and data_rna.var.Raw_Reads.sum() <= 100010, \
+  f"Expected 100000 RNA reads, got {data_rna.var.Raw_Reads.sum()}"
+
+# check prot data
+data_prot = data.mod["prot"]
+assert data_prot.n_vars == len(bdabseq_panel_fasta_dict), "Number of proteins is incorrect"
+assert data_prot.X.sum(axis=1).min() > 950, "Number of reads per cell is incorrect"
+assert data_prot.var.Raw_Reads.sum() >= 99990 and data_prot.var.Raw_Reads.sum() <= 100010, \
+  f"Expected 100000 Prot reads, got {data_prot.var.Raw_Reads.sum()}"
+
+
+# check smk data
+expected_sample_tags = (["SampleTag01_hs", "SampleTag02_hs", "SampleTag03_hs"] * 34)[:100]
+expected_sample_names = (["Sample1", "Sample2", "Sample3"] * 34)[:100]
+sample_tags = data_rna.obs["Sample_Tag"]
+assert sample_tags.nunique() == 3, "Number of sample tags is incorrect"
+assert sample_tags.tolist() == expected_sample_tags, "Sample tags are incorrect"
+sample_names = data_rna.obs["Sample_Name"]
+assert sample_names.nunique() == 3, "Number of sample names is incorrect"
+assert sample_names.tolist() == expected_sample_names, "Sample names are incorrect"
+
+# TODO: add VDJ, ATAC, and targeted RNA to test
+
+#########################################################################################
+
+print("> Test successful", flush=True)
diff --git a/src/bd_rhapsody/helpers/rhapsody_cell_label.py b/src/bd_rhapsody/helpers/rhapsody_cell_label.py
new file mode 100644
index 00000000..601ce7be
--- /dev/null
+++ b/src/bd_rhapsody/helpers/rhapsody_cell_label.py
@@ -0,0 +1,405 @@
+#!/usr/bin/env python
+
+# copied from https://bd-rhapsody-public.s3.amazonaws.com/CellLabel/rhapsody_cell_label.py.txt
+# documented at https://bd-rhapsody-bioinfo-docs.genomics.bd.com/steps/steps_cell_label.html
+
+"""
+Rhapsody cell label structure
+Information on the cell label is captured by the combination of bases in three cell label sections (CLS1, CLS2, CLS3).
+Two common linker sequences (L1, L2) separate the three CLS.
+
+--CLS1---|-L1-|--CLS2---|-L2-|--CL3---|--UMI---|-CaptureSequence-
+
+
+Each cell label section has a whitelist of 96 or 384 possible 9 base sequences.
+All the capture oligos from a single bead will have the same cell label.
+
+----------------
+
+V1 beads:
+
+[A96_cell_key1] + [v1_linker1] + [A96_cell_key2] + [v1_linker2] + [A96_cell_key3] + [8 random base UMI] + [18 base polyT capture]
+
+
+----------------
+
+Enhanced beads:
+Enhanced beads contain two different capture oligo types, polyT and 5prime.  On any one bead, the two different capture oligo types have the same cell label sequences.
+Compared to the V1 bead, enhanced beads have shorter linker sequences, longer polyT, and 0-3 diversity insert bases at the beginning of the sequence.
+The cell label sections use the same 3 sequence whitelists as V1 beads.
+
+polyT capture oligo:
+[Enh_insert 0-3 bases] + [A96_cell_key1] + [Enh_linker1] + [A96_cell_key2] + [Enh_linker2] + [A96_cell_key3] + [8 random base UMI] + [25 base polyT capture]
+
+5prime capture oligo:
+[Enh_5p_primer] + [A96_cell_key1] + [Enh_5p_linker1] + [A96_cell_key2] + [Enh_5p_linker2] + [A96_cell_key3] + [8 random base UMI] + [Tso_capture_seq]
+
+
+----------------
+
+Enhanced V2/V3 beads:
+Enhanced V2/V3 beads have the same structure as Enhanced beads, but the cell label sections have been updated with increased diversity
+
+
+polyT capture oligo:
+[Enh_insert 0-3 bases] + [B384_cell_key1] + [Enh_linker1] + [B384_cell_key2] + [Enh_linker2] + [B384_cell_key3] + [8 random base UMI] + [25 base polyT capture]
+
+5prime capture oligo:
+[Enh_5p_primer] + [B384_cell_key1] + [Enh_5p_linker1] + [B384_cell_key2] + [Enh_5p_linker2] + [B384_cell_key3] + [8 random base UMI] + [Tso_capture_seq]
+
+
+The only difference between Enh V2 and Enh V3 beads is a different Tso_capture_seq.
+
+----------------
+
+The Rhapsody Sequence Analysis Pipeline will convert each cell label into a single integer representing a unique cell label sequence - which is used in the output files as the 'Cell_index'.
+This cell index integer is deterministic and derived from the 3 part cell label as follows: 
+
+- Get the 1-based index for each cell label section from the python sets of sequences below
+- Apply this equation:
+    (CLS1index - 1) * 384 * 384 + (CLS2index - 1) * 384 + CLS3index
+
+(See label_sections_to_index() function below)
+
+
+Example: Enhanced bead sequence:
+ACACATTGCAGTGAAGATAGTTCGACACTCAAGACA
+
+Each part identified:
+A                CACATTGCA          GTGA      AGATAGTTC          GACA      CTCAAGACA
+DiversityInsert  A96_cell_key1-33   Linker1   A96_cell_key2-78   Linker2   A96_cell_key3-21
+
+33-78-21
+(33 - 1) * 384 * 384 + (78 - 1) * 384 + 21
+=4748181
+
+
+The original sequences of cell label can be determined from the cell index integer by reversing this conversion.
+See index_to_label_sections() and index_to_sequence() functions below.
+
+"""
+
+v1_linker1 = 'ACTGGCCTGCGA'
+v1_linker2 = 'GGTAGCGGTGACA'
+
+Enh_linker1 = 'GTGA'
+Enh_linker2 = 'GACA'
+
+Enh_5p_primer = "ACAGGAAACTCATGGTGCGT"
+
+Enh_5p_linker1 = "AATG"
+Enh_5p_linker2 = "CCAC"
+
+Enh_inserts = ["", "A", "GT", "TCA"]
+
+Tso_capture_seq_Enh_EnhV2 = "TATGCGTAGTAGGTATG"
+Tso_capture_seq_EnhV3 = "GTGGAGTCGTGATTATA"
+
+A96_cell_key1 = ("GTCGCTATA","CTTGTACTA","CTTCACATA","ACACGCCGG","CGGTCCAGG","AATCGAATG","CCTAGTATA","ATTGGCTAA","AAGACATGC","AAGGCGATC",
+                 "GTGTCCTTA","GGATTAGGA","ATGGATCCA","ACATAAGCG","AACTGTATT","ACCTTGCGG","CAGGTGTAG","AGGAGATTA","GCGATTACA","ACCGGATAG",
+                 "CCACTTGGA","AGAGAAGTT","TAAGTTCGA","ACGGATATT","TGGCTCAGA","GAATCTGTA","ACCAAGGAC","AGTATCTGT","CACACACTA","ATTAAGTGC",
+                 "AAGTAACCC","AAATCCTGT","CACATTGCA","GCACTGTCA","ATACTTAGG","GCAATCCGA","ACGCAATCA","GAGTATTAG","GACGGATTA","CAGCTGACA",
+                 "CAACATATT","AACTTCTCC","CTATGAAAT","ATTATTACC","TACCGAGCA","TCTCTTCAA","TAAGCGTTA","GCCTTACAA","AGCACACAG","ACAGTTCCG",
+                 "AGTAAAGCC","CAGTTTCAC","CGTTACTAA","TTGTTCCAA","AGAAGCACT","CAGCAAGAT","CAAACCGCC","CTAACTCGC","AATATTGGG","AGAACTTCC",
+                 "CAAAGGCAC","AAGCTCAAC","TCCAGTCGA","AGCCATCAC","AACGAGAAG","CTACAGAAC","AGAGCTATG","GAGGATGGA","TGTACCTTA","ACACACAAA",
+                 "TCAGGAGGA","GAGGTGCTA","ACCCTGACC","ACAAGGATC","ATCCCGGAG","TATGTGGCA","GCTGCCAAT","ATCAGAGCT","TCGAAGTGA","ATAGACGAG",
+                 "AGCCCAATC","CAGAATCGT","ATCTCCACA","ACGAAAGGT","TAGCTTGTA","ACACGAGAT","AACCGCCTC","ATTTAGATG","CAAGCAAGC","CAAAGTGTG",
+                 "GGCAAGCAA","GAGCCAATA","ATGTAATGG","CCTGAGCAA","GAGTACATT","TGCGATCTA"
+                 )
+
+A96_cell_key2 = ("TACAGGATA","CACCAGGTA","TGTGAAGAA","GATTCATCA","CACCCAAAG","CACAAAGGC","GTGTGTCGA","CTAGGTCCT","ACAGTGGTA","TCGTTAGCA",
+                 "AGCGACACC","AAGCTACTT","TGTTCTCCA","ACGCGAAGC","CAGAAATCG","ACCAAAATG","AGTGTTGTC","TAGGGATAC","AGGGCTGGT","TCATCCTAA",
+                 "AATCCTGAA","ATCCTAGGA","ACGACCACC","TTCCATTGA","TAGTCTTGA","ACTGTTAGA","ATTCATCGT","ACTTCGAGC","TTGCGTACA","CAGTGCCCG",
+                 "GACACTTAA","AGGAGGCGC","GCCTGTTCA","GTACATCTA","AATCAGTTT","ACGATGAAT","TGACAGACA","ATTAGGCAT","GGAGTCTAA","TAGAACACA",
+                 "AAATAAATA","CCGACAAGA","CACCTACCC","AAGAGTAGA","TCATTGAGA","GACCTTAGA","CAAGACCTA","GGAATGATA","AAACGTACC","ACTATCCTC",
+                 "CCGTATCTA","ACACATGTC","TTGGTATGA","GTGCAGTAA","AGGATTCAA","AGAATGGAG","CTCTCTCAA","GCTAACTCA","ATCAACCGA","ATGAGTTAC",
+                 "ACTTGATGA","ACTTTAACT","TTGGAGGTA","GCCAATGTA","ATCCAACCG","GATGAACTG","CCATGCACA","TAGTGACTA","AAACTGCGC","ATTACCAAG",
+                 "CACTCGAGA","AACTCATTG","CTTGCTTCA","ACCTGAGTC","AGGTTCGCT","AAGGACTAT","CGTTCGGTA","AGATAGTTC","CAATTGATC","GCATGGCTA",
+                 "ACCAGGTGT","AGCTGCCGT","TATAGCCCT","AGAGGACCA","ACAATATGG","CAGCACTTC","CACTTATGT","AGTGAAAGG","AACCCTCGG","AGGCAGCTA",
+                 "AACCAAAGT","GAGTGCGAA","CGCTAAGCA","AATTATAAC","TACTAGTCA","CAACAACGG"
+                 )
+
+A96_cell_key3 = ("AAGCCTTCT","ATCATTCTG","CACAAGTAT","ACACCTTAG","GAACGACAA","AGTCTGTAC","AAATTACAG","GGCTACAGA","AATGTATCG","CAAGTAGAA",
+                 "GATCTCTTA","AACAACGCG","GGTGAGTTA","CAGGGAGGG","TCCGTCTTA","TGCATAGTA","ACTTACGAT","TGTATGCGA","GCTCCTTGA","GGCACAACA",
+                 "CTCAAGACA","ACGCTGTTG","ATATTGTAA","AAGTTTACG","CAGCCTGGC","CTATTAGCC","CAAACGTGG","AAAGTCATT","GTCTTGGCA","GATCAGCGA",
+                 "ACATTCGGC","AGTAATTAG","TGAAGCCAA","TCTACGACA","CATAACGTT","ATGGGACTC","GATAGAGGA","CTACATGCG","CAACGATCT","GTTAGCCTA",
+                 "AGTTGCATC","AAGGGAACT","ACTACATAT","CTAAGCTTC","ACGAACCAG","TACTTCGGA","AACATCCAT","AGCCTGGTT","CAAGTTTCC","CAGGCATTT",
+                 "ACGTGGGAG","TCTCACGGA","GCAACATTA","ATGGTCCGT","CTATCATGA","CAATACAAG","AAAGAGGCC","GTAGAAGCA","GCTATGGAA","ACTCCAGGG",
+                 "ACAAGTGCA","GATGGTCCA","TCCTCAATA","AATAAACAA","CTGTACGGA","CTAGATAGA","AGCTATGTG","AAATGGAGG","AGCCGCAAG","ACAGTAAAC",
+                 "AACGTGTGA","ACTGAATTC","AAGGGTCAG","TGTCTATCA","TCAGATTCA","CACGATCCG","AACAGAAAC","CATGAATGA","CGTACTACG","TTCAGCTCA",
+                 "AAGGCCGCA","GGTTGGACA","CGTCTAGGT","AATTCGGCG","CAACCTCCA","CAATAGGGT","ACAGGCTCC","ACAACTAGT","AGTTGTTCT","AATTACCGG",
+                 "ACAAACTTT","TCTCGGTTA","ACTAGACCG","ACTCATACG","ATCGAGTCT","CATAGGTCA"
+                 )
+
+B384_cell_key1 = ("TGTGTTCGC","TGTGGCGCC","TGTCTAGCG","TGGTTGTCC","TGGTTCCTC","TGGTGTGCT","TGGCGACCG","TGCTGTGGC","TGCTGGCAC","TGCTCTTCC",
+                  "TGCCTCACC","TGCCATTAT","TGATGTCTC","TGATGGCCT","TGATGCTTG","TGAAGGACC","TCTGTCTCC","TCTGATTAT","TCTGAGGTT","TCTCGTTCT",
+                  "TCTCATCCG","TCCTGGATT","TCAGCATTC","TCACGCCTT","TATGTGCAC","TATGCGGCC","TATGACGAG","TATCTCGTG","TATATGACC","TAGGCTGTG",
+                  "TACTGCGTT","TACGTGTCC","TAATCACAT","GTTGTGTTG","GTTGTGGCT","GTTGTCTGT","GTTGTCGAG","GTTGTCCTC","GTTGTATCC","GTTGGTTCT",
+                  "GTTGGCGTT","GTTGGAGCG","GTTGCTGCC","GTTGCGCAT","GTTGCAGGT","GTTGCACTG","GTTGATGAT","GTTGATACG","GTTGAAGTC","GTTCTGTGC",
+                  "GTTCTCTCG","GTTCTATAT","GTTCGTATG","GTTCGGCCT","GTTCGCGGC","GTTCGATTC","GTTCCGGTT","GTTCCGACG","GTTCACGCT","GTTATCACC",
+                  "GTTAGTCCG","GTTAGGTGT","GTTAGAGAC","GTTAGACTT","GTTACCTCT","GTTAATTCC","GTTAAGCGC","GTGTTGCTT","GTGTTCGGT","GTGTTCCAG",
+                  "GTGTTCATC","GTGTCACAC","GTGTCAAGT","GTGTACTGC","GTGGTTAGT","GTGGTACCG","GTGGCGATC","GTGCTTCTG","GTGCGTTCC","GTGCGGTAT",
+                  "GTGCGCCTT","GTGCGAACT","GTGCAGCCG","GTGCAATTG","GTGCAAGGC","GTCTTGCGC","GTCTGGCCG","GTCTGAGGC","GTCTCAGAT","GTCTCAACC",
+                  "GTCTATCGT","GTCGGTGTG","GTCGGAATC","GTCGCTCCG","GTCCTCGCC","GTCCTACCT","GTCCGCTTG","GTCCATTCT","GTCCAATAC","GTCATGTAT",
+
+                  "GTCAGTGGT","GTCAGATAG","GTATTAACT","GTATCAGTC","GTATAGCCT","GTATACTTG","GTATAAGGT","GTAGCATCG","GTACCGTCC","GTACACCTC",
+                  "GTAAGTGCC","GTAACAGAG","GGTTGTGTC","GGTTGGCTG","GGTTGACGC","GGTTCGTCG","GGTTCAGTT","GGTTATATT","GGTTAATAC","GGTGTACGT",
+                  "GGTGCCGCT","GGTGCATGC","GGTCGTTGC","GGTCGAGGT","GGTAGGCAC","GGTAGCTTG","GGTACATAG","GGTAATCTG","GGCTTGGCC","GGCTTCACG",
+                  "GGCTTATGT","GGCTTACTC","GGCTGTCTT","GGCTCTGTG","GGCTCCGGT","GGCTCACCT","GGCGTTGAG","GGCGTGTAC","GGCGTGCTG","GGCGTATCG",
+                  "GGCGCTCGT","GGCGCTACC","GGCGAGCCT","GGCGAGATC","GGCGACTTG","GGCCTCTTC","GGCCTACAG","GGCCAGCGC","GGCCAACTT","GGCATTCCT",
+                  "GGCATCCGC","GGCATAACC","GGCAACGAT","GGATGTCCG","GGATGAGAG","GGATCTGGC","GGATCCATG","GGATAGGTT","GGAGTCGTG","GGAGAAGGC",
+                  "GGACTCCTT","GGACTAGTC","GGACCGTTG","GGAATTAGT","GGAATCTCT","GGAATCGAC","GGAAGCCTC","GCTTGTAGC","GCTTGACCG","GCTTCGGAC",
+                  "GCTTCACAT","GCTTAGTCT","GCTGGATAT","GCTGGAACC","GCTGCGATG","GCTGATCAG","GCTGAGCGT","GCTCTTGTC","GCTCTCCTG","GCTCGGTCC",
+                  "GCTCCAATT","GCTATTCGC","GCTATGAGT","GCTAGTGTT","GCTAGGATC","GCTAGCACT","GCTACGTAT","GCTAACCTT","GCGTTCCGC","GCGTGTGCC",
+                  "GCGTGCATT","GCGTCGGTT","GCGTATGTG","GCGTATACT","GCGGTTCAC","GCGGTCTTG","GCGGCGTCG","GCGGCACCT","GCGCTGGAC","GCGCTCTCC",
+
+                  "GCGCGGCAG","GCGCGATAC","GCGCCGACC","GCGAGCGAG","GCGAGAGGT","GCGAATTAC","GCCTTGCAT","GCCTGCGCT","GCCTAACTG","GCCGTCCGT",
+                  "GCCGCTGTC","GCCATGCCG","GCCAGCTAT","GCCAACCAG","GCATGGTTG","GCATCGACG","GCAGGCTAG","GCAGGACGC","GCAGCCATC","GCAGATACC",
+                  "GCAGACGTT","GCACTATGT","GCACACGAG","GATTGTCAT","GATTGGTAG","GATTGCACC","GATTCTACT","GATTCGCTT","GATTAGGCC","GATTACGGT",
+                  "GATGTTGGC","GATGTTATG","GATGGCCAG","GATCGTTCG","GATCGGAGC","GATCGCCTC","GATCCTCTG","GATCCAGCG","GATACACGC","GAGTTACCT",
+                  "GAGTCGTAT","GAGTCGCCG","GAGGTGTAG","GAGGCATTG","GAGCGGACG","GAGCCTGAG","GAGATCTGT","GAGATAATT","GAGACGGCT","GACTTCGTG",
+                  "GACTGTTCT","GACTCTTAG","GACCGCATT","GAATTGAGC","GAATATTGC","GAAGGCTCT","GAAGAGACT","GAACTGCCG","GAACGCGTG","CTTGTGTAT",
+                  "CTTGTGCGC","CTTGTCATG","CTTGGTCTT","CTTGGTACC","CTTGGATGT","CTTGCTCAC","CTTGCAATC","CTTGAGGCC","CTTGACGGT","CTTCTGATC",
+                  "CTTCTCGTT","CTTCTAGGC","CTTCGTTAG","CTTATGTCC","CTTATGCTT","CTTATATAG","CTTAGGTTG","CTTAGGAGC","CTTACTTAT","CTGTTCTCG",
+                  "CTGTGCCTC","CTGTCGCAT","CTGTCGAGC","CTGTAGCTG","CTGTACGTT","CTGCTTGCC","CTGCGTAGT","CTGCACACC","CTGATGGAT","CTGAGTCAT",
+                  "CTGACGCCG","CTGAACGAG","CTCTTGTAG","CTCTTAGTT","CTCTTACCG","CTCTGCACC","CTCTCGTCC","CTCGTATTG","CTCGACTAT","CTCCTGACG",
+
+                  "CTCACTAGC","CTATACGGC","CGTTCGCTC","CGTTCACCG","CGTATAGTT","CGGTGTTCC","CGGTGTCAG","CGGTCCTGC","CGGCGACTC","CGGCACGGT",
+                  "CGGATAGCC","CGGAGAGAT","CGCTAATAG","CGCGTTGGC","CGCGCAGAG","CGCACTGCC","CCTTGTCTC","CCTTGGCGT","CCTTCTGAG","CCTTCTCCT",
+                  "CCTTCGACC","CCTTACTTG","CCTGTTCGT","CCTGTATGC","CCTCGGCCG","CCGTTAATT","CCATGTGCG","CCAGTGGTT","CCAGGCATT","CCAGGATCC",
+                  "CCAGCGTTG","CATTCCGAT","CATTATACC","CATGTTGAG","ATTGCGTGT","ATTGCGGAC","ATTGCGCCG","ATTGACTTG","ATTCGGCTG","ATTCGCGAG",
+                  "ATTCCAAGT","ATTATCTTC","ATTACTGTT","ATTACACTC","ATGTTCTAT","ATGTTACGC","ATGTGTATC","ATGTGGCAG","ATGTCTGTG","ATGGTGCAT",
+                  "ATGCTTACT","ATGCTGTCC","ATGCTCGGC","ATGAGGTTC","ATGAGAGTG","ATCTTGGCT","ATCTGTGCG","ATCGGTTCC","ATCATGCTC","ATCATCACT",
+                  "ATATCTTAT","ATAGGCGCC","AGTTGGTAT","AGTTGAGCC","AGTGCGACC","AGGTGCTAC","AGGCTTGCG","AGGCCTTCC","AGGCACCTT","AGGAATATG",
+                  "AGCGGCCAG","AGCCTGGTC","AGCCTGACT","AGCAATCCG","AGAGATGTT","AGAGAATTC","ACTCGCTTG","ACTCGACCT","ACGTACACC","ACGGATGGT",
+                  "ACCAGTCTG","ACATTCGGC","ACATGAGGT","ACACTAATT"
+                  )
+
+B384_cell_key2 = ("TTGTGTTGT","TTGTGGTAG","TTGTGCGGA","TTGTCTGTT","TTGTCTAAG","TTGTCATAT","TTGTCACGA","TTGTATGAA","TTGTACAGT","TTGGTTAAT",
+                  "TTGGTGCAA","TTGGTCGAG","TTGGTATTA","TTGGCACAG","TTGGATACA","TTGGAAGTG","TTGCGGTTA","TTGCCATTG","TTGCACGCG","TTGCAAGGT",
+                  "TTGATGTAT","TTGATAATT","TTGAGACGT","TTGACTACT","TTGACCGAA","TTCTGGTCT","TTCTGCACA","TTCTCCTTA","TTCTCCGCT","TTCTAGGTA",
+                  "TTCTAATCG","TTCGTCGTA","TTCGTAGAT","TTCGGCTTG","TTCGGAATA","TTCGCCAGA","TTCGATTGT","TTCGATCAG","TTCCTCGGT","TTCCGGCAG",
+                  "TTCCGCATT","TTCCAATTA","TTCATTGAA","TTCATGCTG","TTCAGGAGT","TTCACTATA","TTCAACTCT","TTCAACGTG","TTATGCGTT","TTATGATTG",
+                  "TTATCCTGT","TTATCCGAG","TTATATTAT","TTAGGCGCG","TTACTGGAA","TTACTAGTT","TTACGTGGT","TTACGATAT","TTACCTAGA","TTACATGAG",
+                  "TTACAGCGT","TTACACGGA","TTACACACT","TTAATCAGT","TTAATAGGA","TTAAGTGTG","TTAACCTTG","TTAACACAA","TGTTCACTT","TGTTCAAGA",
+                  "TGTTAAGTG","TGTGTTATG","TGTGTCCAA","TGTGGAGCG","TGTCAGTTA","TGTCAGAAG","TGGTTAGTT","TGGTTACAA","TGGCGTTAT","TGGCGCCAA",
+                  "TGGAGTCTT","TGCGTATTG","TGATAGAGA","TGAGGTATT","TGAGAATCT","TCTTGGTAA","TCTTCATAG","TCTGTCCTT","TCTGGAATT","TCTACCGCG",
+                  "TCGTTCGAA","TCGTCAGTG","TCGACGAGA","TCATGGCTT","TCACACTTA","TATTCCGAA","TATTATGGT","TATGCTATT","TATCAAGGA","TAGTTCAAT",
+
+                  "TAGCTGCTT","TAGAGGAAG","TACCTGTTA","TACACCTGT","GTTGTGCGT","GTTGGCTAT","GTTGCCAAG","GTTGACCTT","GTTCTGCTA","GTTCTGAAT",
+                  "GTTCTATCA","GTTCGCGTG","GTTCCTTAT","GTTAGCAGT","GTTACTGTG","GTTACTCAA","GTTAAGAGA","GTTAACTTA","GTGTCGGCA","GTGTCCATT",
+                  "GTGCTTGAG","GTGCTCGTT","GTGCTCACA","GTGCCTGGA","GTCTTGTCG","GTCTTGATT","GTCTTCCGT","GTCTTAAGA","GTCTCATCT","GTCTACGAG",
+                  "GTCGTTGCT","GTCGTGTTA","GTCGGTAAT","GTCGGATGT","GTCGAGCTG","GTCCGGACT","GTCCAACAT","GTCAGACGA","GTCAGAATT","GTCACTCTT",
+                  "GTCAAGGAA","GTATGTCTT","GTATGTACA","GTATCGGTT","GTATATGTA","GTATACAAT","GTAGTTAAG","GTAGTCGAT","GTAGCCTTA","GTAGATACT",
+                  "GTACGATTA","GTACAGTCT","GTAATTCGT","GCTTGGCAG","GCTTGCTTG","GCTTGAGGA","GCTTCATTA","GCTTATGCG","GCTGTGTAG","GCTGTCATG",
+                  "GCTGGTTGT","GCTGGACTG","GCTGCCTAA","GCTGATATT","GCTCTTAGT","GCTCTATTG","GCTCGCCGT","GCTCCGCTG","GCTATTCTG","GCTATACGA",
+                  "GCTACTAAG","GCTACATGT","GCTAACTCT","GCGTTGTAA","GCGTTCTCT","GCGTGCGTA","GCGTCTTGA","GCGTCCGAT","GCGTAAGAG","GCGCTTACG",
+                  "GCGCGGATT","GCGCCATAT","GCGCATGAA","GCGATCAAT","GCGAGCCTT","GCGAGATTG","GCGAGAACA","GCCTTGGTA","GCCTTCTAG","GCCTTCACA",
+                  "GCCTGAGTG","GCCTCACGT","GCCGGCGAA","GCCGCACAA","GCCATGCTT","GCCATATAT","GCCAATTCG","GCATTCGTT","GCATGATGT","GCAGTTGGA",
+
+                  "GCAGTGTCT","GCACTTGTG","GCAATCTGT","GCAACACTT","GATTGTATT","GATTGCGAG","GATTCCAGT","GATTCATAT","GATTATCAG","GATTAGGTT",
+                  "GATGTTGCG","GATGGATCT","GATGCTGAT","GATGCCTTG","GATCTCCTT","GATCGCTTA","GATATTGAA","GATATTACT","GAGTGTTAT","GAGCTCAGT",
+                  "GAGCGTGCT","GAGCGTCGA","GAGCGGTTG","GAGCGACTT","GAGCCGAAT","GAGATAGAT","GAGACCTAT","GACGGTCGT","GACGCAGGT","GACGATATG",
+                  "GACCTATCT","GAATTAGGA","GAATCAGCT","GAAGTTCAT","GAAGTGGTT","GAAGTATTG","GAAGGCATT","GAACGCTGT","CTTGTCCAG","CTTGGATTG",
+                  "CTTGCTGAA","CTTGCCGTG","CTTGATTCT","CTTCTGTCG","CTTCGGCGT","CTTATGAGT","CTTACCGAT","CTGTTAGGT","CTGTCGTCT","CTGTATAAT",
+                  "CTGGCTCAT","CTGGATGCG","CTGCGTGTG","CTGCGCGGT","CTGCCGATT","CTGCATTGT","CTGATTAAG","CTGAGATAT","CTGACCTGT","CTCGTATCT",
+                  "CTCGGCAAG","CTCGCAATT","CTCCTGCTT","CTCCTAAGT","CTCCGGATG","CTCCGAGCG","CTCACAGGT","CTATTCTAT","CTATTAGTG","CTATGAATT",
+                  "CTACATATT","CGTGGCATT","CGTCTTAAT","CGTCTGGTT","CGTCACTGT","CGTAGGTCT","CGGTTCGAG","CGGTTCATT","CGGTGCTCT","CGGTAATTG",
+                  "CGGCCTGAT","CGGATATAG","CGGAATATT","CGCTCCAAT","CGCGTTCGT","CGCAGGTTG","CGAGGATGT","CGAGCTGTT","CGACGGCTT","CCTTGTGTG",
+                  "CCTGTCTCA","CCTGACTAT","CCTACCTTG","CCGTAGATT","CCGGCTGGT","CATCGGACG","CATCGATAA","CATCCTTCT","CAGTTCTGT","CAGTGCCAG",
+
+                  "CAGGCACTG","CAGCCTCTT","CACTTATAT","CACTGGTCG","CACTGCATG","CACGCGTTG","CACGATGTT","CACCATCTG","CACAGGCGT","ATTGTACAA",
+                  "ATTGGTATG","ATTGCTAAT","ATTGCATAG","ATTGCAGTT","ATTCTGCAG","ATTCTACGT","ATTCGGATT","ATTCCGTTG","ATTCATCAA","ATTCAAGAG",
+                  "ATTAGCCTT","ATTAATATT","ATGTTAGAG","ATGTTAACT","ATGTAGTCG","ATGGTGTAG","ATGGATTAT","ATCTTGAAG","ATCTGATAT","ATCTCAGAA",
+                  "ATCGCTCAA","ATCGCGTCG","ATCCATGGT","ATCATGAGA","ATCATAGTT","ATCAGCGAG","ATCACCATT","ATAGTAATT","ATAGCTGTG","ATACTCTCG",
+                  "ATACCTCAT","AGTTGCGCG","AGTTGAATT","AGTTATGAT","AGTGTCCGT","AGTGGCTTG","AGTGCTTCT","AGTATCATT","AGTACACAA","AGGTATGCG",
+                  "AGGTATAGT","AGGCTACTT","AGGCCAGGT","AGGAGCGAT","AGCTTATAG","AGCTCTAGA","AGCGTGTAT","AGCGTCACA","AGCCTTCAT","AGCCTGTCG",
+                  "AGCCTCGAG","AGCACTGAA","AGATGTACG","AGAGTTAAT","AGACCTCTG","ACTTCTATA","ACTGTCGAG","ACTGTATGT","ACTCTGTAA","ACTCGCGAA",
+                  "ACTAGATCT","ACTAACGTT","ACGTTACTG","ACGTGGAAT","ACGGACTCT","ACGCCTAAT","ACGCCGTTA","ACGACGTGT","ACCTCGCAT","ACCATCATA",
+                  "ACATATATT","ACAGGCACA","ACACCTGAG","ACACATTCT"
+                  )
+
+B384_cell_key3 = ("TTGTGGCTG","TTGTGGAGT","TTGTGCGAC","TTGTCTTCA","TTGTAAGAT","TTGGTTCTG","TTGGTGCGT","TTGGTCTAC","TTGGTAACT","TTGGCGTGC",
+                  "TTGGATTAG","TTGGAGACG","TTGGAATCA","TTGCGGCGA","TTGCGCTCG","TTGCCTTAC","TTGCCGGAT","TTGCATGCT","TTGCACGTC","TTGCACCAT",
+                  "TTGAACCTG","TTCTCGCGT","TTCTCAACT","TTCTACTCA","TTCGTCCAT","TTCGGATAC","TTCGGACGT","TTCGCAATC","TTCCGGTGC","TTCCGACTG",
+                  "TTCATTATG","TTCATGGAT","TTCAGCGCA","TTCACCTCG","TTCAAGCAG","TTCAACTAC","TTATGCCAG","TTATGCATC","TTATCGTAC","TTATACCTA",
+                  "TTATAATAG","TTATAAGTC","TTAGTTAGC","TTAGCTCAT","TTAGCACTA","TTAGATATG","TTACTACGA","TTACCGTCA","TTACAGAGC","TTAATTGCA",
+                  "TTAACAGAT","TGTTGGCTA","TGTTGATGA","TGTTAAGCT","TGTGGCCGA","TGTGCTAGC","TGTGCGTCA","TGTCGCAGT","TGTCGAGCA","TGTACAACG",
+                  "TGGTTCCGA","TGGTTCACT","TGGTCAAGT","TGGCTTGTA","TGGCTGTCG","TGGCGTATG","TGGCGCGCT","TGGATGTAC","TGGACTTGC","TGGAATACT",
+                  "TGCTAGCGA","TGCGTTGCT","TGCGGTCTG","TGCGCTTAG","TGCGCGACG","TGCCTGCAT","TGCCTAGAC","TGCACGAGT","TGAGTGTGC","TGAGGCTCG",
+                  "TCTTCCGTC","TCTTATAGT","TCTTACCAT","TCTGTTGTC","TCTGTTACT","TCTGGCTAG","TCTCAGATC","TCTAGTTGA","TCTAGTACG","TCGTACTAC",
+                  "TCGGTGTAG","TCGGCTGCT","TCGCTACTG","TCGATCACG","TCGAGGCAT","TCCGGCGTC","TCCGGAGCT","TCCGCTCGT","TCCGAGTAC","TCCATTCAT",
+
+                  "TCCATGGTC","TCCAAGTCG","TCATTACGT","TCATGCACT","TCAGGTTGC","TCAGACCGT","TCACTCAGT","TCAAGCTCA","TATTGCGCA","TATTCGGCT",
+                  "TATTCCAGC","TATTCATCA","TATGTTCAG","TATGGTATG","TATGCAAGT","TATCTGGTC","TATCTGACT","TATCCAGAT","TATCAGTCG","TATCACGCT",
+                  "TAGGCGCGA","TAGGCACAT","TAGGATCGT","TAGCATTGC","TAGAGTTAC","TAGACTGAT","TACTTGTCG","TACGTCCGA","TACCGTACT","TACCGCGAT",
+                  "TACCAGGAC","TACAGAAGT","TAAGTGCAT","TAAGCTACT","GTTGACCGA","GTTCTCGAC","GTTCCTGCT","GTTATGATG","GTGCTTGCA","GTGCCGCGT",
+                  "GTATTGCTG","GTATTCCGA","GTATTAAGC","GTATGACGT","GTAGTTGTC","GTAGTACAT","GTAGCTCGA","GGTTGCTCA","GGTTGAGTA","GGTTAACGT",
+                  "GGTGTGGCA","GGTCTTCAG","GGTCGTCTA","GGTCGGCGT","GGTCCGACT","GGTCATGTC","GGTCACATG","GGTAGTGCT","GGTAGCGTC","GGTACCAGT",
+                  "GGTAAGGAT","GGCTTGTGC","GGCTTGACT","GGCTTACGA","GGCTGTAGT","GGCTGGCAG","GGCTCCATC","GGCGTGGAT","GGCGTAATC","GGCGCAAGT",
+                  "GGCGAGTAG","GGCGACCGT","GGCCTGTCA","GGCCATTGC","GGCACTCTG","GGATGTCAT","GGAGTAACT","GGAGAACGA","GGACTGGCT","GGACGTTCA",
+                  "GGAACGTGC","GCTGTCCAT","GCTGGTTCA","GCTGCAACT","GCTCGTTAC","GCTATAGAT","GCTAGTCGT","GCTACCATG","GCGTTCTGA","GCGTGTTAG",
+                  "GCGGTATCG","GCGGAGCAT","GCGCGGTGC","GCGCCTAGT","GCGCCGGCT","GCCTTCATG","GCCATACTG","GCATGTTGA","GCATGCTAC","GCAGTATAC",
+
+                  "GCAGGTACT","GCAGCGCGT","GCACCTCAT","GCAATTCGA","GATTGCCGT","GATGAACAT","GATCTTCGA","GATCTGCAT","GAGTGGCAT","GAGTCGGAC",
+                  "GAGTATGAT","GAGGCGAGT","GAGGCAACG","GAGCGCACT","GAATAGGCT","ATTGTCACT","ATTGTATCA","ATTGGTCAG","ATTGGCGAT","ATTGATCGT",
+                  "ATTCGTAGT","ATTCATACG","ATTCAGGAC","ATTACTTCA","ATTAATTAG","ATTAAGCAT","ATGTCTCTA","ATGTAGCGT","ATGGCATAC","ATGGAGATC",
+                  "ATGGACTCG","ATGGAACGA","ATGCTTCAT","ATGCTCGCT","ATGCGACGT","ATGCCGTAG","ATGAGTTCG","ATGACTATC","ATGACCGAC","ATCTTATGC",
+                  "ATCTTACTA","ATCTATCAG","ATCGTGTAC","ATCGTCTGA","ATCGGCATG","ATCGCGAGC","ATCGCAACG","ATCGATGCT","ATCGAATAG","ATCCTTCTG",
+                  "ATCCTGCGT","ATCCGCACT","ATCCATTAC","ATCCAAGCA","ATCAGATCA","ATCACACAT","ATCAACGTC","ATCAACCGA","ATATTGAGT","ATATTCGTC",
+                  "ATATTACAG","ATATCTTGA","ATATCGCAT","ATATCAATC","ATAGTCCTG","ATAGGTCTA","ATAGCTGAC","ATAGCGGTA","AGTTCGCTG","AGTTACAGC",
+                  "AGTTAACTA","AGTGCAATC","AGTCTGGTA","AGTCTGAGC","AGTCTACAT","AGTCGAACT","AGTCCATCG","AGTCATTCA","AGTATCCAG","AGTAGACTG",
+                  "AGTAATCGA","AGTAAGTGC","AGGTTGGCT","AGGTTCTAG","AGGTGTTCA","AGGTGCCAT","AGGTCTGAT","AGGTCGTAC","AGGTCAGCA","AGGCTTATC",
+                  "AGGCTATGA","AGGCCGACG","AGGCCAAGC","AGGCAGGTC","AGGCAAGAT","AGGAGCAGT","AGGACCGCT","AGGAATTAC","AGCTTGGAC","AGCTTAAGT",
+
+                  "AGCTACACG","AGCGTTACG","AGCGGTGCA","AGCGGAGTC","AGCGGACGA","AGCGCGCTA","AGCGATAGC","AGCGACTCA","AGCCTCTAC","AGCCGTCGT",
+                  "AGCATGATC","AGCACTTCG","AGCACGGCA","AGATTCTGA","AGATTAGAT","AGATGATAG","AGATATGTA","AGATACCGT","AGAGTGCGT","AGAGCCGAT",
+                  "AGACTCACT","ACTTGCCTA","ACTTGAGCA","ACTTCTAGC","ACTTCGACT","ACTTAGTAC","ACTGTTGAT","ACTGTAACG","ACTGGTATC","ACTGACGTC",
+                  "ACTGAAGCT","ACTCTGATG","ACTCCTGAC","ACTCCGCTA","ACTCAACTG","ACTATTGCA","ACTAGGCAG","ACTACGCGT","ACTAATACT","ACGTTCGTA",
+                  "ACGTGTGCT","ACGTGTATG","ACGTGGAGC","ACGTCTTCG","ACGTCAGTC","ACGGTCTCA","ACGGTCCGT","ACGGTACAG","ACGGCGCTG","ACGCTGCGA",
+                  "ACGCGTGTA","ACGCGCCAG","ACGATGTCG","ACGATGGAT","ACGATCTAC","ACGAGCTGA","ACGAGCATC","ACGAATCGT","ACGAACGCA","ACCTTGTAG",
+                  "ACCTGTTGC","ACCTGTCAT","ACCTCGATC","ACCTAGGTA","ACCTACTGA","ACCTAATCG","ACCGTAGCA","ACCGGTAGT","ACCGGCTAC","ACCGCTTCA",
+                  "ACATTGTGC","ACATTCTCG","ACATGGCTG","ACATGACGA","ACATATGAT","ACATATACG","ACAGCGTAC","ACACTTGCT","ACACTATCA","ACACGCATG",
+                  "ACACCAGTA","ACACCAACT","ACACATAGT","ACACACCTA"
+                  )
+
+
+def label_sections_to_index(label):
+    """ 
+    Return the cell_index integer based on input 3 part cell label string
+    
+    """
+
+    cl1, cl2, cl3 = [int(n) for n in label.split('-')]
+    return (cl1 - 1) * 384 * 384 + (cl2 - 1) * 384 + (cl3 - 1) + 1
+
+
+# print(label_sections_to_index('1-1-1'))
+# print(label_sections_to_index('33-78-21'))
+# print(label_sections_to_index('43-12-77'))
+# print(label_sections_to_index('96-96-96'))
+# print(label_sections_to_index('135-43-344'))
+# print(label_sections_to_index('384-384-384'))
+# print('-')
+
+#----------------------------------
+
+
+def index_to_label_sections(index):
+
+    zerobased = int(index) - 1
+
+    cl1 = (int((zerobased) / 384 / 384) % 384) + 1
+    cl2 = (int((zerobased) / 384) % 384) + 1
+    cl3 = (zerobased % 384) + 1
+
+    return f'{cl1}-{cl2}-{cl3}'
+
+
+# print(index_to_label_sections(1))
+# print(index_to_label_sections(4748181))
+# print(index_to_label_sections(6197453))
+# print(index_to_label_sections(14044896))
+# print(index_to_label_sections(19775576))
+# print(index_to_label_sections(56623104))
+# print('-')
+#----------------------------------
+
+
+def index_to_sequence(index, bead_version):
+
+    zerobased = int(index) - 1
+
+    cl1 = (int((zerobased) / 384 / 384) % 384) + 1
+    cl2 = (int((zerobased) / 384) % 384) + 1
+    cl3 = (zerobased % 384) + 1
+
+    if bead_version == 'v1':
+        cls1_sequence = A96_cell_key1[cl1-1]
+        cls2_sequence = A96_cell_key2[cl2-1]
+        cls3_sequence = A96_cell_key3[cl3-1]
+
+        return f'{cls1_sequence}{v1_linker1}{cls2_sequence}{v1_linker2}{cls3_sequence}'
+
+    elif bead_version == 'Enh':
+
+        diversityInsert = ''
+
+        if 1 <= cl1 <= 24:
+            diversityInsert = ''
+        elif 25 <= cl1 <= 48:
+            diversityInsert = 'A'
+        elif 49 <= cl1 <= 72:
+            diversityInsert = 'GT'
+        else: # 73 <= cl1 <= 96:
+            diversityInsert = 'TCA'
+
+        cls1_sequence = A96_cell_key1[cl1-1]
+        cls2_sequence = A96_cell_key2[cl2-1]
+        cls3_sequence = A96_cell_key3[cl3-1]
+
+        return f'{diversityInsert}{cls1_sequence}{Enh_linker1}{cls2_sequence}{Enh_linker2}{cls3_sequence}'
+
+    elif bead_version == 'EnhV2':
+
+        diversityInsert = ''
+        subIndex = ((cl1-1) % 96) + 1
+
+        if 1 <= subIndex <= 24:
+            diversityInsert = ''
+        elif 25 <= subIndex <= 48:
+            diversityInsert = 'A'
+        elif 49 <= subIndex <= 72:
+            diversityInsert = 'GT'
+        else: # 73 <= subIndex <= 96:
+            diversityInsert = 'TCA'
+
+        cls1_sequence = B384_cell_key1[cl1-1]
+        cls2_sequence = B384_cell_key2[cl2-1]
+        cls3_sequence = B384_cell_key3[cl3-1]
+
+        return f'{diversityInsert}{cls1_sequence}{Enh_linker1}{cls2_sequence}{Enh_linker2}{cls3_sequence}'
+
+
+# print(index_to_sequence(4748181, 'Enh'))
+# print(index_to_sequence(52923177, 'EnhV2'))
+
+#----------------------------------
+
+
+def create_cell_index_fasta_V1():
+    with open('Rhapsody_cellBarcodeV1_IndexToSequence.fasta', 'w') as f:
+        for cl1 in range(1, 96+1):
+            for cl2 in range(1, 96+1):
+                for cl3 in range(1, 96+1):
+                    index = label_sections_to_index(f'{cl1}-{cl2}-{cl3}')
+                    sequence = index_to_sequence(index, 'v1')
+                    f.write(f'>{index}\n')
+                    f.write(f'{sequence}\n')
+
+#create_cell_index_fasta_V1()
+
+
+def create_cell_index_fasta_Enh():
+    with open('Rhapsody_cellBarcodeEnh_IndexToSequence.fasta', 'w') as f:
+        for cl1 in range(1, 96+1):
+            for cl2 in range(1, 96+1):
+                for cl3 in range(1, 96+1):
+                    index = label_sections_to_index(f'{cl1}-{cl2}-{cl3}')
+                    sequence = index_to_sequence(index, 'Enh')
+                    f.write(f'>{index}\n')
+                    f.write(f'{sequence}\n')
+
+#create_cell_index_fasta_Enh()
+
+def create_cell_index_fasta_EnhV2():
+    with open('Rhapsody_cellBarcodeEnhV2_IndexToSequence.fasta', 'w') as f:
+        for cl1 in range(1, 384+1):
+            for cl2 in range(1, 384+1):
+                for cl3 in range(1, 384+1):
+                    index = label_sections_to_index(f'{cl1}-{cl2}-{cl3}')
+                    sequence = index_to_sequence(index, 'EnhV2')
+                    f.write(f'>{index}\n')
+                    f.write(f'{sequence}\n')
+
+#create_cell_index_fasta_EnhV2()
diff --git a/src/bd_rhapsody/test_data/BDAbSeq_ImmuneDiscoveryPanel.fasta b/src/bd_rhapsody/test_data/BDAbSeq_ImmuneDiscoveryPanel.fasta
new file mode 100644
index 00000000..930add4a
--- /dev/null
+++ b/src/bd_rhapsody/test_data/BDAbSeq_ImmuneDiscoveryPanel.fasta
@@ -0,0 +1,60 @@
+>CD11c:B-LY6|ITGAX|AHS0056|pAbO Catalog_940024
+ATGCGTTGCGAGAGATATGCGTAGGTTGCTGATTGG
+>CD14:MPHIP9|CD14|AHS0037|pAbO Catalog_940005
+TGGCCCGTGGTAGCGCAATGTGAGATCGTAATAAGT
+>CXCR5|CXCR5|AHS0039|pAbO Catalog_940042
+AGGAAGGTCGATTGTATAACGCGGCATTGTAACGGC
+>CD19:SJ25C1|CD19|AHS0030|pAbO Catalog_940004
+TAGTAATGTGTTCGTAGCCGGTAATAATCTTCGTGG
+>CD25:2A3|IL2RA|AHS0026|pAbO Catalog_940009
+AGTTGTATGGGTTAGCCGAGAGTAGTGCGTATGATT
+>CD27:M-T271|CD27|AHS0025|pAbO Catalog_940018
+TGTCCGGTTTAGCGAATTGGGTTGAGTCACGTAGGT
+>CD278|ICOS|AHS0012|pAbO Catalog_940043
+ATAGTCCGCCGTAATCGTTGTGTCGCTGAAAGGGTT
+>CD279:EH12-1|PDCD1|AHS0014|pAbO Catalog_940015
+ATGGTAGTATCACGACGTAGTAGGGTAATTGGCAGT
+>CD3:UCHT1|CD3E|AHS0231|pAbO Catalog_940307
+AGCTAGGTGTTATCGGCAAGTTGTACGGTGAAGTCG
+>GITR|TNFRSF18|AHS0104|pAbO Catalog_940096
+TCTGTGTGTCGGGTTGAATCGTAGTGAGTTAGCGTG
+>Tim3|HAVCR2|AHS0016|pAbO Catalog_940066
+TAGGTAGTAGTCCCGTATATCCGATCCGTGTTGTTT
+>CD4:SK3|CD4|AHS0032|pAbO Catalog_940001
+TCGGTGTTATGAGTAGGTCGTCGTGCGGTTTGATGT
+>CD45RA:HI100|PTPRC|AHS0009|pAbO Catalog_940011
+AAGCGATTGCGAAGGGTTAGTCAGTACGTTATGTTG
+>CD56:NCAM16.2|NCAM1|AHS0019|pAbO Catalog_940007
+AGAGGTTGAGTCGTAATAATAATCGGAAGGCGTTGG
+>CD62L:DREG-56|SELL|AHS0049|pAbO Catalog_940041
+ATGGTAAATATGGGCGAATGCGGGTTGTGCTAAAGT
+>CCR7|CCR7|AHS0273|pAbO Catalog_940394
+AATGTGTGATCGGCAAAGGGTTCTCGGGTTAATATG
+>CXCR6|CXCR6|AHS0148|pAbO Catalog_940234
+GTGGTTGGTTATTCGGACGGTTCTATTGTGAGCGCT
+>CD127|IL7R|AHS0028|pAbO Catalog_940012
+AGTTATTAGGCTCGTAGGTATGTTTAGGTTATCGCG
+>CD134:ACT35|TNFRSF4|AHS0013|pAbO Catalog_940060
+GGTGTTGGTAAGACGGACGGAGTAGATATTCGAGGT
+>CD28:L293|CD28|AHS0138|pAbO Catalog_940226
+TTGTTGAGGATACGATGAAGCGGTTTAAGGGTGTGG
+>CD272|BTLA|AHS0052|pAbO Catalog_940105
+GTAGGTTGATAGTCGGCGATAGTGCGGTTGAAAGCT
+>CD8:SK1|CD8A|AHS0228|pAbO Catalog_940305
+AGGACATAGAGTAGGACGAGGTAGGCTTAAATTGCT
+>HLA-DR|CD74|AHS0035|pAbO Catalog_940010
+TGTTGGTTATTCGTTAGTGCATCCGTTTGGGCGTGG
+>CD16:3G8|FCGR3A|AHS0053|pAbO Catalog_940006
+TAAATCTAATCGCGGTAACATAACGGTGGGTAAGGT
+>CD183|CXCR3|AHS0031|pAbO Catalog_940030
+AAAGTGTTGGCGTTATGTGTTCGTTAGCGGTGTGGG
+>CD196|CCR6|AHS0034|pAbO Catalog_940033
+ACGTGTTATGGTGTTGTTCGAATTGTGGTAGTCAGT
+>CD137|TNFRSF9|AHS0003|pAbO Catalog_940055
+TGACAAGCAACGAGCGATACGAAAGGCGAAATTAGT
+>CD161:HP-3G10|KLRB1|AHS0205|pAbO Catalog_940283
+TTTAGGACGATTAGTTGTGCGGCATAGGAGGTGTTC
+>IgM|IGHM|AHS0198|pAbO Catalog_940276
+TTTGGAGGGTAGCTAGTTGCAGTTCGTGGTCGTTTC
+>IgD|IGHD|AHS0058|pAbO Catalog_940026
+TGAGGGATGTATAGCGAGAATTGCGACCGTAGACTT
diff --git a/src/bd_rhapsody/test_data/SampleTagSequences_HomoSapiens_ver1.fasta b/src/bd_rhapsody/test_data/SampleTagSequences_HomoSapiens_ver1.fasta
new file mode 100644
index 00000000..3d5a42fa
--- /dev/null
+++ b/src/bd_rhapsody/test_data/SampleTagSequences_HomoSapiens_ver1.fasta
@@ -0,0 +1,24 @@
+>SampleTag01_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGATTCAAGGGCAGCCGCGTCACGATTGGATACGACTGTTGGACCGG
+>SampleTag02_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGTGGATGGGATAAGTGCGTGATGGACCGAAGGGACCTCGTGGCCGG
+>SampleTag03_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGCGGCTCGTGCTGCGTCGTCTCAAGTCCAGAAACTCCGTGTATCCT
+>SampleTag04_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGATTGGGAGGCTTTCGTACCGCTGCCGCCACCAGGTGATACCCGCT
+>SampleTag05_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGCTCCCTGGTGTTCAATACCCGATGTGGTGGGCAGAATGTGGCTGG
+>SampleTag06_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGTTACCCGCAGGAAGACGTATACCCCTCGTGCCAGGCGACCAATGC
+>SampleTag07_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGTGTCTACGTCGGACCGCAAGAAGTGAGTCAGAGGCTGCACGCTGT
+>SampleTag08_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGCCCCACCAGGTTGCTTTGTCGGACGAGCCCGCACAGCGCTAGGAT
+>SampleTag09_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGGTGATCCGCGCAGGCACACATACCGACTCAGATGGGTTGTCCAGG
+>SampleTag10_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGGCAGCCGGCGTCGTACGAGGCACAGCGGAGACTAGATGAGGCCCC
+>SampleTag11_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGCGCGTCCAATTTCCGAAGCCCCGCCCTAGGAGTTCCCCTGCGTGC
+>SampleTag12_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGGCCCATTCATTGCACCCGCCAGTGATCGACCCTAGTGGAGCTAAG
diff --git a/src/bd_rhapsody/bd_rhapsody_make_reference/test_data/reference_small.fa b/src/bd_rhapsody/test_data/reference_small.fa
similarity index 100%
rename from src/bd_rhapsody/bd_rhapsody_make_reference/test_data/reference_small.fa
rename to src/bd_rhapsody/test_data/reference_small.fa
diff --git a/src/bd_rhapsody/bd_rhapsody_make_reference/test_data/reference_small.gtf b/src/bd_rhapsody/test_data/reference_small.gtf
similarity index 100%
rename from src/bd_rhapsody/bd_rhapsody_make_reference/test_data/reference_small.gtf
rename to src/bd_rhapsody/test_data/reference_small.gtf
diff --git a/src/bd_rhapsody/test_data/script.sh b/src/bd_rhapsody/test_data/script.sh
new file mode 100644
index 00000000..f8db0313
--- /dev/null
+++ b/src/bd_rhapsody/test_data/script.sh
@@ -0,0 +1,141 @@
+#!/bin/bash
+
+TMP_DIR=/tmp/bd_rhapsody_make_reference
+OUT_DIR=src/bd_rhapsody/test_data
+
+# check if seqkit is installed
+if ! command -v seqkit &> /dev/null; then
+  echo "seqkit could not be found"
+  exit 1
+fi
+
+# create temporary directory and clean up on exit
+mkdir -p $TMP_DIR
+function clean_up {
+    rm -rf "$TMP_DIR"
+}
+trap clean_up EXIT
+
+# fetch reference
+ORIG_FA=$TMP_DIR/reference.fa.gz
+if [ ! -f $ORIG_FA ]; then
+  wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_41/GRCh38.primary_assembly.genome.fa.gz \
+    -O $ORIG_FA
+fi
+
+ORIG_GTF=$TMP_DIR/reference.gtf.gz
+if [ ! -f $ORIG_GTF ]; then
+  wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_41/gencode.v41.annotation.gtf.gz \
+    -O $ORIG_GTF
+fi
+
+# create small reference
+START=30000
+END=31500
+CHR=chr1
+
+# subset to small region
+seqkit grep -r -p "^$CHR\$" "$ORIG_FA" | \
+  seqkit subseq -r "$START:$END" > $OUT_DIR/reference_small.fa
+
+zcat "$ORIG_GTF" | \
+  awk -v FS='\t' -v OFS='\t' "
+    \$1 == \"$CHR\" && \$4 >= $START && \$5 <= $END {
+      \$4 = \$4 - $START + 1;
+      \$5 = \$5 - $START + 1;
+      print;
+    }" > $OUT_DIR/reference_small.gtf
+
+# download bdabseq immunediscoverypanel fasta
+# note: was contained in http://bd-rhapsody-public.s3.amazonaws.com/Rhapsody-Demo-Data-Inputs/12WTA-ABC-SMK-EB-5kJRT.tar
+cat > $OUT_DIR/BDAbSeq_ImmuneDiscoveryPanel.fasta <<EOF
+>CD11c:B-LY6|ITGAX|AHS0056|pAbO Catalog_940024
+ATGCGTTGCGAGAGATATGCGTAGGTTGCTGATTGG
+>CD14:MPHIP9|CD14|AHS0037|pAbO Catalog_940005
+TGGCCCGTGGTAGCGCAATGTGAGATCGTAATAAGT
+>CXCR5|CXCR5|AHS0039|pAbO Catalog_940042
+AGGAAGGTCGATTGTATAACGCGGCATTGTAACGGC
+>CD19:SJ25C1|CD19|AHS0030|pAbO Catalog_940004
+TAGTAATGTGTTCGTAGCCGGTAATAATCTTCGTGG
+>CD25:2A3|IL2RA|AHS0026|pAbO Catalog_940009
+AGTTGTATGGGTTAGCCGAGAGTAGTGCGTATGATT
+>CD27:M-T271|CD27|AHS0025|pAbO Catalog_940018
+TGTCCGGTTTAGCGAATTGGGTTGAGTCACGTAGGT
+>CD278|ICOS|AHS0012|pAbO Catalog_940043
+ATAGTCCGCCGTAATCGTTGTGTCGCTGAAAGGGTT
+>CD279:EH12-1|PDCD1|AHS0014|pAbO Catalog_940015
+ATGGTAGTATCACGACGTAGTAGGGTAATTGGCAGT
+>CD3:UCHT1|CD3E|AHS0231|pAbO Catalog_940307
+AGCTAGGTGTTATCGGCAAGTTGTACGGTGAAGTCG
+>GITR|TNFRSF18|AHS0104|pAbO Catalog_940096
+TCTGTGTGTCGGGTTGAATCGTAGTGAGTTAGCGTG
+>Tim3|HAVCR2|AHS0016|pAbO Catalog_940066
+TAGGTAGTAGTCCCGTATATCCGATCCGTGTTGTTT
+>CD4:SK3|CD4|AHS0032|pAbO Catalog_940001
+TCGGTGTTATGAGTAGGTCGTCGTGCGGTTTGATGT
+>CD45RA:HI100|PTPRC|AHS0009|pAbO Catalog_940011
+AAGCGATTGCGAAGGGTTAGTCAGTACGTTATGTTG
+>CD56:NCAM16.2|NCAM1|AHS0019|pAbO Catalog_940007
+AGAGGTTGAGTCGTAATAATAATCGGAAGGCGTTGG
+>CD62L:DREG-56|SELL|AHS0049|pAbO Catalog_940041
+ATGGTAAATATGGGCGAATGCGGGTTGTGCTAAAGT
+>CCR7|CCR7|AHS0273|pAbO Catalog_940394
+AATGTGTGATCGGCAAAGGGTTCTCGGGTTAATATG
+>CXCR6|CXCR6|AHS0148|pAbO Catalog_940234
+GTGGTTGGTTATTCGGACGGTTCTATTGTGAGCGCT
+>CD127|IL7R|AHS0028|pAbO Catalog_940012
+AGTTATTAGGCTCGTAGGTATGTTTAGGTTATCGCG
+>CD134:ACT35|TNFRSF4|AHS0013|pAbO Catalog_940060
+GGTGTTGGTAAGACGGACGGAGTAGATATTCGAGGT
+>CD28:L293|CD28|AHS0138|pAbO Catalog_940226
+TTGTTGAGGATACGATGAAGCGGTTTAAGGGTGTGG
+>CD272|BTLA|AHS0052|pAbO Catalog_940105
+GTAGGTTGATAGTCGGCGATAGTGCGGTTGAAAGCT
+>CD8:SK1|CD8A|AHS0228|pAbO Catalog_940305
+AGGACATAGAGTAGGACGAGGTAGGCTTAAATTGCT
+>HLA-DR|CD74|AHS0035|pAbO Catalog_940010
+TGTTGGTTATTCGTTAGTGCATCCGTTTGGGCGTGG
+>CD16:3G8|FCGR3A|AHS0053|pAbO Catalog_940006
+TAAATCTAATCGCGGTAACATAACGGTGGGTAAGGT
+>CD183|CXCR3|AHS0031|pAbO Catalog_940030
+AAAGTGTTGGCGTTATGTGTTCGTTAGCGGTGTGGG
+>CD196|CCR6|AHS0034|pAbO Catalog_940033
+ACGTGTTATGGTGTTGTTCGAATTGTGGTAGTCAGT
+>CD137|TNFRSF9|AHS0003|pAbO Catalog_940055
+TGACAAGCAACGAGCGATACGAAAGGCGAAATTAGT
+>CD161:HP-3G10|KLRB1|AHS0205|pAbO Catalog_940283
+TTTAGGACGATTAGTTGTGCGGCATAGGAGGTGTTC
+>IgM|IGHM|AHS0198|pAbO Catalog_940276
+TTTGGAGGGTAGCTAGTTGCAGTTCGTGGTCGTTTC
+>IgD|IGHD|AHS0058|pAbO Catalog_940026
+TGAGGGATGTATAGCGAGAATTGCGACCGTAGACTT
+EOF
+
+# this was obtained by running the command:
+# docker run bdgenomics/rhapsody:2.2.1 cat /rhapsody/control_files/SampleTagSequences_HomoSapiens_ver1.fasta 
+cat > $OUT_DIR/SampleTagSequences_HomoSapiens_ver1.fasta <<EOF
+>SampleTag01_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGATTCAAGGGCAGCCGCGTCACGATTGGATACGACTGTTGGACCGG
+>SampleTag02_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGTGGATGGGATAAGTGCGTGATGGACCGAAGGGACCTCGTGGCCGG
+>SampleTag03_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGCGGCTCGTGCTGCGTCGTCTCAAGTCCAGAAACTCCGTGTATCCT
+>SampleTag04_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGATTGGGAGGCTTTCGTACCGCTGCCGCCACCAGGTGATACCCGCT
+>SampleTag05_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGCTCCCTGGTGTTCAATACCCGATGTGGTGGGCAGAATGTGGCTGG
+>SampleTag06_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGTTACCCGCAGGAAGACGTATACCCCTCGTGCCAGGCGACCAATGC
+>SampleTag07_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGTGTCTACGTCGGACCGCAAGAAGTGAGTCAGAGGCTGCACGCTGT
+>SampleTag08_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGCCCCACCAGGTTGCTTTGTCGGACGAGCCCGCACAGCGCTAGGAT
+>SampleTag09_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGGTGATCCGCGCAGGCACACATACCGACTCAGATGGGTTGTCCAGG
+>SampleTag10_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGGCAGCCGGCGTCGTACGAGGCACAGCGGAGACTAGATGAGGCCCC
+>SampleTag11_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGCGCGTCCAATTTCCGAAGCCCCGCCCTAGGAGTTCCCCTGCGTGC
+>SampleTag12_hs|stAbO
+GTTGTCAAGATGCTACCGTTCAGAGGCCCATTCATTGCACCCGCCAGTGATCGACCCTAGTGGAGCTAAG
+EOF

From 619f1bbb6d040e650233d3b0380f5298e624ecef Mon Sep 17 00:00:00 2001
From: Emma Rousseau <emmarou1@icloud.com>
Date: Wed, 18 Sep 2024 15:45:08 +0200
Subject: [PATCH 8/9] Rsem-calculate-expression (#93)

* initial commit dedup

* Revert "initial commit dedup"

This reverts commit 38f586bec0ac9e4312b016e29c3aa0bd53f292b2.

* three rsem components initial commit

* update container setup

* Simplified container configuration

* temporarily remove version recording from config

* Complete config file

* add tests and complete config file

* change test dataset

* functional test, adjustements to scripts

* Update changelog

* Simplified test data and help.txt contents

* suggested changes, typos

* simplify, get rid of test_data folder

* Update CHANGELOG.md

* Update CHANGELOG.md

---------

Co-authored-by: Robrecht Cannoodt <rcannood@gmail.com>
---
 CHANGELOG.md                                  |    2 +
 .../rsem_calculate_expression/config.vsh.yaml |  479 ++++++++
 src/rsem/rsem_calculate_expression/help.txt   | 1002 +++++++++++++++++
 src/rsem/rsem_calculate_expression/script.sh  |  103 ++
 src/rsem/rsem_calculate_expression/test.sh    |  116 ++
 5 files changed, 1702 insertions(+)
 create mode 100644 src/rsem/rsem_calculate_expression/config.vsh.yaml
 create mode 100644 src/rsem/rsem_calculate_expression/help.txt
 create mode 100644 src/rsem/rsem_calculate_expression/script.sh
 create mode 100644 src/rsem/rsem_calculate_expression/test.sh

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 07a83c15..9bfb5606 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -7,6 +7,8 @@
 
 * `bd_rhapsody/bd_rhapsody_sequence_analysis`: BD Rhapsody Sequence Analysis CWL pipeline (PR #96).
 
+* `rsem/rsem_calculate_expression`: Calculate expression levels (PR #93).
+
 ## MINOR CHANGES
 
 * Upgrade to Viash 0.9.0.
diff --git a/src/rsem/rsem_calculate_expression/config.vsh.yaml b/src/rsem/rsem_calculate_expression/config.vsh.yaml
new file mode 100644
index 00000000..2cd950cb
--- /dev/null
+++ b/src/rsem/rsem_calculate_expression/config.vsh.yaml
@@ -0,0 +1,479 @@
+name: "rsem_calculate_expression"
+namespace: "rsem"
+description: | 
+  Calculate expression with RSEM. 
+keywords: [Transcriptome, Index, Alignment, RSEM]
+links:
+  homepage: https://deweylab.github.io/RSEM/
+  documentation: https://deweylab.github.io/RSEM/rsem-calculate-expression.html
+  repository: https://github.com/deweylab/RSEM
+references: 
+  doi: https://doi.org/10.1186/1471-2105-12-323
+license: GPL-3.0
+  
+
+argument_groups:
+- name: "Input"
+  arguments:
+  - name: "--id"
+    type: string
+    description: Sample ID.
+  - name: "--strandedness"
+    type: string
+    description: Sample strand-specificity. Must be one of unstranded, forward, reverse
+    choices: [forward, reverse, unstranded]
+  - name: "--paired"
+    type: boolean_true
+    description: Paired-end reads or not?
+  - name: "--input"
+    type: file
+    description: Input reads for quantification.
+    multiple: true
+  - name: "--index"
+    type: file
+    must_exist: false
+    description: RSEM index.  
+  - name: "--extra_args"
+    type: string
+    description: Extra rsem-calculate-expression arguments in addition to the examples.
+
+- name: "Output"
+  arguments:
+  - name: "--counts_gene"
+    type: file
+    description: Expression counts on gene level
+    example: $id.genes.results
+    direction: output
+  - name: "--counts_transcripts"
+    type: file
+    description: Expression counts on transcript level
+    example: $id.isoforms.results
+    direction: output
+  - name: "--stat"
+    type: file
+    description: RSEM statistics
+    example: $id.stat
+    direction: output
+  - name: "--logs"
+    type: file
+    description: RSEM logs
+    example: $id.log
+    direction: output
+  - name: "--bam_star"
+    type: file
+    description: BAM file generated by STAR (optional)
+    example: $id.STAR.genome.bam
+    direction: output
+  - name: "--bam_genome"
+    type: file
+    description: Genome BAM file (optional)
+    example: $id.genome.bam
+    direction: output
+  - name: "--bam_transcript"
+    type: file
+    description: Transcript BAM file (optional)
+    example: $id.transcript.bam
+    direction: output
+  - name: "--sort_bam_by_read_name"
+    type: boolean_true
+    description: |
+      Sort BAM file aligned under transcript coordidate by read name. Setting this option on will produce 
+      deterministic maximum likelihood estimations from independent runs. Note that sorting will take long 
+      time and lots of memory.
+  - name: "--no_bam_output"
+    type: boolean_true
+    description: Do not output any BAM file.
+  - name: "--sampling_for_bam"
+    type: boolean_true
+    description: |
+      When RSEM generates a BAM file, instead of outputting all alignments a read has with their posterior 
+      probabilities, one alignment is sampled according to the posterior probabilities. The sampling procedure 
+      includes the alignment to the "noise" transcript, which does not appear in the BAM file. Only the 
+      sampled alignment has a weight of 1. All other alignments have weight 0. If the "noise" transcript is 
+      sampled, all alignments appeared in the BAM file should have weight 0.
+  - name: "--output_genome_bam"
+    type: boolean_true
+    description: |
+      Generate a BAM file, 'sample_name.genome.bam', with alignments mapped to genomic coordinates and 
+      annotated with their posterior probabilities. In addition, RSEM will call samtools (included in RSEM 
+      package) to sort and index the bam file. 'sample_name.genome.sorted.bam' and 'sample_name.genome.sorted.bam.bai' 
+      will be generated.
+  - name: "--sort_bam_by_coordinate"
+    type: boolean_true
+    description: |
+      Sort RSEM generated transcript and genome BAM files by coordinates and build associated indices.
+
+- name: "Basic Options"
+  arguments:
+    - name: "--no_qualities"
+      type: boolean_true
+      description: Input reads do not contain quality scores.
+    - name: "--alignments"
+      type: boolean_true
+      description: |
+        Input file contains alignments in SAM/BAM/CRAM format. The exact file format will be determined 
+        automatically.
+    - name: "--fai"
+      type: file
+      description: |
+        If the header section of input alignment file does not contain reference sequence information, 
+        this option should be turned on. <file> is a FAI format file containing each reference sequence's 
+        name and length. Please refer to the SAM official website for the details of FAI format.
+    - name: "--bowtie2"
+      type: boolean_true
+      description: |
+        Use Bowtie 2 instead of Bowtie to align reads. Since currently RSEM does not handle indel, local 
+        and discordant alignments, the Bowtie2 parameters are set in a way to avoid those alignments. In 
+        particular, we use options '--sensitive --dpad 0 --gbar 99999999 --mp 1,1 --np 1 --score_min L,0,-0.1' 
+        by default. The last parameter of '--score_min', '-0.1', is the negative of maximum mismatch rate. 
+        This rate can be set by option '--bowtie2_mismatch_rate'. If reads are paired-end, we additionally 
+        use options '--no_mixed' and '--no_discordant'.
+    - name: "--star"
+      type: boolean_true
+      description: |
+        Use STAR to align reads. Alignment parameters are from ENCODE3's STAR-RSEM pipeline. To save 
+        computational time and memory resources, STAR's Output BAM file is unsorted. It is stored in RSEM's 
+        temporary directory with name as 'sample_name.bam'. Each STAR job will have its own private copy of 
+        the genome in memory.
+    - name: "--hisat2_hca"
+      type: boolean_true
+      description: |
+        Use HISAT2 to align reads to the transcriptome according to Human Cell Atlast.
+    - name: "--append_names"
+      type: boolean_true
+      description: |
+        If gene_name/transcript_name is available, append it to the end of gene_id/transcript_id (separated 
+        by '_') in files 'sample_name.isoforms.results' and 'sample_name.genes.results'.
+    - name: "--seed"
+      type: integer
+      description: |
+        Set the seed for the random number generators used in calculating posterior mean estimates and 
+        credibility intervals. The seed must be a non-negative 32 bit integer.
+    - name: "--single_cell_prior"
+      type: boolean_true
+      description: |
+        By default, RSEM uses Dirichlet(1) as the prior to calculate posterior mean estimates and credibility 
+        intervals. However, much less genes are expressed in single cell RNA-Seq data. Thus, if you want to 
+        compute posterior mean estimates and/or credibility intervals and you have single-cell RNA-Seq data, 
+        you are recommended to turn on this option. Then RSEM will use Dirichlet(0.1) as the prior which 
+        encourage the sparsity of the expression levels.
+    - name: "--calc_pme"
+      type: boolean_true
+      description: Run RSEM's collapsed Gibbs sampler to calculate posterior mean estimates.
+    - name: "--calc_ci"
+      type: boolean_true
+      description: |
+        Calculate 95% credibility intervals and posterior mean estimates. The credibility level can be 
+        changed by setting '--ci_credibility_level'.
+    - name: "--quiet"
+      alternatives: "-q"
+      type: boolean_true
+      description: Suppress the output of logging information.
+
+- name: "Aligner Options"
+  arguments:
+    - name: "--seed_length"
+      type: integer
+      description: |
+        Seed length used by the read aligner. Providing the correct value is important for RSEM. If RSEM 
+        runs Bowtie, it uses this value for Bowtie's seed length parameter. Any read with its or at least 
+        one of its mates' (for paired-end reads) length less than this value will be ignored. If the 
+        references are not added poly(A) tails, the minimum allowed value is 5, otherwise, the minimum 
+        allowed value is 25. Note that this script will only check if the value >= 5 and give a warning 
+        message if the value < 25 but >= 5. (Default: 25)
+      example: 25
+    - name: "--phred64_quals"
+      type: boolean_true
+      description: |
+        Input quality scores are encoded as Phred+64 (default for GA Pipeline ver. >= 1.3). This option is 
+        used by Bowtie, Bowtie 2 and HISAT2. Otherwise, quality score will be encoded as Phred+33. (Default: false)
+    - name: "--solexa_quals"
+      type: boolean_true
+      description: |
+        Input quality scores are solexa encoded (from GA Pipeline ver. < 1.3). This option is used by 
+        Bowtie, Bowtie 2 and HISAT2. Otherwise, quality score will be encoded as Phred+33. (Default: false)
+    - name: "--bowtie_n"
+      type: integer
+      description: |
+        (Bowtie parameter) max # of mismatches in the seed. (Range: 0-3, Default: 2)
+      choices: [0, 1, 2, 3]
+      example: 2
+    - name: "--bowtie_e"
+      type: integer
+      description: |
+        (Bowtie parameter) max sum of mismatch quality scores across the alignment. (Default: 99999999)
+      example: 99999999
+    - name: "--bowtie_m"
+      type: integer
+      description: |
+        (Bowtie parameter) suppress all alignments for a read if > <int> valid alignments exist. (Default: 200)
+      example: 200
+    - name: "--bowtie_chunkmbs"
+      type: integer
+      description: |
+        (Bowtie parameter) memory allocated for best first alignment calculation (Default: 0 - use Bowtie's default)
+      example: 0
+    - name: "--bowtie2_mismatch_rate"
+      type: double
+      description: |
+        (Bowtie 2 parameter) The maximum mismatch rate allowed. (Default: 0.1)
+      example: 0.1
+    - name: "--bowtie2_k"
+      type: integer
+      description: |
+        (Bowtie 2 parameter) Find up to <int> alignments per read. (Default: 200)
+      example: 200
+    - name: "--bowtie2_sensitivity_level"
+      type: string
+      description: |
+        (Bowtie 2 parameter) Set Bowtie 2's preset options in --end-to-end mode. This option controls how 
+        hard Bowtie 2 tries to find alignments. <string> must be one of "very_fast", "fast", "sensitive" 
+        and "very_sensitive". The four candidates correspond to Bowtie 2's "--very-fast", "--fast", 
+        "--sensitive" and "--very-sensitive" options. (Default: "sensitive" - use Bowtie 2's default)
+      choices: ["very_fast", "fast", "sensitive", "very_sensitive"]
+      example: sensitive
+    - name: "--star_gzipped_read_file"
+      type: boolean_true
+      description: |
+        Input read file(s) is compressed by gzip. (Default: false)
+    - name: "--star_bzipped_read_file"
+      type: boolean_true
+      description: |
+        Input read file(s) is compressed by bzip2. (Default: false)
+    - name: "--star_output_genome_bam"
+      type: boolean_true
+      description: |
+        Save the BAM file from STAR alignment under genomic coordinate to 'sample_name.STAR.genome.bam'. 
+        This file is NOT sorted by genomic coordinate. In this file, according to STAR's manual, 'paired 
+        ends of an alignment are always adjacent, and multiple alignments of a read are adjacent as well'. 
+        (Default: false)
+
+- name: "Advanced Options"
+  arguments:
+    - name: "--tag"
+      type: string
+      description: |
+        The name of the optional field used in the SAM input for identifying a read with too many valid 
+        alignments. The field should have the format <tagName>:i:<value>, where a <value> bigger than 0 
+        indicates a read with too many alignments. (Default: "")
+      example: ""
+    - name: "--fragment_length_min"
+      type: integer
+      description: |
+        Minimum read/insert length allowed. This is also the value for the Bowtie/Bowtie2 -I option. 
+        (Default: 1)
+      example: 1
+    - name: "--fragment_length_max"
+      type: integer
+      description: |
+        Maximum read/insert length allowed. This is also the value for the Bowtie/Bowtie 2 -X option. 
+        (Default: 1000)
+      example: 1000
+    - name: "--fragment_length_mean"
+      type: integer
+      description: |
+        (single-end data only) The mean of the fragment length distribution, which is assumed to be a 
+        Gaussian. (Default: -1, which disables use of the fragment length distribution)
+      example: -1
+    - name: "--gragment_length_sd"
+      type: double
+      description: |
+        (single-end data only) The standard deviation of the fragment length distribution, which is 
+        assumed to be a Gaussian. (Default: 0, which assumes that all fragments are of the same length, 
+        given by the rounded value of --fragment_length_mean).
+      example: 0
+    - name: "--estimate_rspd"
+      type: boolean_true
+      description: |
+        Set this option if you want to estimate the read start position distribution (RSPD) from data.
+        Otherwise, RSEM will use a uniform RSPD.
+    - name: "--num_rspd_bins"
+      type: integer
+      description: |
+        Number of bins in the RSPD. Only relevant when '--estimate_rspd' is specified. Use of the default 
+        setting is recommended. (Default: 20)
+      example: 20
+    - name: "--gibbs_burnin"
+      type: integer
+      description: |
+        The number of burn-in rounds for RSEM's Gibbs sampler. Each round passes over the entire data set 
+        once. If RSEM can use multiple threads, multiple Gibbs samplers will start at the same time and all 
+        samplers share the same burn-in number. (Default: 200)
+      example: 200
+    - name: "--gibbs_number_of_samples"
+      type: integer
+      description: |
+        The total number of count vectors RSEM will collect from its Gibbs samplers. (Default: 1000)
+      example: 1000
+    - name: "--gibbs_sampling_gap"
+      type: integer
+      description: |
+        The number of rounds between two succinct count vectors RSEM collects. If the count vector after 
+        round N is collected, the count vector after round N + <int> will also be collected. (Default: 1)
+      example: 1
+    - name: "--ci_credibility_level"
+      type: double
+      description: |
+        The credibility level for credibility intervals. (Default: 0.95)
+      example: 0.95
+    - name: "--ci_number_of_samples_per_count_vector"
+      type: integer
+      description: |
+        The number of read generating probability vectors sampled per sampled count vector. The crebility 
+        intervals are calculated by first sampling P(C | D) and then sampling P(Theta | C) for each sampled 
+        count vector. This option controls how many Theta vectors are sampled per sampled count vector. 
+        (Default: 50)
+      example: 50
+    - name: "--keep_intermediate_files"
+      type: boolean_true
+      description: |
+        Keep temporary files generated by RSEM. RSEM creates a temporary directory, 'sample_name.temp', 
+        into which it puts all intermediate output files. If this directory already exists, RSEM overwrites 
+        all files generated by previous RSEM runs inside of it. By default, after RSEM finishes, the 
+        temporary directory is deleted. Set this option to prevent the deletion of this directory and the 
+        intermediate files inside of it.
+    - name: "--temporary_folder"
+      type: string
+      description: |
+        Set where to put the temporary files generated by RSEM. If the folder specified does not exist, 
+        RSEM will try to create it. (Default: sample_name.temp)
+      example: sample_name.temp
+    - name: "--time"
+      type: boolean_true
+      description: |
+        Output time consumed by each step of RSEM to 'sample_name.time'.
+
+- name: "Prior-Enhanced RSEM Options"
+  arguments:
+    - name: "--run_pRSEM"
+      type: boolean_true
+      description: |
+        Running prior-enhanced RSEM (pRSEM). Prior parameters, i.e. isoform's initial pseudo-count for 
+        RSEM's Gibbs sampling, will be learned from input RNA-seq data and an external data set. When pRSEM 
+        needs and only needs ChIP-seq peak information to partition isoforms (e.g. in pRSEM's default 
+        partition model), either ChIP-seq peak file (with the '--chipseq_peak_file' option) or ChIP-seq 
+        FASTQ files for target and input and the path for Bowtie executables are required (with the 
+        '--chipseq_target_read_files <string>', '--chipseq_control_read_files <string>', and '--bowtie_path 
+        <path> options), otherwise, ChIP-seq FASTQ files for target and control and the path to Bowtie 
+        executables are required.
+    - name: "--chipseq_peak_file"
+      type: file
+      must_exist: true
+      description: |
+        Full path to a ChIP-seq peak file in ENCODE's narrowPeak, i.e. BED6+4, format. This file is used 
+        when running prior-enhanced RSEM in the default two-partition model. It partitions isoforms by 
+        whether they have ChIP-seq overlapping with their transcription start site region or not. Each 
+        partition will have its own prior parameter learned from a training set. This file can be either 
+        gzipped or ungzipped.
+    - name: "--chipseq_target_read_files"
+      type: file
+      must_exist: true
+      description: |
+        Comma-separated full path of FASTQ read file(s) for ChIP-seq target. This option is used when running 
+        prior-enhanced RSEM. It provides information to calculate ChIP-seq peaks and signals. The file(s) 
+        can be either ungzipped or gzipped with a suffix '.gz' or '.gzip'. The options '--bowtie_path <path>' 
+        and '--chipseq_control_read_files <string>' must be defined when this option is specified.
+    - name: "--chipseq_control_read_files"
+      type: file
+      must_exist: true
+      description: |
+        Comma-separated full path of FASTQ read file(s) for ChIP-seq conrol. This option is used when running 
+        prior-enhanced RSEM. It provides information to call ChIP-seq peaks. The file(s) can be either 
+        ungzipped or gzipped with a suffix '.gz' or '.gzip'. The options '--bowtie_path <path>' and 
+        '--chipseq_target_read_files <string>' must be defined when this option is specified.
+    - name: "--chipseq_read_files_multi_targets"
+      type: file
+      must_exist: true
+      description: |
+        Comma-separated full path of FASTQ read files for multiple ChIP-seq targets. This option is used when 
+        running prior-enhanced RSEM, where prior is learned from multiple complementary data sets. It provides 
+        information to calculate ChIP-seq signals. All files can be either ungzipped or gzipped with a suffix 
+        '.gz' or '.gzip'. When this option is specified, the option '--bowtie_path <path>' must be defined and 
+        the option '--partition_model <string>' will be set to 'cmb_lgt' automatically.
+    - name: "--chipseq_bed_files_multi_targets"
+      type: file
+      must_exist: true
+      description: |
+        Comma-separated full path of BED files for multiple ChIP-seq targets. This option is used when running 
+        prior-enhanced RSEM, where prior is learned from multiple complementary data sets. It provides information 
+        of ChIP-seq signals and must have at least the first six BED columns. All files can be either ungzipped 
+        or gzipped with a suffix '.gz' or '.gzip'. When this option is specified, the option '--partition_model 
+        <string>' will be set to 'cmb_lgt' automatically.
+    - name: "--cap_stacked_chipseq_reads"
+      type: boolean_true
+      description: |
+        Keep a maximum number of ChIP-seq reads that aligned to the same genomic interval. This option is used 
+        when running prior-enhanced RSEM, where prior is learned from multiple complementary data sets. This 
+        option is only in use when either '--chipseq_read_files_multi_targets <string>' or 
+        '--chipseq_bed_files_multi_targets <string>' is specified.
+    - name: "--n_max_stacked_chipseq_reads"
+      type: integer
+      description: |
+        The maximum number of stacked ChIP-seq reads to keep. This option is used when running prior-enhanced 
+        RSEM, where prior is learned from multiple complementary data sets. This option is only in use when the 
+        option '--cap_stacked_chipseq_reads' is set.
+    - name: "--partition_model"
+      type: string
+      description: |
+        A keyword to specify the partition model used by prior-enhanced RSEM. It must be one of the following 
+        keywords:
+        * pk
+        * pk_lgtnopk
+        * lm3, lm4, lm5, or lm6
+        * nopk_lm2pk, nopk_lm3pk, nopk_lm4pk, or nopk_lm5pk
+        * pk_lm2nopk, pk_lm3nopk, pk_lm4nopk, or pk_lm5nopk
+        * cmb_lgt
+        Parameters for all the above models are learned from a training set. For detailed explanations, please 
+        see prior-enhanced RSEM's paper. (Default: 'pk')
+      example: "pk"
+    
+
+resources:
+  - type: bash_script
+    path: script.sh
+
+test_resources:
+  - type: bash_script
+    path: test.sh
+ 
+engines:
+  - type: docker
+    image: ubuntu:22.04
+    setup:
+    - type: apt
+      packages: 
+        - build-essential 
+        - gcc 
+        - g++ 
+        - make 
+        - wget 
+        - zlib1g-dev 
+        - unzip
+    - type: docker
+      env: 
+        - STAR_VERSION=2.7.11b
+        - RSEM_VERSION=1.3.3
+      run: |
+          apt-get update && \
+          apt-get clean && \
+          wget --no-check-certificate https://github.com/alexdobin/STAR/archive/refs/tags/2.7.11a.zip && \
+          unzip 2.7.11a.zip && \
+          cp STAR-2.7.11a/bin/Linux_x86_64_static/STAR /usr/local/bin  && \
+          cd && \
+          wget --no-check-certificate https://github.com/deweylab/RSEM/archive/refs/tags/v1.3.3.zip && \
+          unzip v1.3.3.zip && \
+          cd RSEM-1.3.3 && \
+          make && \
+          make install
+    - type: docker
+      run: |
+          echo "RSEM: `rsem-calculate-expression --version | sed -e 's/Current version: RSEM v//g'`" > /var/software_versions.txt && \
+          echo "STAR: `STAR --version`" >> /var/software_versions.txt && \
+          echo "bowtie2: `bowtie2 --version | grep -oP '\d+\.\d+\.\d+'`" >> /var/software_versions.txt && \
+          echo "bowtie: `bowtie --version | grep -oP 'bowtie-align-s version \K\d+\.\d+\.\d+'`" >> /var/software_versions.txt && \
+          echo "HISAT2: `hisat2 --version | grep -oP 'hisat2-align-s version \K\d+\.\d+\.\d+'`" >> /var/software_versions.txt
+runners:
+  - type: executable
+  - type: nextflow
+
+
diff --git a/src/rsem/rsem_calculate_expression/help.txt b/src/rsem/rsem_calculate_expression/help.txt
new file mode 100644
index 00000000..edfa3333
--- /dev/null
+++ b/src/rsem/rsem_calculate_expression/help.txt
@@ -0,0 +1,1002 @@
+NAME
+    rsem-calculate-expression - Estimate gene and isoform expression from
+    RNA-Seq data.
+
+SYNOPSIS
+     rsem-calculate-expression [options] upstream_read_file(s) reference_name sample_name 
+     rsem-calculate-expression [options] --paired-end upstream_read_file(s) downstream_read_file(s) reference_name sample_name 
+     rsem-calculate-expression [options] --alignments [--paired-end] input reference_name sample_name
+
+ARGUMENTS
+    upstream_read_files(s)
+        Comma-separated list of files containing single-end reads or
+        upstream reads for paired-end data. By default, these files are
+        assumed to be in FASTQ format. If the --no-qualities option is
+        specified, then FASTA format is expected.
+
+    downstream_read_file(s)
+        Comma-separated list of files containing downstream reads which are
+        paired with the upstream reads. By default, these files are assumed
+        to be in FASTQ format. If the --no-qualities option is specified,
+        then FASTA format is expected.
+
+    input
+        SAM/BAM/CRAM formatted input file. If "-" is specified for the
+        filename, the input is instead assumed to come from standard input.
+        RSEM requires all alignments of the same read group together. For
+        paired-end reads, RSEM also requires the two mates of any alignment
+        be adjacent. In addition, RSEM does not allow the SEQ and QUAL
+        fields to be empty. See Description section for how to make input
+        file obey RSEM's requirements.
+
+    reference_name
+        The name of the reference used. The user must have run
+        'rsem-prepare-reference' with this reference_name before running
+        this program.
+
+    sample_name
+        The name of the sample analyzed. All output files are prefixed by
+        this name (e.g., sample_name.genes.results)
+
+BASIC OPTIONS
+    --paired-end
+        Input reads are paired-end reads. (Default: off)
+
+    --no-qualities
+        Input reads do not contain quality scores. (Default: off)
+
+    --strandedness <none|forward|reverse>
+        This option defines the strandedness of the RNA-Seq reads. It
+        recognizes three values: 'none', 'forward', and 'reverse'. 'none'
+        refers to non-strand-specific protocols. 'forward' means all
+        (upstream) reads are derived from the forward strand. 'reverse'
+        means all (upstream) reads are derived from the reverse strand. If
+        'forward'/'reverse' is set, the '--norc'/'--nofw' Bowtie/Bowtie 2
+        option will also be enabled to avoid aligning reads to the opposite
+        strand. For Illumina TruSeq Stranded protocols, please use
+        'reverse'. (Default: 'none')
+
+    -p/--num-threads <int>
+        Number of threads to use. Both Bowtie/Bowtie2, expression estimation
+        and 'samtools sort' will use this many threads. (Default: 1)
+
+    --alignments
+        Input file contains alignments in SAM/BAM/CRAM format. The exact
+        file format will be determined automatically. (Default: off)
+
+    --fai <file>
+        If the header section of input alignment file does not contain
+        reference sequence information, this option should be turned on.
+        <file> is a FAI format file containing each reference sequence's
+        name and length. Please refer to the SAM official website for the
+        details of FAI format. (Default: off)
+
+    --bowtie2
+        Use Bowtie 2 instead of Bowtie to align reads. Since currently RSEM
+        does not handle indel, local and discordant alignments, the Bowtie2
+        parameters are set in a way to avoid those alignments. In
+        particular, we use options '--sensitive --dpad 0 --gbar 99999999
+        --mp 1,1 --np 1 --score-min L,0,-0.1' by default. The last parameter
+        of '--score-min', '-0.1', is the negative of maximum mismatch rate.
+        This rate can be set by option '--bowtie2-mismatch-rate'. If reads
+        are paired-end, we additionally use options '--no-mixed' and
+        '--no-discordant'. (Default: off)
+
+    --star
+        Use STAR to align reads. Alignment parameters are from ENCODE3's
+        STAR-RSEM pipeline. To save computational time and memory resources,
+        STAR's Output BAM file is unsorted. It is stored in RSEM's temporary
+        directory with name as 'sample_name.bam'. Each STAR job will have
+        its own private copy of the genome in memory. (Default: off)
+
+    --hisat2-hca
+        Use HISAT2 to align reads to the transcriptome according to Human
+        Cell Atlast SMART-Seq2 pipeline. In particular, we use HISAT
+        parameters "-k 10 --secondary --rg-id=$sampleToken --rg
+        SM:$sampleToken --rg LB:$sampleToken --rg PL:ILLUMINA --rg
+        PU:$sampleToken --new-summary --summary-file $sampleName.log
+        --met-file $sampleName.hisat2.met.txt --met 5 --mp 1,1 --np 1
+        --score-min L,0,-0.1 --rdg 99999999,99999999 --rfg 99999999,99999999
+        --no-spliced-alignment --no-softclip --seed 12345". If inputs are
+        paired-end reads, we additionally use parameters "--no-mixed
+        --no-discordant". (Default: off)
+
+    --append-names
+        If gene_name/transcript_name is available, append it to the end of
+        gene_id/transcript_id (separated by '_') in files
+        'sample_name.isoforms.results' and 'sample_name.genes.results'.
+        (Default: off)
+
+    --seed <uint32>
+        Set the seed for the random number generators used in calculating
+        posterior mean estimates and credibility intervals. The seed must be
+        a non-negative 32 bit integer. (Default: off)
+
+    --single-cell-prior
+        By default, RSEM uses Dirichlet(1) as the prior to calculate
+        posterior mean estimates and credibility intervals. However, much
+        less genes are expressed in single cell RNA-Seq data. Thus, if you
+        want to compute posterior mean estimates and/or credibility
+        intervals and you have single-cell RNA-Seq data, you are recommended
+        to turn on this option. Then RSEM will use Dirichlet(0.1) as the
+        prior which encourage the sparsity of the expression levels.
+        (Default: off)
+
+    --calc-pme
+        Run RSEM's collapsed Gibbs sampler to calculate posterior mean
+        estimates. (Default: off)
+
+    --calc-ci
+        Calculate 95% credibility intervals and posterior mean estimates.
+        The credibility level can be changed by setting
+        '--ci-credibility-level'. (Default: off)
+
+    -q/--quiet
+        Suppress the output of logging information. (Default: off)
+
+    -h/--help
+        Show help information.
+
+    --version
+        Show version information.
+
+OUTPUT OPTIONS
+    --sort-bam-by-read-name
+        Sort BAM file aligned under transcript coordidate by read name.
+        Setting this option on will produce deterministic maximum likelihood
+        estimations from independent runs. Note that sorting will take long
+        time and lots of memory. (Default: off)
+
+    --no-bam-output
+        Do not output any BAM file. (Default: off)
+
+    --sampling-for-bam
+        When RSEM generates a BAM file, instead of outputting all alignments
+        a read has with their posterior probabilities, one alignment is
+        sampled according to the posterior probabilities. The sampling
+        procedure includes the alignment to the "noise" transcript, which
+        does not appear in the BAM file. Only the sampled alignment has a
+        weight of 1. All other alignments have weight 0. If the "noise"
+        transcript is sampled, all alignments appeared in the BAM file
+        should have weight 0. (Default: off)
+
+    --output-genome-bam
+        Generate a BAM file, 'sample_name.genome.bam', with alignments
+        mapped to genomic coordinates and annotated with their posterior
+        probabilities. In addition, RSEM will call samtools (included in
+        RSEM package) to sort and index the bam file.
+        'sample_name.genome.sorted.bam' and
+        'sample_name.genome.sorted.bam.bai' will be generated. (Default:
+        off)
+
+    --sort-bam-by-coordinate
+        Sort RSEM generated transcript and genome BAM files by coordinates
+        and build associated indices. (Default: off)
+
+    --sort-bam-memory-per-thread <string>
+        Set the maximum memory per thread that can be used by 'samtools
+        sort'. <string> represents the memory and accepts suffices 'K/M/G'.
+        RSEM will pass <string> to the '-m' option of 'samtools sort'. Note
+        that the default used here is different from the default used by
+        samtools. (Default: 1G)
+
+ALIGNER OPTIONS
+    --seed-length <int>
+        Seed length used by the read aligner. Providing the correct value is
+        important for RSEM. If RSEM runs Bowtie, it uses this value for
+        Bowtie's seed length parameter. Any read with its or at least one of
+        its mates' (for paired-end reads) length less than this value will
+        be ignored. If the references are not added poly(A) tails, the
+        minimum allowed value is 5, otherwise, the minimum allowed value is
+        25. Note that this script will only check if the value >= 5 and give
+        a warning message if the value < 25 but >= 5. (Default: 25)
+
+    --phred33-quals
+        Input quality scores are encoded as Phred+33. This option is used by
+        Bowtie, Bowtie 2 and HISAT2. (Default: on)
+
+    --phred64-quals
+        Input quality scores are encoded as Phred+64 (default for GA
+        Pipeline ver. >= 1.3). This option is used by Bowtie, Bowtie 2 and
+        HISAT2. (Default: off)
+
+    --solexa-quals
+        Input quality scores are solexa encoded (from GA Pipeline ver. <
+        1.3). This option is used by Bowtie, Bowtie 2 and HISAT2. (Default:
+        off)
+
+    --bowtie-path <path>
+        The path to the Bowtie executables. (Default: the path to the Bowtie
+        executables is assumed to be in the user's PATH environment
+        variable)
+
+    --bowtie-n <int>
+        (Bowtie parameter) max # of mismatches in the seed. (Range: 0-3,
+        Default: 2)
+
+    --bowtie-e <int>
+        (Bowtie parameter) max sum of mismatch quality scores across the
+        alignment. (Default: 99999999)
+
+    --bowtie-m <int>
+        (Bowtie parameter) suppress all alignments for a read if > <int>
+        valid alignments exist. (Default: 200)
+
+    --bowtie-chunkmbs <int>
+        (Bowtie parameter) memory allocated for best first alignment
+        calculation (Default: 0 - use Bowtie's default)
+
+    --bowtie2-path <path>
+        (Bowtie 2 parameter) The path to the Bowtie 2 executables. (Default:
+        the path to the Bowtie 2 executables is assumed to be in the user's
+        PATH environment variable)
+
+    --bowtie2-mismatch-rate <double>
+        (Bowtie 2 parameter) The maximum mismatch rate allowed. (Default:
+        0.1)
+
+    --bowtie2-k <int>
+        (Bowtie 2 parameter) Find up to <int> alignments per read. (Default:
+        200)
+
+    --bowtie2-sensitivity-level <string>
+        (Bowtie 2 parameter) Set Bowtie 2's preset options in --end-to-end
+        mode. This option controls how hard Bowtie 2 tries to find
+        alignments. <string> must be one of "very_fast", "fast", "sensitive"
+        and "very_sensitive". The four candidates correspond to Bowtie 2's
+        "--very-fast", "--fast", "--sensitive" and "--very-sensitive"
+        options. (Default: "sensitive" - use Bowtie 2's default)
+
+    --star-path <path>
+        The path to STAR's executable. (Default: the path to STAR executable
+        is assumed to be in user's PATH environment variable)
+
+    --star-gzipped-read-file
+        (STAR parameter) Input read file(s) is compressed by gzip. (Default:
+        off)
+
+    --star-bzipped-read-file
+        (STAR parameter) Input read file(s) is compressed by bzip2.
+        (Default: off)
+
+    --star-output-genome-bam
+        (STAR parameter) Save the BAM file from STAR alignment under genomic
+        coordinate to 'sample_name.STAR.genome.bam'. This file is NOT sorted
+        by genomic coordinate. In this file, according to STAR's manual,
+        'paired ends of an alignment are always adjacent, and multiple
+        alignments of a read are adjacent as well'. (Default: off)
+
+    --hisat2-path <path>
+        The path to HISAT2's executable. (Default: the path to HISAT2
+        executable is assumed to be in user's PATH environment variable)
+
+ADVANCED OPTIONS
+    --tag <string>
+        The name of the optional field used in the SAM input for identifying
+        a read with too many valid alignments. The field should have the
+        format <tagName>:i:<value>, where a <value> bigger than 0 indicates
+        a read with too many alignments. (Default: "")
+
+    --fragment-length-min <int>
+        Minimum read/insert length allowed. This is also the value for the
+        Bowtie/Bowtie2 -I option. (Default: 1)
+
+    --fragment-length-max <int>
+        Maximum read/insert length allowed. This is also the value for the
+        Bowtie/Bowtie 2 -X option. (Default: 1000)
+
+    --fragment-length-mean <double>
+        (single-end data only) The mean of the fragment length distribution,
+        which is assumed to be a Gaussian. (Default: -1, which disables use
+        of the fragment length distribution)
+
+    --fragment-length-sd <double>
+        (single-end data only) The standard deviation of the fragment length
+        distribution, which is assumed to be a Gaussian. (Default: 0, which
+        assumes that all fragments are of the same length, given by the
+        rounded value of --fragment-length-mean)
+
+    --estimate-rspd
+        Set this option if you want to estimate the read start position
+        distribution (RSPD) from data. Otherwise, RSEM will use a uniform
+        RSPD. (Default: off)
+
+    --num-rspd-bins <int>
+        Number of bins in the RSPD. Only relevant when '--estimate-rspd' is
+        specified. Use of the default setting is recommended. (Default: 20)
+
+    --gibbs-burnin <int>
+        The number of burn-in rounds for RSEM's Gibbs sampler. Each round
+        passes over the entire data set once. If RSEM can use multiple
+        threads, multiple Gibbs samplers will start at the same time and all
+        samplers share the same burn-in number. (Default: 200)
+
+    --gibbs-number-of-samples <int>
+        The total number of count vectors RSEM will collect from its Gibbs
+        samplers. (Default: 1000)
+
+    --gibbs-sampling-gap <int>
+        The number of rounds between two succinct count vectors RSEM
+        collects. If the count vector after round N is collected, the count
+        vector after round N + <int> will also be collected. (Default: 1)
+
+    --ci-credibility-level <double>
+        The credibility level for credibility intervals. (Default: 0.95)
+
+    --ci-memory <int>
+        Maximum size (in memory, MB) of the auxiliary buffer used for
+        computing credibility intervals (CI). (Default: 1024)
+
+    --ci-number-of-samples-per-count-vector <int>
+        The number of read generating probability vectors sampled per
+        sampled count vector. The crebility intervals are calculated by
+        first sampling P(C | D) and then sampling P(Theta | C) for each
+        sampled count vector. This option controls how many Theta vectors
+        are sampled per sampled count vector. (Default: 50)
+
+    --keep-intermediate-files
+        Keep temporary files generated by RSEM. RSEM creates a temporary
+        directory, 'sample_name.temp', into which it puts all intermediate
+        output files. If this directory already exists, RSEM overwrites all
+        files generated by previous RSEM runs inside of it. By default,
+        after RSEM finishes, the temporary directory is deleted. Set this
+        option to prevent the deletion of this directory and the
+        intermediate files inside of it. (Default: off)
+
+    --temporary-folder <string>
+        Set where to put the temporary files generated by RSEM. If the
+        folder specified does not exist, RSEM will try to create it.
+        (Default: sample_name.temp)
+
+    --time
+        Output time consumed by each step of RSEM to 'sample_name.time'.
+        (Default: off)
+
+PRIOR-ENHANCED RSEM OPTIONS
+    --run-pRSEM
+        Running prior-enhanced RSEM (pRSEM). Prior parameters, i.e.
+        isoform's initial pseudo-count for RSEM's Gibbs sampling, will be
+        learned from input RNA-seq data and an external data set. When pRSEM
+        needs and only needs ChIP-seq peak information to partition isoforms
+        (e.g. in pRSEM's default partition model), either ChIP-seq peak file
+        (with the '--chipseq-peak-file' option) or ChIP-seq FASTQ files for
+        target and input and the path for Bowtie executables are required
+        (with the '--chipseq-target-read-files <string>',
+        '--chipseq-control-read-files <string>', and '--bowtie-path <path>
+        options), otherwise, ChIP-seq FASTQ files for target and control and
+        the path to Bowtie executables are required. (Default: off)
+
+    --chipseq-peak-file <string>
+        Full path to a ChIP-seq peak file in ENCODE's narrowPeak, i.e.
+        BED6+4, format. This file is used when running prior-enhanced RSEM
+        in the default two-partition model. It partitions isoforms by
+        whether they have ChIP-seq overlapping with their transcription
+        start site region or not. Each partition will have its own prior
+        parameter learned from a training set. This file can be either
+        gzipped or ungzipped. (Default: "")
+
+    --chipseq-target-read-files <string>
+        Comma-separated full path of FASTQ read file(s) for ChIP-seq target.
+        This option is used when running prior-enhanced RSEM. It provides
+        information to calculate ChIP-seq peaks and signals. The file(s) can
+        be either ungzipped or gzipped with a suffix '.gz' or '.gzip'. The
+        options '--bowtie-path <path>' and '--chipseq-control-read-files
+        <string>' must be defined when this option is specified. (Default:
+        "")
+
+    --chipseq-control-read-files <string>
+        Comma-separated full path of FASTQ read file(s) for ChIP-seq conrol.
+        This option is used when running prior-enhanced RSEM. It provides
+        information to call ChIP-seq peaks. The file(s) can be either
+        ungzipped or gzipped with a suffix '.gz' or '.gzip'. The options
+        '--bowtie-path <path>' and '--chipseq-target-read-files <string>'
+        must be defined when this option is specified. (Default: "")
+
+    --chipseq-read-files-multi-targets <string>
+        Comma-separated full path of FASTQ read files for multiple ChIP-seq
+        targets. This option is used when running prior-enhanced RSEM, where
+        prior is learned from multiple complementary data sets. It provides
+        information to calculate ChIP-seq signals. All files can be either
+        ungzipped or gzipped with a suffix '.gz' or '.gzip'. When this
+        option is specified, the option '--bowtie-path <path>' must be
+        defined and the option '--partition-model <string>' will be set to
+        'cmb_lgt' automatically. (Default: "")
+
+    --chipseq-bed-files-multi-targets <string>
+        Comma-separated full path of BED files for multiple ChIP-seq
+        targets. This option is used when running prior-enhanced RSEM, where
+        prior is learned from multiple complementary data sets. It provides
+        information of ChIP-seq signals and must have at least the first six
+        BED columns. All files can be either ungzipped or gzipped with a
+        suffix '.gz' or '.gzip'. When this option is specified, the option
+        '--partition-model <string>' will be set to 'cmb_lgt' automatically.
+        (Default: "")
+
+    --cap-stacked-chipseq-reads
+        Keep a maximum number of ChIP-seq reads that aligned to the same
+        genomic interval. This option is used when running prior-enhanced
+        RSEM, where prior is learned from multiple complementary data sets.
+        This option is only in use when either
+        '--chipseq-read-files-multi-targets <string>' or
+        '--chipseq-bed-files-multi-targets <string>' is specified. (Default:
+        off)
+
+    --n-max-stacked-chipseq-reads <int>
+        The maximum number of stacked ChIP-seq reads to keep. This option is
+        used when running prior-enhanced RSEM, where prior is learned from
+        multiple complementary data sets. This option is only in use when
+        the option '--cap-stacked-chipseq-reads' is set. (Default: 5)
+
+    --partition-model <string>
+        A keyword to specify the partition model used by prior-enhanced
+        RSEM. It must be one of the following keywords:
+
+        - pk
+          Partitioned by whether an isoform has a ChIP-seq peak overlapping
+          with its transcription start site (TSS) region. The TSS region is
+          defined as [TSS-500bp, TSS+500bp]. For simplicity, we refer this
+          type of peak as 'TSS peak' when explaining other keywords.
+
+        - pk_lgtnopk
+          First partitioned by TSS peak. Then, for isoforms in the 'no TSS
+          peak' set, a logistic model is employed to further classify them
+          into two partitions.
+
+        - lm3, lm4, lm5, or lm6
+          Based on their ChIP-seq signals, isoforms are classified into 3,
+          4, 5, or 6 partitions by a linear regression model.
+
+        - nopk_lm2pk, nopk_lm3pk, nopk_lm4pk, or nopk_lm5pk
+          First partitioned by TSS peak. Then, for isoforms in the 'with TSS
+          peak' set, a linear regression model is employed to further
+          classify them into 2, 3, 4, or 5 partitions.
+
+        - pk_lm2nopk, pk_lm3nopk, pk_lm4nopk, or pk_lm5nopk
+          First partitioned by TSS peak. Then, for isoforms in the 'no TSS
+          peak' set, a linear regression model is employed to further
+          classify them into 2, 3, 4, or 5 partitions.
+
+        - cmb_lgt
+          Using a logistic regression to combine TSS signals from multiple
+          complementary data sets and partition training set isoform into
+          'expressed' and 'not expressed'. This partition model is only in
+          use when either '--chipseq-read-files-multi-targets <string>' or
+          '--chipseq-bed-files-multi-targets <string> is specified.
+
+        Parameters for all the above models are learned from a training set.
+        For detailed explanations, please see prior-enhanced RSEM's paper.
+        (Default: 'pk')
+
+DEPRECATED OPTIONS
+        The options in this section are deprecated. They are here only for
+        compatibility reasons and may be removed in future releases.
+
+    --sam
+        Inputs are alignments in SAM format. (Default: off)
+
+    --bam
+        Inputs are alignments in BAM format. (Default: off)
+
+    --strand-specific
+        Equivalent to '--strandedness forward'. (Default: off)
+
+    --forward-prob <double>
+        Probability of generating a read from the forward strand of a
+        transcript. Set to 1 for a strand-specific protocol where all
+        (upstream) reads are derived from the forward strand, 0 for a
+        strand-specific protocol where all (upstream) read are derived from
+        the reverse strand, or 0.5 for a non-strand-specific protocol.
+        (Default: off)
+
+DESCRIPTION
+    In its default mode, this program aligns input reads against a reference
+    transcriptome with Bowtie and calculates expression values using the
+    alignments. RSEM assumes the data are single-end reads with quality
+    scores, unless the '--paired-end' or '--no-qualities' options are
+    specified. Alternatively, users can use STAR to align reads using the
+    '--star' option. RSEM has provided options in 'rsem-prepare-reference'
+    to prepare STAR's genome indices. Users may use an alternative aligner
+    by specifying '--alignments', and providing an alignment file in
+    SAM/BAM/CRAM format. However, users should make sure that they align
+    against the indices generated by 'rsem-prepare-reference' and the
+    alignment file satisfies the requirements mentioned in ARGUMENTS
+    section.
+
+    One simple way to make the alignment file satisfying RSEM's requirements
+    is to use the 'convert-sam-for-rsem' script. This script accepts
+    SAM/BAM/CRAM files as input and outputs a BAM file. For example, type
+    the following command to convert a SAM file, 'input.sam', to a
+    ready-for-use BAM file, 'input_for_rsem.bam':
+
+      convert-sam-for-rsem input.sam input_for_rsem
+
+    For details, please refer to 'convert-sam-for-rsem's documentation page.
+
+NOTES
+    1. Users must run 'rsem-prepare-reference' with the appropriate
+    reference before using this program.
+
+    2. For single-end data, it is strongly recommended that the user provide
+    the fragment length distribution parameters (--fragment-length-mean and
+    --fragment-length-sd). For paired-end data, RSEM will automatically
+    learn a fragment length distribution from the data.
+
+    3. Some aligner parameters have default values different from their
+    original settings.
+
+    4. With the '--calc-pme' option, posterior mean estimates will be
+    calculated in addition to maximum likelihood estimates.
+
+    5. With the '--calc-ci' option, 95% credibility intervals and posterior
+    mean estimates will be calculated in addition to maximum likelihood
+    estimates.
+
+    6. The temporary directory and all intermediate files will be removed
+    when RSEM finishes unless '--keep-intermediate-files' is specified.
+
+    With the '--run-pRSEM' option and associated options (see section
+    'PRIOR-ENHANCED RSEM OPTIONS' above for details), prior-enhanced RSEM
+    will be running. Prior parameters will be learned from supplied external
+    data set(s) and assigned as initial pseudo-counts for isoforms in the
+    corresponding partition for Gibbs sampling.
+
+OUTPUT
+    sample_name.isoforms.results
+        File containing isoform level expression estimates. The first line
+        contains column names separated by the tab character. The format of
+        each line in the rest of this file is:
+
+        transcript_id gene_id length effective_length expected_count TPM
+        FPKM IsoPct [posterior_mean_count
+        posterior_standard_deviation_of_count pme_TPM pme_FPKM
+        IsoPct_from_pme_TPM TPM_ci_lower_bound TPM_ci_upper_bound
+        TPM_coefficient_of_quartile_variation FPKM_ci_lower_bound
+        FPKM_ci_upper_bound FPKM_coefficient_of_quartile_variation]
+
+        Fields are separated by the tab character. Fields within "[]" are
+        optional. They will not be presented if neither '--calc-pme' nor
+        '--calc-ci' is set.
+
+        'transcript_id' is the transcript name of this transcript. 'gene_id'
+        is the gene name of the gene which this transcript belongs to
+        (denote this gene as its parent gene). If no gene information is
+        provided, 'gene_id' and 'transcript_id' are the same.
+
+        'length' is this transcript's sequence length (poly(A) tail is not
+        counted). 'effective_length' counts only the positions that can
+        generate a valid fragment. If no poly(A) tail is added,
+        'effective_length' is equal to transcript length - mean fragment
+        length + 1. If one transcript's effective length is less than 1,
+        this transcript's both effective length and abundance estimates are
+        set to 0.
+
+        'expected_count' is the sum of the posterior probability of each
+        read comes from this transcript over all reads. Because 1) each read
+        aligning to this transcript has a probability of being generated
+        from background noise; 2) RSEM may filter some alignable low quality
+        reads, the sum of expected counts for all transcript are generally
+        less than the total number of reads aligned.
+
+        'TPM' stands for Transcripts Per Million. It is a relative measure
+        of transcript abundance. The sum of all transcripts' TPM is 1
+        million. 'FPKM' stands for Fragments Per Kilobase of transcript per
+        Million mapped reads. It is another relative measure of transcript
+        abundance. If we define l_bar be the mean transcript length in a
+        sample, which can be calculated as
+
+        l_bar = \sum_i TPM_i / 10^6 * effective_length_i (i goes through
+        every transcript),
+
+        the following equation is hold:
+
+        FPKM_i = 10^3 / l_bar * TPM_i.
+
+        We can see that the sum of FPKM is not a constant across samples.
+
+        'IsoPct' stands for isoform percentage. It is the percentage of this
+        transcript's abandunce over its parent gene's abandunce. If its
+        parent gene has only one isoform or the gene information is not
+        provided, this field will be set to 100.
+
+        'posterior_mean_count', 'pme_TPM', 'pme_FPKM' are posterior mean
+        estimates calculated by RSEM's Gibbs sampler.
+        'posterior_standard_deviation_of_count' is the posterior standard
+        deviation of counts. 'IsoPct_from_pme_TPM' is the isoform percentage
+        calculated from 'pme_TPM' values.
+
+        'TPM_ci_lower_bound', 'TPM_ci_upper_bound', 'FPKM_ci_lower_bound'
+        and 'FPKM_ci_upper_bound' are lower(l) and upper(u) bounds of 95%
+        credibility intervals for TPM and FPKM values. The bounds are
+        inclusive (i.e. [l, u]).
+
+        'TPM_coefficient_of_quartile_variation' and
+        'FPKM_coefficient_of_quartile_variation' are coefficients of
+        quartile variation (CQV) for TPM and FPKM values. CQV is a robust
+        way of measuring the ratio between the standard deviation and the
+        mean. It is defined as
+
+        CQV := (Q3 - Q1) / (Q3 + Q1),
+
+        where Q1 and Q3 are the first and third quartiles.
+
+    sample_name.genes.results
+        File containing gene level expression estimates. The first line
+        contains column names separated by the tab character. The format of
+        each line in the rest of this file is:
+
+        gene_id transcript_id(s) length effective_length expected_count TPM
+        FPKM [posterior_mean_count posterior_standard_deviation_of_count
+        pme_TPM pme_FPKM TPM_ci_lower_bound TPM_ci_upper_bound
+        TPM_coefficient_of_quartile_variation FPKM_ci_lower_bound
+        FPKM_ci_upper_bound FPKM_coefficient_of_quartile_variation]
+
+        Fields are separated by the tab character. Fields within "[]" are
+        optional. They will not be presented if neither '--calc-pme' nor
+        '--calc-ci' is set.
+
+        'transcript_id(s)' is a comma-separated list of transcript_ids
+        belonging to this gene. If no gene information is provided,
+        'gene_id' and 'transcript_id(s)' are identical (the
+        'transcript_id').
+
+        A gene's 'length' and 'effective_length' are defined as the weighted
+        average of its transcripts' lengths and effective lengths (weighted
+        by 'IsoPct'). A gene's abundance estimates are just the sum of its
+        transcripts' abundance estimates.
+
+    sample_name.alleles.results
+        Only generated when the RSEM references are built with
+        allele-specific transcripts.
+
+        This file contains allele level expression estimates for
+        allele-specific expression calculation. The first line contains
+        column names separated by the tab character. The format of each line
+        in the rest of this file is:
+
+        allele_id transcript_id gene_id length effective_length
+        expected_count TPM FPKM AlleleIsoPct AlleleGenePct
+        [posterior_mean_count posterior_standard_deviation_of_count pme_TPM
+        pme_FPKM AlleleIsoPct_from_pme_TPM AlleleGenePct_from_pme_TPM
+        TPM_ci_lower_bound TPM_ci_upper_bound
+        TPM_coefficient_of_quartile_variation FPKM_ci_lower_bound
+        FPKM_ci_upper_bound FPKM_coefficient_of_quartile_variation]
+
+        Fields are separated by the tab character. Fields within "[]" are
+        optional. They will not be presented if neither '--calc-pme' nor
+        '--calc-ci' is set.
+
+        'allele_id' is the allele-specific name of this allele-specific
+        transcript.
+
+        'AlleleIsoPct' stands for allele-specific percentage on isoform
+        level. It is the percentage of this allele-specific transcript's
+        abundance over its parent transcript's abundance. If its parent
+        transcript has only one allele variant form, this field will be set
+        to 100.
+
+        'AlleleGenePct' stands for allele-specific percentage on gene level.
+        It is the percentage of this allele-specific transcript's abundance
+        over its parent gene's abundance.
+
+        'AlleleIsoPct_from_pme_TPM' and 'AlleleGenePct_from_pme_TPM' have
+        similar meanings. They are calculated based on posterior mean
+        estimates.
+
+        Please note that if this file is present, the fields 'length' and
+        'effective_length' in 'sample_name.isoforms.results' should be
+        interpreted similarly as the corresponding definitions in
+        'sample_name.genes.results'.
+
+    sample_name.transcript.bam
+        Only generated when --no-bam-output is not specified.
+
+        'sample_name.transcript.bam' is a BAM-formatted file of read
+        alignments in transcript coordinates. The MAPQ field of each
+        alignment is set to min(100, floor(-10 * log10(1.0 - w) + 0.5)),
+        where w is the posterior probability of that alignment being the
+        true mapping of a read. In addition, RSEM pads a new tag ZW:f:value,
+        where value is a single precision floating number representing the
+        posterior probability. Because this file contains all alignment
+        lines produced by bowtie or user-specified aligners, it can also be
+        used as a replacement of the aligner generated BAM/SAM file.
+
+    sample_name.transcript.sorted.bam and
+    sample_name.transcript.sorted.bam.bai
+        Only generated when --no-bam-output is not specified and
+        --sort-bam-by-coordinate is specified.
+
+        'sample_name.transcript.sorted.bam' and
+        'sample_name.transcript.sorted.bam.bai' are the sorted BAM file and
+        indices generated by samtools (included in RSEM package).
+
+    sample_name.genome.bam
+        Only generated when --no-bam-output is not specified and
+        --output-genome-bam is specified.
+
+        'sample_name.genome.bam' is a BAM-formatted file of read alignments
+        in genomic coordinates. Alignments of reads that have identical
+        genomic coordinates (i.e., alignments to different isoforms that
+        share the same genomic region) are collapsed into one alignment. The
+        MAPQ field of each alignment is set to min(100, floor(-10 *
+        log10(1.0 - w) + 0.5)), where w is the posterior probability of that
+        alignment being the true mapping of a read. In addition, RSEM pads a
+        new tag ZW:f:value, where value is a single precision floating
+        number representing the posterior probability. If an alignment is
+        spliced, a XS:A:value tag is also added, where value is either '+'
+        or '-' indicating the strand of the transcript it aligns to.
+
+    sample_name.genome.sorted.bam and sample_name.genome.sorted.bam.bai
+        Only generated when --no-bam-output is not specified, and
+        --sort-bam-by-coordinate and --output-genome-bam are specified.
+
+        'sample_name.genome.sorted.bam' and
+        'sample_name.genome.sorted.bam.bai' are the sorted BAM file and
+        indices generated by samtools (included in RSEM package).
+
+    sample_name.time
+        Only generated when --time is specified.
+
+        It contains time (in seconds) consumed by aligning reads, estimating
+        expression levels and calculating credibility intervals.
+
+    sample_name.log
+        Only generated when --alignments is not specified.
+
+        It captures alignment statistics outputted from the user-specified
+        aligner.
+
+    sample_name.stat
+        This is a folder instead of a file. All model related statistics are
+        stored in this folder. Use 'rsem-plot-model' can generate plots
+        using this folder.
+
+        'sample_name.stat/sample_name.cnt' contains alignment statistics.
+        The format and meanings of each field are described in
+        'cnt_file_description.txt' under RSEM directory.
+
+        'sample_name.stat/sample_name.model' stores RNA-Seq model parameters
+        learned from the data. The format and meanings of each filed of this
+        file are described in 'model_file_description.txt' under RSEM
+        directory.
+
+        The following four output files will be generated only by
+        prior-enhanced RSEM
+
+        - 'sample_name.stat/sample_name_prsem.all_tr_features'
+          It stores isofrom features for deriving and assigning pRSEM prior.
+          The first line is a header and the rest is one isoform per line.
+          The description for each column is:
+
+          * trid: transcript ID from input annotation
+
+          * geneid: gene ID from input anntation
+
+          * chrom: isoform's chromosome name
+
+          * strand: isoform's strand name
+
+          * start: isoform's end with the lowest genomic loci
+
+          * end: isoform's end with the highest genomic loci
+
+          * tss_mpp: average mappability of [TSS-500bp, TSS+500bp], where
+            TSS is isoform's transcription start site, i.e. 5'-end
+
+          * body_mpp: average mappability of (TSS+500bp, TES-500bp), where
+            TES is isoform's transcription end site, i.e. 3'-end
+
+          * tes_mpp: average mappability of [TES-500bp, TES+500bp]
+
+          * pme_count: isoform's fragment or read count from RSEM's
+            posterior mean estimates
+
+          * tss: isoform's TSS loci
+
+          * tss_pk: equal to 1 if isoform's [TSS-500bp, TSS+500bp] region
+            overlaps with a RNA Pol II peak; 0 otherwise
+
+          * is_training: equal to 1 if isoform is in the training set where
+            Pol II prior is learned; 0 otherwise
+
+        - 'sample_name.stat/sample_name_prsem.all_tr_prior'
+          It stores prior parameters for every isoform. This file does not
+          have a header. Each line contains a prior parameter and an
+          isoform's transcript ID delimited by ` # `.
+
+        - 'sample_name.stat/sample_name_uniform_prior_1.isoforms.results'
+          RSEM's posterior mean estimates on the isoform level with an
+          initial pseudo-count of one for every isoform. It is in the same
+          format as the 'sample_name.isoforms.results'.
+
+        - 'sample_name.stat/sample_name_uniform_prior_1.genes.results'
+          RSEM's posterior mean estimates on the gene level with an initial
+          pseudo-count of one for every isoform. It is in the same format as
+          the 'sample_name.genes.results'.
+
+        When learning prior from multiple external data sets in
+        prior-enhanced RSEM, two additional output files will be generated.
+
+        - 'sample_name.stat/sample_name.pval_LL'
+          It stores a p-value and a log-likelihood. The p-value indicates
+          whether the combination of multiple complementary data sets is
+          informative for RNA-seq quantification. The log-likelihood shows
+          how well pRSEM's Dirichlet-multinomial model fits the read counts
+          of partitioned training set isoforms.
+
+        - 'sample_name.stat/sample_name.lgt_mdl.RData'
+          It stores an R object named 'glmmdl', which is a logistic
+          regression model on the training set isoforms and multiple
+          external data sets.
+
+        In addition, extra columns will be added to
+        'sample_name.stat/all_tr_features'
+
+        * is_expr: equal to 1 if isoform has an abundance >= 1 TPM and a
+          non-zero read count from RSEM's posterior mean estimates; 0
+          otherwise
+
+        * "$external_data_set_basename": log10 of external data's signal at
+          [TSS-500, TSS+500]. Signal is the number of reads aligned within
+          that interval and normalized to RPKM by read depth and interval
+          length. It will be set to -4 if no read aligned to that interval.
+
+          There are multiple columns like this one, where each represents an
+          external data set.
+
+        * prd_expr_prob: predicted probability from logistic regression
+          model on whether this isoform is expressed or not. A probability
+          higher than 0.5 is considered as expressed
+
+        * partition: group index, to which this isoforms is partitioned
+
+        * prior: prior parameter for this isoform
+
+EXAMPLES
+    Assume the path to the bowtie executables is in the user's PATH
+    environment variable. Reference files are under '/ref' with name
+    'mouse_125'.
+
+    1) '/data/mmliver.fq', single-end reads with quality scores. Quality
+    scores are encoded as for 'GA pipeline version >= 1.3'. We want to use 8
+    threads and generate a genome BAM file. In addition, we want to append
+    gene/transcript names to the result files:
+
+     rsem-calculate-expression --phred64-quals \
+                               -p 8 \
+                               --append-names \
+                               --output-genome-bam \
+                               /data/mmliver.fq \
+                               /ref/mouse_125 \
+                               mmliver_single_quals
+
+    2) '/data/mmliver_1.fq' and '/data/mmliver_2.fq', stranded paired-end
+    reads with quality scores. Suppose the library is prepared using TruSeq
+    Stranded Kit, which means the first mate should map to the reverse
+    strand. Quality scores are in SANGER format. We want to use 8 threads
+    and do not generate a genome BAM file:
+
+     rsem-calculate-expression -p 8 \
+                               --paired-end \
+                               --strandedness reverse \
+                               /data/mmliver_1.fq \
+                               /data/mmliver_2.fq \
+                               /ref/mouse_125 \
+                               mmliver_paired_end_quals
+
+    3) '/data/mmliver.fa', single-end reads without quality scores. We want
+    to use 8 threads:
+
+     rsem-calculate-expression -p 8 \
+                               --no-qualities \
+                               /data/mmliver.fa \
+                               /ref/mouse_125 \
+                               mmliver_single_without_quals
+
+    4) Data are the same as 1). This time we assume the bowtie executables
+    are under '/sw/bowtie'. We want to take a fragment length distribution
+    into consideration. We set the fragment length mean to 150 and the
+    standard deviation to 35. In addition to a BAM file, we also want to
+    generate credibility intervals. We allow RSEM to use 1GB of memory for
+    CI calculation:
+
+     rsem-calculate-expression --bowtie-path /sw/bowtie \
+                               --phred64-quals \
+                               --fragment-length-mean 150.0 \
+                               --fragment-length-sd 35.0 \
+                               -p 8 \
+                               --output-genome-bam \
+                               --calc-ci \
+                               --ci-memory 1024 \
+                               /data/mmliver.fq \
+                               /ref/mouse_125 \
+                               mmliver_single_quals
+
+    5) '/data/mmliver_paired_end_quals.bam', BAM-formatted alignments for
+    paired-end reads with quality scores. We want to use 8 threads:
+
+     rsem-calculate-expression --paired-end \
+                               --alignments \
+                               -p 8 \
+                               /data/mmliver_paired_end_quals.bam \
+                               /ref/mouse_125 \
+                               mmliver_paired_end_quals
+
+    6) '/data/mmliver_1.fq.gz' and '/data/mmliver_2.fq.gz', paired-end reads
+    with quality scores and read files are compressed by gzip. We want to
+    use STAR to aligned reads and assume STAR executable is '/sw/STAR'.
+    Suppose we want to use 8 threads and do not generate a genome BAM file:
+
+     rsem-calculate-expression --paired-end \
+                               --star \
+                               --star-path /sw/STAR \
+                               --gzipped-read-file \
+                               --paired-end \
+                               -p 8 \
+                               /data/mmliver_1.fq.gz \
+                               /data/mmliver_2.fq.gz \
+                               /ref/mouse_125 \
+                               mmliver_paired_end_quals
+
+    7) In the above example, suppose we want to run prior-enhanced RSEM
+    instead. Assuming we want to learn priors from a ChIP-seq peak file
+    '/data/mmlive.narrowPeak.gz':
+
+     rsem-calculate-expression --star \
+                               --star-path /sw/STAR \
+                               --gzipped-read-file \
+                               --paired-end \
+                               --calc-pme \
+                               --run-pRSEM \
+                               --chipseq-peak-file /data/mmliver.narrowPeak.gz \
+                               -p 8 \
+                               /data/mmliver_1.fq.gz \
+                               /data/mmliver_2.fq.gz \
+                               /ref/mouse_125 \
+                               mmliver_paired_end_quals
+
+    8) Similar to the example in 7), suppose we want to use the partition
+    model 'pk_lm2nopk' (partitioning isoforms by Pol II TSS peak first and
+    then partitioning 'no TSS peak' isoforms into two bins by a linear
+    regression model), and we want to partition isoforms by RNA Pol II's
+    ChIP-seq read files '/data/mmliver_PolIIRep1.fq.gz' and
+    '/data/mmliver_PolIIRep2.fq.gz', and the control ChIP-seq read files
+    '/data/mmliver_ChIPseqCtrl.fq.gz'. Also, assuming Bowtie's executables
+    are under '/sw/bowtie/':
+
+     rsem-calculate-expression --star \
+                               --star-path /sw/STAR \
+                               --gzipped-read-file \
+                               --paired-end \
+                               --calc-pme \
+                               --run-pRSEM \
+                               --chipseq-target-read-files /data/mmliver_PolIIRep1.fq.gz,/data/mmliver_PolIIRep2.fq.gz \
+                               --chipseq-control-read-files /data/mmliver_ChIPseqCtrl.fq.gz \
+                               --partition-model pk_lm2nopk \
+                               --bowtie-path /sw/bowtie \
+                               -p 8 \
+                               /data/mmliver_1.fq.gz \
+                               /data/mmliver_2.fq.gz \
+                               /ref/mouse_125 \
+                               mmliver_paired_end_quals
+
+    9) Similar to the example in 8), suppose we want to derive prior from
+    four histone modification ChIP-seq read data sets:
+    '/data/H3K27Ac.fastq.gz', '/data/H3K4me1.fastq.gz',
+    '/data/H3K4me2.fastq.gz', and '/data/H3K4me3.fastq.gz'. Also, assuming
+    Bowtie's executables are under '/sw/bowtie/':
+
+     rsem-calculate-expression --star \
+                               --star-path /sw/STAR \
+                               --gzipped-read-file \
+                               --paired-end \
+                               --calc-pme \
+                               --run-pRSEM \
+                               --partition-model cmb_lgt \
+                               --chipseq-read-files-multi-targets /data/H3K27Ac.fastq.gz,/data/H3K4me1.fastq.gz,/data/H3K4me2.fastq.gz,/data/H3K4me3.fastq.gz \
+                               --bowtie-path /sw/bowtie \
+                               -p 8 \
+                               /data/mmliver_1.fq.gz \
+                               /data/mmliver_2.fq.gz \
+                               /ref/mouse_125 \
+                               mmliver_paired_end_quals
+
diff --git a/src/rsem/rsem_calculate_expression/script.sh b/src/rsem/rsem_calculate_expression/script.sh
new file mode 100644
index 00000000..e8c6ce5d
--- /dev/null
+++ b/src/rsem/rsem_calculate_expression/script.sh
@@ -0,0 +1,103 @@
+#!/bin/bash
+
+## VIASH START
+## VIASH END
+
+set -eo pipefail
+
+function clean_up {
+    rm -rf "$tmpdir"
+}
+trap clean_up EXIT
+
+tmpdir=$(mktemp -d "$meta_temp_dir/$meta_functionality_name-XXXXXXXX")
+
+if [ "$par_strandedness" == 'forward' ]; then
+    strandedness='--strandedness forward'
+elif [ "$par_strandedness" == 'reverse' ]; then
+    strandedness="--strandedness reverse"
+else
+    strandedness=''
+fi
+
+IFS=";" read -ra input <<< $par_input
+
+INDEX=$(find -L $meta_resources_dir/$par_index -name "*.grp" | sed 's/\.grp$//')
+
+unset_if_false=( par_paired par_quiet par_no_bam_output par_sampling_for_bam par_no_qualities 
+                 par_alignments par_bowtie2 par_star par_hisat2_hca par_append_names 
+                 par_single_cell_prior par_calc_pme par_calc_ci par_phred64_quals 
+                 par_solexa_quals par_star_gzipped_read_file par_star_bzipped_read_file 
+                 par_star_output_genome_bam par_estimate_rspd par_keep_intermediate_files 
+                 par_time par_run_pRSEM par_cap_stacked_chipseq_reads par_sort_bam_by_read_name )
+
+for par in ${unset_if_false[@]}; do
+    test_val="${!par}"
+    [[ "$test_val" == "false" ]] && unset $par
+done
+
+rsem-calculate-expression \
+    ${par_quiet:+-q} \
+    ${par_no_bam_output:+--no-bam-output} \
+    ${par_sampling_for_bam:+--sampling-for-bam} \
+    ${par_no_qualities:+--no-qualities} \
+    ${par_alignments:+--alignments} \
+    ${par_bowtie2:+--bowtie2} \
+    ${par_star:+--star} \
+    ${par_hisat2_hca:+--hisat2-hca} \
+    ${par_append_names:+--append-names} \
+    ${par_single_cell_prior:+--single-cell-prior} \
+    ${par_calc_pme:+--calc-pme} \
+    ${par_calc_ci:+--calc-ci} \
+    ${par_phred64_quals:+--phred64-quals} \
+    ${par_solexa_quals:+--solexa-quals} \
+    ${par_star_gzipped_read_file:+--star-gzipped-read-file} \
+    ${par_star_bzipped_read_file:+--star-bzipped-read-file} \
+    ${par_star_output_genome_bam:+--star-output-genome-bam} \
+    ${par_estimate_rspd:+--estimate-rspd} \
+    ${par_keep_intermediate_files:+--keep-intermediate-files} \
+    ${par_time:+--time} \
+    ${par_run_pRSEM:+--run-pRSEM} \
+    ${par_cap_stacked_chipseq_reads:+--cap-stacked-chipseq-reads} \
+    ${par_sort_bam_by_read_name:+--sort-bam-by-read-name} \
+    ${par_counts_gene:+--counts-gene "$par_counts_gene"} \
+    ${par_counts_transcripts:+--counts-transcripts "$par_counts_transcripts"} \
+    ${par_stat:+--stat "$par_stat"} \
+    ${par_bam_star:+--bam-star "$par_bam_star"} \
+    ${par_bam_genome:+--bam-genome "$par_bam_genome"} \
+    ${par_bam_transcript:+--bam-transcript "$par_bam_transcript"} \
+    ${par_fai:+--fai "$par_fai"} \
+    ${par_seed:+--seed "$par_seed"} \
+    ${par_seed_length:+--seed-length "$par_seed_length"} \
+    ${par_bowtie_n:+--bowtie-n "$par_bowtie_n"} \
+    ${par_bowtie_e:+--bowtie-e "$par_bowtie_e"} \
+    ${par_bowtie_m:+--bowtie-m "$par_bowtie_m"} \
+    ${par_bowtie_chunkmbs:+--bowtie-chunkmbs "$par_bowtie_chunkmbs"} \
+    ${par_bowtie2_mismatch_rate:+--bowtie2-mismatch-rate "$par_bowtie2_mismatch_rate"} \
+    ${par_bowtie2_k:+--bowtie2-k "$par_bowtie2_k"} \
+    ${par_bowtie2_sensitivity_level:+--bowtie2-sensitivity-level "$par_bowtie2_sensitivity_level"} \
+    ${par_tag:+--tag "$par_tag"} \
+    ${par_fragment_length_min:+--fragment-length-min "$par_fragment_length_min"} \
+    ${par_fragment_length_max:+--fragment-length-max "$par_fragment_length_max"} \
+    ${par_fragment_length_mean:+--fragment-length-mean "$par_fragment_length_mean"} \
+    ${par_fragment_length_sd:+--fragment-length-sd "$par_fragment_length_sd"} \
+    ${par_num_rspd_bins:+--num-rspd-bins "$par_num_rspd_bins"} \
+    ${par_gibbs_burnin:+--gibbs-burnin "$par_gibbs_burnin"} \
+    ${par_gibbs_number_of_samples:+--gibbs-number-of-samples "$par_gibbs_number_of_samples"} \
+    ${par_gibbs_sampling_gap:+--gibbs-sampling-gap "$par_gibbs_sampling_gap"} \
+    ${par_ci_credibility_level:+--ci-credibility-level "$par_ci_credibility_level"} \
+    ${par_ci_number_of_samples_per_count_vector:+--ci-number-of-samples-per-count-vector "$par_ci_number_of_samples_per_count_vector"} \
+    ${par_temporary_folder:+--temporary-folder "$par_temporary_folder"} \
+    ${par_chipseq_peak_file:+--chipseq-peak-file "$par_chipseq_peak_file"} \
+    ${par_chipseq_target_read_files:+--chipseq-target-read-files "$par_chipseq_target_read_files"} \
+    ${par_chipseq_control_read_files:+--chipseq-control-read-files "$par_chipseq_control_read_files"} \
+    ${par_chipseq_read_files_multi_targets:+--chipseq-read-files-multi-targets "$par_chipseq_read_files_multi_targets"} \
+    ${par_chipseq_bed_files_multi_targets:+--chipseq-bed-files-multi-targets "$par_chipseq_bed_files_multi_targets"} \
+    ${par_n_max_stacked_chipseq_reads:+--n-max-stacked-chipseq-reads "$par_n_max_stacked_chipseq_reads"} \
+    ${par_partition_model:+--partition-model "$par_partition_model"} \
+    $strandedness \
+    ${par_paired:+--paired-end} \
+    ${input[*]} \
+    $INDEX \
+    $par_id
+   
diff --git a/src/rsem/rsem_calculate_expression/test.sh b/src/rsem/rsem_calculate_expression/test.sh
new file mode 100644
index 00000000..c9ede884
--- /dev/null
+++ b/src/rsem/rsem_calculate_expression/test.sh
@@ -0,0 +1,116 @@
+#!/bin/bash
+
+echo ">>> Testing $meta_executable"
+
+test_dir="${meta_resources_dir}/test_data"
+
+# wget https://raw.githubusercontent.com/nf-core/test-datasets/rnaseq3/reference/rsem.tar.gz
+# gunzip -k rsem.tar.gz
+# tar -xf rsem.tar
+# mv $test_dir/rsem $meta_resources_dir
+
+echo "> Prepare test data"
+
+cat > reads_R1.fastq <<'EOF'
+@SEQ_ID1
+ACGCTGCCTCATAAGCCTCACACAT
++
+IIIIIIIIIIIIIIIIIIIIIIIII
+@SEQ_ID2
+ACCCGCAAGATTAGGCTCCGTACAC
++
+!!!!!!!!!!!!!!!!!!!!!!!!!
+EOF
+
+cat > reads_R2.fastq <<'EOF'
+@SEQ_ID1
+ATGTGTGAGGCTTATGAGGCAGCGT
++
+IIIIIIIIIIIIIIIIIIIIIIIII
+@SEQ_ID2
+GTGTACGGAGCCTAATCTTGCAGGG
++
+!!!!!!!!!!!!!!!!!!!!!!!!!
+EOF
+
+cat > genome.fasta <<'EOF'
+>chr1
+TGGCATGAGCCAACGAACGCTGCCTCATAAGCCTCACACATCCGCGCCTATGTTGTGACTCTCTGTGAGCGTTCGTGGG
+GCTCGTCACCACTATGGTTGGCCGGTTAGTAGTGTGACTCCTGGTTTTCTGGAGCTTCTTTAAACCGTAGTCCAGTCAA
+TGCGAATGGCACTTCACGACGGACTGTCCTTAGGTGTGAGGCTTATGAGGCACTCAGGGGA
+EOF
+
+cat > genes.gtf <<'EOF'
+chr1	example_source	gene	0	50	.	+	.	gene_id "gene1"; transcript_id "transcript1";
+chr1	example_source	exon	20	40	.	+	.	gene_id "gene1"; transcript_id "transcript1";
+chr1	example_source	gene	100	219	.	+	.	gene_id "gene2"; transcript_id "transcript2";
+chr1	example_source	exon	191	210	.	+	.	gene_id "gene2"; transcript_id "transcript2";
+EOF
+
+cat > ref.cnt <<'EOF'
+1 0 0 1
+0 0 0
+0 3
+0	1
+Inf	0
+EOF
+
+cat > ref.genes.results <<'EOF'
+gene_id	transcript_id(s)	length	effective_length	expected_count	TPM	FPKM
+gene1	transcript1	21.00	21.00	0.00	0.00	0.00
+gene2	transcript2	20.00	20.00	0.00	0.00	0.00
+EOF
+
+cat > ref.isoforms.results <<'EOF'
+transcript_id	gene_id	length	effective_length	expected_count	TPM	FPKM	IsoPct
+transcript1	gene1	21	21.00	0.00	0.00	0.00	0.00
+transcript2	gene2	20	20.00	0.00	0.00	0.00	0.00
+EOF
+
+
+echo "> Generate index"
+
+rsem-prepare-reference \
+  --gtf "genes.gtf" \
+  "genome.fasta" \
+  "index"
+
+mkdir index
+mv index.* index/
+  
+STAR \
+  ${meta_cpus:+--runThreadN $meta_cpus} \
+  --runMode genomeGenerate \
+  --genomeDir "index/" \
+  --genomeFastaFiles "genome.fasta" \
+  --sjdbGTFfile "genes.gtf" \
+  --genomeSAindexNbases 2
+  
+#########################################################################################
+
+echo ">>> Test 1: Paired-end reads using STAR to align reads"
+"$meta_executable" \
+	--star \
+	--paired \
+	--input "reads_R1.fastq;reads_R2.fastq" \
+	--index index \
+	--id test \
+	--seed 1 \
+	--quiet
+
+echo ">>> Checking whether output exists"
+[ ! -f "test.genes.results" ] && echo "Gene level expression counts file does not exist!" && exit 1
+[ ! -s "test.genes.results" ] && echo "Gene level expression counts file is empty!" && exit 1
+[ ! -f "test.isoforms.results" ] && echo "Transcript level expression counts file does not exist!" && exit 1
+[ ! -s "test.isoforms.results" ] && echo "Transcript level expression counts file is empty!" && exit 1
+[ ! -d "test.stat" ] && echo "Stats file does not exist!" && exit 1
+
+echo ">>> Check wheter output is correct"
+diff ref.genes.results test.genes.results || { echo "Gene level expression counts file is incorrect!"; exit 1; }
+diff ref.isoforms.results test.isoforms.results || { echo "Transcript level expression counts file is incorrect!"; exit 1; }
+diff ref.cnt test.stat/test.cnt || { echo "Stats file is incorrect!"; exit 1; }
+
+#####################################################################################################
+
+echo "All tests succeeded!"
+exit 0

From bc9cc0a6ce4e0b87a4ce47561b4812b449e101ca Mon Sep 17 00:00:00 2001
From: Emma Rousseau <emmarou1@icloud.com>
Date: Thu, 19 Sep 2024 05:48:45 +0200
Subject: [PATCH 9/9] Kallisto quant (#152)

* initial commit dedup

* Revert "initial commit dedup"

This reverts commit 38f586bec0ac9e4312b016e29c3aa0bd53f292b2.

* complete component

* Update changelog

* add help.txt

* apply suggested changes (changelog, config)
---
 CHANGELOG.md                                  |  16 ++-
 src/kallisto/kallisto_quant/config.vsh.yaml   | 105 ++++++++++++++++++
 src/kallisto/kallisto_quant/help.txt          |  33 ++++++
 src/kallisto/kallisto_quant/script.sh         |  46 ++++++++
 src/kallisto/kallisto_quant/test.sh           |  53 +++++++++
 .../kallisto_quant/test_data/abundance_1.tsv  |   2 +
 .../kallisto_quant/test_data/abundance_2.tsv  |   2 +
 .../test_data/index/transcriptome.idx         | Bin 0 -> 1583 bytes
 .../kallisto_quant/test_data/reads/A_R1.fastq |   4 +
 .../kallisto_quant/test_data/reads/A_R2.fastq |   4 +
 .../kallisto_quant/test_data/script.sh        |  11 ++
 11 files changed, 270 insertions(+), 6 deletions(-)
 create mode 100644 src/kallisto/kallisto_quant/config.vsh.yaml
 create mode 100644 src/kallisto/kallisto_quant/help.txt
 create mode 100644 src/kallisto/kallisto_quant/script.sh
 create mode 100644 src/kallisto/kallisto_quant/test.sh
 create mode 100644 src/kallisto/kallisto_quant/test_data/abundance_1.tsv
 create mode 100644 src/kallisto/kallisto_quant/test_data/abundance_2.tsv
 create mode 100644 src/kallisto/kallisto_quant/test_data/index/transcriptome.idx
 create mode 100644 src/kallisto/kallisto_quant/test_data/reads/A_R1.fastq
 create mode 100644 src/kallisto/kallisto_quant/test_data/reads/A_R2.fastq
 create mode 100755 src/kallisto/kallisto_quant/test_data/script.sh

diff --git a/CHANGELOG.md b/CHANGELOG.md
index 9bfb5606..5d380e54 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -65,6 +65,16 @@
 
 * `fastqc`: High throughput sequence quality control analysis tool (PR #92).
 
+* `sortmerna`: Local sequence alignment tool for mapping, clustering, and filtering rRNA from
+  metatranscriptomic data (PR #146).
+
+* `fq_subsample`: Sample a subset of records from single or paired FASTQ files (PR #147).
+
+* `kallisto`:
+    - `kallisto_index`: Create a kallisto index (PR #149).
+    - `kallisto_quant`: Quantifying abundances of transcripts from RNA-Seq data, or more generally of target sequences using high-throughput sequencing reads (PR #152).
+
+
 ## MINOR CHANGES
 
 * `busco` components: update BUSCO to `5.7.1` (PR #72).
@@ -161,13 +171,7 @@
     - `bedtools_getfasta`: extract sequences from a FASTA file for each of the
                            intervals defined in a BED/GFF/VCF file (PR #59).
 
-* `sortmerna`: Local sequence alignment tool for mapping, clustering, and filtering rRNA from metatranscriptomic 
-               data. (PR #146)
-
-* `fq_subsample`: Sample a subset of records from single or paired FASTQ files (PR #147).
 
-* `kallisto`:
-    - `kallisto_index`: Create a kallisto index (PR #149).
 
 
 ## MINOR CHANGES
diff --git a/src/kallisto/kallisto_quant/config.vsh.yaml b/src/kallisto/kallisto_quant/config.vsh.yaml
new file mode 100644
index 00000000..e92ac6b3
--- /dev/null
+++ b/src/kallisto/kallisto_quant/config.vsh.yaml
@@ -0,0 +1,105 @@
+name: kallisto_quant
+namespace: kallisto
+description: |
+  Quantifying abundances of transcripts from RNA-Seq data, or more generally of target sequences using high-throughput sequencing reads.
+keywords: [kallisto, quant, pseudoalignment]
+links:
+  homepage: https://pachterlab.github.io/kallisto/about
+  documentation: https://pachterlab.github.io/kallisto/manual
+  repository: https://github.com/pachterlab/kallisto
+  issue_tracker: https://github.com/pachterlab/kallisto/issues
+references: 
+  doi: 10.1038/nbt.3519
+license: BSD 2-Clause License
+
+argument_groups:
+- name: "Input"
+  arguments:
+  - name: "--input"
+    type: file
+    description: List of input FastQ files of size 1 and 2 for single-end and paired-end data, respectively.
+    direction: "input"
+    multiple: true
+    required: true
+  - name: "--index"
+    alternatives: ["-i"]
+    type: file
+    description: Kallisto genome index.
+    must_exist: true
+    required: true
+
+- name: "Output"
+  arguments:
+  - name: "--output_dir"
+    alternatives: ["-o"]
+    type: string
+    description: Directory to write output to.
+    required: true
+
+- name: "Options"
+  arguments:
+  - name: "--single"
+    type: boolean_true
+    description: Single end mode.
+  - name: "--single_overhang"
+    type: boolean_true
+    description: Include reads where unobserved rest of fragment is predicted to lie outside a transcript.
+  - name: "--fr_stranded"
+    type: boolean_true
+    description: Strand specific reads, first read forward.
+  - name: "--rf_stranded"
+    type: boolean_true
+    description: Strand specific reads, first read reverse.
+  - name: "--fragment_length"
+    alternatives: ["-l"]
+    type: double
+    description: The estimated average fragment length.
+  - name: "--sd"
+    alternatives: ["-s"]
+    type: double
+    description: |
+      The estimated standard deviation of the fragment length (default: -l, -s values are estimated 
+      from paired end data, but are required when using --single).
+  - name: "--plaintext"
+    type: boolean_true
+    description: Output plaintext instead of HDF5.
+  - name: "--bootstrap_samples"
+    alternatives: ["-b"]
+    type: integer
+    description: |
+      Number of bootstrap samples to draw. Default: '0'
+    example: 0
+  - name: "--seed"
+    type: integer
+    description: |
+      Random seed for bootstrap. Default: '42'
+    example: 42
+
+
+resources:
+- type: bash_script
+  path: script.sh
+
+test_resources:
+- type: bash_script
+  path: test.sh
+- type: file
+  path: test_data
+
+engines:
+  - type: docker
+    image: ubuntu:22.04
+    setup:
+      - type: docker
+        run: |
+          apt-get update && \
+          apt-get install -y --no-install-recommends wget && \
+          wget --no-check-certificate https://github.com/pachterlab/kallisto/releases/download/v0.50.1/kallisto_linux-v0.50.1.tar.gz && \
+          tar -xzf kallisto_linux-v0.50.1.tar.gz && \
+          mv kallisto/kallisto /usr/local/bin/
+      - type: docker
+        run: |
+          echo "kallisto: $(kallisto version | sed 's/kallisto, version //')" > /var/software_versions.txt
+runners:
+  - type: executable
+  - type: nextflow  
diff --git a/src/kallisto/kallisto_quant/help.txt b/src/kallisto/kallisto_quant/help.txt
new file mode 100644
index 00000000..7022571b
--- /dev/null
+++ b/src/kallisto/kallisto_quant/help.txt
@@ -0,0 +1,33 @@
+```
+kallisto quant
+```
+
+kallisto 0.50.1
+Computes equivalence classes for reads and quantifies abundances
+
+Usage: kallisto quant [arguments] FASTQ-files
+
+Required arguments:
+-i, --index=STRING            Filename for the kallisto index to be used for
+                              quantification
+-o, --output-dir=STRING       Directory to write output to
+
+Optional arguments:
+-b, --bootstrap-samples=INT   Number of bootstrap samples (default: 0)
+    --seed=INT                Seed for the bootstrap sampling (default: 42)
+    --plaintext               Output plaintext instead of HDF5
+    --single                  Quantify single-end reads
+    --single-overhang         Include reads where unobserved rest of fragment is
+                              predicted to lie outside a transcript
+    --fr-stranded             Strand specific reads, first read forward
+    --rf-stranded             Strand specific reads, first read reverse
+-l, --fragment-length=DOUBLE  Estimated average fragment length
+-s, --sd=DOUBLE               Estimated standard deviation of fragment length
+                              (default: -l, -s values are estimated from paired
+                               end data, but are required when using --single)
+-p, --priors                  Priors for the EM algorithm, either as raw counts or as
+                              probabilities. Pseudocounts are added to raw reads to
+                              prevent zero valued priors. Supplied in the same order
+                              as the transcripts in the transcriptome
+-t, --threads=INT             Number of threads to use (default: 1)
+    --verbose                 Print out progress information every 1M proccessed reads
\ No newline at end of file
diff --git a/src/kallisto/kallisto_quant/script.sh b/src/kallisto/kallisto_quant/script.sh
new file mode 100644
index 00000000..a7105cd1
--- /dev/null
+++ b/src/kallisto/kallisto_quant/script.sh
@@ -0,0 +1,46 @@
+#!/bin/bash
+
+## VIASH START
+## VIASH END
+
+set -eo pipefail
+
+unset_if_false=( par_single par_single_overhang par_rf_stranded par_fr_stranded par_plaintext )
+
+for var in "${unset_if_false[@]}"; do
+    temp_var="${!var}"
+    [[ "$temp_var" == "false" ]] && unset $var
+done
+
+IFS=";" read -ra input <<< $par_input
+
+# Check if par_single is not set and ensure even number of input files
+if [ -z "$par_single" ]; then
+    if [ $((${#input[@]} % 2)) -ne 0 ]; then
+        echo "Error: When running in paired-end mode, the number of input files must be even."
+        echo "Number of input files provided: ${#input[@]}"
+        exit 1
+    fi
+fi
+
+
+mkdir -p $par_output_dir
+
+
+kallisto quant \
+    ${meta_cpus:+--threads $meta_cpus} \
+    -i $par_index \
+    ${par_gtf:+--gtf "${par_gtf}"} \
+    ${par_single:+--single} \
+    ${par_single_overhang:+--single-overhang} \
+    ${par_fr_stranded:+--fr-stranded} \
+    ${par_rf_stranded:+--rf-stranded} \
+    ${par_plaintext:+--plaintext} \
+    ${par_bootstrap_samples:+--bootstrap-samples "${par_bootstrap_samples}"} \
+    ${par_fragment_length:+--fragment-length "${par_fragment_length}"} \
+    ${par_sd:+--sd "${par_sd}"} \
+    ${par_seed:+--seed "${par_seed}"} \
+    -o $par_output_dir \
+    ${input[*]}
+
+
diff --git a/src/kallisto/kallisto_quant/test.sh b/src/kallisto/kallisto_quant/test.sh
new file mode 100644
index 00000000..28e2e3ad
--- /dev/null
+++ b/src/kallisto/kallisto_quant/test.sh
@@ -0,0 +1,53 @@
+#!/bin/bash
+
+echo ">>> Testing $meta_functionality_name"
+
+echo ">>> Test 1: Testing for paired-end reads"
+"$meta_executable" \
+  --index "$meta_resources_dir/test_data/index/transcriptome.idx" \
+  --rf_stranded \
+  --output_dir . \
+  --input "$meta_resources_dir/test_data/reads/A_R1.fastq;$meta_resources_dir/test_data/reads/A_R2.fastq"
+
+echo ">>> Checking whether output exists"
+[ ! -f "run_info.json" ] && echo "run_info.json does not exist!" && exit 1
+[ ! -s "run_info.json" ] && echo "run_info.json is empty!" && exit 1
+[ ! -f "abundance.tsv" ] && echo "abundance.tsv does not exist!" && exit 1
+[ ! -s "abundance.tsv" ] && echo "abundance.tsv is empty!" && exit 1
+[ ! -f "abundance.h5" ] && echo "abundance.h5 does not exist!" && exit 1
+[ ! -s "abundance.h5" ] && echo "abundance.h5 is empty!" && exit 1
+
+echo ">>> Checking if output is correct"
+diff "abundance.tsv" "$meta_resources_dir/test_data/abundance_1.tsv" || { echo "abundance.tsv is not correct"; exit 1; }
+
+rm -rf abundance.tsv abundance.h5 run_info.json
+
+################################################################################
+
+echo ">>> Test 2: Testing for single-end reads"
+"$meta_executable" \
+  --index "$meta_resources_dir/test_data/index/transcriptome.idx" \
+  --rf_stranded \
+  --output_dir . \
+  --single \
+  --input "$meta_resources_dir/test_data/reads/A_R1.fastq" \
+  --fragment_length 101 \
+  --sd 50
+
+echo ">>> Checking whether output exists"
+[ ! -f "run_info.json" ] && echo "run_info.json does not exist!" && exit 1
+[ ! -s "run_info.json" ] && echo "run_info.json is empty!" && exit 1
+[ ! -f "abundance.tsv" ] && echo "abundance.tsv does not exist!" && exit 1
+[ ! -s "abundance.tsv" ] && echo "abundance.tsv is empty!" && exit 1
+[ ! -f "abundance.h5" ] && echo "abundance.h5 does not exist!" && exit 1
+[ ! -s "abundance.h5" ] && echo "abundance.h5 is empty!" && exit 1
+
+echo ">>> Checking if output is correct"
+diff "abundance.tsv" "$meta_resources_dir/test_data/abundance_2.tsv" || { echo "abundance.tsv is not correct"; exit 1; }
+
+rm -rf abundance.tsv abundance.h5 run_info.json
+
+################################################################################
+
+echo "All tests succeeded!"
+exit 0
diff --git a/src/kallisto/kallisto_quant/test_data/abundance_1.tsv b/src/kallisto/kallisto_quant/test_data/abundance_1.tsv
new file mode 100644
index 00000000..1de99e54
--- /dev/null
+++ b/src/kallisto/kallisto_quant/test_data/abundance_1.tsv
@@ -0,0 +1,2 @@
+target_id	length	eff_length	est_counts	tpm
+Sheila	35	36	0	-nan
diff --git a/src/kallisto/kallisto_quant/test_data/abundance_2.tsv b/src/kallisto/kallisto_quant/test_data/abundance_2.tsv
new file mode 100644
index 00000000..6b3e9055
--- /dev/null
+++ b/src/kallisto/kallisto_quant/test_data/abundance_2.tsv
@@ -0,0 +1,2 @@
+target_id	length	eff_length	est_counts	tpm
+Sheila	35	15.0373	0	-nan
diff --git a/src/kallisto/kallisto_quant/test_data/index/transcriptome.idx b/src/kallisto/kallisto_quant/test_data/index/transcriptome.idx
new file mode 100644
index 0000000000000000000000000000000000000000..194fec14b9b858e324345e535e00764a36100db7
GIT binary patch
literal 1583
zcmd;OfPjTinh{9b$1B#!18H#}2Jt~a8A36bm2ogIJfAt+63T~DAce8EHEN$uybqZC
zfg=W{5v~BrV208#c|}Et0E`c#VftWv7=48WCIhA&B!LvnOc?C|Rl)?N*?=^%HkesZ
zX$A)<1EwA(4x?e}ahVTO2ct*TLqcLSJR#vQnjS{e1FUQS(dg*`Sq@nqrq10t#1V*{
z9o-$_AjH`nh=7E<vpG~hSUD?@!wD0B833cPN+<(WgGxvc2+l~&%t;i2a2Tu%5N;I!
Giva)u(jTM%

literal 0
HcmV?d00001

diff --git a/src/kallisto/kallisto_quant/test_data/reads/A_R1.fastq b/src/kallisto/kallisto_quant/test_data/reads/A_R1.fastq
new file mode 100644
index 00000000..999ed649
--- /dev/null
+++ b/src/kallisto/kallisto_quant/test_data/reads/A_R1.fastq
@@ -0,0 +1,4 @@
+@1
+GCTAGCTCAGAAAAAAAAAATCGTCGCGTGCGCGT
++
+!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
diff --git a/src/kallisto/kallisto_quant/test_data/reads/A_R2.fastq b/src/kallisto/kallisto_quant/test_data/reads/A_R2.fastq
new file mode 100644
index 00000000..999ed649
--- /dev/null
+++ b/src/kallisto/kallisto_quant/test_data/reads/A_R2.fastq
@@ -0,0 +1,4 @@
+@1
+GCTAGCTCAGAAAAAAAAAATCGTCGCGTGCGCGT
++
+!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
diff --git a/src/kallisto/kallisto_quant/test_data/script.sh b/src/kallisto/kallisto_quant/test_data/script.sh
new file mode 100755
index 00000000..6d684b29
--- /dev/null
+++ b/src/kallisto/kallisto_quant/test_data/script.sh
@@ -0,0 +1,11 @@
+#!/bin/bash
+
+# clone repo
+if [ ! -d /tmp/snakemake-wrappers ]; then
+  git clone --depth 1 --single-branch --branch master https://github.com/snakemake/snakemake-wrappers /tmp/snakemake-wrappers
+fi
+
+# copy test data
+cp -r /tmp/snakemake-wrappers/bio/kallisto/quant/test/* src/kallisto/kallisto_quant/test_data
+
+rm src/kallisto/kallisto_quant/test_data/Snakefile
\ No newline at end of file