From c1c0ab2e5cc11bfb47a59f6eb68d16083e8724f9 Mon Sep 17 00:00:00 2001
From: "Documenter.jl" <documenter@juliadocs.github.io>
Date: Sat, 24 Aug 2024 12:59:55 +0000
Subject: [PATCH] build based on 98b672d

---
 dev/.documenter-siteinfo.json |  2 +-
 dev/api/index.html            | 34 +++++++++++++++++-----------------
 dev/index.html                |  5 +++--
 dev/search_index.js           |  2 +-
 4 files changed, 22 insertions(+), 21 deletions(-)
diff --git a/dev/.documenter-siteinfo.json b/dev/.documenter-siteinfo.json
index a6c68d6..6aa2e5b 100644
--- a/dev/.documenter-siteinfo.json
+++ b/dev/.documenter-siteinfo.json
@@ -1 +1 @@
-{"documenter":{"julia_version":"1.10.4","generation_timestamp":"2024-08-24T12:40:53","documenter_version":"1.6.0"}}
\ No newline at end of file
+{"documenter":{"julia_version":"1.10.4","generation_timestamp":"2024-08-24T12:59:53","documenter_version":"1.6.0"}}
\ No newline at end of file
diff --git a/dev/api/index.html b/dev/api/index.html
index 079aa4f..153eed5 100644
--- a/dev/api/index.html
+++ b/dev/api/index.html
@@ -1,41 +1,41 @@
 <!DOCTYPE html>
-<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>API Reference · DocsScraper.jl</title><meta name="title" content="API Reference · DocsScraper.jl"/><meta property="og:title" content="API Reference · DocsScraper.jl"/><meta property="twitter:title" content="API Reference · DocsScraper.jl"/><meta name="description" content="Documentation for DocsScraper.jl."/><meta property="og:description" content="Documentation for DocsScraper.jl."/><meta property="twitter:description" content="Documentation for DocsScraper.jl."/><meta property="og:url" content="https://JuliaGenAI.github.io/DocsScraper.jl/api/"/><meta property="twitter:url" content="https://JuliaGenAI.github.io/DocsScraper.jl/api/"/><link rel="canonical" href="https://JuliaGenAI.github.io/DocsScraper.jl/api/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">DocsScraper.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li class="is-active"><a class="tocitem" href>API Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>API Reference</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>API Reference</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/JuliaGenAI/DocsScraper.jl" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/main/docs/src/api.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Reference"><a class="docs-heading-anchor" href="#Reference">Reference</a><a id="Reference-1"></a><a class="docs-heading-anchor-permalink" href="#Reference" title="Permalink"></a></h1><ul><li><a href="#DocsScraper.base_url_segment-Tuple{String}"><code>DocsScraper.base_url_segment</code></a></li><li><a href="#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}"><code>DocsScraper.check_robots_txt</code></a></li><li><a href="#DocsScraper.clean_url-Tuple{String}"><code>DocsScraper.clean_url</code></a></li><li><a href="#DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}"><code>DocsScraper.crawl</code></a></li><li><a href="#DocsScraper.create_URL_map-Tuple{Vector{String}, AbstractString, AbstractString}"><code>DocsScraper.create_URL_map</code></a></li><li><a href="#DocsScraper.create_output_dirs-Tuple{String, String}"><code>DocsScraper.create_output_dirs</code></a></li><li><a href="#DocsScraper.docs_in_url-Tuple{AbstractString}"><code>DocsScraper.docs_in_url</code></a></li><li><a href="#DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.find_duplicates</code></a></li><li><a href="#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_html!</code></a></li><li><a href="#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_xml!</code></a></li><li><a href="#DocsScraper.generate_embeddings-Tuple{Vector{SubString{String}}}"><code>DocsScraper.generate_embeddings</code></a></li><li><a href="#DocsScraper.get_base_url-Tuple{AbstractString}"><code>DocsScraper.get_base_url</code></a></li><li><a href="#DocsScraper.get_header_path-Tuple{Dict{String, Any}}"><code>DocsScraper.get_header_path</code></a></li><li><a href="#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.get_html_content</code></a></li><li><a href="#DocsScraper.get_package_name-Tuple{AbstractString}"><code>DocsScraper.get_package_name</code></a></li><li><a href="#DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.get_urls!</code></a></li><li><a href="#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}"><code>DocsScraper.insert_parsed_data!</code></a></li><li><a href="#DocsScraper.l2_norm_columns-Tuple{AbstractVector}"><code>DocsScraper.l2_norm_columns</code></a></li><li><a href="#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}"><code>DocsScraper.l2_norm_columns</code></a></li><li><a href="#DocsScraper.load_chunks_sources-Tuple{AbstractString}"><code>DocsScraper.load_chunks_sources</code></a></li><li><a href="#DocsScraper.make_chunks_sources-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}"><code>DocsScraper.make_chunks_sources</code></a></li><li><a href="#DocsScraper.make_knowledge_packs"><code>DocsScraper.make_knowledge_packs</code></a></li><li><a href="#DocsScraper.nav_bar-Tuple{AbstractString}"><code>DocsScraper.nav_bar</code></a></li><li><a href="#DocsScraper.parse_robots_txt!-Tuple{String}"><code>DocsScraper.parse_robots_txt!</code></a></li><li><a href="#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}"><code>DocsScraper.parse_url_to_blocks</code></a></li><li><a href="#DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.postprocess_chunks</code></a></li><li><a href="#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.process_code</code></a></li><li><a href="#DocsScraper.process_docstring!"><code>DocsScraper.process_docstring!</code></a></li><li><a href="#DocsScraper.process_generic_node!"><code>DocsScraper.process_generic_node!</code></a></li><li><a href="#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}"><code>DocsScraper.process_headings!</code></a></li><li><a href="#DocsScraper.process_hostname-Tuple{AbstractString}"><code>DocsScraper.process_hostname</code></a></li><li><a href="#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_hostname!</code></a></li><li><a href="#DocsScraper.process_node!"><code>DocsScraper.process_node!</code></a></li><li><a href="#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}"><code>DocsScraper.process_node!</code></a></li><li><a href="#DocsScraper.process_non_crawl_urls-Tuple{Vector{&lt;:AbstractString}, Set{AbstractString}, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_non_crawl_urls</code></a></li><li><a href="#DocsScraper.process_paths-Tuple{AbstractString}"><code>DocsScraper.process_paths</code></a></li><li><a href="#DocsScraper.process_text-Tuple{AbstractString}"><code>DocsScraper.process_text</code></a></li><li><a href="#DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_duplicates</code></a></li><li><a href="#DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_short_chunks</code></a></li><li><a href="#DocsScraper.remove_urls_from_index"><code>DocsScraper.remove_urls_from_index</code></a></li><li><a href="#DocsScraper.report_artifact-Tuple{Any, AbstractString, AbstractString}"><code>DocsScraper.report_artifact</code></a></li><li><a href="#DocsScraper.resolve_url-Tuple{String, String}"><code>DocsScraper.resolve_url</code></a></li><li><a href="#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}"><code>DocsScraper.roll_up_chunks</code></a></li><li><a href="#DocsScraper.save_embeddings-Tuple{AbstractString, Int64, Bool, AbstractString, AbstractString, AbstractVector{&lt;:AbstractString}, Vector{String}, Any, AbstractString, Int64}"><code>DocsScraper.save_embeddings</code></a></li><li><a href="#DocsScraper.text_before_version-Tuple{AbstractString}"><code>DocsScraper.text_before_version</code></a></li><li><a href="#DocsScraper.url_package_name-Tuple{AbstractString}"><code>DocsScraper.url_package_name</code></a></li><li><a href="#DocsScraper.urls_for_metadata-Tuple{Vector{String}}"><code>DocsScraper.urls_for_metadata</code></a></li><li><a href="#DocsScraper.validate_args"><code>DocsScraper.validate_args</code></a></li><li><a href="#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}"><code>PromptingTools.Experimental.RAGTools.get_chunks</code></a></li></ul><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.base_url_segment-Tuple{String}" href="#DocsScraper.base_url_segment-Tuple{String}"><code>DocsScraper.base_url_segment</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">base_url_segment(url::String)</code></pre><p>Return the base url and first path segment if all the other checks fail</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_package_name.jl#L12-L16">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}" href="#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}"><code>DocsScraper.check_robots_txt</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">check_robots_txt(user_agent::AbstractString, url::AbstractString)</code></pre><p>Check robots.txt of a URL and return a boolean representing if <code>user_agent</code> is allowed to crawl the input url, along with sitemap urls</p><p><strong>Arguments</strong></p><ul><li><code>user_agent</code>: user agent attempting to crawl the webpage</li><li><code>url</code>: input URL string</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/crawl.jl#L38-L46">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.clean_url-Tuple{String}" href="#DocsScraper.clean_url-Tuple{String}"><code>DocsScraper.clean_url</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">clean_url(url::String)</code></pre><p>Strip URL of any http:// ot https:// or www. prefixes </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_package_name.jl#L1-L5">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}" href="#DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}"><code>DocsScraper.crawl</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">crawl(input_urls::Vector{&lt;:AbstractString})</code></pre><p>Crawl on the input URLs and return a <code>hostname_url_dict</code> which is a dictionary with key being hostnames and the values being the URLs</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/crawl.jl#L139-L143">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.create_URL_map-Tuple{Vector{String}, AbstractString, AbstractString}" href="#DocsScraper.create_URL_map-Tuple{Vector{String}, AbstractString, AbstractString}"><code>DocsScraper.create_URL_map</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">create_URL_map(sources::Vector{String}, output_file_path::AbstractString, index_name::AbstractString)</code></pre><p>Creates a CSV file containing the URL along with the estimated package name </p><p><strong>Arguments</strong></p><ul><li>sources: List of scraped sources</li><li>output<em>file</em>path: Path to the directory in which the csv will be created</li><li>index_name: Name of the created index </li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/utils.jl#L164-L173">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.create_output_dirs-Tuple{String, String}" href="#DocsScraper.create_output_dirs-Tuple{String, String}"><code>DocsScraper.create_output_dirs</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">create_output_dirs(parent_directory_path::String, index_name::String)</code></pre><p>Create index<em>name, Scraped</em>files and Index directories inside <code>parent_directory_path</code>. Return path to <code>index_name</code> </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L27-L31">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.docs_in_url-Tuple{AbstractString}" href="#DocsScraper.docs_in_url-Tuple{AbstractString}"><code>DocsScraper.docs_in_url</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">docs_in_url(url::AbstractString)</code></pre><p>If the base url is in the form docs.package<em>name.domain</em>extension, then return the middle word i.e., package_name </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_package_name.jl#L108-L112">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.find_duplicates</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">find_duplicates(chunks::AbstractVector{&lt;:AbstractString})</code></pre><p>Find duplicates in a list of chunks using SHA-256 hash. Returns a bit vector of the same length as the input list,  where <code>true</code> indicates a duplicate (second instance of the same text).</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/utils.jl#L1-L6">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}" href="#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_html!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">find_urls_html!(url::AbstractString, node::Gumbo.HTMLElement, url_queue::Vector{&lt;:AbstractString}</code></pre><p>Function to recursively find &lt;a&gt; tags and extract the urls</p><p><strong>Arguments</strong></p><ul><li>url: The initial input URL </li><li>node: The HTML node of type Gumbo.HTMLElement</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_urls.jl#L73-L82">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}" href="#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_xml!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">find_urls_xml!(url::AbstractString, url_queue::Vector{&lt;:AbstractString})</code></pre><p>Identify URL through regex pattern in xml files and push in <code>url_queue</code></p><p><strong>Arguments</strong></p><ul><li>url: url from which all other URLs will be extracted</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_urls.jl#L100-L108">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.generate_embeddings-Tuple{Vector{SubString{String}}}" href="#DocsScraper.generate_embeddings-Tuple{Vector{SubString{String}}}"><code>DocsScraper.generate_embeddings</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">generate_embeddings(chunks::Vector{SubString{String}};
+<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>API Reference · DocsScraper.jl</title><meta name="title" content="API Reference · DocsScraper.jl"/><meta property="og:title" content="API Reference · DocsScraper.jl"/><meta property="twitter:title" content="API Reference · DocsScraper.jl"/><meta name="description" content="Documentation for DocsScraper.jl."/><meta property="og:description" content="Documentation for DocsScraper.jl."/><meta property="twitter:description" content="Documentation for DocsScraper.jl."/><meta property="og:url" content="https://JuliaGenAI.github.io/DocsScraper.jl/api/"/><meta property="twitter:url" content="https://JuliaGenAI.github.io/DocsScraper.jl/api/"/><link rel="canonical" href="https://JuliaGenAI.github.io/DocsScraper.jl/api/"/><script data-outdated-warner src="../assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL=".."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="../assets/documenter.js"></script><script src="../search_index.js"></script><script src="../siteinfo.js"></script><script src="../../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="../assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="../assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href="../">DocsScraper.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li><a class="tocitem" href="../">Home</a></li><li class="is-active"><a class="tocitem" href>API Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>API Reference</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>API Reference</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/JuliaGenAI/DocsScraper.jl" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/main/docs/src/api.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Reference"><a class="docs-heading-anchor" href="#Reference">Reference</a><a id="Reference-1"></a><a class="docs-heading-anchor-permalink" href="#Reference" title="Permalink"></a></h1><ul><li><a href="#DocsScraper.base_url_segment-Tuple{String}"><code>DocsScraper.base_url_segment</code></a></li><li><a href="#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}"><code>DocsScraper.check_robots_txt</code></a></li><li><a href="#DocsScraper.clean_url-Tuple{String}"><code>DocsScraper.clean_url</code></a></li><li><a href="#DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}"><code>DocsScraper.crawl</code></a></li><li><a href="#DocsScraper.create_URL_map-Tuple{Vector{String}, AbstractString, AbstractString}"><code>DocsScraper.create_URL_map</code></a></li><li><a href="#DocsScraper.create_output_dirs-Tuple{String, String}"><code>DocsScraper.create_output_dirs</code></a></li><li><a href="#DocsScraper.docs_in_url-Tuple{AbstractString}"><code>DocsScraper.docs_in_url</code></a></li><li><a href="#DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.find_duplicates</code></a></li><li><a href="#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_html!</code></a></li><li><a href="#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_xml!</code></a></li><li><a href="#DocsScraper.generate_embeddings-Tuple{Vector{SubString{String}}}"><code>DocsScraper.generate_embeddings</code></a></li><li><a href="#DocsScraper.get_base_url-Tuple{AbstractString}"><code>DocsScraper.get_base_url</code></a></li><li><a href="#DocsScraper.get_header_path-Tuple{Dict{String, Any}}"><code>DocsScraper.get_header_path</code></a></li><li><a href="#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.get_html_content</code></a></li><li><a href="#DocsScraper.get_package_name-Tuple{AbstractString}"><code>DocsScraper.get_package_name</code></a></li><li><a href="#DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.get_urls!</code></a></li><li><a href="#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}"><code>DocsScraper.insert_parsed_data!</code></a></li><li><a href="#DocsScraper.l2_norm_columns-Tuple{AbstractVector}"><code>DocsScraper.l2_norm_columns</code></a></li><li><a href="#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}"><code>DocsScraper.l2_norm_columns</code></a></li><li><a href="#DocsScraper.load_chunks_sources-Tuple{AbstractString}"><code>DocsScraper.load_chunks_sources</code></a></li><li><a href="#DocsScraper.make_chunks_sources-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}"><code>DocsScraper.make_chunks_sources</code></a></li><li><a href="#DocsScraper.make_knowledge_packs"><code>DocsScraper.make_knowledge_packs</code></a></li><li><a href="#DocsScraper.nav_bar-Tuple{AbstractString}"><code>DocsScraper.nav_bar</code></a></li><li><a href="#DocsScraper.parse_robots_txt!-Tuple{String}"><code>DocsScraper.parse_robots_txt!</code></a></li><li><a href="#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}"><code>DocsScraper.parse_url_to_blocks</code></a></li><li><a href="#DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.postprocess_chunks</code></a></li><li><a href="#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.process_code</code></a></li><li><a href="#DocsScraper.process_docstring!"><code>DocsScraper.process_docstring!</code></a></li><li><a href="#DocsScraper.process_generic_node!"><code>DocsScraper.process_generic_node!</code></a></li><li><a href="#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}"><code>DocsScraper.process_headings!</code></a></li><li><a href="#DocsScraper.process_hostname-Tuple{AbstractString}"><code>DocsScraper.process_hostname</code></a></li><li><a href="#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_hostname!</code></a></li><li><a href="#DocsScraper.process_node!"><code>DocsScraper.process_node!</code></a></li><li><a href="#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}"><code>DocsScraper.process_node!</code></a></li><li><a href="#DocsScraper.process_non_crawl_urls-Tuple{Vector{&lt;:AbstractString}, Set{AbstractString}, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_non_crawl_urls</code></a></li><li><a href="#DocsScraper.process_paths-Tuple{AbstractString}"><code>DocsScraper.process_paths</code></a></li><li><a href="#DocsScraper.process_text-Tuple{AbstractString}"><code>DocsScraper.process_text</code></a></li><li><a href="#DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_duplicates</code></a></li><li><a href="#DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_short_chunks</code></a></li><li><a href="#DocsScraper.remove_urls_from_index"><code>DocsScraper.remove_urls_from_index</code></a></li><li><a href="#DocsScraper.report_artifact-Tuple{Any, AbstractString, AbstractString}"><code>DocsScraper.report_artifact</code></a></li><li><a href="#DocsScraper.resolve_url-Tuple{String, String}"><code>DocsScraper.resolve_url</code></a></li><li><a href="#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}"><code>DocsScraper.roll_up_chunks</code></a></li><li><a href="#DocsScraper.save_embeddings-Tuple{AbstractString, Int64, Bool, AbstractString, AbstractString, AbstractVector{&lt;:AbstractString}, Vector{String}, Any, AbstractString, Int64}"><code>DocsScraper.save_embeddings</code></a></li><li><a href="#DocsScraper.text_before_version-Tuple{AbstractString}"><code>DocsScraper.text_before_version</code></a></li><li><a href="#DocsScraper.url_package_name-Tuple{AbstractString}"><code>DocsScraper.url_package_name</code></a></li><li><a href="#DocsScraper.urls_for_metadata-Tuple{Vector{String}}"><code>DocsScraper.urls_for_metadata</code></a></li><li><a href="#DocsScraper.validate_args"><code>DocsScraper.validate_args</code></a></li><li><a href="#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}"><code>PromptingTools.Experimental.RAGTools.get_chunks</code></a></li></ul><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.base_url_segment-Tuple{String}" href="#DocsScraper.base_url_segment-Tuple{String}"><code>DocsScraper.base_url_segment</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">base_url_segment(url::String)</code></pre><p>Return the base url and first path segment if all the other checks fail</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_package_name.jl#L12-L16">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}" href="#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}"><code>DocsScraper.check_robots_txt</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">check_robots_txt(user_agent::AbstractString, url::AbstractString)</code></pre><p>Check robots.txt of a URL and return a boolean representing if <code>user_agent</code> is allowed to crawl the input url, along with sitemap urls</p><p><strong>Arguments</strong></p><ul><li><code>user_agent</code>: user agent attempting to crawl the webpage</li><li><code>url</code>: input URL string</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/crawl.jl#L38-L46">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.clean_url-Tuple{String}" href="#DocsScraper.clean_url-Tuple{String}"><code>DocsScraper.clean_url</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">clean_url(url::String)</code></pre><p>Strip URL of any http:// ot https:// or www. prefixes </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_package_name.jl#L1-L5">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}" href="#DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}"><code>DocsScraper.crawl</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">crawl(input_urls::Vector{&lt;:AbstractString})</code></pre><p>Crawl on the input URLs and return a <code>hostname_url_dict</code> which is a dictionary with key being hostnames and the values being the URLs</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/crawl.jl#L139-L143">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.create_URL_map-Tuple{Vector{String}, AbstractString, AbstractString}" href="#DocsScraper.create_URL_map-Tuple{Vector{String}, AbstractString, AbstractString}"><code>DocsScraper.create_URL_map</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">create_URL_map(sources::Vector{String}, output_file_path::AbstractString, index_name::AbstractString)</code></pre><p>Creates a CSV file containing the URL along with the estimated package name </p><p><strong>Arguments</strong></p><ul><li>sources: List of scraped sources</li><li>output<em>file</em>path: Path to the directory in which the csv will be created</li><li>index_name: Name of the created index </li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/utils.jl#L164-L173">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.create_output_dirs-Tuple{String, String}" href="#DocsScraper.create_output_dirs-Tuple{String, String}"><code>DocsScraper.create_output_dirs</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">create_output_dirs(parent_directory_path::String, index_name::String)</code></pre><p>Create index<em>name, Scraped</em>files and Index directories inside <code>parent_directory_path</code>. Return path to <code>index_name</code> </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L27-L31">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.docs_in_url-Tuple{AbstractString}" href="#DocsScraper.docs_in_url-Tuple{AbstractString}"><code>DocsScraper.docs_in_url</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">docs_in_url(url::AbstractString)</code></pre><p>If the base url is in the form docs.package<em>name.domain</em>extension, then return the middle word i.e., package_name </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_package_name.jl#L108-L112">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.find_duplicates</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">find_duplicates(chunks::AbstractVector{&lt;:AbstractString})</code></pre><p>Find duplicates in a list of chunks using SHA-256 hash. Returns a bit vector of the same length as the input list,  where <code>true</code> indicates a duplicate (second instance of the same text).</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/utils.jl#L1-L6">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}" href="#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_html!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">find_urls_html!(url::AbstractString, node::Gumbo.HTMLElement, url_queue::Vector{&lt;:AbstractString}</code></pre><p>Function to recursively find &lt;a&gt; tags and extract the urls</p><p><strong>Arguments</strong></p><ul><li>url: The initial input URL </li><li>node: The HTML node of type Gumbo.HTMLElement</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_urls.jl#L73-L82">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}" href="#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_xml!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">find_urls_xml!(url::AbstractString, url_queue::Vector{&lt;:AbstractString})</code></pre><p>Identify URL through regex pattern in xml files and push in <code>url_queue</code></p><p><strong>Arguments</strong></p><ul><li>url: url from which all other URLs will be extracted</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_urls.jl#L100-L108">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.generate_embeddings-Tuple{Vector{SubString{String}}}" href="#DocsScraper.generate_embeddings-Tuple{Vector{SubString{String}}}"><code>DocsScraper.generate_embeddings</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">generate_embeddings(chunks::Vector{SubString{String}};
     model_embedding::AbstractString = MODEL_EMBEDDING,
     embedding_dimension::Int = EMBEDDING_DIMENSION, embedding_bool::Bool = EMBEDDING_BOOL,
-    index_name::AbstractString = &quot;&quot;)</code></pre><p>Deserialize chunks and sources to generate embeddings. Returns path to tar.gz file of the created index Note: We recommend passing <code>index_name</code>. This will be the name of the generated index</p><p><strong>Arguments</strong></p><ul><li>chunks: Vector of scraped chunks</li><li>model_embedding: Embedding model</li><li>embedding_dimension: Embedding dimensions</li><li>embedding_bool: If true, embeddings generated will be boolean, Float32 otherwise</li><li>index_name: Name of the index. Default: &quot;index&quot; symbol generated by gensym</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L203-L219">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_base_url-Tuple{AbstractString}" href="#DocsScraper.get_base_url-Tuple{AbstractString}"><code>DocsScraper.get_base_url</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_base_url(url::AbstractString)</code></pre><p>Extract the base url</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_package_name.jl#L51-L55">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_header_path-Tuple{Dict{String, Any}}" href="#DocsScraper.get_header_path-Tuple{Dict{String, Any}}"><code>DocsScraper.get_header_path</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_header_path(d::Dict)</code></pre><p>Concatenate the h1, h2, h3 keys from the metadata of a Dict</p><p><strong>Examples</strong></p><pre><code class="language-julia hljs">d = Dict(&quot;metadata&quot; =&gt; Dict{Symbol,Any}(:h1 =&gt; &quot;Axis&quot;, :h2 =&gt; &quot;Attributes&quot;, :h3 =&gt; &quot;yzoomkey&quot;), &quot;heading&quot; =&gt; &quot;yzoomkey&quot;)
+    index_name::AbstractString = &quot;&quot;)</code></pre><p>Deserialize chunks and sources to generate embeddings. Returns path to tar.gz file of the created index Note: We recommend passing <code>index_name</code>. This will be the name of the generated index</p><p><strong>Arguments</strong></p><ul><li>chunks: Vector of scraped chunks</li><li>model_embedding: Embedding model</li><li>embedding_dimension: Embedding dimensions</li><li>embedding_bool: If true, embeddings generated will be boolean, Float32 otherwise</li><li>index_name: Name of the index. Default: &quot;index&quot; symbol generated by gensym</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L203-L219">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_base_url-Tuple{AbstractString}" href="#DocsScraper.get_base_url-Tuple{AbstractString}"><code>DocsScraper.get_base_url</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_base_url(url::AbstractString)</code></pre><p>Extract the base url</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_package_name.jl#L51-L55">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_header_path-Tuple{Dict{String, Any}}" href="#DocsScraper.get_header_path-Tuple{Dict{String, Any}}"><code>DocsScraper.get_header_path</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_header_path(d::Dict)</code></pre><p>Concatenate the h1, h2, h3 keys from the metadata of a Dict</p><p><strong>Examples</strong></p><pre><code class="language-julia hljs">d = Dict(&quot;metadata&quot; =&gt; Dict{Symbol,Any}(:h1 =&gt; &quot;Axis&quot;, :h2 =&gt; &quot;Attributes&quot;, :h3 =&gt; &quot;yzoomkey&quot;), &quot;heading&quot; =&gt; &quot;yzoomkey&quot;)
 get_header_path(d)
-# Output: &quot;Axis/Attributes/yzoomkey&quot;</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/preparation.jl#L1-L12">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}" href="#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.get_html_content</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_html_content(root::Gumbo.HTMLElement)</code></pre><p>Return the main content of the HTML. If not found, return the whole HTML to parse</p><p><strong>Arguments</strong></p><ul><li><code>root</code>: The HTML root from which content is extracted</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L309-L316">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_package_name-Tuple{AbstractString}" href="#DocsScraper.get_package_name-Tuple{AbstractString}"><code>DocsScraper.get_package_name</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_package_name(url::AbstractString)</code></pre><p>Return name of the package through the package URL  </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_package_name.jl#L129-L133">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}" href="#DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.get_urls!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_links!(url::AbstractString, 
-    url_queue::Vector{&lt;:AbstractString})</code></pre><p>Extract urls inside html or xml files </p><p><strong>Arguments</strong></p><ul><li>url: url from which all other URLs will be extracted</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_urls.jl#L125-L134">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}" href="#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}"><code>DocsScraper.insert_parsed_data!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">insert_parsed_data!(heading_hierarchy::Dict{Symbol,Any}, 
+# Output: &quot;Axis/Attributes/yzoomkey&quot;</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/preparation.jl#L1-L12">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}" href="#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.get_html_content</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_html_content(root::Gumbo.HTMLElement)</code></pre><p>Return the main content of the HTML. If not found, return the whole HTML to parse</p><p><strong>Arguments</strong></p><ul><li><code>root</code>: The HTML root from which content is extracted</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L309-L316">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_package_name-Tuple{AbstractString}" href="#DocsScraper.get_package_name-Tuple{AbstractString}"><code>DocsScraper.get_package_name</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_package_name(url::AbstractString)</code></pre><p>Return name of the package through the package URL  </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_package_name.jl#L129-L133">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}" href="#DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.get_urls!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">get_links!(url::AbstractString, 
+    url_queue::Vector{&lt;:AbstractString})</code></pre><p>Extract urls inside html or xml files </p><p><strong>Arguments</strong></p><ul><li>url: url from which all other URLs will be extracted</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_urls.jl#L125-L134">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}" href="#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}"><code>DocsScraper.insert_parsed_data!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">insert_parsed_data!(heading_hierarchy::Dict{Symbol,Any}, 
     parsed_blocks::Vector{Dict{String,Any}}, 
     text_to_insert::AbstractString, 
-    text_type::AbstractString)</code></pre><p>Insert the text into parsed_blocks Vector</p><p><strong>Arguments</strong></p><ul><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>text<em>to</em>insert: Text to be inserted</li><li>text_type: The text to be inserted could be heading or a code block or just text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L1-L14">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}" href="#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}"><code>DocsScraper.l2_norm_columns</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">l2_norm_columns(mat::AbstractMatrix)</code></pre><p>Normalize the columns of the input embeddings</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L39-L43">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.l2_norm_columns-Tuple{AbstractVector}" href="#DocsScraper.l2_norm_columns-Tuple{AbstractVector}"><code>DocsScraper.l2_norm_columns</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">l2_norm_columns(vect::AbstractVector)</code></pre><p>Normalize the columns of the input embeddings</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L49-L53">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.load_chunks_sources-Tuple{AbstractString}" href="#DocsScraper.load_chunks_sources-Tuple{AbstractString}"><code>DocsScraper.load_chunks_sources</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">load_chunks_sources(target_path::AbstractString)</code></pre><p>Return chunks, sources by reading the .jls files in <code>joinpath(target_path, &quot;Scraped_files&quot;)</code> </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L172-L176">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.make_chunks_sources-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}" href="#DocsScraper.make_chunks_sources-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}"><code>DocsScraper.make_chunks_sources</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">make_chunks(hostname_url_dict::Dict{AbstractString,Vector{AbstractString}}, target_path::String; 
-    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)</code></pre><p>Parse URLs from hostname<em>url</em>dict and save the chunks</p><p><strong>Arguments</strong></p><ul><li>hostname<em>url</em>dict: Dict with key being hostname and value being a vector of URLs</li><li>target_path: Knowledge pack path</li><li>max<em>chunk</em>size: Maximum chunk size</li><li>min<em>chunk</em>size: Minimum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L131-L142">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.make_knowledge_packs" href="#DocsScraper.make_knowledge_packs"><code>DocsScraper.make_knowledge_packs</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">make_knowledge_packs(crawlable_urls::Vector{&lt;:AbstractString} = String[];
+    text_type::AbstractString)</code></pre><p>Insert the text into parsed_blocks Vector</p><p><strong>Arguments</strong></p><ul><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>text<em>to</em>insert: Text to be inserted</li><li>text_type: The text to be inserted could be heading or a code block or just text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L1-L14">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}" href="#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}"><code>DocsScraper.l2_norm_columns</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">l2_norm_columns(mat::AbstractMatrix)</code></pre><p>Normalize the columns of the input embeddings</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L39-L43">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.l2_norm_columns-Tuple{AbstractVector}" href="#DocsScraper.l2_norm_columns-Tuple{AbstractVector}"><code>DocsScraper.l2_norm_columns</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">l2_norm_columns(vect::AbstractVector)</code></pre><p>Normalize the columns of the input embeddings</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L49-L53">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.load_chunks_sources-Tuple{AbstractString}" href="#DocsScraper.load_chunks_sources-Tuple{AbstractString}"><code>DocsScraper.load_chunks_sources</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">load_chunks_sources(target_path::AbstractString)</code></pre><p>Return chunks, sources by reading the .jls files in <code>joinpath(target_path, &quot;Scraped_files&quot;)</code> </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L172-L176">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.make_chunks_sources-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}" href="#DocsScraper.make_chunks_sources-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}"><code>DocsScraper.make_chunks_sources</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">make_chunks(hostname_url_dict::Dict{AbstractString,Vector{AbstractString}}, target_path::String; 
+    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)</code></pre><p>Parse URLs from hostname<em>url</em>dict and save the chunks</p><p><strong>Arguments</strong></p><ul><li>hostname<em>url</em>dict: Dict with key being hostname and value being a vector of URLs</li><li>target_path: Knowledge pack path</li><li>max<em>chunk</em>size: Maximum chunk size</li><li>min<em>chunk</em>size: Minimum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L131-L142">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.make_knowledge_packs" href="#DocsScraper.make_knowledge_packs"><code>DocsScraper.make_knowledge_packs</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">make_knowledge_packs(crawlable_urls::Vector{&lt;:AbstractString} = String[];
     single_urls::Vector{&lt;:AbstractString} = String[],
     max_chunk_size::Int = MAX_CHUNK_SIZE, min_chunk_size::Int = MIN_CHUNK_SIZE,
     model_embedding::AbstractString = MODEL_EMBEDDING, embedding_dimension::Int = EMBEDDING_DIMENSION, custom_metadata::AbstractString = &quot;&quot;,
     embedding_bool::Bool = EMBEDDING_BOOL, index_name::AbstractString = &quot;&quot;,
-    target_path::AbstractString = &quot;&quot;, save_url_map::Bool = true)</code></pre><p>Entry point to crawl, parse and generate embeddings. Returns path to tar.gz file of the created index Note: We recommend passing <code>index_name</code>. This will be the name of the generated index</p><p><strong>Arguments</strong></p><ul><li>crawlable_urls: URLs that should be crawled to find more links</li><li>single_urls: Single page URLs that should just be scraped and parsed. The crawler won&#39;t look for more URLs</li><li>max<em>chunk</em>size: Maximum chunk size</li><li>min<em>chunk</em>size: Minimum chunk size</li><li>model_embedding: Embedding model</li><li>embedding_dimension: Embedding dimensions</li><li>custom_metadata: Custom metadata like ecosystem name if required</li><li>embedding_bool: If true, embeddings generated will be boolean, Float32 otherwise</li><li>index_name: Name of the index. Default: &quot;index&quot; symbol generated by gensym  </li><li>target_path: Path to the directory where the index folder will be created</li><li>save<em>url</em>map: If true, creates a CSV of crawled URLs with their associated package names</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L301-L324">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.nav_bar-Tuple{AbstractString}" href="#DocsScraper.nav_bar-Tuple{AbstractString}"><code>DocsScraper.nav_bar</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">nav_bar(url::AbstractString)</code></pre><p>Julia doc websites tend to have the package name under &quot;.docs-package-name&quot; class in the HTML tree</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_package_name.jl#L63-L67">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.parse_robots_txt!-Tuple{String}" href="#DocsScraper.parse_robots_txt!-Tuple{String}"><code>DocsScraper.parse_robots_txt!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">parse_robots_txt!(robots_txt::String)</code></pre><p>Parse the robots.txt string and return rules and the URLs on Sitemap</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/crawl.jl#L2-L6">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.parse_url_to_blocks-Tuple{AbstractString}" href="#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}"><code>DocsScraper.parse_url_to_blocks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">parse_url(url::AbstractString)</code></pre><p>Initiator and main function to parse HTML from url. Return a Vector of Dict containing Heading/Text/Code along with a Dict of respective metadata</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L342-L346">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.postprocess_chunks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">function postprocess_chunks(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString};
+    target_path::AbstractString = &quot;&quot;, save_url_map::Bool = true)</code></pre><p>Entry point to crawl, parse and generate embeddings. Returns path to tar.gz file of the created index Note: We recommend passing <code>index_name</code>. This will be the name of the generated index</p><p><strong>Arguments</strong></p><ul><li>crawlable_urls: URLs that should be crawled to find more links</li><li>single_urls: Single page URLs that should just be scraped and parsed. The crawler won&#39;t look for more URLs</li><li>max<em>chunk</em>size: Maximum chunk size</li><li>min<em>chunk</em>size: Minimum chunk size</li><li>model_embedding: Embedding model</li><li>embedding_dimension: Embedding dimensions</li><li>custom_metadata: Custom metadata like ecosystem name if required</li><li>embedding_bool: If true, embeddings generated will be boolean, Float32 otherwise</li><li>index_name: Name of the index. Default: &quot;index&quot; symbol generated by gensym  </li><li>target_path: Path to the directory where the index folder will be created</li><li>save<em>url</em>map: If true, creates a CSV of crawled URLs with their associated package names</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L301-L324">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.nav_bar-Tuple{AbstractString}" href="#DocsScraper.nav_bar-Tuple{AbstractString}"><code>DocsScraper.nav_bar</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">nav_bar(url::AbstractString)</code></pre><p>Julia doc websites tend to have the package name under &quot;.docs-package-name&quot; class in the HTML tree</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_package_name.jl#L63-L67">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.parse_robots_txt!-Tuple{String}" href="#DocsScraper.parse_robots_txt!-Tuple{String}"><code>DocsScraper.parse_robots_txt!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">parse_robots_txt!(robots_txt::String)</code></pre><p>Parse the robots.txt string and return rules and the URLs on Sitemap</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/crawl.jl#L2-L6">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.parse_url_to_blocks-Tuple{AbstractString}" href="#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}"><code>DocsScraper.parse_url_to_blocks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">parse_url(url::AbstractString)</code></pre><p>Initiator and main function to parse HTML from url. Return a Vector of Dict containing Heading/Text/Code along with a Dict of respective metadata</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L342-L346">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.postprocess_chunks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">function postprocess_chunks(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString};
     min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true, paths::Union{Nothing,AbstractVector{&lt;:AbstractString}}=nothing,
-    websites::Union{Nothing,AbstractVector{&lt;:AbstractString}}=nothing)</code></pre><p>Post-process the input list of chunks and their corresponding sources by removing short chunks and duplicates.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/utils.jl#L68-L74">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_code-Tuple{Gumbo.HTMLElement}" href="#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.process_code</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_code(node::Gumbo.HTMLElement)</code></pre><p>Process code snippets. If the current node is a code block, return the text inside code block with backticks.</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L57-L64">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_docstring!" href="#DocsScraper.process_docstring!"><code>DocsScraper.process_docstring!</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_docstring!(node::Gumbo.HTMLElement,
+    websites::Union{Nothing,AbstractVector{&lt;:AbstractString}}=nothing)</code></pre><p>Post-process the input list of chunks and their corresponding sources by removing short chunks and duplicates.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/utils.jl#L68-L74">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_code-Tuple{Gumbo.HTMLElement}" href="#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.process_code</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_code(node::Gumbo.HTMLElement)</code></pre><p>Process code snippets. If the current node is a code block, return the text inside code block with backticks.</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L57-L64">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_docstring!" href="#DocsScraper.process_docstring!"><code>DocsScraper.process_docstring!</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_docstring!(node::Gumbo.HTMLElement,
     heading_hierarchy::Dict{Symbol,Any},
     parsed_blocks::Vector{Dict{String,Any}},
     child_new::Bool=true,
-    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>Function to process node of class <code>docstring</code></p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L194-L210">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_generic_node!" href="#DocsScraper.process_generic_node!"><code>DocsScraper.process_generic_node!</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_generic_node!(node::Gumbo.HTMLElement,
+    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>Function to process node of class <code>docstring</code></p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L194-L210">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_generic_node!" href="#DocsScraper.process_generic_node!"><code>DocsScraper.process_generic_node!</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_generic_node!(node::Gumbo.HTMLElement,
     heading_hierarchy::Dict{Symbol,Any},
     parsed_blocks::Vector{Dict{String,Any}},
     child_new::Bool=true,
-    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>If the node is neither heading nor code</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L86-L103">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}" href="#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}"><code>DocsScraper.process_headings!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_headings!(node::Gumbo.HTMLElement,
+    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>If the node is neither heading nor code</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L86-L103">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}" href="#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}"><code>DocsScraper.process_headings!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_headings!(node::Gumbo.HTMLElement,
     heading_hierarchy::Dict{Symbol,Any},
-    parsed_blocks::Vector{Dict{String,Any}})</code></pre><p>Process headings. If the current node is heading, directly insert into parsed_blocks. </p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L26-L37">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}" href="#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_hostname!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_hostname(url::AbstractString, hostname_dict::Dict{AbstractString,Vector{AbstractString}})</code></pre><p>Add <code>url</code> to its hostname in <code>hostname_dict</code></p><p><strong>Arguments</strong></p><ul><li><code>url</code>: URL string</li><li><code>hostname_dict</code>: Dict with key being hostname and value being a vector of URLs</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/crawl.jl#L118-L126">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_hostname-Tuple{AbstractString}" href="#DocsScraper.process_hostname-Tuple{AbstractString}"><code>DocsScraper.process_hostname</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_hostname(url::AbstractString)</code></pre><p>Return the hostname of an input URL</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/crawl.jl#L107-L111">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_node!" href="#DocsScraper.process_node!"><code>DocsScraper.process_node!</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_node!(node::Gumbo.HTMLElement,
+    parsed_blocks::Vector{Dict{String,Any}})</code></pre><p>Process headings. If the current node is heading, directly insert into parsed_blocks. </p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L26-L37">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}" href="#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_hostname!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_hostname(url::AbstractString, hostname_dict::Dict{AbstractString,Vector{AbstractString}})</code></pre><p>Add <code>url</code> to its hostname in <code>hostname_dict</code></p><p><strong>Arguments</strong></p><ul><li><code>url</code>: URL string</li><li><code>hostname_dict</code>: Dict with key being hostname and value being a vector of URLs</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/crawl.jl#L118-L126">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_hostname-Tuple{AbstractString}" href="#DocsScraper.process_hostname-Tuple{AbstractString}"><code>DocsScraper.process_hostname</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_hostname(url::AbstractString)</code></pre><p>Return the hostname of an input URL</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/crawl.jl#L107-L111">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_node!" href="#DocsScraper.process_node!"><code>DocsScraper.process_node!</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_node!(node::Gumbo.HTMLElement,
     heading_hierarchy::Dict{Symbol,Any},
     parsed_blocks::Vector{Dict{String,Any}},
     child_new::Bool=true,
-    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>Function to process a node</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L250-L266">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}" href="#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}"><code>DocsScraper.process_node!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><p>multiple dispatch for process_node!() when node is of type Gumbo.HTMLText</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/parser.jl#L288-L290">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_non_crawl_urls-Tuple{Vector{&lt;:AbstractString}, Set{AbstractString}, Dict{AbstractString, Vector{AbstractString}}}" href="#DocsScraper.process_non_crawl_urls-Tuple{Vector{&lt;:AbstractString}, Set{AbstractString}, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_non_crawl_urls</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_non_crawl_urls(
+    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>Function to process a node</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L250-L266">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}" href="#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}"><code>DocsScraper.process_node!</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><p>multiple dispatch for process_node!() when node is of type Gumbo.HTMLText</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/parser.jl#L288-L290">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_non_crawl_urls-Tuple{Vector{&lt;:AbstractString}, Set{AbstractString}, Dict{AbstractString, Vector{AbstractString}}}" href="#DocsScraper.process_non_crawl_urls-Tuple{Vector{&lt;:AbstractString}, Set{AbstractString}, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_non_crawl_urls</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_non_crawl_urls(
     single_urls::Vector{&lt;:AbstractString}, visited_url_set::Set{AbstractString},
-    hostname_url_dict::Dict{AbstractString, Vector{AbstractString}})</code></pre><p>Check if the <code>single_urls</code> is scrapable. If yes, then add it to a Dict of URLs to scrape </p><p><strong>Arguments</strong></p><ul><li>single_urls: Single page URLs that should just be scraped and parsed. The crawler won&#39;t look for more URLs</li><li>visited<em>url</em>set: Set of visited URLs. Avoids duplication</li><li>hostname<em>url</em>dict: Dict with key being the hostname and the values being the URLs</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L100-L111">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_paths-Tuple{AbstractString}" href="#DocsScraper.process_paths-Tuple{AbstractString}"><code>DocsScraper.process_paths</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_paths(url::AbstractString; max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)</code></pre><p>Process folders provided in <code>paths</code>. In each, take all HTML files, scrape them, chunk them and postprocess them.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/preparation.jl#L103-L107">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_text-Tuple{AbstractString}" href="#DocsScraper.process_text-Tuple{AbstractString}"><code>DocsScraper.process_text</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">remove_dashes(text::AbstractString)</code></pre><p>removes all dashes (&#39;-&#39;) from a given string</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L59-L63">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_duplicates</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">remove_duplicates(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString})</code></pre><p>Remove chunks that are duplicated in the input list of chunks and their corresponding sources.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/utils.jl#L28-L32">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_short_chunks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">remove_short_chunks(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString};
-    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true)</code></pre><p>Remove chunks that are shorter than a specified length (<code>min_length</code>) from the input list of chunks and their corresponding sources.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/utils.jl#L39-L44">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_urls_from_index" href="#DocsScraper.remove_urls_from_index"><code>DocsScraper.remove_urls_from_index</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">function remove_urls_from_index(index_path::AbstractString, prefix_urls=Vector{&lt;:AbstractString})</code></pre><p>Remove chunks and sources corresponding to URLs starting with <code>prefix_urls</code> </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/utils.jl#L97-L101">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.report_artifact-Tuple{Any, AbstractString, AbstractString}" href="#DocsScraper.report_artifact-Tuple{Any, AbstractString, AbstractString}"><code>DocsScraper.report_artifact</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">report_artifact(fn_output)</code></pre><p>Print artifact information</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L1-L5">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.resolve_url-Tuple{String, String}" href="#DocsScraper.resolve_url-Tuple{String, String}"><code>DocsScraper.resolve_url</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">resolve_url(base_url::String, extracted_url::String)</code></pre><p>Check the extracted URL with the original URL. Return empty String if the extracted URL belongs to a different domain.  Return complete URL if there&#39;s a directory traversal paths or the extracted URL belongs to the same domain as the base_url</p><p><strong>Arguments</strong></p><ul><li>base_url: URL of the page from which other URLs are being extracted</li><li>extracted<em>url: URL extracted from the base</em>url  </li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_urls.jl#L1-L10">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}" href="#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}"><code>DocsScraper.roll_up_chunks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">roll_up_chunks(parsed_blocks::Vector{Dict{String,Any}}, url::AbstractString; separator::String=&quot;&lt;SEP&gt;&quot;)</code></pre><p>Roll-up chunks (that have the same header!), so we can split them later by &lt;SEP&gt; to get the desired length</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/preparation.jl#L21-L25">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.save_embeddings-Tuple{AbstractString, Int64, Bool, AbstractString, AbstractString, AbstractVector{&lt;:AbstractString}, Vector{String}, Any, AbstractString, Int64}" href="#DocsScraper.save_embeddings-Tuple{AbstractString, Int64, Bool, AbstractString, AbstractString, AbstractVector{&lt;:AbstractString}, Vector{String}, Any, AbstractString, Int64}"><code>DocsScraper.save_embeddings</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">save_embeddings(index_name::AbstractString, embedding_dimension::Int,
+    hostname_url_dict::Dict{AbstractString, Vector{AbstractString}})</code></pre><p>Check if the <code>single_urls</code> is scrapable. If yes, then add it to a Dict of URLs to scrape </p><p><strong>Arguments</strong></p><ul><li>single_urls: Single page URLs that should just be scraped and parsed. The crawler won&#39;t look for more URLs</li><li>visited<em>url</em>set: Set of visited URLs. Avoids duplication</li><li>hostname<em>url</em>dict: Dict with key being the hostname and the values being the URLs</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L100-L111">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_paths-Tuple{AbstractString}" href="#DocsScraper.process_paths-Tuple{AbstractString}"><code>DocsScraper.process_paths</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">process_paths(url::AbstractString; max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)</code></pre><p>Process folders provided in <code>paths</code>. In each, take all HTML files, scrape them, chunk them and postprocess them.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/preparation.jl#L103-L107">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_text-Tuple{AbstractString}" href="#DocsScraper.process_text-Tuple{AbstractString}"><code>DocsScraper.process_text</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">remove_dashes(text::AbstractString)</code></pre><p>removes all dashes (&#39;-&#39;) from a given string</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L59-L63">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_duplicates</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">remove_duplicates(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString})</code></pre><p>Remove chunks that are duplicated in the input list of chunks and their corresponding sources.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/utils.jl#L28-L32">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_short_chunks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">remove_short_chunks(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString};
+    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true)</code></pre><p>Remove chunks that are shorter than a specified length (<code>min_length</code>) from the input list of chunks and their corresponding sources.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/utils.jl#L39-L44">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_urls_from_index" href="#DocsScraper.remove_urls_from_index"><code>DocsScraper.remove_urls_from_index</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">function remove_urls_from_index(index_path::AbstractString, prefix_urls=Vector{&lt;:AbstractString})</code></pre><p>Remove chunks and sources corresponding to URLs starting with <code>prefix_urls</code> </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/utils.jl#L97-L101">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.report_artifact-Tuple{Any, AbstractString, AbstractString}" href="#DocsScraper.report_artifact-Tuple{Any, AbstractString, AbstractString}"><code>DocsScraper.report_artifact</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">report_artifact(fn_output)</code></pre><p>Print artifact information</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L1-L5">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.resolve_url-Tuple{String, String}" href="#DocsScraper.resolve_url-Tuple{String, String}"><code>DocsScraper.resolve_url</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">resolve_url(base_url::String, extracted_url::String)</code></pre><p>Check the extracted URL with the original URL. Return empty String if the extracted URL belongs to a different domain.  Return complete URL if there&#39;s a directory traversal paths or the extracted URL belongs to the same domain as the base_url</p><p><strong>Arguments</strong></p><ul><li>base_url: URL of the page from which other URLs are being extracted</li><li>extracted<em>url: URL extracted from the base</em>url  </li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_urls.jl#L1-L10">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}" href="#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}"><code>DocsScraper.roll_up_chunks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">roll_up_chunks(parsed_blocks::Vector{Dict{String,Any}}, url::AbstractString; separator::String=&quot;&lt;SEP&gt;&quot;)</code></pre><p>Roll-up chunks (that have the same header!), so we can split them later by &lt;SEP&gt; to get the desired length</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/preparation.jl#L21-L25">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.save_embeddings-Tuple{AbstractString, Int64, Bool, AbstractString, AbstractString, AbstractVector{&lt;:AbstractString}, Vector{String}, Any, AbstractString, Int64}" href="#DocsScraper.save_embeddings-Tuple{AbstractString, Int64, Bool, AbstractString, AbstractString, AbstractVector{&lt;:AbstractString}, Vector{String}, Any, AbstractString, Int64}"><code>DocsScraper.save_embeddings</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">save_embeddings(index_name::AbstractString, embedding_dimension::Int,
     embedding_bool::Bool, model_embedding::AbstractString, target_path::AbstractString,
     chunks::AbstractVector{&lt;:AbstractString}, sources::Vector{String},
-    full_embeddings, custom_metadata::AbstractString, max_chunk_size::Int)</code></pre><p>Save the generated embeddings along with a .txt containing the artifact info</p><p><strong>Arguments</strong></p><ul><li>index_name: Name of the index. Default: &quot;index&quot; symbol generated by gensym  </li><li>embedding_dimension: Embedding dimensions</li><li>embedding_bool: If true, embeddings generated will be boolean, Float32 otherwise</li><li>model_embedding: Embedding model</li><li>target_path: Path to the index folder</li><li>chunks: Vector of scraped chunks</li><li>sources: Vector of scraped sources</li><li>full_embeddings: Generated embedding matrix</li><li>custom_metadata: Custom metadata like ecosystem name if required</li><li>max<em>chunk</em>size: Maximum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L241-L260">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.text_before_version-Tuple{AbstractString}" href="#DocsScraper.text_before_version-Tuple{AbstractString}"><code>DocsScraper.text_before_version</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">text_before_version(url::AbstractString)</code></pre><p>Return text before &quot;stable&quot; or &quot;dev&quot; or any version in URL. It is generally observed that doc websites have package names before their versions </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_package_name.jl#L87-L91">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.url_package_name-Tuple{AbstractString}" href="#DocsScraper.url_package_name-Tuple{AbstractString}"><code>DocsScraper.url_package_name</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">url_package_name(url::AbstractString)</code></pre><p>Return the text if the URL itself contains the package name with &quot;.jl&quot; or &quot;_jl&quot; suffixes</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/extract_package_name.jl#L38-L42">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.urls_for_metadata-Tuple{Vector{String}}" href="#DocsScraper.urls_for_metadata-Tuple{Vector{String}}"><code>DocsScraper.urls_for_metadata</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">urls_for_metadata(sources::Vector{String})</code></pre><p>Return a Dict of package names with their associated URLs Note: Due to their large number, URLs are stripped down to the package name; Package subpaths are not included in metadata.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/utils.jl#L125-L130">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.validate_args" href="#DocsScraper.validate_args"><code>DocsScraper.validate_args</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">validate_args(crawlable_urls::Vector{&lt;:AbstractString} = String[];
-    single_urls::Vector{&lt;:AbstractString} = String[], target_path::AbstractString = &quot;&quot;, index_name::AbstractString = &quot;&quot;)</code></pre><p>Validate args. Return error if both <code>crawlable_urls</code> and <code>single_urls</code> are empty.  Create a target path if input path is invalid. Create a gensym index if the input index is invalid. </p><p><strong>Arguments</strong></p><ul><li>crawlable_urls: URLs that should be crawled to find more links</li><li>single_urls: Single page URLs that should just be scraped and parsed. The crawler won&#39;t look for more URLs</li><li>target_path: Path to the directory where the index folder will be created</li><li>index_name: Name of the index. Default: &quot;index&quot; symbol generated by gensym  </li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/make_knowledge_packs.jl#L68-L80">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}" href="#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}"><code>PromptingTools.Experimental.RAGTools.get_chunks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">RT.get_chunks(chunker::DocParserChunker, url::AbstractString;
-    verbose::Bool=true, separators=[&quot;</code></pre><p>&quot;, &quot;. &quot;, &quot; &quot;, &quot; &quot;], max<em>chunk</em>size::Int=MAX<em>CHUNK</em>SIZE)</p><p>Extract chunks from HTML files, by parsing the content in the HTML, rolling up chunks by headers,  and splits them by separators to get the desired length.</p><p><strong>Arguments</strong></p><ul><li>chunker: DocParserChunker</li><li>url: URL of the webpage to extract chunks</li><li>verbose: Bool to print the log</li><li>separators: Chunk separators</li><li>max<em>chunk</em>size Maximum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/5e556f3311b4ea20a2c2745d4add9d212c0ec2a0/src/preparation.jl#L61-L77">source</a></section></article></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../">« Home</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.6.0 on <span class="colophon-date" title="Saturday 24 August 2024 12:40">Saturday 24 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+    full_embeddings, custom_metadata::AbstractString, max_chunk_size::Int)</code></pre><p>Save the generated embeddings along with a .txt containing the artifact info</p><p><strong>Arguments</strong></p><ul><li>index_name: Name of the index. Default: &quot;index&quot; symbol generated by gensym  </li><li>embedding_dimension: Embedding dimensions</li><li>embedding_bool: If true, embeddings generated will be boolean, Float32 otherwise</li><li>model_embedding: Embedding model</li><li>target_path: Path to the index folder</li><li>chunks: Vector of scraped chunks</li><li>sources: Vector of scraped sources</li><li>full_embeddings: Generated embedding matrix</li><li>custom_metadata: Custom metadata like ecosystem name if required</li><li>max<em>chunk</em>size: Maximum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L241-L260">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.text_before_version-Tuple{AbstractString}" href="#DocsScraper.text_before_version-Tuple{AbstractString}"><code>DocsScraper.text_before_version</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">text_before_version(url::AbstractString)</code></pre><p>Return text before &quot;stable&quot; or &quot;dev&quot; or any version in URL. It is generally observed that doc websites have package names before their versions </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_package_name.jl#L87-L91">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.url_package_name-Tuple{AbstractString}" href="#DocsScraper.url_package_name-Tuple{AbstractString}"><code>DocsScraper.url_package_name</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">url_package_name(url::AbstractString)</code></pre><p>Return the text if the URL itself contains the package name with &quot;.jl&quot; or &quot;_jl&quot; suffixes</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/extract_package_name.jl#L38-L42">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.urls_for_metadata-Tuple{Vector{String}}" href="#DocsScraper.urls_for_metadata-Tuple{Vector{String}}"><code>DocsScraper.urls_for_metadata</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">urls_for_metadata(sources::Vector{String})</code></pre><p>Return a Dict of package names with their associated URLs Note: Due to their large number, URLs are stripped down to the package name; Package subpaths are not included in metadata.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/utils.jl#L125-L130">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.validate_args" href="#DocsScraper.validate_args"><code>DocsScraper.validate_args</code></a> — <span class="docstring-category">Function</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">validate_args(crawlable_urls::Vector{&lt;:AbstractString} = String[];
+    single_urls::Vector{&lt;:AbstractString} = String[], target_path::AbstractString = &quot;&quot;, index_name::AbstractString = &quot;&quot;)</code></pre><p>Validate args. Return error if both <code>crawlable_urls</code> and <code>single_urls</code> are empty.  Create a target path if input path is invalid. Create a gensym index if the input index is invalid. </p><p><strong>Arguments</strong></p><ul><li>crawlable_urls: URLs that should be crawled to find more links</li><li>single_urls: Single page URLs that should just be scraped and parsed. The crawler won&#39;t look for more URLs</li><li>target_path: Path to the directory where the index folder will be created</li><li>index_name: Name of the index. Default: &quot;index&quot; symbol generated by gensym  </li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/make_knowledge_packs.jl#L68-L80">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}" href="#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}"><code>PromptingTools.Experimental.RAGTools.get_chunks</code></a> — <span class="docstring-category">Method</span><span class="is-flex-grow-1 docstring-article-toggle-button" title="Collapse docstring"></span></header><section><div><pre><code class="language-julia hljs">RT.get_chunks(chunker::DocParserChunker, url::AbstractString;
+    verbose::Bool=true, separators=[&quot;</code></pre><p>&quot;, &quot;. &quot;, &quot; &quot;, &quot; &quot;], max<em>chunk</em>size::Int=MAX<em>CHUNK</em>SIZE)</p><p>Extract chunks from HTML files, by parsing the content in the HTML, rolling up chunks by headers,  and splits them by separators to get the desired length.</p><p><strong>Arguments</strong></p><ul><li>chunker: DocParserChunker</li><li>url: URL of the webpage to extract chunks</li><li>verbose: Bool to print the log</li><li>separators: Chunk separators</li><li>max<em>chunk</em>size Maximum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/98b672d51261152bd30c4acc9dc1c57d8fe81a43/src/preparation.jl#L61-L77">source</a></section></article></article><nav class="docs-footer"><a class="docs-footer-prevpage" href="../">« Home</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.6.0 on <span class="colophon-date" title="Saturday 24 August 2024 12:59">Saturday 24 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/index.html b/dev/index.html
index 671cd85..b6701e7 100644
--- a/dev/index.html
+++ b/dev/index.html
@@ -1,6 +1,7 @@
 <!DOCTYPE html>
 <html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>Home · DocsScraper.jl</title><meta name="title" content="Home · DocsScraper.jl"/><meta property="og:title" content="Home · DocsScraper.jl"/><meta property="twitter:title" content="Home · DocsScraper.jl"/><meta name="description" content="Documentation for DocsScraper.jl."/><meta property="og:description" content="Documentation for DocsScraper.jl."/><meta property="twitter:description" content="Documentation for DocsScraper.jl."/><meta property="og:url" content="https://JuliaGenAI.github.io/DocsScraper.jl/"/><meta property="twitter:url" content="https://JuliaGenAI.github.io/DocsScraper.jl/"/><link rel="canonical" href="https://JuliaGenAI.github.io/DocsScraper.jl/"/><script data-outdated-warner src="assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL="."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="assets/documenter.js"></script><script src="search_index.js"></script><script src="siteinfo.js"></script><script src="../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href>DocsScraper.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li class="is-active"><a class="tocitem" href>Home</a><ul class="internal"><li><a class="tocitem" href="#Features"><span>Features</span></a></li><li><a class="tocitem" href="#Installation"><span>Installation</span></a></li><li><a class="tocitem" href="#Building-the-Index"><span>Building the Index</span></a></li><li><a class="tocitem" href="#Using-the-Index-for-Questions"><span>Using the Index for Questions</span></a></li><li><a class="tocitem" href="#Output"><span>Output</span></a></li></ul></li><li><a class="tocitem" href="api/">API Reference</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>Home</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>Home</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/JuliaGenAI/DocsScraper.jl" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/JuliaGenAI/DocsScraper.jl/blob/main/docs/src/index.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="DocsScraper"><a class="docs-heading-anchor" href="#DocsScraper">DocsScraper</a><a id="DocsScraper-1"></a><a class="docs-heading-anchor-permalink" href="#DocsScraper" title="Permalink"></a></h1><p>DocsScraper is a package designed to create &quot;knowledge packs&quot; from online documentation sites for the Julia language.</p><p>It scrapes and parses the URLs and with the help of PromptingTools.jl, creates an index of chunks and their embeddings that can be used in RAG applications. It integrates with AIHelpMe.jl and PromptingTools.jl to offer highly efficient and relevant query retrieval, ensuring that the responses generated by the system are specific to the content in the created database.</p><h2 id="Features"><a class="docs-heading-anchor" href="#Features">Features</a><a id="Features-1"></a><a class="docs-heading-anchor-permalink" href="#Features" title="Permalink"></a></h2><ul><li><strong>URL Scraping and Parsing</strong>: Automatically scrapes and parses input URLs to extract relevant information, paying particular attention to code snippets and code blocks. Gives an option to customize the chunk sizes</li><li><strong>URL Crawling</strong>: Optionally crawls the input URLs to look for multiple pages in the same domain.</li><li><strong>Knowledge Index Creation</strong>: Leverages PromptingTools.jl to create embeddings with customizable embedding model, size and type (Bool and Float32). </li></ul><h2 id="Installation"><a class="docs-heading-anchor" href="#Installation">Installation</a><a id="Installation-1"></a><a class="docs-heading-anchor-permalink" href="#Installation" title="Permalink"></a></h2><p>To install DocsScraper, use the Julia package manager and the package name (it&#39;s not registered yet):</p><pre><code class="language-julia hljs">using Pkg
-Pkg.add(url=&quot;https://github.com/JuliaGenAI/DocsScraper.jl&quot;)</code></pre><p><strong>Prerequisites:</strong></p><ul><li>Julia (version 1.10 or later).</li><li>Internet connection for API access.</li><li>OpenAI API keys with available credits. See <a href="https://svilupp.github.io/PromptingTools.jl/dev/frequently_asked_questions#Creating-OpenAI-API-Key">How to Obtain API Keys</a>.</li></ul><h2 id="Building-the-Index"><a class="docs-heading-anchor" href="#Building-the-Index">Building the Index</a><a id="Building-the-Index-1"></a><a class="docs-heading-anchor-permalink" href="#Building-the-Index" title="Permalink"></a></h2><pre><code class="language-julia hljs">crawlable_urls = [&quot;https://juliagenai.github.io/DocsScraper.jl/dev&quot;]
+Pkg.add(url=&quot;https://github.com/JuliaGenAI/DocsScraper.jl&quot;)</code></pre><p><strong>Prerequisites:</strong></p><ul><li>Julia (version 1.10 or later).</li><li>Internet connection for API access.</li><li>OpenAI API keys with available credits. See <a href="https://svilupp.github.io/PromptingTools.jl/dev/frequently_asked_questions#Creating-OpenAI-API-Key">How to Obtain API Keys</a>.</li></ul><h2 id="Building-the-Index"><a class="docs-heading-anchor" href="#Building-the-Index">Building the Index</a><a id="Building-the-Index-1"></a><a class="docs-heading-anchor-permalink" href="#Building-the-Index" title="Permalink"></a></h2><pre><code class="language-julia hljs">using DocsScraper
+crawlable_urls = [&quot;https://juliagenai.github.io/DocsScraper.jl/dev&quot;]
 
 index_path = make_knowledge_packs(crawlable_urls;
     index_name = &quot;docsscraper&quot;, embedding_dimension = 1024, embedding_bool = true, target_path=joinpath(pwd(), &quot;knowledge_packs&quot;))</code></pre><pre><code class="language-julia hljs">[ Info: robots.txt unavailable for https://juliagenai.github.io:/DocsScraper.jl/dev/home/
@@ -50,4 +51,4 @@
 │   ├── scraped_hostname-sources-max-chunk_size-min-min_chunk_size.jls
 │   └── . . .
 │
-└── index_name_URL_mapping.csv</code></pre><ul><li>Index\: contains the .hdf5 and .tar.gz files along with the artifact__info.txt. Artifact info contains sha256 and git-tree-sha1 hashes. </li><li>Scraped_files\: contains the scraped chunks and sources. These are separated by the hostnames of the URLs.</li><li>URL_mapping.csv contains the scraped URLs mapping them with the estimated package name.</li></ul></article><nav class="docs-footer"><a class="docs-footer-nextpage" href="api/">API Reference »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.6.0 on <span class="colophon-date" title="Saturday 24 August 2024 12:40">Saturday 24 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+└── index_name_URL_mapping.csv</code></pre><ul><li>Index\: contains the .hdf5 and .tar.gz files along with the artifact__info.txt. Artifact info contains sha256 and git-tree-sha1 hashes. </li><li>Scraped_files\: contains the scraped chunks and sources. These are separated by the hostnames of the URLs.</li><li>URL_mapping.csv contains the scraped URLs mapping them with the estimated package name.</li></ul></article><nav class="docs-footer"><a class="docs-footer-nextpage" href="api/">API Reference »</a><div class="flexbox-break"></div><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.6.0 on <span class="colophon-date" title="Saturday 24 August 2024 12:59">Saturday 24 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/search_index.js b/dev/search_index.js
index 704c4b9..1c26e89 100644
--- a/dev/search_index.js
+++ b/dev/search_index.js
@@ -1,3 +1,3 @@
 var documenterSearchIndex = {"docs":
-[{"location":"api/#Reference","page":"API Reference","title":"Reference","text":"","category":"section"},{"location":"api/","page":"API Reference","title":"API Reference","text":"","category":"page"},{"location":"api/","page":"API Reference","title":"API Reference","text":"Modules = [DocsScraper]","category":"page"},{"location":"api/#DocsScraper.base_url_segment-Tuple{String}","page":"API Reference","title":"DocsScraper.base_url_segment","text":"base_url_segment(url::String)\n\nReturn the base url and first path segment if all the other checks fail\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}","page":"API Reference","title":"DocsScraper.check_robots_txt","text":"check_robots_txt(user_agent::AbstractString, url::AbstractString)\n\nCheck robots.txt of a URL and return a boolean representing if user_agent is allowed to crawl the input url, along with sitemap urls\n\nArguments\n\nuser_agent: user agent attempting to crawl the webpage\nurl: input URL string\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.clean_url-Tuple{String}","page":"API Reference","title":"DocsScraper.clean_url","text":"clean_url(url::String)\n\nStrip URL of any http:// ot https:// or www. prefixes \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.crawl-Tuple{Vector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.crawl","text":"crawl(input_urls::Vector{<:AbstractString})\n\nCrawl on the input URLs and return a hostname_url_dict which is a dictionary with key being hostnames and the values being the URLs\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.create_URL_map-Tuple{Vector{String}, AbstractString, AbstractString}","page":"API Reference","title":"DocsScraper.create_URL_map","text":"create_URL_map(sources::Vector{String}, output_file_path::AbstractString, index_name::AbstractString)\n\nCreates a CSV file containing the URL along with the estimated package name \n\nArguments\n\nsources: List of scraped sources\noutputfilepath: Path to the directory in which the csv will be created\nindex_name: Name of the created index \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.create_output_dirs-Tuple{String, String}","page":"API Reference","title":"DocsScraper.create_output_dirs","text":"create_output_dirs(parent_directory_path::String, index_name::String)\n\nCreate indexname, Scrapedfiles and Index directories inside parent_directory_path. Return path to index_name \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.docs_in_url-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.docs_in_url","text":"docs_in_url(url::AbstractString)\n\nIf the base url is in the form docs.packagename.domainextension, then return the middle word i.e., package_name \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.find_duplicates-Tuple{AbstractVector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.find_duplicates","text":"find_duplicates(chunks::AbstractVector{<:AbstractString})\n\nFind duplicates in a list of chunks using SHA-256 hash. Returns a bit vector of the same length as the input list,  where true indicates a duplicate (second instance of the same text).\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.find_urls_html!","text":"find_urls_html!(url::AbstractString, node::Gumbo.HTMLElement, url_queue::Vector{<:AbstractString}\n\nFunction to recursively find <a> tags and extract the urls\n\nArguments\n\nurl: The initial input URL \nnode: The HTML node of type Gumbo.HTMLElement\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.find_urls_xml!","text":"find_urls_xml!(url::AbstractString, url_queue::Vector{<:AbstractString})\n\nIdentify URL through regex pattern in xml files and push in url_queue\n\nArguments\n\nurl: url from which all other URLs will be extracted\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.generate_embeddings-Tuple{Vector{SubString{String}}}","page":"API Reference","title":"DocsScraper.generate_embeddings","text":"generate_embeddings(chunks::Vector{SubString{String}};\n    model_embedding::AbstractString = MODEL_EMBEDDING,\n    embedding_dimension::Int = EMBEDDING_DIMENSION, embedding_bool::Bool = EMBEDDING_BOOL,\n    index_name::AbstractString = \"\")\n\nDeserialize chunks and sources to generate embeddings. Returns path to tar.gz file of the created index Note: We recommend passing index_name. This will be the name of the generated index\n\nArguments\n\nchunks: Vector of scraped chunks\nmodel_embedding: Embedding model\nembedding_dimension: Embedding dimensions\nembedding_bool: If true, embeddings generated will be boolean, Float32 otherwise\nindex_name: Name of the index. Default: \"index\" symbol generated by gensym\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_base_url-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.get_base_url","text":"get_base_url(url::AbstractString)\n\nExtract the base url\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_header_path-Tuple{Dict{String, Any}}","page":"API Reference","title":"DocsScraper.get_header_path","text":"get_header_path(d::Dict)\n\nConcatenate the h1, h2, h3 keys from the metadata of a Dict\n\nExamples\n\nd = Dict(\"metadata\" => Dict{Symbol,Any}(:h1 => \"Axis\", :h2 => \"Attributes\", :h3 => \"yzoomkey\"), \"heading\" => \"yzoomkey\")\nget_header_path(d)\n# Output: \"Axis/Attributes/yzoomkey\"\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}","page":"API Reference","title":"DocsScraper.get_html_content","text":"get_html_content(root::Gumbo.HTMLElement)\n\nReturn the main content of the HTML. If not found, return the whole HTML to parse\n\nArguments\n\nroot: The HTML root from which content is extracted\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_package_name-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.get_package_name","text":"get_package_name(url::AbstractString)\n\nReturn name of the package through the package URL  \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_urls!-Tuple{AbstractString, Vector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.get_urls!","text":"get_links!(url::AbstractString, \n    url_queue::Vector{<:AbstractString})\n\nExtract urls inside html or xml files \n\nArguments\n\nurl: url from which all other URLs will be extracted\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}","page":"API Reference","title":"DocsScraper.insert_parsed_data!","text":"insert_parsed_data!(heading_hierarchy::Dict{Symbol,Any}, \n    parsed_blocks::Vector{Dict{String,Any}}, \n    text_to_insert::AbstractString, \n    text_type::AbstractString)\n\nInsert the text into parsed_blocks Vector\n\nArguments\n\nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\ntexttoinsert: Text to be inserted\ntext_type: The text to be inserted could be heading or a code block or just text\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}","page":"API Reference","title":"DocsScraper.l2_norm_columns","text":"l2_norm_columns(mat::AbstractMatrix)\n\nNormalize the columns of the input embeddings\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.l2_norm_columns-Tuple{AbstractVector}","page":"API Reference","title":"DocsScraper.l2_norm_columns","text":"l2_norm_columns(vect::AbstractVector)\n\nNormalize the columns of the input embeddings\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.load_chunks_sources-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.load_chunks_sources","text":"load_chunks_sources(target_path::AbstractString)\n\nReturn chunks, sources by reading the .jls files in joinpath(target_path, \"Scraped_files\") \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.make_chunks_sources-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}","page":"API Reference","title":"DocsScraper.make_chunks_sources","text":"make_chunks(hostname_url_dict::Dict{AbstractString,Vector{AbstractString}}, target_path::String; \n    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)\n\nParse URLs from hostnameurldict and save the chunks\n\nArguments\n\nhostnameurldict: Dict with key being hostname and value being a vector of URLs\ntarget_path: Knowledge pack path\nmaxchunksize: Maximum chunk size\nminchunksize: Minimum chunk size\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.make_knowledge_packs","page":"API Reference","title":"DocsScraper.make_knowledge_packs","text":"make_knowledge_packs(crawlable_urls::Vector{<:AbstractString} = String[];\n    single_urls::Vector{<:AbstractString} = String[],\n    max_chunk_size::Int = MAX_CHUNK_SIZE, min_chunk_size::Int = MIN_CHUNK_SIZE,\n    model_embedding::AbstractString = MODEL_EMBEDDING, embedding_dimension::Int = EMBEDDING_DIMENSION, custom_metadata::AbstractString = \"\",\n    embedding_bool::Bool = EMBEDDING_BOOL, index_name::AbstractString = \"\",\n    target_path::AbstractString = \"\", save_url_map::Bool = true)\n\nEntry point to crawl, parse and generate embeddings. Returns path to tar.gz file of the created index Note: We recommend passing index_name. This will be the name of the generated index\n\nArguments\n\ncrawlable_urls: URLs that should be crawled to find more links\nsingle_urls: Single page URLs that should just be scraped and parsed. The crawler won't look for more URLs\nmaxchunksize: Maximum chunk size\nminchunksize: Minimum chunk size\nmodel_embedding: Embedding model\nembedding_dimension: Embedding dimensions\ncustom_metadata: Custom metadata like ecosystem name if required\nembedding_bool: If true, embeddings generated will be boolean, Float32 otherwise\nindex_name: Name of the index. Default: \"index\" symbol generated by gensym  \ntarget_path: Path to the directory where the index folder will be created\nsaveurlmap: If true, creates a CSV of crawled URLs with their associated package names\n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.nav_bar-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.nav_bar","text":"nav_bar(url::AbstractString)\n\nJulia doc websites tend to have the package name under \".docs-package-name\" class in the HTML tree\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.parse_robots_txt!-Tuple{String}","page":"API Reference","title":"DocsScraper.parse_robots_txt!","text":"parse_robots_txt!(robots_txt::String)\n\nParse the robots.txt string and return rules and the URLs on Sitemap\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.parse_url_to_blocks","text":"parse_url(url::AbstractString)\n\nInitiator and main function to parse HTML from url. Return a Vector of Dict containing Heading/Text/Code along with a Dict of respective metadata\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.postprocess_chunks-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.postprocess_chunks","text":"function postprocess_chunks(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString};\n    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true, paths::Union{Nothing,AbstractVector{<:AbstractString}}=nothing,\n    websites::Union{Nothing,AbstractVector{<:AbstractString}}=nothing)\n\nPost-process the input list of chunks and their corresponding sources by removing short chunks and duplicates.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}","page":"API Reference","title":"DocsScraper.process_code","text":"process_code(node::Gumbo.HTMLElement)\n\nProcess code snippets. If the current node is a code block, return the text inside code block with backticks.\n\nArguments\n\nnode: The root HTML node\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_docstring!","page":"API Reference","title":"DocsScraper.process_docstring!","text":"process_docstring!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nFunction to process node of class docstring\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.process_generic_node!","page":"API Reference","title":"DocsScraper.process_generic_node!","text":"process_generic_node!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nIf the node is neither heading nor code\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}","page":"API Reference","title":"DocsScraper.process_headings!","text":"process_headings!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}})\n\nProcess headings. If the current node is heading, directly insert into parsed_blocks. \n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}","page":"API Reference","title":"DocsScraper.process_hostname!","text":"process_hostname(url::AbstractString, hostname_dict::Dict{AbstractString,Vector{AbstractString}})\n\nAdd url to its hostname in hostname_dict\n\nArguments\n\nurl: URL string\nhostname_dict: Dict with key being hostname and value being a vector of URLs\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_hostname-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.process_hostname","text":"process_hostname(url::AbstractString)\n\nReturn the hostname of an input URL\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_node!","page":"API Reference","title":"DocsScraper.process_node!","text":"process_node!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nFunction to process a node\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}","page":"API Reference","title":"DocsScraper.process_node!","text":"multiple dispatch for process_node!() when node is of type Gumbo.HTMLText\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_non_crawl_urls-Tuple{Vector{<:AbstractString}, Set{AbstractString}, Dict{AbstractString, Vector{AbstractString}}}","page":"API Reference","title":"DocsScraper.process_non_crawl_urls","text":"process_non_crawl_urls(\n    single_urls::Vector{<:AbstractString}, visited_url_set::Set{AbstractString},\n    hostname_url_dict::Dict{AbstractString, Vector{AbstractString}})\n\nCheck if the single_urls is scrapable. If yes, then add it to a Dict of URLs to scrape \n\nArguments\n\nsingle_urls: Single page URLs that should just be scraped and parsed. The crawler won't look for more URLs\nvisitedurlset: Set of visited URLs. Avoids duplication\nhostnameurldict: Dict with key being the hostname and the values being the URLs\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_paths-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.process_paths","text":"process_paths(url::AbstractString; max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)\n\nProcess folders provided in paths. In each, take all HTML files, scrape them, chunk them and postprocess them.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_text-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.process_text","text":"remove_dashes(text::AbstractString)\n\nremoves all dashes ('-') from a given string\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.remove_duplicates-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.remove_duplicates","text":"remove_duplicates(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString})\n\nRemove chunks that are duplicated in the input list of chunks and their corresponding sources.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.remove_short_chunks-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.remove_short_chunks","text":"remove_short_chunks(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString};\n    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true)\n\nRemove chunks that are shorter than a specified length (min_length) from the input list of chunks and their corresponding sources.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.remove_urls_from_index","page":"API Reference","title":"DocsScraper.remove_urls_from_index","text":"function remove_urls_from_index(index_path::AbstractString, prefix_urls=Vector{<:AbstractString})\n\nRemove chunks and sources corresponding to URLs starting with prefix_urls \n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.report_artifact-Tuple{Any, AbstractString, AbstractString}","page":"API Reference","title":"DocsScraper.report_artifact","text":"report_artifact(fn_output)\n\nPrint artifact information\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.resolve_url-Tuple{String, String}","page":"API Reference","title":"DocsScraper.resolve_url","text":"resolve_url(base_url::String, extracted_url::String)\n\nCheck the extracted URL with the original URL. Return empty String if the extracted URL belongs to a different domain.  Return complete URL if there's a directory traversal paths or the extracted URL belongs to the same domain as the base_url\n\nArguments\n\nbase_url: URL of the page from which other URLs are being extracted\nextractedurl: URL extracted from the baseurl  \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}","page":"API Reference","title":"DocsScraper.roll_up_chunks","text":"roll_up_chunks(parsed_blocks::Vector{Dict{String,Any}}, url::AbstractString; separator::String=\"<SEP>\")\n\nRoll-up chunks (that have the same header!), so we can split them later by <SEP> to get the desired length\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.save_embeddings-Tuple{AbstractString, Int64, Bool, AbstractString, AbstractString, AbstractVector{<:AbstractString}, Vector{String}, Any, AbstractString, Int64}","page":"API Reference","title":"DocsScraper.save_embeddings","text":"save_embeddings(index_name::AbstractString, embedding_dimension::Int,\n    embedding_bool::Bool, model_embedding::AbstractString, target_path::AbstractString,\n    chunks::AbstractVector{<:AbstractString}, sources::Vector{String},\n    full_embeddings, custom_metadata::AbstractString, max_chunk_size::Int)\n\nSave the generated embeddings along with a .txt containing the artifact info\n\nArguments\n\nindex_name: Name of the index. Default: \"index\" symbol generated by gensym  \nembedding_dimension: Embedding dimensions\nembedding_bool: If true, embeddings generated will be boolean, Float32 otherwise\nmodel_embedding: Embedding model\ntarget_path: Path to the index folder\nchunks: Vector of scraped chunks\nsources: Vector of scraped sources\nfull_embeddings: Generated embedding matrix\ncustom_metadata: Custom metadata like ecosystem name if required\nmaxchunksize: Maximum chunk size\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.text_before_version-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.text_before_version","text":"text_before_version(url::AbstractString)\n\nReturn text before \"stable\" or \"dev\" or any version in URL. It is generally observed that doc websites have package names before their versions \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.url_package_name-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.url_package_name","text":"url_package_name(url::AbstractString)\n\nReturn the text if the URL itself contains the package name with \".jl\" or \"_jl\" suffixes\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.urls_for_metadata-Tuple{Vector{String}}","page":"API Reference","title":"DocsScraper.urls_for_metadata","text":"urls_for_metadata(sources::Vector{String})\n\nReturn a Dict of package names with their associated URLs Note: Due to their large number, URLs are stripped down to the package name; Package subpaths are not included in metadata.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.validate_args","page":"API Reference","title":"DocsScraper.validate_args","text":"validate_args(crawlable_urls::Vector{<:AbstractString} = String[];\n    single_urls::Vector{<:AbstractString} = String[], target_path::AbstractString = \"\", index_name::AbstractString = \"\")\n\nValidate args. Return error if both crawlable_urls and single_urls are empty.  Create a target path if input path is invalid. Create a gensym index if the input index is invalid. \n\nArguments\n\ncrawlable_urls: URLs that should be crawled to find more links\nsingle_urls: Single page URLs that should just be scraped and parsed. The crawler won't look for more URLs\ntarget_path: Path to the directory where the index folder will be created\nindex_name: Name of the index. Default: \"index\" symbol generated by gensym  \n\n\n\n\n\n","category":"function"},{"location":"api/#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}","page":"API Reference","title":"PromptingTools.Experimental.RAGTools.get_chunks","text":"RT.get_chunks(chunker::DocParserChunker, url::AbstractString;\n    verbose::Bool=true, separators=[\"\n\n\", \". \", \" \", \" \"], maxchunksize::Int=MAXCHUNKSIZE)\n\nExtract chunks from HTML files, by parsing the content in the HTML, rolling up chunks by headers,  and splits them by separators to get the desired length.\n\nArguments\n\nchunker: DocParserChunker\nurl: URL of the webpage to extract chunks\nverbose: Bool to print the log\nseparators: Chunk separators\nmaxchunksize Maximum chunk size\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper","page":"Home","title":"DocsScraper","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"DocsScraper is a package designed to create \"knowledge packs\" from online documentation sites for the Julia language.","category":"page"},{"location":"","page":"Home","title":"Home","text":"It scrapes and parses the URLs and with the help of PromptingTools.jl, creates an index of chunks and their embeddings that can be used in RAG applications. It integrates with AIHelpMe.jl and PromptingTools.jl to offer highly efficient and relevant query retrieval, ensuring that the responses generated by the system are specific to the content in the created database.","category":"page"},{"location":"#Features","page":"Home","title":"Features","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"URL Scraping and Parsing: Automatically scrapes and parses input URLs to extract relevant information, paying particular attention to code snippets and code blocks. Gives an option to customize the chunk sizes\nURL Crawling: Optionally crawls the input URLs to look for multiple pages in the same domain.\nKnowledge Index Creation: Leverages PromptingTools.jl to create embeddings with customizable embedding model, size and type (Bool and Float32). ","category":"page"},{"location":"#Installation","page":"Home","title":"Installation","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"To install DocsScraper, use the Julia package manager and the package name (it's not registered yet):","category":"page"},{"location":"","page":"Home","title":"Home","text":"using Pkg\nPkg.add(url=\"https://github.com/JuliaGenAI/DocsScraper.jl\")","category":"page"},{"location":"","page":"Home","title":"Home","text":"Prerequisites:","category":"page"},{"location":"","page":"Home","title":"Home","text":"Julia (version 1.10 or later).\nInternet connection for API access.\nOpenAI API keys with available credits. See How to Obtain API Keys.","category":"page"},{"location":"#Building-the-Index","page":"Home","title":"Building the Index","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"crawlable_urls = [\"https://juliagenai.github.io/DocsScraper.jl/dev\"]\n\nindex_path = make_knowledge_packs(crawlable_urls;\n    index_name = \"docsscraper\", embedding_dimension = 1024, embedding_bool = true, target_path=joinpath(pwd(), \"knowledge_packs\"))","category":"page"},{"location":"","page":"Home","title":"Home","text":"[ Info: robots.txt unavailable for https://juliagenai.github.io:/DocsScraper.jl/dev/home/\n[ Info: Scraping link: https://juliagenai.github.io:/DocsScraper.jl/dev/home/\n[ Info: robots.txt unavailable for https://juliagenai.github.io:/DocsScraper.jl/dev\n[ Info: Scraping link: https://juliagenai.github.io:/DocsScraper.jl/dev\n. . .\n[ Info: Processing https://juliagenai.github.io:/DocsScraper.jl/dev...\n[ Info: Parsing URL: https://juliagenai.github.io:/DocsScraper.jl/dev\n[ Info: Scraping done: 44 chunks\n[ Info: Removed 0 short chunks\n[ Info: Removed 1 duplicate chunks\n[ Info: Created embeddings for docsscraper. Cost: $0.001\na docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5\n[ Info: ARTIFACT: docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.tar.gz\n┌ Info: sha256:\n└   sha = \"977c2b9d9fe30bebea3b6db124b733d29b7762a8f82c9bd642751f37ad27ee2e\"\n┌ Info: git-tree-sha1:\n└   git_tree_sha = \"eca409c0a32ed506fbd8125887b96987e9fb91d2\"\n[ Info: Saving source URLS in Julia\\knowledge_packs\\docsscraper\\docsscraper_URL_mapping.csv      \n\"Julia\\\\knowledge_packs\\\\docsscraper\\\\Index\\\\docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5\"","category":"page"},{"location":"","page":"Home","title":"Home","text":"make_knowledge_packs is the entry point to the package. This function takes in the URLs to parse and returns the index. This index can be passed to AIHelpMe.jl to answer queries on the built knowledge packs.","category":"page"},{"location":"","page":"Home","title":"Home","text":"Default make_knowledge_packs Parameters: ","category":"page"},{"location":"","page":"Home","title":"Home","text":"Default embedding type is Float32. Change to boolean by the optional parameter: embedding_bool = true.\nDefault embedding size is 3072. Change to custom size by the optional parameter: embedding_dimension = custom_dimension.\nDefault model being used is OpenAI's text-embedding-3-large.\nDefault max chunk size is 384 and min chunk size is 40. Change by the optional parameters: max_chunk_size = custom_max_size and min_chunk_size = custom_min_size.","category":"page"},{"location":"","page":"Home","title":"Home","text":"Note: For everyday use, embedding size = 1024 and embedding type = Bool is sufficient. This is compatible with AIHelpMe's :bronze and :silver pipelines (update_pipeline(:bronze)). For better results use embedding size = 3072 and embedding type = Float32. This requires the use of :gold pipeline (see more ?RAG_CONFIGURATIONS)","category":"page"},{"location":"#Using-the-Index-for-Questions","page":"Home","title":"Using the Index for Questions","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"using AIHelpMe\nusing AIHelpMe: pprint, load_index!\n\n# set it as the \"default\" index, then it will be automatically used for every question\nload_index!(index_path)\n\naihelp(\"what is DocsScraper.jl?\") |> pprint","category":"page"},{"location":"","page":"Home","title":"Home","text":"[ Info: Updated RAG pipeline to `:bronze` (Configuration key: \"textembedding3large-1024-Bool\").\n[ Info: Loaded index from packs: julia into MAIN_INDEX\n[ Info: Loading index from Julia\\DocsScraper.jl\\docsscraper\\Index\\docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5\n[ Info: Loaded index a file Julia\\DocsScraper.jl\\docsscraper\\Index\\docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5 into MAIN_INDEX\n[ Info: Done with RAG. Total cost: $0.009\n--------------------\nAI Message\n--------------------\nDocsScraper.jl is a Julia package designed to create a vector database from input URLs. It scrapes and parses the URLs and, with the assistance of      \nPromptingTools.jl, creates a vector store that can be utilized in RAG (Retrieval-Augmented Generation) applications. DocsScraper.jl integrates with     \nAIHelpMe.jl and PromptingTools.jl to provide efficient and relevant query retrieval, ensuring that the responses generated by the system are specific to the content in the created database.","category":"page"},{"location":"","page":"Home","title":"Home","text":"Tip: Use pprint for nicer outputs with sources and last_result for more detailed outputs (with sources).","category":"page"},{"location":"","page":"Home","title":"Home","text":"using AIHelpMe: last_result\nprint(last_result())","category":"page"},{"location":"#Output","page":"Home","title":"Output","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"make_knowledge_packs creates the following files:","category":"page"},{"location":"","page":"Home","title":"Home","text":"index_name\\\n│\n├── Index\\\n│   ├── index_name__artifact__info.txt\n│   ├── index_name__vDate__model_embedding_size-embedding_type__v1.0.hdf5\n│   └── index_name__vDate__model_embedding_size-embedding_type__v1.0.tar.gz  \n│\n├── Scraped_files\\\n│   ├── scraped_hostname-chunks-max-chunk_size-min-min_chunk_size.jls\n│   ├── scraped_hostname-sources-max-chunk_size-min-min_chunk_size.jls\n│   └── . . .\n│\n└── index_name_URL_mapping.csv","category":"page"},{"location":"","page":"Home","title":"Home","text":"Index\\: contains the .hdf5 and .tar.gz files along with the artifact__info.txt. Artifact info contains sha256 and git-tree-sha1 hashes. \nScraped_files\\: contains the scraped chunks and sources. These are separated by the hostnames of the URLs.\nURL_mapping.csv contains the scraped URLs mapping them with the estimated package name.","category":"page"}]
+[{"location":"api/#Reference","page":"API Reference","title":"Reference","text":"","category":"section"},{"location":"api/","page":"API Reference","title":"API Reference","text":"","category":"page"},{"location":"api/","page":"API Reference","title":"API Reference","text":"Modules = [DocsScraper]","category":"page"},{"location":"api/#DocsScraper.base_url_segment-Tuple{String}","page":"API Reference","title":"DocsScraper.base_url_segment","text":"base_url_segment(url::String)\n\nReturn the base url and first path segment if all the other checks fail\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}","page":"API Reference","title":"DocsScraper.check_robots_txt","text":"check_robots_txt(user_agent::AbstractString, url::AbstractString)\n\nCheck robots.txt of a URL and return a boolean representing if user_agent is allowed to crawl the input url, along with sitemap urls\n\nArguments\n\nuser_agent: user agent attempting to crawl the webpage\nurl: input URL string\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.clean_url-Tuple{String}","page":"API Reference","title":"DocsScraper.clean_url","text":"clean_url(url::String)\n\nStrip URL of any http:// ot https:// or www. prefixes \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.crawl-Tuple{Vector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.crawl","text":"crawl(input_urls::Vector{<:AbstractString})\n\nCrawl on the input URLs and return a hostname_url_dict which is a dictionary with key being hostnames and the values being the URLs\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.create_URL_map-Tuple{Vector{String}, AbstractString, AbstractString}","page":"API Reference","title":"DocsScraper.create_URL_map","text":"create_URL_map(sources::Vector{String}, output_file_path::AbstractString, index_name::AbstractString)\n\nCreates a CSV file containing the URL along with the estimated package name \n\nArguments\n\nsources: List of scraped sources\noutputfilepath: Path to the directory in which the csv will be created\nindex_name: Name of the created index \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.create_output_dirs-Tuple{String, String}","page":"API Reference","title":"DocsScraper.create_output_dirs","text":"create_output_dirs(parent_directory_path::String, index_name::String)\n\nCreate indexname, Scrapedfiles and Index directories inside parent_directory_path. Return path to index_name \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.docs_in_url-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.docs_in_url","text":"docs_in_url(url::AbstractString)\n\nIf the base url is in the form docs.packagename.domainextension, then return the middle word i.e., package_name \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.find_duplicates-Tuple{AbstractVector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.find_duplicates","text":"find_duplicates(chunks::AbstractVector{<:AbstractString})\n\nFind duplicates in a list of chunks using SHA-256 hash. Returns a bit vector of the same length as the input list,  where true indicates a duplicate (second instance of the same text).\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.find_urls_html!","text":"find_urls_html!(url::AbstractString, node::Gumbo.HTMLElement, url_queue::Vector{<:AbstractString}\n\nFunction to recursively find <a> tags and extract the urls\n\nArguments\n\nurl: The initial input URL \nnode: The HTML node of type Gumbo.HTMLElement\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.find_urls_xml!","text":"find_urls_xml!(url::AbstractString, url_queue::Vector{<:AbstractString})\n\nIdentify URL through regex pattern in xml files and push in url_queue\n\nArguments\n\nurl: url from which all other URLs will be extracted\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.generate_embeddings-Tuple{Vector{SubString{String}}}","page":"API Reference","title":"DocsScraper.generate_embeddings","text":"generate_embeddings(chunks::Vector{SubString{String}};\n    model_embedding::AbstractString = MODEL_EMBEDDING,\n    embedding_dimension::Int = EMBEDDING_DIMENSION, embedding_bool::Bool = EMBEDDING_BOOL,\n    index_name::AbstractString = \"\")\n\nDeserialize chunks and sources to generate embeddings. Returns path to tar.gz file of the created index Note: We recommend passing index_name. This will be the name of the generated index\n\nArguments\n\nchunks: Vector of scraped chunks\nmodel_embedding: Embedding model\nembedding_dimension: Embedding dimensions\nembedding_bool: If true, embeddings generated will be boolean, Float32 otherwise\nindex_name: Name of the index. Default: \"index\" symbol generated by gensym\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_base_url-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.get_base_url","text":"get_base_url(url::AbstractString)\n\nExtract the base url\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_header_path-Tuple{Dict{String, Any}}","page":"API Reference","title":"DocsScraper.get_header_path","text":"get_header_path(d::Dict)\n\nConcatenate the h1, h2, h3 keys from the metadata of a Dict\n\nExamples\n\nd = Dict(\"metadata\" => Dict{Symbol,Any}(:h1 => \"Axis\", :h2 => \"Attributes\", :h3 => \"yzoomkey\"), \"heading\" => \"yzoomkey\")\nget_header_path(d)\n# Output: \"Axis/Attributes/yzoomkey\"\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}","page":"API Reference","title":"DocsScraper.get_html_content","text":"get_html_content(root::Gumbo.HTMLElement)\n\nReturn the main content of the HTML. If not found, return the whole HTML to parse\n\nArguments\n\nroot: The HTML root from which content is extracted\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_package_name-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.get_package_name","text":"get_package_name(url::AbstractString)\n\nReturn name of the package through the package URL  \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.get_urls!-Tuple{AbstractString, Vector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.get_urls!","text":"get_links!(url::AbstractString, \n    url_queue::Vector{<:AbstractString})\n\nExtract urls inside html or xml files \n\nArguments\n\nurl: url from which all other URLs will be extracted\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}","page":"API Reference","title":"DocsScraper.insert_parsed_data!","text":"insert_parsed_data!(heading_hierarchy::Dict{Symbol,Any}, \n    parsed_blocks::Vector{Dict{String,Any}}, \n    text_to_insert::AbstractString, \n    text_type::AbstractString)\n\nInsert the text into parsed_blocks Vector\n\nArguments\n\nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\ntexttoinsert: Text to be inserted\ntext_type: The text to be inserted could be heading or a code block or just text\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}","page":"API Reference","title":"DocsScraper.l2_norm_columns","text":"l2_norm_columns(mat::AbstractMatrix)\n\nNormalize the columns of the input embeddings\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.l2_norm_columns-Tuple{AbstractVector}","page":"API Reference","title":"DocsScraper.l2_norm_columns","text":"l2_norm_columns(vect::AbstractVector)\n\nNormalize the columns of the input embeddings\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.load_chunks_sources-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.load_chunks_sources","text":"load_chunks_sources(target_path::AbstractString)\n\nReturn chunks, sources by reading the .jls files in joinpath(target_path, \"Scraped_files\") \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.make_chunks_sources-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}","page":"API Reference","title":"DocsScraper.make_chunks_sources","text":"make_chunks(hostname_url_dict::Dict{AbstractString,Vector{AbstractString}}, target_path::String; \n    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)\n\nParse URLs from hostnameurldict and save the chunks\n\nArguments\n\nhostnameurldict: Dict with key being hostname and value being a vector of URLs\ntarget_path: Knowledge pack path\nmaxchunksize: Maximum chunk size\nminchunksize: Minimum chunk size\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.make_knowledge_packs","page":"API Reference","title":"DocsScraper.make_knowledge_packs","text":"make_knowledge_packs(crawlable_urls::Vector{<:AbstractString} = String[];\n    single_urls::Vector{<:AbstractString} = String[],\n    max_chunk_size::Int = MAX_CHUNK_SIZE, min_chunk_size::Int = MIN_CHUNK_SIZE,\n    model_embedding::AbstractString = MODEL_EMBEDDING, embedding_dimension::Int = EMBEDDING_DIMENSION, custom_metadata::AbstractString = \"\",\n    embedding_bool::Bool = EMBEDDING_BOOL, index_name::AbstractString = \"\",\n    target_path::AbstractString = \"\", save_url_map::Bool = true)\n\nEntry point to crawl, parse and generate embeddings. Returns path to tar.gz file of the created index Note: We recommend passing index_name. This will be the name of the generated index\n\nArguments\n\ncrawlable_urls: URLs that should be crawled to find more links\nsingle_urls: Single page URLs that should just be scraped and parsed. The crawler won't look for more URLs\nmaxchunksize: Maximum chunk size\nminchunksize: Minimum chunk size\nmodel_embedding: Embedding model\nembedding_dimension: Embedding dimensions\ncustom_metadata: Custom metadata like ecosystem name if required\nembedding_bool: If true, embeddings generated will be boolean, Float32 otherwise\nindex_name: Name of the index. Default: \"index\" symbol generated by gensym  \ntarget_path: Path to the directory where the index folder will be created\nsaveurlmap: If true, creates a CSV of crawled URLs with their associated package names\n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.nav_bar-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.nav_bar","text":"nav_bar(url::AbstractString)\n\nJulia doc websites tend to have the package name under \".docs-package-name\" class in the HTML tree\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.parse_robots_txt!-Tuple{String}","page":"API Reference","title":"DocsScraper.parse_robots_txt!","text":"parse_robots_txt!(robots_txt::String)\n\nParse the robots.txt string and return rules and the URLs on Sitemap\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.parse_url_to_blocks","text":"parse_url(url::AbstractString)\n\nInitiator and main function to parse HTML from url. Return a Vector of Dict containing Heading/Text/Code along with a Dict of respective metadata\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.postprocess_chunks-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.postprocess_chunks","text":"function postprocess_chunks(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString};\n    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true, paths::Union{Nothing,AbstractVector{<:AbstractString}}=nothing,\n    websites::Union{Nothing,AbstractVector{<:AbstractString}}=nothing)\n\nPost-process the input list of chunks and their corresponding sources by removing short chunks and duplicates.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}","page":"API Reference","title":"DocsScraper.process_code","text":"process_code(node::Gumbo.HTMLElement)\n\nProcess code snippets. If the current node is a code block, return the text inside code block with backticks.\n\nArguments\n\nnode: The root HTML node\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_docstring!","page":"API Reference","title":"DocsScraper.process_docstring!","text":"process_docstring!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nFunction to process node of class docstring\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.process_generic_node!","page":"API Reference","title":"DocsScraper.process_generic_node!","text":"process_generic_node!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nIf the node is neither heading nor code\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}","page":"API Reference","title":"DocsScraper.process_headings!","text":"process_headings!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}})\n\nProcess headings. If the current node is heading, directly insert into parsed_blocks. \n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}","page":"API Reference","title":"DocsScraper.process_hostname!","text":"process_hostname(url::AbstractString, hostname_dict::Dict{AbstractString,Vector{AbstractString}})\n\nAdd url to its hostname in hostname_dict\n\nArguments\n\nurl: URL string\nhostname_dict: Dict with key being hostname and value being a vector of URLs\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_hostname-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.process_hostname","text":"process_hostname(url::AbstractString)\n\nReturn the hostname of an input URL\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_node!","page":"API Reference","title":"DocsScraper.process_node!","text":"process_node!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nFunction to process a node\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}","page":"API Reference","title":"DocsScraper.process_node!","text":"multiple dispatch for process_node!() when node is of type Gumbo.HTMLText\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_non_crawl_urls-Tuple{Vector{<:AbstractString}, Set{AbstractString}, Dict{AbstractString, Vector{AbstractString}}}","page":"API Reference","title":"DocsScraper.process_non_crawl_urls","text":"process_non_crawl_urls(\n    single_urls::Vector{<:AbstractString}, visited_url_set::Set{AbstractString},\n    hostname_url_dict::Dict{AbstractString, Vector{AbstractString}})\n\nCheck if the single_urls is scrapable. If yes, then add it to a Dict of URLs to scrape \n\nArguments\n\nsingle_urls: Single page URLs that should just be scraped and parsed. The crawler won't look for more URLs\nvisitedurlset: Set of visited URLs. Avoids duplication\nhostnameurldict: Dict with key being the hostname and the values being the URLs\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_paths-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.process_paths","text":"process_paths(url::AbstractString; max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)\n\nProcess folders provided in paths. In each, take all HTML files, scrape them, chunk them and postprocess them.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.process_text-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.process_text","text":"remove_dashes(text::AbstractString)\n\nremoves all dashes ('-') from a given string\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.remove_duplicates-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.remove_duplicates","text":"remove_duplicates(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString})\n\nRemove chunks that are duplicated in the input list of chunks and their corresponding sources.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.remove_short_chunks-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Reference","title":"DocsScraper.remove_short_chunks","text":"remove_short_chunks(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString};\n    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true)\n\nRemove chunks that are shorter than a specified length (min_length) from the input list of chunks and their corresponding sources.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.remove_urls_from_index","page":"API Reference","title":"DocsScraper.remove_urls_from_index","text":"function remove_urls_from_index(index_path::AbstractString, prefix_urls=Vector{<:AbstractString})\n\nRemove chunks and sources corresponding to URLs starting with prefix_urls \n\n\n\n\n\n","category":"function"},{"location":"api/#DocsScraper.report_artifact-Tuple{Any, AbstractString, AbstractString}","page":"API Reference","title":"DocsScraper.report_artifact","text":"report_artifact(fn_output)\n\nPrint artifact information\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.resolve_url-Tuple{String, String}","page":"API Reference","title":"DocsScraper.resolve_url","text":"resolve_url(base_url::String, extracted_url::String)\n\nCheck the extracted URL with the original URL. Return empty String if the extracted URL belongs to a different domain.  Return complete URL if there's a directory traversal paths or the extracted URL belongs to the same domain as the base_url\n\nArguments\n\nbase_url: URL of the page from which other URLs are being extracted\nextractedurl: URL extracted from the baseurl  \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}","page":"API Reference","title":"DocsScraper.roll_up_chunks","text":"roll_up_chunks(parsed_blocks::Vector{Dict{String,Any}}, url::AbstractString; separator::String=\"<SEP>\")\n\nRoll-up chunks (that have the same header!), so we can split them later by <SEP> to get the desired length\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.save_embeddings-Tuple{AbstractString, Int64, Bool, AbstractString, AbstractString, AbstractVector{<:AbstractString}, Vector{String}, Any, AbstractString, Int64}","page":"API Reference","title":"DocsScraper.save_embeddings","text":"save_embeddings(index_name::AbstractString, embedding_dimension::Int,\n    embedding_bool::Bool, model_embedding::AbstractString, target_path::AbstractString,\n    chunks::AbstractVector{<:AbstractString}, sources::Vector{String},\n    full_embeddings, custom_metadata::AbstractString, max_chunk_size::Int)\n\nSave the generated embeddings along with a .txt containing the artifact info\n\nArguments\n\nindex_name: Name of the index. Default: \"index\" symbol generated by gensym  \nembedding_dimension: Embedding dimensions\nembedding_bool: If true, embeddings generated will be boolean, Float32 otherwise\nmodel_embedding: Embedding model\ntarget_path: Path to the index folder\nchunks: Vector of scraped chunks\nsources: Vector of scraped sources\nfull_embeddings: Generated embedding matrix\ncustom_metadata: Custom metadata like ecosystem name if required\nmaxchunksize: Maximum chunk size\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.text_before_version-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.text_before_version","text":"text_before_version(url::AbstractString)\n\nReturn text before \"stable\" or \"dev\" or any version in URL. It is generally observed that doc websites have package names before their versions \n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.url_package_name-Tuple{AbstractString}","page":"API Reference","title":"DocsScraper.url_package_name","text":"url_package_name(url::AbstractString)\n\nReturn the text if the URL itself contains the package name with \".jl\" or \"_jl\" suffixes\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.urls_for_metadata-Tuple{Vector{String}}","page":"API Reference","title":"DocsScraper.urls_for_metadata","text":"urls_for_metadata(sources::Vector{String})\n\nReturn a Dict of package names with their associated URLs Note: Due to their large number, URLs are stripped down to the package name; Package subpaths are not included in metadata.\n\n\n\n\n\n","category":"method"},{"location":"api/#DocsScraper.validate_args","page":"API Reference","title":"DocsScraper.validate_args","text":"validate_args(crawlable_urls::Vector{<:AbstractString} = String[];\n    single_urls::Vector{<:AbstractString} = String[], target_path::AbstractString = \"\", index_name::AbstractString = \"\")\n\nValidate args. Return error if both crawlable_urls and single_urls are empty.  Create a target path if input path is invalid. Create a gensym index if the input index is invalid. \n\nArguments\n\ncrawlable_urls: URLs that should be crawled to find more links\nsingle_urls: Single page URLs that should just be scraped and parsed. The crawler won't look for more URLs\ntarget_path: Path to the directory where the index folder will be created\nindex_name: Name of the index. Default: \"index\" symbol generated by gensym  \n\n\n\n\n\n","category":"function"},{"location":"api/#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}","page":"API Reference","title":"PromptingTools.Experimental.RAGTools.get_chunks","text":"RT.get_chunks(chunker::DocParserChunker, url::AbstractString;\n    verbose::Bool=true, separators=[\"\n\n\", \". \", \" \", \" \"], maxchunksize::Int=MAXCHUNKSIZE)\n\nExtract chunks from HTML files, by parsing the content in the HTML, rolling up chunks by headers,  and splits them by separators to get the desired length.\n\nArguments\n\nchunker: DocParserChunker\nurl: URL of the webpage to extract chunks\nverbose: Bool to print the log\nseparators: Chunk separators\nmaxchunksize Maximum chunk size\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper","page":"Home","title":"DocsScraper","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"DocsScraper is a package designed to create \"knowledge packs\" from online documentation sites for the Julia language.","category":"page"},{"location":"","page":"Home","title":"Home","text":"It scrapes and parses the URLs and with the help of PromptingTools.jl, creates an index of chunks and their embeddings that can be used in RAG applications. It integrates with AIHelpMe.jl and PromptingTools.jl to offer highly efficient and relevant query retrieval, ensuring that the responses generated by the system are specific to the content in the created database.","category":"page"},{"location":"#Features","page":"Home","title":"Features","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"URL Scraping and Parsing: Automatically scrapes and parses input URLs to extract relevant information, paying particular attention to code snippets and code blocks. Gives an option to customize the chunk sizes\nURL Crawling: Optionally crawls the input URLs to look for multiple pages in the same domain.\nKnowledge Index Creation: Leverages PromptingTools.jl to create embeddings with customizable embedding model, size and type (Bool and Float32). ","category":"page"},{"location":"#Installation","page":"Home","title":"Installation","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"To install DocsScraper, use the Julia package manager and the package name (it's not registered yet):","category":"page"},{"location":"","page":"Home","title":"Home","text":"using Pkg\nPkg.add(url=\"https://github.com/JuliaGenAI/DocsScraper.jl\")","category":"page"},{"location":"","page":"Home","title":"Home","text":"Prerequisites:","category":"page"},{"location":"","page":"Home","title":"Home","text":"Julia (version 1.10 or later).\nInternet connection for API access.\nOpenAI API keys with available credits. See How to Obtain API Keys.","category":"page"},{"location":"#Building-the-Index","page":"Home","title":"Building the Index","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"using DocsScraper\ncrawlable_urls = [\"https://juliagenai.github.io/DocsScraper.jl/dev\"]\n\nindex_path = make_knowledge_packs(crawlable_urls;\n    index_name = \"docsscraper\", embedding_dimension = 1024, embedding_bool = true, target_path=joinpath(pwd(), \"knowledge_packs\"))","category":"page"},{"location":"","page":"Home","title":"Home","text":"[ Info: robots.txt unavailable for https://juliagenai.github.io:/DocsScraper.jl/dev/home/\n[ Info: Scraping link: https://juliagenai.github.io:/DocsScraper.jl/dev/home/\n[ Info: robots.txt unavailable for https://juliagenai.github.io:/DocsScraper.jl/dev\n[ Info: Scraping link: https://juliagenai.github.io:/DocsScraper.jl/dev\n. . .\n[ Info: Processing https://juliagenai.github.io:/DocsScraper.jl/dev...\n[ Info: Parsing URL: https://juliagenai.github.io:/DocsScraper.jl/dev\n[ Info: Scraping done: 44 chunks\n[ Info: Removed 0 short chunks\n[ Info: Removed 1 duplicate chunks\n[ Info: Created embeddings for docsscraper. Cost: $0.001\na docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5\n[ Info: ARTIFACT: docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.tar.gz\n┌ Info: sha256:\n└   sha = \"977c2b9d9fe30bebea3b6db124b733d29b7762a8f82c9bd642751f37ad27ee2e\"\n┌ Info: git-tree-sha1:\n└   git_tree_sha = \"eca409c0a32ed506fbd8125887b96987e9fb91d2\"\n[ Info: Saving source URLS in Julia\\knowledge_packs\\docsscraper\\docsscraper_URL_mapping.csv      \n\"Julia\\\\knowledge_packs\\\\docsscraper\\\\Index\\\\docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5\"","category":"page"},{"location":"","page":"Home","title":"Home","text":"make_knowledge_packs is the entry point to the package. This function takes in the URLs to parse and returns the index. This index can be passed to AIHelpMe.jl to answer queries on the built knowledge packs.","category":"page"},{"location":"","page":"Home","title":"Home","text":"Default make_knowledge_packs Parameters: ","category":"page"},{"location":"","page":"Home","title":"Home","text":"Default embedding type is Float32. Change to boolean by the optional parameter: embedding_bool = true.\nDefault embedding size is 3072. Change to custom size by the optional parameter: embedding_dimension = custom_dimension.\nDefault model being used is OpenAI's text-embedding-3-large.\nDefault max chunk size is 384 and min chunk size is 40. Change by the optional parameters: max_chunk_size = custom_max_size and min_chunk_size = custom_min_size.","category":"page"},{"location":"","page":"Home","title":"Home","text":"Note: For everyday use, embedding size = 1024 and embedding type = Bool is sufficient. This is compatible with AIHelpMe's :bronze and :silver pipelines (update_pipeline(:bronze)). For better results use embedding size = 3072 and embedding type = Float32. This requires the use of :gold pipeline (see more ?RAG_CONFIGURATIONS)","category":"page"},{"location":"#Using-the-Index-for-Questions","page":"Home","title":"Using the Index for Questions","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"using AIHelpMe\nusing AIHelpMe: pprint, load_index!\n\n# set it as the \"default\" index, then it will be automatically used for every question\nload_index!(index_path)\n\naihelp(\"what is DocsScraper.jl?\") |> pprint","category":"page"},{"location":"","page":"Home","title":"Home","text":"[ Info: Updated RAG pipeline to `:bronze` (Configuration key: \"textembedding3large-1024-Bool\").\n[ Info: Loaded index from packs: julia into MAIN_INDEX\n[ Info: Loading index from Julia\\DocsScraper.jl\\docsscraper\\Index\\docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5\n[ Info: Loaded index a file Julia\\DocsScraper.jl\\docsscraper\\Index\\docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5 into MAIN_INDEX\n[ Info: Done with RAG. Total cost: $0.009\n--------------------\nAI Message\n--------------------\nDocsScraper.jl is a Julia package designed to create a vector database from input URLs. It scrapes and parses the URLs and, with the assistance of      \nPromptingTools.jl, creates a vector store that can be utilized in RAG (Retrieval-Augmented Generation) applications. DocsScraper.jl integrates with     \nAIHelpMe.jl and PromptingTools.jl to provide efficient and relevant query retrieval, ensuring that the responses generated by the system are specific to the content in the created database.","category":"page"},{"location":"","page":"Home","title":"Home","text":"Tip: Use pprint for nicer outputs with sources and last_result for more detailed outputs (with sources).","category":"page"},{"location":"","page":"Home","title":"Home","text":"using AIHelpMe: last_result\nprint(last_result())","category":"page"},{"location":"#Output","page":"Home","title":"Output","text":"","category":"section"},{"location":"","page":"Home","title":"Home","text":"make_knowledge_packs creates the following files:","category":"page"},{"location":"","page":"Home","title":"Home","text":"index_name\\\n│\n├── Index\\\n│   ├── index_name__artifact__info.txt\n│   ├── index_name__vDate__model_embedding_size-embedding_type__v1.0.hdf5\n│   └── index_name__vDate__model_embedding_size-embedding_type__v1.0.tar.gz  \n│\n├── Scraped_files\\\n│   ├── scraped_hostname-chunks-max-chunk_size-min-min_chunk_size.jls\n│   ├── scraped_hostname-sources-max-chunk_size-min-min_chunk_size.jls\n│   └── . . .\n│\n└── index_name_URL_mapping.csv","category":"page"},{"location":"","page":"Home","title":"Home","text":"Index\\: contains the .hdf5 and .tar.gz files along with the artifact__info.txt. Artifact info contains sha256 and git-tree-sha1 hashes. \nScraped_files\\: contains the scraped chunks and sources. These are separated by the hostnames of the URLs.\nURL_mapping.csv contains the scraped URLs mapping them with the estimated package name.","category":"page"}]
 }