From db60f55205442b22d5c3857391917fc1537d254c Mon Sep 17 00:00:00 2001
From: "Documenter.jl" <documenter@juliadocs.github.io>
Date: Fri, 16 Aug 2024 03:23:54 +0000
Subject: [PATCH] build based on f6e2dc6

---
 dev/.documenter-siteinfo.json |  2 +-
 dev/index.html                | 29 +++++++++++++++--------------
 dev/search_index.js           |  2 +-
 3 files changed, 17 insertions(+), 16 deletions(-)
diff --git a/dev/.documenter-siteinfo.json b/dev/.documenter-siteinfo.json
index 9dffc0c..c69e5f9 100644
--- a/dev/.documenter-siteinfo.json
+++ b/dev/.documenter-siteinfo.json
@@ -1 +1 @@
-{"documenter":{"julia_version":"1.10.4","generation_timestamp":"2024-08-15T09:43:16","documenter_version":"1.5.0"}}
\ No newline at end of file
+{"documenter":{"julia_version":"1.10.4","generation_timestamp":"2024-08-16T03:23:52","documenter_version":"1.5.0"}}
\ No newline at end of file
diff --git a/dev/index.html b/dev/index.html
index 7303503..904c2d4 100644
--- a/dev/index.html
+++ b/dev/index.html
@@ -1,30 +1,31 @@
 <!DOCTYPE html>
-<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>API Index · DocsScraper.jl</title><meta name="title" content="API Index · DocsScraper.jl"/><meta property="og:title" content="API Index · DocsScraper.jl"/><meta property="twitter:title" content="API Index · DocsScraper.jl"/><meta name="description" content="Documentation for DocsScraper.jl."/><meta property="og:description" content="Documentation for DocsScraper.jl."/><meta property="twitter:description" content="Documentation for DocsScraper.jl."/><meta property="og:url" content="https://splendidbug.github.io/DocsScraper.jl/"/><meta property="twitter:url" content="https://splendidbug.github.io/DocsScraper.jl/"/><link rel="canonical" href="https://splendidbug.github.io/DocsScraper.jl/"/><script data-outdated-warner src="assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL="."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="assets/documenter.js"></script><script src="search_index.js"></script><script src="siteinfo.js"></script><script src="../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href>DocsScraper.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li class="is-active"><a class="tocitem" href>API Index</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>API Index</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>API Index</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/splendidbug/DocsScraper.jl" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/splendidbug/DocsScraper.jl/blob/main/docs/src/index.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Reference"><a class="docs-heading-anchor" href="#Reference">Reference</a><a id="Reference-1"></a><a class="docs-heading-anchor-permalink" href="#Reference" title="Permalink"></a></h1><ul><li><a href="#DocsScraper.base_url_segment-Tuple{String}"><code>DocsScraper.base_url_segment</code></a></li><li><a href="#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}"><code>DocsScraper.check_robots_txt</code></a></li><li><a href="#DocsScraper.clean_url-Tuple{String}"><code>DocsScraper.clean_url</code></a></li><li><a href="#DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}"><code>DocsScraper.crawl</code></a></li><li><a href="#DocsScraper.create_output_folders-Tuple{String}"><code>DocsScraper.create_output_folders</code></a></li><li><a href="#DocsScraper.docs_in_url-Tuple{AbstractString}"><code>DocsScraper.docs_in_url</code></a></li><li><a href="#DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.find_duplicates</code></a></li><li><a href="#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_html!</code></a></li><li><a href="#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_xml!</code></a></li><li><a href="#DocsScraper.generate_embeddings-Tuple{String}"><code>DocsScraper.generate_embeddings</code></a></li><li><a href="#DocsScraper.get_base_url-Tuple{AbstractString}"><code>DocsScraper.get_base_url</code></a></li><li><a href="#DocsScraper.get_header_path-Tuple{Dict{String, Any}}"><code>DocsScraper.get_header_path</code></a></li><li><a href="#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.get_html_content</code></a></li><li><a href="#DocsScraper.get_package_name-Tuple{AbstractString}"><code>DocsScraper.get_package_name</code></a></li><li><a href="#DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.get_urls!</code></a></li><li><a href="#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}"><code>DocsScraper.insert_parsed_data!</code></a></li><li><a href="#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}"><code>DocsScraper.l2_norm_columns</code></a></li><li><a href="#DocsScraper.l2_norm_columns-Tuple{AbstractVector}"><code>DocsScraper.l2_norm_columns</code></a></li><li><a href="#DocsScraper.make_chunks-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}"><code>DocsScraper.make_chunks</code></a></li><li><a href="#DocsScraper.make_knowledge_packs"><code>DocsScraper.make_knowledge_packs</code></a></li><li><a href="#DocsScraper.nav_bar-Tuple{AbstractString}"><code>DocsScraper.nav_bar</code></a></li><li><a href="#DocsScraper.parse_robots_txt!-Tuple{String}"><code>DocsScraper.parse_robots_txt!</code></a></li><li><a href="#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}"><code>DocsScraper.parse_url_to_blocks</code></a></li><li><a href="#DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.postprocess_chunks</code></a></li><li><a href="#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.process_code</code></a></li><li><a href="#DocsScraper.process_docstring!"><code>DocsScraper.process_docstring!</code></a></li><li><a href="#DocsScraper.process_generic_node!"><code>DocsScraper.process_generic_node!</code></a></li><li><a href="#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}"><code>DocsScraper.process_headings!</code></a></li><li><a href="#DocsScraper.process_hostname-Tuple{AbstractString}"><code>DocsScraper.process_hostname</code></a></li><li><a href="#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_hostname!</code></a></li><li><a href="#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}"><code>DocsScraper.process_node!</code></a></li><li><a href="#DocsScraper.process_node!"><code>DocsScraper.process_node!</code></a></li><li><a href="#DocsScraper.process_paths-Tuple{AbstractString}"><code>DocsScraper.process_paths</code></a></li><li><a href="#DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_duplicates</code></a></li><li><a href="#DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_short_chunks</code></a></li><li><a href="#DocsScraper.remove_urls_from_index"><code>DocsScraper.remove_urls_from_index</code></a></li><li><a href="#DocsScraper.report_artifact-Tuple{Any}"><code>DocsScraper.report_artifact</code></a></li><li><a href="#DocsScraper.resolve_url-Tuple{String, String}"><code>DocsScraper.resolve_url</code></a></li><li><a href="#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}"><code>DocsScraper.roll_up_chunks</code></a></li><li><a href="#DocsScraper.text_before_version-Tuple{AbstractString}"><code>DocsScraper.text_before_version</code></a></li><li><a href="#DocsScraper.url_package_name-Tuple{AbstractString}"><code>DocsScraper.url_package_name</code></a></li><li><a href="#DocsScraper.urls_for_metadata-Tuple{Vector{String}}"><code>DocsScraper.urls_for_metadata</code></a></li><li><a href="#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}"><code>PromptingTools.Experimental.RAGTools.get_chunks</code></a></li></ul><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.base_url_segment-Tuple{String}" href="#DocsScraper.base_url_segment-Tuple{String}"><code>DocsScraper.base_url_segment</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">base_url_segment(url::String)</code></pre><p>Return the base url and first path segment if all the other checks fail</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_package_name.jl#L12-L16">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}" href="#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}"><code>DocsScraper.check_robots_txt</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">check_robots_txt(user_agent::AbstractString, url::AbstractString)</code></pre><p>Check robots.txt of a URL and return a boolean representing if <code>user_agent</code> is allowed to crawl the input url, along with sitemap urls</p><p><strong>Arguments</strong></p><ul><li><code>user_agent</code>: user agent attempting to crawl the webpage</li><li><code>url</code>: input URL string</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/crawl.jl#L38-L46">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.clean_url-Tuple{String}" href="#DocsScraper.clean_url-Tuple{String}"><code>DocsScraper.clean_url</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">clean_url(url::String)</code></pre><p>Strip URL of any http:// ot https:// or www. prefixes </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_package_name.jl#L1-L5">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}" href="#DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}"><code>DocsScraper.crawl</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">crawl(input_urls::Vector{&lt;:AbstractString})</code></pre><p>Crawl on the input URLs and return a <code>hostname_url_dict</code> which is a dictionary with key being hostnames and the values being the URLs</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/crawl.jl#L139-L143">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.create_output_folders-Tuple{String}" href="#DocsScraper.create_output_folders-Tuple{String}"><code>DocsScraper.create_output_folders</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">create_output_folders(knowledge_pack_path::String)</code></pre><p>Create output folders on the knowledge<em>pack</em>path</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/make_knowledge_packs.jl#L12-L16">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.docs_in_url-Tuple{AbstractString}" href="#DocsScraper.docs_in_url-Tuple{AbstractString}"><code>DocsScraper.docs_in_url</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">docs_in_url(url::AbstractString)</code></pre><p>If the base url is in the form docs.package<em>name.domain</em>extension, then return the middle word i.e., package_name </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_package_name.jl#L108-L112">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.find_duplicates</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">find_duplicates(chunks::AbstractVector{&lt;:AbstractString})</code></pre><p>Find duplicates in a list of chunks using SHA-256 hash. Returns a bit vector of the same length as the input list,  where <code>true</code> indicates a duplicate (second instance of the same text).</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/utils.jl#L1-L6">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}" href="#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_html!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">find_urls_html!(url::AbstractString, node::Gumbo.HTMLElement, url_queue::Vector{&lt;:AbstractString}</code></pre><p>Function to recursively find &lt;a&gt; tags and extract the urls</p><p><strong>Arguments</strong></p><ul><li>url: The initial input URL </li><li>node: The HTML node of type Gumbo.HTMLElement</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_urls.jl#L73-L82">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}" href="#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_xml!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">find_urls_xml!(url::AbstractString, url_queue::Vector{&lt;:AbstractString})</code></pre><p>Identify URL through regex pattern in xml files and push in <code>url_queue</code></p><p><strong>Arguments</strong></p><ul><li>url: url from which all other URLs will be extracted</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_urls.jl#L100-L108">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.generate_embeddings-Tuple{String}" href="#DocsScraper.generate_embeddings-Tuple{String}"><code>DocsScraper.generate_embeddings</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">generate_embeddings(knowledge_pack_path::String; model::AbstractString=MODEL, 
-    embedding_size::Int=EMBEDDING_SIZE, custom_metadata::AbstractString)</code></pre><p>Deserialize chunks and sources to generate embeddings </p><p><strong>Arguments</strong></p><ul><li>model: Embedding model</li><li>embedding_size: Embedding dimensions</li><li>custom_metadata: Custom metadata like ecosystem name if required</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/make_knowledge_packs.jl#L88-L98">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_base_url-Tuple{AbstractString}" href="#DocsScraper.get_base_url-Tuple{AbstractString}"><code>DocsScraper.get_base_url</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_base_url(url::AbstractString)</code></pre><p>Extract the base url</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_package_name.jl#L51-L55">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_header_path-Tuple{Dict{String, Any}}" href="#DocsScraper.get_header_path-Tuple{Dict{String, Any}}"><code>DocsScraper.get_header_path</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_header_path(d::Dict)</code></pre><p>Concatenate the h1, h2, h3 keys from the metadata of a Dict</p><p><strong>Examples</strong></p><pre><code class="language-julia hljs">d = Dict(&quot;metadata&quot; =&gt; Dict{Symbol,Any}(:h1 =&gt; &quot;Axis&quot;, :h2 =&gt; &quot;Attributes&quot;, :h3 =&gt; &quot;yzoomkey&quot;), &quot;heading&quot; =&gt; &quot;yzoomkey&quot;)
+<html lang="en"><head><meta charset="UTF-8"/><meta name="viewport" content="width=device-width, initial-scale=1.0"/><title>API Index · DocsScraper.jl</title><meta name="title" content="API Index · DocsScraper.jl"/><meta property="og:title" content="API Index · DocsScraper.jl"/><meta property="twitter:title" content="API Index · DocsScraper.jl"/><meta name="description" content="Documentation for DocsScraper.jl."/><meta property="og:description" content="Documentation for DocsScraper.jl."/><meta property="twitter:description" content="Documentation for DocsScraper.jl."/><meta property="og:url" content="https://splendidbug.github.io/DocsScraper.jl/"/><meta property="twitter:url" content="https://splendidbug.github.io/DocsScraper.jl/"/><link rel="canonical" href="https://splendidbug.github.io/DocsScraper.jl/"/><script data-outdated-warner src="assets/warner.js"></script><link href="https://cdnjs.cloudflare.com/ajax/libs/lato-font/3.0.0/css/lato-font.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/juliamono/0.050/juliamono.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/fontawesome.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/solid.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.4.2/css/brands.min.css" rel="stylesheet" type="text/css"/><link href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.16.8/katex.min.css" rel="stylesheet" type="text/css"/><script>documenterBaseURL="."</script><script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.6/require.min.js" data-main="assets/documenter.js"></script><script src="search_index.js"></script><script src="siteinfo.js"></script><script src="../versions.js"></script><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-mocha.css" data-theme-name="catppuccin-mocha"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-macchiato.css" data-theme-name="catppuccin-macchiato"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-frappe.css" data-theme-name="catppuccin-frappe"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/catppuccin-latte.css" data-theme-name="catppuccin-latte"/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-dark.css" data-theme-name="documenter-dark" data-theme-primary-dark/><link class="docs-theme-link" rel="stylesheet" type="text/css" href="assets/themes/documenter-light.css" data-theme-name="documenter-light" data-theme-primary/><script src="assets/themeswap.js"></script></head><body><div id="documenter"><nav class="docs-sidebar"><div class="docs-package-name"><span class="docs-autofit"><a href>DocsScraper.jl</a></span></div><button class="docs-search-query input is-rounded is-small is-clickable my-2 mx-auto py-1 px-2" id="documenter-search-query">Search docs (Ctrl + /)</button><ul class="docs-menu"><li class="is-active"><a class="tocitem" href>API Index</a></li></ul><div class="docs-version-selector field has-addons"><div class="control"><span class="docs-label button is-static is-size-7">Version</span></div><div class="docs-selector control is-expanded"><div class="select is-fullwidth is-size-7"><select id="documenter-version-selector"></select></div></div></div></nav><div class="docs-main"><header class="docs-navbar"><a class="docs-sidebar-button docs-navbar-link fa-solid fa-bars is-hidden-desktop" id="documenter-sidebar-button" href="#"></a><nav class="breadcrumb"><ul class="is-hidden-mobile"><li class="is-active"><a href>API Index</a></li></ul><ul class="is-hidden-tablet"><li class="is-active"><a href>API Index</a></li></ul></nav><div class="docs-right"><a class="docs-navbar-link" href="https://github.com/splendidbug/DocsScraper.jl" title="View the repository on GitHub"><span class="docs-icon fa-brands"></span><span class="docs-label is-hidden-touch">GitHub</span></a><a class="docs-navbar-link" href="https://github.com/splendidbug/DocsScraper.jl/blob/main/docs/src/index.md#" title="Edit source on GitHub"><span class="docs-icon fa-solid"></span></a><a class="docs-settings-button docs-navbar-link fa-solid fa-gear" id="documenter-settings-button" href="#" title="Settings"></a><a class="docs-article-toggle-button fa-solid fa-chevron-up" id="documenter-article-toggle-button" href="javascript:;" title="Collapse all docstrings"></a></div></header><article class="content" id="documenter-page"><h1 id="Reference"><a class="docs-heading-anchor" href="#Reference">Reference</a><a id="Reference-1"></a><a class="docs-heading-anchor-permalink" href="#Reference" title="Permalink"></a></h1><ul><li><a href="#DocsScraper.base_url_segment-Tuple{String}"><code>DocsScraper.base_url_segment</code></a></li><li><a href="#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}"><code>DocsScraper.check_robots_txt</code></a></li><li><a href="#DocsScraper.clean_url-Tuple{String}"><code>DocsScraper.clean_url</code></a></li><li><a href="#DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}"><code>DocsScraper.crawl</code></a></li><li><a href="#DocsScraper.create_output_folders-Tuple{String}"><code>DocsScraper.create_output_folders</code></a></li><li><a href="#DocsScraper.docs_in_url-Tuple{AbstractString}"><code>DocsScraper.docs_in_url</code></a></li><li><a href="#DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.find_duplicates</code></a></li><li><a href="#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_html!</code></a></li><li><a href="#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_xml!</code></a></li><li><a href="#DocsScraper.generate_embeddings-Tuple{String}"><code>DocsScraper.generate_embeddings</code></a></li><li><a href="#DocsScraper.get_base_url-Tuple{AbstractString}"><code>DocsScraper.get_base_url</code></a></li><li><a href="#DocsScraper.get_header_path-Tuple{Dict{String, Any}}"><code>DocsScraper.get_header_path</code></a></li><li><a href="#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.get_html_content</code></a></li><li><a href="#DocsScraper.get_package_name-Tuple{AbstractString}"><code>DocsScraper.get_package_name</code></a></li><li><a href="#DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.get_urls!</code></a></li><li><a href="#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}"><code>DocsScraper.insert_parsed_data!</code></a></li><li><a href="#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}"><code>DocsScraper.l2_norm_columns</code></a></li><li><a href="#DocsScraper.l2_norm_columns-Tuple{AbstractVector}"><code>DocsScraper.l2_norm_columns</code></a></li><li><a href="#DocsScraper.make_chunks-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}"><code>DocsScraper.make_chunks</code></a></li><li><a href="#DocsScraper.make_knowledge_packs"><code>DocsScraper.make_knowledge_packs</code></a></li><li><a href="#DocsScraper.nav_bar-Tuple{AbstractString}"><code>DocsScraper.nav_bar</code></a></li><li><a href="#DocsScraper.parse_robots_txt!-Tuple{String}"><code>DocsScraper.parse_robots_txt!</code></a></li><li><a href="#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}"><code>DocsScraper.parse_url_to_blocks</code></a></li><li><a href="#DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.postprocess_chunks</code></a></li><li><a href="#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.process_code</code></a></li><li><a href="#DocsScraper.process_docstring!"><code>DocsScraper.process_docstring!</code></a></li><li><a href="#DocsScraper.process_generic_node!"><code>DocsScraper.process_generic_node!</code></a></li><li><a href="#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}"><code>DocsScraper.process_headings!</code></a></li><li><a href="#DocsScraper.process_hostname-Tuple{AbstractString}"><code>DocsScraper.process_hostname</code></a></li><li><a href="#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_hostname!</code></a></li><li><a href="#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}"><code>DocsScraper.process_node!</code></a></li><li><a href="#DocsScraper.process_node!"><code>DocsScraper.process_node!</code></a></li><li><a href="#DocsScraper.process_paths-Tuple{AbstractString}"><code>DocsScraper.process_paths</code></a></li><li><a href="#DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_duplicates</code></a></li><li><a href="#DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_short_chunks</code></a></li><li><a href="#DocsScraper.remove_urls_from_index"><code>DocsScraper.remove_urls_from_index</code></a></li><li><a href="#DocsScraper.report_artifact-Tuple{Any}"><code>DocsScraper.report_artifact</code></a></li><li><a href="#DocsScraper.resolve_url-Tuple{String, String}"><code>DocsScraper.resolve_url</code></a></li><li><a href="#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}"><code>DocsScraper.roll_up_chunks</code></a></li><li><a href="#DocsScraper.text_before_version-Tuple{AbstractString}"><code>DocsScraper.text_before_version</code></a></li><li><a href="#DocsScraper.url_package_name-Tuple{AbstractString}"><code>DocsScraper.url_package_name</code></a></li><li><a href="#DocsScraper.urls_for_metadata-Tuple{Vector{String}}"><code>DocsScraper.urls_for_metadata</code></a></li><li><a href="#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}"><code>PromptingTools.Experimental.RAGTools.get_chunks</code></a></li></ul><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.base_url_segment-Tuple{String}" href="#DocsScraper.base_url_segment-Tuple{String}"><code>DocsScraper.base_url_segment</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">base_url_segment(url::String)</code></pre><p>Return the base url and first path segment if all the other checks fail</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_package_name.jl#L12-L16">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}" href="#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}"><code>DocsScraper.check_robots_txt</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">check_robots_txt(user_agent::AbstractString, url::AbstractString)</code></pre><p>Check robots.txt of a URL and return a boolean representing if <code>user_agent</code> is allowed to crawl the input url, along with sitemap urls</p><p><strong>Arguments</strong></p><ul><li><code>user_agent</code>: user agent attempting to crawl the webpage</li><li><code>url</code>: input URL string</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/crawl.jl#L38-L46">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.clean_url-Tuple{String}" href="#DocsScraper.clean_url-Tuple{String}"><code>DocsScraper.clean_url</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">clean_url(url::String)</code></pre><p>Strip URL of any http:// ot https:// or www. prefixes </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_package_name.jl#L1-L5">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}" href="#DocsScraper.crawl-Tuple{Vector{&lt;:AbstractString}}"><code>DocsScraper.crawl</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">crawl(input_urls::Vector{&lt;:AbstractString})</code></pre><p>Crawl on the input URLs and return a <code>hostname_url_dict</code> which is a dictionary with key being hostnames and the values being the URLs</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/crawl.jl#L139-L143">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.create_output_folders-Tuple{String}" href="#DocsScraper.create_output_folders-Tuple{String}"><code>DocsScraper.create_output_folders</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">create_output_folders(knowledge_pack_path::String)</code></pre><p>Create output folders on the knowledge<em>pack</em>path</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/make_knowledge_packs.jl#L12-L16">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.docs_in_url-Tuple{AbstractString}" href="#DocsScraper.docs_in_url-Tuple{AbstractString}"><code>DocsScraper.docs_in_url</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">docs_in_url(url::AbstractString)</code></pre><p>If the base url is in the form docs.package<em>name.domain</em>extension, then return the middle word i.e., package_name </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_package_name.jl#L108-L112">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.find_duplicates-Tuple{AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.find_duplicates</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">find_duplicates(chunks::AbstractVector{&lt;:AbstractString})</code></pre><p>Find duplicates in a list of chunks using SHA-256 hash. Returns a bit vector of the same length as the input list,  where <code>true</code> indicates a duplicate (second instance of the same text).</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/utils.jl#L1-L6">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}" href="#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_html!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">find_urls_html!(url::AbstractString, node::Gumbo.HTMLElement, url_queue::Vector{&lt;:AbstractString}</code></pre><p>Function to recursively find &lt;a&gt; tags and extract the urls</p><p><strong>Arguments</strong></p><ul><li>url: The initial input URL </li><li>node: The HTML node of type Gumbo.HTMLElement</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_urls.jl#L73-L82">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}" href="#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.find_urls_xml!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">find_urls_xml!(url::AbstractString, url_queue::Vector{&lt;:AbstractString})</code></pre><p>Identify URL through regex pattern in xml files and push in <code>url_queue</code></p><p><strong>Arguments</strong></p><ul><li>url: url from which all other URLs will be extracted</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_urls.jl#L100-L108">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.generate_embeddings-Tuple{String}" href="#DocsScraper.generate_embeddings-Tuple{String}"><code>DocsScraper.generate_embeddings</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">generate_embeddings(knowledge_pack_path::String; model::AbstractString=MODEL, 
+    embedding_size::Int=EMBEDDING_SIZE, custom_metadata::AbstractString,
+    bool_embeddings::Bool = true, index_name::AbstractString = &quot;&quot;)</code></pre><p>Deserialize chunks and sources to generate embeddings  Note: We highly recommend to pass <code>index_name</code>. This will be the name of the generated index. Default: date-randomInt</p><p><strong>Arguments</strong></p><ul><li>model: Embedding model</li><li>embedding_size: Embedding dimensions</li><li>custom_metadata: Custom metadata like ecosystem name if required</li><li>bool_embeddings: If true, embeddings generated will be boolean, Float32 otherwise</li><li>index_name: Name if the index. Default: date-randomInt</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/make_knowledge_packs.jl#L85-L100">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_base_url-Tuple{AbstractString}" href="#DocsScraper.get_base_url-Tuple{AbstractString}"><code>DocsScraper.get_base_url</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_base_url(url::AbstractString)</code></pre><p>Extract the base url</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_package_name.jl#L51-L55">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_header_path-Tuple{Dict{String, Any}}" href="#DocsScraper.get_header_path-Tuple{Dict{String, Any}}"><code>DocsScraper.get_header_path</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_header_path(d::Dict)</code></pre><p>Concatenate the h1, h2, h3 keys from the metadata of a Dict</p><p><strong>Examples</strong></p><pre><code class="language-julia hljs">d = Dict(&quot;metadata&quot; =&gt; Dict{Symbol,Any}(:h1 =&gt; &quot;Axis&quot;, :h2 =&gt; &quot;Attributes&quot;, :h3 =&gt; &quot;yzoomkey&quot;), &quot;heading&quot; =&gt; &quot;yzoomkey&quot;)
 get_header_path(d)
-# Output: &quot;Axis/Attributes/yzoomkey&quot;</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/preparation.jl#L1-L12">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}" href="#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.get_html_content</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_html_content(root::Gumbo.HTMLElement)</code></pre><p>Return the main content of the HTML. If not found, return the whole HTML to parse</p><p><strong>Arguments</strong></p><ul><li><code>root</code>: The HTML root from which content is extracted</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L306-L313">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_package_name-Tuple{AbstractString}" href="#DocsScraper.get_package_name-Tuple{AbstractString}"><code>DocsScraper.get_package_name</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_package_name(url::AbstractString)</code></pre><p>Return name of the package through the package URL  </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_package_name.jl#L129-L133">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}" href="#DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.get_urls!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_links!(url::AbstractString, 
-    url_queue::Vector{&lt;:AbstractString})</code></pre><p>Extract urls inside html or xml files </p><p><strong>Arguments</strong></p><ul><li>url: url from which all other URLs will be extracted</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_urls.jl#L125-L134">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}" href="#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}"><code>DocsScraper.insert_parsed_data!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">insert_parsed_data!(heading_hierarchy::Dict{Symbol,Any}, 
+# Output: &quot;Axis/Attributes/yzoomkey&quot;</code></pre></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/preparation.jl#L1-L12">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}" href="#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.get_html_content</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_html_content(root::Gumbo.HTMLElement)</code></pre><p>Return the main content of the HTML. If not found, return the whole HTML to parse</p><p><strong>Arguments</strong></p><ul><li><code>root</code>: The HTML root from which content is extracted</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L306-L313">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_package_name-Tuple{AbstractString}" href="#DocsScraper.get_package_name-Tuple{AbstractString}"><code>DocsScraper.get_package_name</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_package_name(url::AbstractString)</code></pre><p>Return name of the package through the package URL  </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_package_name.jl#L129-L133">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}" href="#DocsScraper.get_urls!-Tuple{AbstractString, Vector{&lt;:AbstractString}}"><code>DocsScraper.get_urls!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">get_links!(url::AbstractString, 
+    url_queue::Vector{&lt;:AbstractString})</code></pre><p>Extract urls inside html or xml files </p><p><strong>Arguments</strong></p><ul><li>url: url from which all other URLs will be extracted</li><li>url_queue: Vector in which extracted URLs will be appended</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_urls.jl#L125-L134">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}" href="#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}"><code>DocsScraper.insert_parsed_data!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">insert_parsed_data!(heading_hierarchy::Dict{Symbol,Any}, 
     parsed_blocks::Vector{Dict{String,Any}}, 
     text_to_insert::AbstractString, 
-    text_type::AbstractString)</code></pre><p>Insert the text into parsed_blocks Vector</p><p><strong>Arguments</strong></p><ul><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>text<em>to</em>insert: Text to be inserted</li><li>text_type: The text to be inserted could be heading or a code block or just text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L1-L14">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}" href="#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}"><code>DocsScraper.l2_norm_columns</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">l2_norm_columns(mat::AbstractMatrix)</code></pre><p>Normalize the columns of the input embeddings</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/make_knowledge_packs.jl#L68-L72">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.l2_norm_columns-Tuple{AbstractVector}" href="#DocsScraper.l2_norm_columns-Tuple{AbstractVector}"><code>DocsScraper.l2_norm_columns</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">l2_norm_columns(vect::AbstractVector)</code></pre><p>Normalize the columns of the input embeddings</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/make_knowledge_packs.jl#L78-L82">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.make_chunks-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}" href="#DocsScraper.make_chunks-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}"><code>DocsScraper.make_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">make_chunks(hostname_url_dict::Dict{AbstractString,Vector{AbstractString}}, knowledge_pack_path::String; 
-    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)</code></pre><p>Parse URLs from hostname<em>url</em>dict and save the chunks</p><p><strong>Arguments</strong></p><ul><li>hostname<em>url</em>dict: Dict with key being hostname and value being a vector of URLs</li><li>knowledge<em>pack</em>path: Knowledge pack path</li><li>max<em>chunk</em>size: Maximum chunk size</li><li>min<em>chunk</em>size: Minimum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/make_knowledge_packs.jl#L26-L37">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.make_knowledge_packs" href="#DocsScraper.make_knowledge_packs"><code>DocsScraper.make_knowledge_packs</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">make_knowledge_packs(crawlable_urls::Vector{&lt;:AbstractString}=String[]; single_urls::Vector{&lt;:AbstractString}=String[],
+    text_type::AbstractString)</code></pre><p>Insert the text into parsed_blocks Vector</p><p><strong>Arguments</strong></p><ul><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>text<em>to</em>insert: Text to be inserted</li><li>text_type: The text to be inserted could be heading or a code block or just text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L1-L14">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}" href="#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}"><code>DocsScraper.l2_norm_columns</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">l2_norm_columns(mat::AbstractMatrix)</code></pre><p>Normalize the columns of the input embeddings</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/make_knowledge_packs.jl#L65-L69">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.l2_norm_columns-Tuple{AbstractVector}" href="#DocsScraper.l2_norm_columns-Tuple{AbstractVector}"><code>DocsScraper.l2_norm_columns</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">l2_norm_columns(vect::AbstractVector)</code></pre><p>Normalize the columns of the input embeddings</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/make_knowledge_packs.jl#L75-L79">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.make_chunks-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}" href="#DocsScraper.make_chunks-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}"><code>DocsScraper.make_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">make_chunks(hostname_url_dict::Dict{AbstractString,Vector{AbstractString}}, knowledge_pack_path::String; 
+    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)</code></pre><p>Parse URLs from hostname<em>url</em>dict and save the chunks</p><p><strong>Arguments</strong></p><ul><li>hostname<em>url</em>dict: Dict with key being hostname and value being a vector of URLs</li><li>knowledge<em>pack</em>path: Knowledge pack path</li><li>max<em>chunk</em>size: Maximum chunk size</li><li>min<em>chunk</em>size: Minimum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/make_knowledge_packs.jl#L26-L37">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.make_knowledge_packs" href="#DocsScraper.make_knowledge_packs"><code>DocsScraper.make_knowledge_packs</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">make_knowledge_packs(crawlable_urls::Vector{&lt;:AbstractString}=String[]; single_urls::Vector{&lt;:AbstractString}=String[],
     max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE, model::AbstractString=MODEL, embedding_size::Int=EMBEDDING_SIZE, 
-    custom_metadata::AbstractString)</code></pre><p>Entry point to crawl, parse and generate embeddings</p><p><strong>Arguments</strong></p><ul><li>crawlable_urls: URLs that should be crawled to find more links</li><li>single_urls: Single page URLs that should just be scraped and parsed. The crawler won&#39;t look for more URLs</li><li>max<em>chunk</em>size: Maximum chunk size</li><li>min<em>chunk</em>size: Minimum chunk size</li><li>model: Embedding model</li><li>embedding_size: Embedding dimensions</li><li>custom_metadata: Custom metadata like ecosystem name if required</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/make_knowledge_packs.jl#L194-L209">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.nav_bar-Tuple{AbstractString}" href="#DocsScraper.nav_bar-Tuple{AbstractString}"><code>DocsScraper.nav_bar</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">nav_bar(url::AbstractString)</code></pre><p>Julia doc websites tend to have the package name under &quot;.docs-package-name&quot; class in the HTML tree</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_package_name.jl#L63-L67">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.parse_robots_txt!-Tuple{String}" href="#DocsScraper.parse_robots_txt!-Tuple{String}"><code>DocsScraper.parse_robots_txt!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">parse_robots_txt!(robots_txt::String)</code></pre><p>Parse the robots.txt string and return rules and the URLs on Sitemap</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/crawl.jl#L2-L6">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.parse_url_to_blocks-Tuple{AbstractString}" href="#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}"><code>DocsScraper.parse_url_to_blocks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">parse_url(url::AbstractString)</code></pre><p>Initiator and main function to parse HTML from url. Return a Vector of Dict containing Heading/Text/Code along with a Dict of respective metadata</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L339-L343">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.postprocess_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">function postprocess_chunks(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString};
+    custom_metadata::AbstractString, bool_embeddings::Bool = true, index_name::AbstractString = &quot;&quot;)</code></pre><p>Entry point to crawl, parse and generate embeddings. Note: We highly recommend to pass <code>index_name</code>. This will be the name of the generated index. Default: date-randomInt</p><p><strong>Arguments</strong></p><ul><li>crawlable_urls: URLs that should be crawled to find more links</li><li>single_urls: Single page URLs that should just be scraped and parsed. The crawler won&#39;t look for more URLs</li><li>max<em>chunk</em>size: Maximum chunk size</li><li>min<em>chunk</em>size: Minimum chunk size</li><li>model: Embedding model</li><li>embedding_size: Embedding dimensions</li><li>custom_metadata: Custom metadata like ecosystem name if required</li><li>bool_embeddings: If true, embeddings generated will be boolean, Float32 otherwise</li><li>index_name: Name if the index. Default: date-randomInt</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/make_knowledge_packs.jl#L216-L234">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.nav_bar-Tuple{AbstractString}" href="#DocsScraper.nav_bar-Tuple{AbstractString}"><code>DocsScraper.nav_bar</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">nav_bar(url::AbstractString)</code></pre><p>Julia doc websites tend to have the package name under &quot;.docs-package-name&quot; class in the HTML tree</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_package_name.jl#L63-L67">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.parse_robots_txt!-Tuple{String}" href="#DocsScraper.parse_robots_txt!-Tuple{String}"><code>DocsScraper.parse_robots_txt!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">parse_robots_txt!(robots_txt::String)</code></pre><p>Parse the robots.txt string and return rules and the URLs on Sitemap</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/crawl.jl#L2-L6">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.parse_url_to_blocks-Tuple{AbstractString}" href="#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}"><code>DocsScraper.parse_url_to_blocks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">parse_url(url::AbstractString)</code></pre><p>Initiator and main function to parse HTML from url. Return a Vector of Dict containing Heading/Text/Code along with a Dict of respective metadata</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L339-L343">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.postprocess_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.postprocess_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">function postprocess_chunks(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString};
     min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true, paths::Union{Nothing,AbstractVector{&lt;:AbstractString}}=nothing,
-    websites::Union{Nothing,AbstractVector{&lt;:AbstractString}}=nothing)</code></pre><p>Post-process the input list of chunks and their corresponding sources by removing short chunks and duplicates.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/utils.jl#L68-L74">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_code-Tuple{Gumbo.HTMLElement}" href="#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.process_code</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_code(node::Gumbo.HTMLElement)</code></pre><p>Process code snippets. If the current node is a code block, return the text inside code block with backticks.</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L57-L64">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_docstring!" href="#DocsScraper.process_docstring!"><code>DocsScraper.process_docstring!</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">process_docstring!(node::Gumbo.HTMLElement,
+    websites::Union{Nothing,AbstractVector{&lt;:AbstractString}}=nothing)</code></pre><p>Post-process the input list of chunks and their corresponding sources by removing short chunks and duplicates.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/utils.jl#L68-L74">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_code-Tuple{Gumbo.HTMLElement}" href="#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}"><code>DocsScraper.process_code</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_code(node::Gumbo.HTMLElement)</code></pre><p>Process code snippets. If the current node is a code block, return the text inside code block with backticks.</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L57-L64">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_docstring!" href="#DocsScraper.process_docstring!"><code>DocsScraper.process_docstring!</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">process_docstring!(node::Gumbo.HTMLElement,
     heading_hierarchy::Dict{Symbol,Any},
     parsed_blocks::Vector{Dict{String,Any}},
     child_new::Bool=true,
-    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>Function to process node of class <code>docstring</code></p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L191-L207">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_generic_node!" href="#DocsScraper.process_generic_node!"><code>DocsScraper.process_generic_node!</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">process_generic_node!(node::Gumbo.HTMLElement,
+    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>Function to process node of class <code>docstring</code></p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L191-L207">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_generic_node!" href="#DocsScraper.process_generic_node!"><code>DocsScraper.process_generic_node!</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">process_generic_node!(node::Gumbo.HTMLElement,
     heading_hierarchy::Dict{Symbol,Any},
     parsed_blocks::Vector{Dict{String,Any}},
     child_new::Bool=true,
-    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>If the node is neither heading nor code</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L86-L103">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}" href="#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}"><code>DocsScraper.process_headings!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_headings!(node::Gumbo.HTMLElement,
+    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>If the node is neither heading nor code</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L86-L103">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}" href="#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}"><code>DocsScraper.process_headings!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_headings!(node::Gumbo.HTMLElement,
     heading_hierarchy::Dict{Symbol,Any},
-    parsed_blocks::Vector{Dict{String,Any}})</code></pre><p>Process headings. If the current node is heading, directly insert into parsed_blocks. </p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L26-L37">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}" href="#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_hostname!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_hostname(url::AbstractString, hostname_dict::Dict{AbstractString,Vector{AbstractString}})</code></pre><p>Add <code>url</code> to its hostname in <code>hostname_dict</code></p><p><strong>Arguments</strong></p><ul><li><code>url</code>: URL string</li><li><code>hostname_dict</code>: Dict with key being hostname and value being a vector of URLs</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/crawl.jl#L118-L126">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_hostname-Tuple{AbstractString}" href="#DocsScraper.process_hostname-Tuple{AbstractString}"><code>DocsScraper.process_hostname</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_hostname(url::AbstractString)</code></pre><p>Return the hostname of an input URL</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/crawl.jl#L107-L111">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_node!" href="#DocsScraper.process_node!"><code>DocsScraper.process_node!</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">process_node!(node::Gumbo.HTMLElement,
+    parsed_blocks::Vector{Dict{String,Any}})</code></pre><p>Process headings. If the current node is heading, directly insert into parsed_blocks. </p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L26-L37">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}" href="#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}"><code>DocsScraper.process_hostname!</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_hostname(url::AbstractString, hostname_dict::Dict{AbstractString,Vector{AbstractString}})</code></pre><p>Add <code>url</code> to its hostname in <code>hostname_dict</code></p><p><strong>Arguments</strong></p><ul><li><code>url</code>: URL string</li><li><code>hostname_dict</code>: Dict with key being hostname and value being a vector of URLs</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/crawl.jl#L118-L126">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_hostname-Tuple{AbstractString}" href="#DocsScraper.process_hostname-Tuple{AbstractString}"><code>DocsScraper.process_hostname</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_hostname(url::AbstractString)</code></pre><p>Return the hostname of an input URL</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/crawl.jl#L107-L111">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_node!" href="#DocsScraper.process_node!"><code>DocsScraper.process_node!</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">process_node!(node::Gumbo.HTMLElement,
     heading_hierarchy::Dict{Symbol,Any},
     parsed_blocks::Vector{Dict{String,Any}},
     child_new::Bool=true,
-    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>Function to process a node</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L247-L263">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}" href="#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}"><code>DocsScraper.process_node!</code></a> — <span class="docstring-category">Method</span></header><section><div><p>multiple dispatch for process_node!() when node is of type Gumbo.HTMLText</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/parser.jl#L285-L287">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_paths-Tuple{AbstractString}" href="#DocsScraper.process_paths-Tuple{AbstractString}"><code>DocsScraper.process_paths</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_paths(url::AbstractString; max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)</code></pre><p>Process folders provided in <code>paths</code>. In each, take all HTML files, scrape them, chunk them and postprocess them.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/preparation.jl#L103-L107">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_duplicates</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">remove_duplicates(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString})</code></pre><p>Remove chunks that are duplicated in the input list of chunks and their corresponding sources.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/utils.jl#L28-L32">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_short_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">remove_short_chunks(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString};
-    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true)</code></pre><p>Remove chunks that are shorter than a specified length (<code>min_length</code>) from the input list of chunks and their corresponding sources.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/utils.jl#L39-L44">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_urls_from_index" href="#DocsScraper.remove_urls_from_index"><code>DocsScraper.remove_urls_from_index</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">function remove_urls_from_index(index_path::AbstractString, prefix_urls=Vector{&lt;:AbstractString})</code></pre><p>Remove chunks and sources corresponding to URLs starting with <code>prefix_urls</code> </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/utils.jl#L97-L101">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.report_artifact-Tuple{Any}" href="#DocsScraper.report_artifact-Tuple{Any}"><code>DocsScraper.report_artifact</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">report_artifact(fn_output)</code></pre><p>Print artifact information</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/make_knowledge_packs.jl#L1-L5">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.resolve_url-Tuple{String, String}" href="#DocsScraper.resolve_url-Tuple{String, String}"><code>DocsScraper.resolve_url</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">resolve_url(base_url::String, extracted_url::String)</code></pre><p>Check the extracted URL with the original URL. Return empty String if the extracted URL belongs to a different domain.  Return complete URL if there&#39;s a directory traversal paths or the extracted URL belongs to the same domain as the base_url</p><p><strong>Arguments</strong></p><ul><li>base_url: URL of the page from which other URLs are being extracted</li><li>extracted<em>url: URL extracted from the base</em>url  </li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_urls.jl#L1-L10">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}" href="#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}"><code>DocsScraper.roll_up_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">roll_up_chunks(parsed_blocks::Vector{Dict{String,Any}}, url::AbstractString; separator::String=&quot;&lt;SEP&gt;&quot;)</code></pre><p>Roll-up chunks (that have the same header!), so we can split them later by &lt;SEP&gt; to get the desired length</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/preparation.jl#L21-L25">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.text_before_version-Tuple{AbstractString}" href="#DocsScraper.text_before_version-Tuple{AbstractString}"><code>DocsScraper.text_before_version</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">text_before_version(url::AbstractString)</code></pre><p>Return text before &quot;stable&quot; or &quot;dev&quot; or any version in URL. It is generally observed that doc websites have package names before their versions </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_package_name.jl#L87-L91">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.url_package_name-Tuple{AbstractString}" href="#DocsScraper.url_package_name-Tuple{AbstractString}"><code>DocsScraper.url_package_name</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">url_package_name(url::AbstractString)</code></pre><p>Return the text if the URL itself contains the package name with &quot;.jl&quot; or &quot;_jl&quot; suffixes</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/extract_package_name.jl#L38-L42">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.urls_for_metadata-Tuple{Vector{String}}" href="#DocsScraper.urls_for_metadata-Tuple{Vector{String}}"><code>DocsScraper.urls_for_metadata</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">urls_for_metadata(sources::Vector{String})</code></pre><p>Return a Dict of package names with their associated URLs Note: Due to their large number, URLs are stripped down to the package name; Package subpaths are not included in metadata.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/utils.jl#L125-L130">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}" href="#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}"><code>PromptingTools.Experimental.RAGTools.get_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">RT.get_chunks(chunker::DocParserChunker, url::AbstractString;
-    verbose::Bool=true, separators=[&quot;</code></pre><p>&quot;, &quot;. &quot;, &quot; &quot;, &quot; &quot;], max<em>chunk</em>size::Int=MAX<em>CHUNK</em>SIZE)</p><p>Extract chunks from HTML files, by parsing the content in the HTML, rolling up chunks by headers,  and splits them by separators to get the desired length.</p><p><strong>Arguments</strong></p><ul><li>chunker: DocParserChunker</li><li>url: URL of the webpage to extract chunks</li><li>verbose: Bool to print the log</li><li>separators: Chunk separators</li><li>max<em>chunk</em>size Maximum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/93185094aca8333d13f242a5ccc5897e7ec1cec2/src/preparation.jl#L61-L77">source</a></section></article></article><nav class="docs-footer"><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Thursday 15 August 2024 09:43">Thursday 15 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
+    prev_text_buffer::IO=IOBuffer(write=true))</code></pre><p>Function to process a node</p><p><strong>Arguments</strong></p><ul><li>node: The root HTML node </li><li>heading_hierarchy: Dict used to store metadata</li><li>parsed_blocks: Vector of Dicts to store parsed text and metadata</li><li>child<em>new: Bool to specify if the current block (child) is part of previous block or not.                If it&#39;s not, then a new insertion needs to be created in parsed</em>blocks</li><li>prev<em>text</em>buffer: IO Buffer which contains previous text</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L247-L263">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}" href="#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}"><code>DocsScraper.process_node!</code></a> — <span class="docstring-category">Method</span></header><section><div><p>multiple dispatch for process_node!() when node is of type Gumbo.HTMLText</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/parser.jl#L285-L287">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.process_paths-Tuple{AbstractString}" href="#DocsScraper.process_paths-Tuple{AbstractString}"><code>DocsScraper.process_paths</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">process_paths(url::AbstractString; max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)</code></pre><p>Process folders provided in <code>paths</code>. In each, take all HTML files, scrape them, chunk them and postprocess them.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/preparation.jl#L103-L107">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.remove_duplicates-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_duplicates</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">remove_duplicates(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString})</code></pre><p>Remove chunks that are duplicated in the input list of chunks and their corresponding sources.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/utils.jl#L28-L32">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}" href="#DocsScraper.remove_short_chunks-Tuple{AbstractVector{&lt;:AbstractString}, AbstractVector{&lt;:AbstractString}}"><code>DocsScraper.remove_short_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">remove_short_chunks(chunks::AbstractVector{&lt;:AbstractString}, sources::AbstractVector{&lt;:AbstractString};
+    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true)</code></pre><p>Remove chunks that are shorter than a specified length (<code>min_length</code>) from the input list of chunks and their corresponding sources.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/utils.jl#L39-L44">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.remove_urls_from_index" href="#DocsScraper.remove_urls_from_index"><code>DocsScraper.remove_urls_from_index</code></a> — <span class="docstring-category">Function</span></header><section><div><pre><code class="language-julia hljs">function remove_urls_from_index(index_path::AbstractString, prefix_urls=Vector{&lt;:AbstractString})</code></pre><p>Remove chunks and sources corresponding to URLs starting with <code>prefix_urls</code> </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/utils.jl#L97-L101">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.report_artifact-Tuple{Any}" href="#DocsScraper.report_artifact-Tuple{Any}"><code>DocsScraper.report_artifact</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">report_artifact(fn_output)</code></pre><p>Print artifact information</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/make_knowledge_packs.jl#L1-L5">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.resolve_url-Tuple{String, String}" href="#DocsScraper.resolve_url-Tuple{String, String}"><code>DocsScraper.resolve_url</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">resolve_url(base_url::String, extracted_url::String)</code></pre><p>Check the extracted URL with the original URL. Return empty String if the extracted URL belongs to a different domain.  Return complete URL if there&#39;s a directory traversal paths or the extracted URL belongs to the same domain as the base_url</p><p><strong>Arguments</strong></p><ul><li>base_url: URL of the page from which other URLs are being extracted</li><li>extracted<em>url: URL extracted from the base</em>url  </li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_urls.jl#L1-L10">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}" href="#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}"><code>DocsScraper.roll_up_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">roll_up_chunks(parsed_blocks::Vector{Dict{String,Any}}, url::AbstractString; separator::String=&quot;&lt;SEP&gt;&quot;)</code></pre><p>Roll-up chunks (that have the same header!), so we can split them later by &lt;SEP&gt; to get the desired length</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/preparation.jl#L21-L25">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.text_before_version-Tuple{AbstractString}" href="#DocsScraper.text_before_version-Tuple{AbstractString}"><code>DocsScraper.text_before_version</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">text_before_version(url::AbstractString)</code></pre><p>Return text before &quot;stable&quot; or &quot;dev&quot; or any version in URL. It is generally observed that doc websites have package names before their versions </p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_package_name.jl#L87-L91">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.url_package_name-Tuple{AbstractString}" href="#DocsScraper.url_package_name-Tuple{AbstractString}"><code>DocsScraper.url_package_name</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">url_package_name(url::AbstractString)</code></pre><p>Return the text if the URL itself contains the package name with &quot;.jl&quot; or &quot;_jl&quot; suffixes</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/extract_package_name.jl#L38-L42">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="DocsScraper.urls_for_metadata-Tuple{Vector{String}}" href="#DocsScraper.urls_for_metadata-Tuple{Vector{String}}"><code>DocsScraper.urls_for_metadata</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">urls_for_metadata(sources::Vector{String})</code></pre><p>Return a Dict of package names with their associated URLs Note: Due to their large number, URLs are stripped down to the package name; Package subpaths are not included in metadata.</p></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/utils.jl#L125-L130">source</a></section></article><article class="docstring"><header><a class="docstring-article-toggle-button fa-solid fa-chevron-down" href="javascript:;" title="Collapse docstring"></a><a class="docstring-binding" id="PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}" href="#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}"><code>PromptingTools.Experimental.RAGTools.get_chunks</code></a> — <span class="docstring-category">Method</span></header><section><div><pre><code class="language-julia hljs">RT.get_chunks(chunker::DocParserChunker, url::AbstractString;
+    verbose::Bool=true, separators=[&quot;</code></pre><p>&quot;, &quot;. &quot;, &quot; &quot;, &quot; &quot;], max<em>chunk</em>size::Int=MAX<em>CHUNK</em>SIZE)</p><p>Extract chunks from HTML files, by parsing the content in the HTML, rolling up chunks by headers,  and splits them by separators to get the desired length.</p><p><strong>Arguments</strong></p><ul><li>chunker: DocParserChunker</li><li>url: URL of the webpage to extract chunks</li><li>verbose: Bool to print the log</li><li>separators: Chunk separators</li><li>max<em>chunk</em>size Maximum chunk size</li></ul></div><a class="docs-sourcelink" target="_blank" href="https://github.com/splendidbug/DocsScraper.jl/blob/f6e2dc68e4d5a314e70ff9bca97761b8770caac6/src/preparation.jl#L61-L77">source</a></section></article></article><nav class="docs-footer"><p class="footer-message">Powered by <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> and the <a href="https://julialang.org/">Julia Programming Language</a>.</p></nav></div><div class="modal" id="documenter-settings"><div class="modal-background"></div><div class="modal-card"><header class="modal-card-head"><p class="modal-card-title">Settings</p><button class="delete"></button></header><section class="modal-card-body"><p><label class="label">Theme</label><div class="select"><select id="documenter-themepicker"><option value="auto">Automatic (OS)</option><option value="documenter-light">documenter-light</option><option value="documenter-dark">documenter-dark</option><option value="catppuccin-latte">catppuccin-latte</option><option value="catppuccin-frappe">catppuccin-frappe</option><option value="catppuccin-macchiato">catppuccin-macchiato</option><option value="catppuccin-mocha">catppuccin-mocha</option></select></div></p><hr/><p>This document was generated with <a href="https://github.com/JuliaDocs/Documenter.jl">Documenter.jl</a> version 1.5.0 on <span class="colophon-date" title="Friday 16 August 2024 03:23">Friday 16 August 2024</span>. Using Julia version 1.10.4.</p></section><footer class="modal-card-foot"></footer></div></div></div></body></html>
diff --git a/dev/search_index.js b/dev/search_index.js
index 08df8c9..6264c21 100644
--- a/dev/search_index.js
+++ b/dev/search_index.js
@@ -1,3 +1,3 @@
 var documenterSearchIndex = {"docs":
-[{"location":"#Reference","page":"API Index","title":"Reference","text":"","category":"section"},{"location":"","page":"API Index","title":"API Index","text":"","category":"page"},{"location":"","page":"API Index","title":"API Index","text":"Modules = [DocsScraper]","category":"page"},{"location":"#DocsScraper.base_url_segment-Tuple{String}","page":"API Index","title":"DocsScraper.base_url_segment","text":"base_url_segment(url::String)\n\nReturn the base url and first path segment if all the other checks fail\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}","page":"API Index","title":"DocsScraper.check_robots_txt","text":"check_robots_txt(user_agent::AbstractString, url::AbstractString)\n\nCheck robots.txt of a URL and return a boolean representing if user_agent is allowed to crawl the input url, along with sitemap urls\n\nArguments\n\nuser_agent: user agent attempting to crawl the webpage\nurl: input URL string\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.clean_url-Tuple{String}","page":"API Index","title":"DocsScraper.clean_url","text":"clean_url(url::String)\n\nStrip URL of any http:// ot https:// or www. prefixes \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.crawl-Tuple{Vector{<:AbstractString}}","page":"API Index","title":"DocsScraper.crawl","text":"crawl(input_urls::Vector{<:AbstractString})\n\nCrawl on the input URLs and return a hostname_url_dict which is a dictionary with key being hostnames and the values being the URLs\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.create_output_folders-Tuple{String}","page":"API Index","title":"DocsScraper.create_output_folders","text":"create_output_folders(knowledge_pack_path::String)\n\nCreate output folders on the knowledgepackpath\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.docs_in_url-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.docs_in_url","text":"docs_in_url(url::AbstractString)\n\nIf the base url is in the form docs.packagename.domainextension, then return the middle word i.e., package_name \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.find_duplicates-Tuple{AbstractVector{<:AbstractString}}","page":"API Index","title":"DocsScraper.find_duplicates","text":"find_duplicates(chunks::AbstractVector{<:AbstractString})\n\nFind duplicates in a list of chunks using SHA-256 hash. Returns a bit vector of the same length as the input list,  where true indicates a duplicate (second instance of the same text).\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{<:AbstractString}}","page":"API Index","title":"DocsScraper.find_urls_html!","text":"find_urls_html!(url::AbstractString, node::Gumbo.HTMLElement, url_queue::Vector{<:AbstractString}\n\nFunction to recursively find <a> tags and extract the urls\n\nArguments\n\nurl: The initial input URL \nnode: The HTML node of type Gumbo.HTMLElement\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{<:AbstractString}}","page":"API Index","title":"DocsScraper.find_urls_xml!","text":"find_urls_xml!(url::AbstractString, url_queue::Vector{<:AbstractString})\n\nIdentify URL through regex pattern in xml files and push in url_queue\n\nArguments\n\nurl: url from which all other URLs will be extracted\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.generate_embeddings-Tuple{String}","page":"API Index","title":"DocsScraper.generate_embeddings","text":"generate_embeddings(knowledge_pack_path::String; model::AbstractString=MODEL, \n    embedding_size::Int=EMBEDDING_SIZE, custom_metadata::AbstractString)\n\nDeserialize chunks and sources to generate embeddings \n\nArguments\n\nmodel: Embedding model\nembedding_size: Embedding dimensions\ncustom_metadata: Custom metadata like ecosystem name if required\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_base_url-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.get_base_url","text":"get_base_url(url::AbstractString)\n\nExtract the base url\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_header_path-Tuple{Dict{String, Any}}","page":"API Index","title":"DocsScraper.get_header_path","text":"get_header_path(d::Dict)\n\nConcatenate the h1, h2, h3 keys from the metadata of a Dict\n\nExamples\n\nd = Dict(\"metadata\" => Dict{Symbol,Any}(:h1 => \"Axis\", :h2 => \"Attributes\", :h3 => \"yzoomkey\"), \"heading\" => \"yzoomkey\")\nget_header_path(d)\n# Output: \"Axis/Attributes/yzoomkey\"\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}","page":"API Index","title":"DocsScraper.get_html_content","text":"get_html_content(root::Gumbo.HTMLElement)\n\nReturn the main content of the HTML. If not found, return the whole HTML to parse\n\nArguments\n\nroot: The HTML root from which content is extracted\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_package_name-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.get_package_name","text":"get_package_name(url::AbstractString)\n\nReturn name of the package through the package URL  \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_urls!-Tuple{AbstractString, Vector{<:AbstractString}}","page":"API Index","title":"DocsScraper.get_urls!","text":"get_links!(url::AbstractString, \n    url_queue::Vector{<:AbstractString})\n\nExtract urls inside html or xml files \n\nArguments\n\nurl: url from which all other URLs will be extracted\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}","page":"API Index","title":"DocsScraper.insert_parsed_data!","text":"insert_parsed_data!(heading_hierarchy::Dict{Symbol,Any}, \n    parsed_blocks::Vector{Dict{String,Any}}, \n    text_to_insert::AbstractString, \n    text_type::AbstractString)\n\nInsert the text into parsed_blocks Vector\n\nArguments\n\nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\ntexttoinsert: Text to be inserted\ntext_type: The text to be inserted could be heading or a code block or just text\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}","page":"API Index","title":"DocsScraper.l2_norm_columns","text":"l2_norm_columns(mat::AbstractMatrix)\n\nNormalize the columns of the input embeddings\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.l2_norm_columns-Tuple{AbstractVector}","page":"API Index","title":"DocsScraper.l2_norm_columns","text":"l2_norm_columns(vect::AbstractVector)\n\nNormalize the columns of the input embeddings\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.make_chunks-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}","page":"API Index","title":"DocsScraper.make_chunks","text":"make_chunks(hostname_url_dict::Dict{AbstractString,Vector{AbstractString}}, knowledge_pack_path::String; \n    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)\n\nParse URLs from hostnameurldict and save the chunks\n\nArguments\n\nhostnameurldict: Dict with key being hostname and value being a vector of URLs\nknowledgepackpath: Knowledge pack path\nmaxchunksize: Maximum chunk size\nminchunksize: Minimum chunk size\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.make_knowledge_packs","page":"API Index","title":"DocsScraper.make_knowledge_packs","text":"make_knowledge_packs(crawlable_urls::Vector{<:AbstractString}=String[]; single_urls::Vector{<:AbstractString}=String[],\n    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE, model::AbstractString=MODEL, embedding_size::Int=EMBEDDING_SIZE, \n    custom_metadata::AbstractString)\n\nEntry point to crawl, parse and generate embeddings\n\nArguments\n\ncrawlable_urls: URLs that should be crawled to find more links\nsingle_urls: Single page URLs that should just be scraped and parsed. The crawler won't look for more URLs\nmaxchunksize: Maximum chunk size\nminchunksize: Minimum chunk size\nmodel: Embedding model\nembedding_size: Embedding dimensions\ncustom_metadata: Custom metadata like ecosystem name if required\n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.nav_bar-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.nav_bar","text":"nav_bar(url::AbstractString)\n\nJulia doc websites tend to have the package name under \".docs-package-name\" class in the HTML tree\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.parse_robots_txt!-Tuple{String}","page":"API Index","title":"DocsScraper.parse_robots_txt!","text":"parse_robots_txt!(robots_txt::String)\n\nParse the robots.txt string and return rules and the URLs on Sitemap\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.parse_url_to_blocks","text":"parse_url(url::AbstractString)\n\nInitiator and main function to parse HTML from url. Return a Vector of Dict containing Heading/Text/Code along with a Dict of respective metadata\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.postprocess_chunks-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Index","title":"DocsScraper.postprocess_chunks","text":"function postprocess_chunks(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString};\n    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true, paths::Union{Nothing,AbstractVector{<:AbstractString}}=nothing,\n    websites::Union{Nothing,AbstractVector{<:AbstractString}}=nothing)\n\nPost-process the input list of chunks and their corresponding sources by removing short chunks and duplicates.\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}","page":"API Index","title":"DocsScraper.process_code","text":"process_code(node::Gumbo.HTMLElement)\n\nProcess code snippets. If the current node is a code block, return the text inside code block with backticks.\n\nArguments\n\nnode: The root HTML node\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_docstring!","page":"API Index","title":"DocsScraper.process_docstring!","text":"process_docstring!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nFunction to process node of class docstring\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.process_generic_node!","page":"API Index","title":"DocsScraper.process_generic_node!","text":"process_generic_node!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nIf the node is neither heading nor code\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}","page":"API Index","title":"DocsScraper.process_headings!","text":"process_headings!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}})\n\nProcess headings. If the current node is heading, directly insert into parsed_blocks. \n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}","page":"API Index","title":"DocsScraper.process_hostname!","text":"process_hostname(url::AbstractString, hostname_dict::Dict{AbstractString,Vector{AbstractString}})\n\nAdd url to its hostname in hostname_dict\n\nArguments\n\nurl: URL string\nhostname_dict: Dict with key being hostname and value being a vector of URLs\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_hostname-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.process_hostname","text":"process_hostname(url::AbstractString)\n\nReturn the hostname of an input URL\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_node!","page":"API Index","title":"DocsScraper.process_node!","text":"process_node!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nFunction to process a node\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}","page":"API Index","title":"DocsScraper.process_node!","text":"multiple dispatch for process_node!() when node is of type Gumbo.HTMLText\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_paths-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.process_paths","text":"process_paths(url::AbstractString; max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)\n\nProcess folders provided in paths. In each, take all HTML files, scrape them, chunk them and postprocess them.\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.remove_duplicates-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Index","title":"DocsScraper.remove_duplicates","text":"remove_duplicates(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString})\n\nRemove chunks that are duplicated in the input list of chunks and their corresponding sources.\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.remove_short_chunks-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Index","title":"DocsScraper.remove_short_chunks","text":"remove_short_chunks(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString};\n    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true)\n\nRemove chunks that are shorter than a specified length (min_length) from the input list of chunks and their corresponding sources.\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.remove_urls_from_index","page":"API Index","title":"DocsScraper.remove_urls_from_index","text":"function remove_urls_from_index(index_path::AbstractString, prefix_urls=Vector{<:AbstractString})\n\nRemove chunks and sources corresponding to URLs starting with prefix_urls \n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.report_artifact-Tuple{Any}","page":"API Index","title":"DocsScraper.report_artifact","text":"report_artifact(fn_output)\n\nPrint artifact information\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.resolve_url-Tuple{String, String}","page":"API Index","title":"DocsScraper.resolve_url","text":"resolve_url(base_url::String, extracted_url::String)\n\nCheck the extracted URL with the original URL. Return empty String if the extracted URL belongs to a different domain.  Return complete URL if there's a directory traversal paths or the extracted URL belongs to the same domain as the base_url\n\nArguments\n\nbase_url: URL of the page from which other URLs are being extracted\nextractedurl: URL extracted from the baseurl  \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}","page":"API Index","title":"DocsScraper.roll_up_chunks","text":"roll_up_chunks(parsed_blocks::Vector{Dict{String,Any}}, url::AbstractString; separator::String=\"<SEP>\")\n\nRoll-up chunks (that have the same header!), so we can split them later by <SEP> to get the desired length\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.text_before_version-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.text_before_version","text":"text_before_version(url::AbstractString)\n\nReturn text before \"stable\" or \"dev\" or any version in URL. It is generally observed that doc websites have package names before their versions \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.url_package_name-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.url_package_name","text":"url_package_name(url::AbstractString)\n\nReturn the text if the URL itself contains the package name with \".jl\" or \"_jl\" suffixes\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.urls_for_metadata-Tuple{Vector{String}}","page":"API Index","title":"DocsScraper.urls_for_metadata","text":"urls_for_metadata(sources::Vector{String})\n\nReturn a Dict of package names with their associated URLs Note: Due to their large number, URLs are stripped down to the package name; Package subpaths are not included in metadata.\n\n\n\n\n\n","category":"method"},{"location":"#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}","page":"API Index","title":"PromptingTools.Experimental.RAGTools.get_chunks","text":"RT.get_chunks(chunker::DocParserChunker, url::AbstractString;\n    verbose::Bool=true, separators=[\"\n\n\", \". \", \" \", \" \"], maxchunksize::Int=MAXCHUNKSIZE)\n\nExtract chunks from HTML files, by parsing the content in the HTML, rolling up chunks by headers,  and splits them by separators to get the desired length.\n\nArguments\n\nchunker: DocParserChunker\nurl: URL of the webpage to extract chunks\nverbose: Bool to print the log\nseparators: Chunk separators\nmaxchunksize Maximum chunk size\n\n\n\n\n\n","category":"method"}]
+[{"location":"#Reference","page":"API Index","title":"Reference","text":"","category":"section"},{"location":"","page":"API Index","title":"API Index","text":"","category":"page"},{"location":"","page":"API Index","title":"API Index","text":"Modules = [DocsScraper]","category":"page"},{"location":"#DocsScraper.base_url_segment-Tuple{String}","page":"API Index","title":"DocsScraper.base_url_segment","text":"base_url_segment(url::String)\n\nReturn the base url and first path segment if all the other checks fail\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.check_robots_txt-Tuple{AbstractString, AbstractString}","page":"API Index","title":"DocsScraper.check_robots_txt","text":"check_robots_txt(user_agent::AbstractString, url::AbstractString)\n\nCheck robots.txt of a URL and return a boolean representing if user_agent is allowed to crawl the input url, along with sitemap urls\n\nArguments\n\nuser_agent: user agent attempting to crawl the webpage\nurl: input URL string\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.clean_url-Tuple{String}","page":"API Index","title":"DocsScraper.clean_url","text":"clean_url(url::String)\n\nStrip URL of any http:// ot https:// or www. prefixes \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.crawl-Tuple{Vector{<:AbstractString}}","page":"API Index","title":"DocsScraper.crawl","text":"crawl(input_urls::Vector{<:AbstractString})\n\nCrawl on the input URLs and return a hostname_url_dict which is a dictionary with key being hostnames and the values being the URLs\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.create_output_folders-Tuple{String}","page":"API Index","title":"DocsScraper.create_output_folders","text":"create_output_folders(knowledge_pack_path::String)\n\nCreate output folders on the knowledgepackpath\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.docs_in_url-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.docs_in_url","text":"docs_in_url(url::AbstractString)\n\nIf the base url is in the form docs.packagename.domainextension, then return the middle word i.e., package_name \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.find_duplicates-Tuple{AbstractVector{<:AbstractString}}","page":"API Index","title":"DocsScraper.find_duplicates","text":"find_duplicates(chunks::AbstractVector{<:AbstractString})\n\nFind duplicates in a list of chunks using SHA-256 hash. Returns a bit vector of the same length as the input list,  where true indicates a duplicate (second instance of the same text).\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.find_urls_html!-Tuple{AbstractString, Gumbo.HTMLElement, Vector{<:AbstractString}}","page":"API Index","title":"DocsScraper.find_urls_html!","text":"find_urls_html!(url::AbstractString, node::Gumbo.HTMLElement, url_queue::Vector{<:AbstractString}\n\nFunction to recursively find <a> tags and extract the urls\n\nArguments\n\nurl: The initial input URL \nnode: The HTML node of type Gumbo.HTMLElement\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.find_urls_xml!-Tuple{AbstractString, Vector{<:AbstractString}}","page":"API Index","title":"DocsScraper.find_urls_xml!","text":"find_urls_xml!(url::AbstractString, url_queue::Vector{<:AbstractString})\n\nIdentify URL through regex pattern in xml files and push in url_queue\n\nArguments\n\nurl: url from which all other URLs will be extracted\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.generate_embeddings-Tuple{String}","page":"API Index","title":"DocsScraper.generate_embeddings","text":"generate_embeddings(knowledge_pack_path::String; model::AbstractString=MODEL, \n    embedding_size::Int=EMBEDDING_SIZE, custom_metadata::AbstractString,\n    bool_embeddings::Bool = true, index_name::AbstractString = \"\")\n\nDeserialize chunks and sources to generate embeddings  Note: We highly recommend to pass index_name. This will be the name of the generated index. Default: date-randomInt\n\nArguments\n\nmodel: Embedding model\nembedding_size: Embedding dimensions\ncustom_metadata: Custom metadata like ecosystem name if required\nbool_embeddings: If true, embeddings generated will be boolean, Float32 otherwise\nindex_name: Name if the index. Default: date-randomInt\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_base_url-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.get_base_url","text":"get_base_url(url::AbstractString)\n\nExtract the base url\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_header_path-Tuple{Dict{String, Any}}","page":"API Index","title":"DocsScraper.get_header_path","text":"get_header_path(d::Dict)\n\nConcatenate the h1, h2, h3 keys from the metadata of a Dict\n\nExamples\n\nd = Dict(\"metadata\" => Dict{Symbol,Any}(:h1 => \"Axis\", :h2 => \"Attributes\", :h3 => \"yzoomkey\"), \"heading\" => \"yzoomkey\")\nget_header_path(d)\n# Output: \"Axis/Attributes/yzoomkey\"\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_html_content-Tuple{Gumbo.HTMLElement}","page":"API Index","title":"DocsScraper.get_html_content","text":"get_html_content(root::Gumbo.HTMLElement)\n\nReturn the main content of the HTML. If not found, return the whole HTML to parse\n\nArguments\n\nroot: The HTML root from which content is extracted\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_package_name-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.get_package_name","text":"get_package_name(url::AbstractString)\n\nReturn name of the package through the package URL  \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.get_urls!-Tuple{AbstractString, Vector{<:AbstractString}}","page":"API Index","title":"DocsScraper.get_urls!","text":"get_links!(url::AbstractString, \n    url_queue::Vector{<:AbstractString})\n\nExtract urls inside html or xml files \n\nArguments\n\nurl: url from which all other URLs will be extracted\nurl_queue: Vector in which extracted URLs will be appended\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.insert_parsed_data!-Tuple{Dict{Symbol, Any}, Vector{Dict{String, Any}}, AbstractString, AbstractString}","page":"API Index","title":"DocsScraper.insert_parsed_data!","text":"insert_parsed_data!(heading_hierarchy::Dict{Symbol,Any}, \n    parsed_blocks::Vector{Dict{String,Any}}, \n    text_to_insert::AbstractString, \n    text_type::AbstractString)\n\nInsert the text into parsed_blocks Vector\n\nArguments\n\nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\ntexttoinsert: Text to be inserted\ntext_type: The text to be inserted could be heading or a code block or just text\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.l2_norm_columns-Tuple{AbstractMatrix}","page":"API Index","title":"DocsScraper.l2_norm_columns","text":"l2_norm_columns(mat::AbstractMatrix)\n\nNormalize the columns of the input embeddings\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.l2_norm_columns-Tuple{AbstractVector}","page":"API Index","title":"DocsScraper.l2_norm_columns","text":"l2_norm_columns(vect::AbstractVector)\n\nNormalize the columns of the input embeddings\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.make_chunks-Tuple{Dict{AbstractString, Vector{AbstractString}}, String}","page":"API Index","title":"DocsScraper.make_chunks","text":"make_chunks(hostname_url_dict::Dict{AbstractString,Vector{AbstractString}}, knowledge_pack_path::String; \n    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)\n\nParse URLs from hostnameurldict and save the chunks\n\nArguments\n\nhostnameurldict: Dict with key being hostname and value being a vector of URLs\nknowledgepackpath: Knowledge pack path\nmaxchunksize: Maximum chunk size\nminchunksize: Minimum chunk size\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.make_knowledge_packs","page":"API Index","title":"DocsScraper.make_knowledge_packs","text":"make_knowledge_packs(crawlable_urls::Vector{<:AbstractString}=String[]; single_urls::Vector{<:AbstractString}=String[],\n    max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE, model::AbstractString=MODEL, embedding_size::Int=EMBEDDING_SIZE, \n    custom_metadata::AbstractString, bool_embeddings::Bool = true, index_name::AbstractString = \"\")\n\nEntry point to crawl, parse and generate embeddings. Note: We highly recommend to pass index_name. This will be the name of the generated index. Default: date-randomInt\n\nArguments\n\ncrawlable_urls: URLs that should be crawled to find more links\nsingle_urls: Single page URLs that should just be scraped and parsed. The crawler won't look for more URLs\nmaxchunksize: Maximum chunk size\nminchunksize: Minimum chunk size\nmodel: Embedding model\nembedding_size: Embedding dimensions\ncustom_metadata: Custom metadata like ecosystem name if required\nbool_embeddings: If true, embeddings generated will be boolean, Float32 otherwise\nindex_name: Name if the index. Default: date-randomInt\n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.nav_bar-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.nav_bar","text":"nav_bar(url::AbstractString)\n\nJulia doc websites tend to have the package name under \".docs-package-name\" class in the HTML tree\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.parse_robots_txt!-Tuple{String}","page":"API Index","title":"DocsScraper.parse_robots_txt!","text":"parse_robots_txt!(robots_txt::String)\n\nParse the robots.txt string and return rules and the URLs on Sitemap\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.parse_url_to_blocks-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.parse_url_to_blocks","text":"parse_url(url::AbstractString)\n\nInitiator and main function to parse HTML from url. Return a Vector of Dict containing Heading/Text/Code along with a Dict of respective metadata\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.postprocess_chunks-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Index","title":"DocsScraper.postprocess_chunks","text":"function postprocess_chunks(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString};\n    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true, paths::Union{Nothing,AbstractVector{<:AbstractString}}=nothing,\n    websites::Union{Nothing,AbstractVector{<:AbstractString}}=nothing)\n\nPost-process the input list of chunks and their corresponding sources by removing short chunks and duplicates.\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_code-Tuple{Gumbo.HTMLElement}","page":"API Index","title":"DocsScraper.process_code","text":"process_code(node::Gumbo.HTMLElement)\n\nProcess code snippets. If the current node is a code block, return the text inside code block with backticks.\n\nArguments\n\nnode: The root HTML node\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_docstring!","page":"API Index","title":"DocsScraper.process_docstring!","text":"process_docstring!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nFunction to process node of class docstring\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.process_generic_node!","page":"API Index","title":"DocsScraper.process_generic_node!","text":"process_generic_node!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nIf the node is neither heading nor code\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.process_headings!-Tuple{Gumbo.HTMLElement, Dict{Symbol, Any}, Vector{Dict{String, Any}}}","page":"API Index","title":"DocsScraper.process_headings!","text":"process_headings!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}})\n\nProcess headings. If the current node is heading, directly insert into parsed_blocks. \n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_hostname!-Tuple{AbstractString, Dict{AbstractString, Vector{AbstractString}}}","page":"API Index","title":"DocsScraper.process_hostname!","text":"process_hostname(url::AbstractString, hostname_dict::Dict{AbstractString,Vector{AbstractString}})\n\nAdd url to its hostname in hostname_dict\n\nArguments\n\nurl: URL string\nhostname_dict: Dict with key being hostname and value being a vector of URLs\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_hostname-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.process_hostname","text":"process_hostname(url::AbstractString)\n\nReturn the hostname of an input URL\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_node!","page":"API Index","title":"DocsScraper.process_node!","text":"process_node!(node::Gumbo.HTMLElement,\n    heading_hierarchy::Dict{Symbol,Any},\n    parsed_blocks::Vector{Dict{String,Any}},\n    child_new::Bool=true,\n    prev_text_buffer::IO=IOBuffer(write=true))\n\nFunction to process a node\n\nArguments\n\nnode: The root HTML node \nheading_hierarchy: Dict used to store metadata\nparsed_blocks: Vector of Dicts to store parsed text and metadata\nchildnew: Bool to specify if the current block (child) is part of previous block or not.                If it's not, then a new insertion needs to be created in parsedblocks\nprevtextbuffer: IO Buffer which contains previous text\n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.process_node!-Tuple{Gumbo.HTMLText, Vararg{Any}}","page":"API Index","title":"DocsScraper.process_node!","text":"multiple dispatch for process_node!() when node is of type Gumbo.HTMLText\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.process_paths-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.process_paths","text":"process_paths(url::AbstractString; max_chunk_size::Int=MAX_CHUNK_SIZE, min_chunk_size::Int=MIN_CHUNK_SIZE)\n\nProcess folders provided in paths. In each, take all HTML files, scrape them, chunk them and postprocess them.\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.remove_duplicates-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Index","title":"DocsScraper.remove_duplicates","text":"remove_duplicates(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString})\n\nRemove chunks that are duplicated in the input list of chunks and their corresponding sources.\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.remove_short_chunks-Tuple{AbstractVector{<:AbstractString}, AbstractVector{<:AbstractString}}","page":"API Index","title":"DocsScraper.remove_short_chunks","text":"remove_short_chunks(chunks::AbstractVector{<:AbstractString}, sources::AbstractVector{<:AbstractString};\n    min_chunk_size::Int=MIN_CHUNK_SIZE, skip_code::Bool=true)\n\nRemove chunks that are shorter than a specified length (min_length) from the input list of chunks and their corresponding sources.\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.remove_urls_from_index","page":"API Index","title":"DocsScraper.remove_urls_from_index","text":"function remove_urls_from_index(index_path::AbstractString, prefix_urls=Vector{<:AbstractString})\n\nRemove chunks and sources corresponding to URLs starting with prefix_urls \n\n\n\n\n\n","category":"function"},{"location":"#DocsScraper.report_artifact-Tuple{Any}","page":"API Index","title":"DocsScraper.report_artifact","text":"report_artifact(fn_output)\n\nPrint artifact information\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.resolve_url-Tuple{String, String}","page":"API Index","title":"DocsScraper.resolve_url","text":"resolve_url(base_url::String, extracted_url::String)\n\nCheck the extracted URL with the original URL. Return empty String if the extracted URL belongs to a different domain.  Return complete URL if there's a directory traversal paths or the extracted URL belongs to the same domain as the base_url\n\nArguments\n\nbase_url: URL of the page from which other URLs are being extracted\nextractedurl: URL extracted from the baseurl  \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.roll_up_chunks-Tuple{Vector{Dict{String, Any}}, AbstractString}","page":"API Index","title":"DocsScraper.roll_up_chunks","text":"roll_up_chunks(parsed_blocks::Vector{Dict{String,Any}}, url::AbstractString; separator::String=\"<SEP>\")\n\nRoll-up chunks (that have the same header!), so we can split them later by <SEP> to get the desired length\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.text_before_version-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.text_before_version","text":"text_before_version(url::AbstractString)\n\nReturn text before \"stable\" or \"dev\" or any version in URL. It is generally observed that doc websites have package names before their versions \n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.url_package_name-Tuple{AbstractString}","page":"API Index","title":"DocsScraper.url_package_name","text":"url_package_name(url::AbstractString)\n\nReturn the text if the URL itself contains the package name with \".jl\" or \"_jl\" suffixes\n\n\n\n\n\n","category":"method"},{"location":"#DocsScraper.urls_for_metadata-Tuple{Vector{String}}","page":"API Index","title":"DocsScraper.urls_for_metadata","text":"urls_for_metadata(sources::Vector{String})\n\nReturn a Dict of package names with their associated URLs Note: Due to their large number, URLs are stripped down to the package name; Package subpaths are not included in metadata.\n\n\n\n\n\n","category":"method"},{"location":"#PromptingTools.Experimental.RAGTools.get_chunks-Tuple{DocsScraper.DocParserChunker, AbstractString}","page":"API Index","title":"PromptingTools.Experimental.RAGTools.get_chunks","text":"RT.get_chunks(chunker::DocParserChunker, url::AbstractString;\n    verbose::Bool=true, separators=[\"\n\n\", \". \", \" \", \" \"], maxchunksize::Int=MAXCHUNKSIZE)\n\nExtract chunks from HTML files, by parsing the content in the HTML, rolling up chunks by headers,  and splits them by separators to get the desired length.\n\nArguments\n\nchunker: DocParserChunker\nurl: URL of the webpage to extract chunks\nverbose: Bool to print the log\nseparators: Chunk separators\nmaxchunksize Maximum chunk size\n\n\n\n\n\n","category":"method"}]
 }