Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Forbedringer på hvordan vi indekserer #292

Open
4 tasks
cbrevik opened this issue Apr 24, 2023 · 4 comments
Open
4 tasks

Forbedringer på hvordan vi indekserer #292

cbrevik opened this issue Apr 24, 2023 · 4 comments

Comments

@cbrevik
Copy link
Member

cbrevik commented Apr 24, 2023

  • Ser ut som headers wrapped i <divs> faller ut av indeksering, øverste seksjon i håndbok for nullslug, title og url etter denne: 701377a#diff-e0ea75075db38b859f48651afcf18e8d09f7c1af738d0d0951d739e3abd0f2cc (men gjelder flere plasser)
  • Virker til at tekst som er wrappet i <code> og <strong> utelates fra indeksering - sikkert flere typer som utaltes?
  • <li> deles opp i enkelt-items. I noen tilfeller kan det være greit der hvor det er lengre tekst som under Likestilling: "Du får selvsagt full lønn under foreldrepermisjon." - mindre heldig der hvor det bare listes ut korte ting, som under Gadgets: "Aug 2018: 10 000 kr" - eller under Helse, hvor en er kun "Operasjon"
  • Grunnverdiene faller helt ut av en eller annen grunn, disse finnes ikke i indeks i hele tatt (så GPT klarer ikke svare på det heller):

image

Slug/title/url null, fra første punkt:

  {
    "slug": null,
    "title": null,
    "urlPath": "/",
    "matter": {
      "title": "En variants håndbok"
    },
    "systemId": "handbook",
    "url": "/#null",
    "content": "Her forsøker vi å beskrive hvordan ting gjøres i Variant, hva vi prøver å oppnå\nog hvorfor vi tenker som vi gjør. Denne er både for ansatte og folk som er\nnysgjerrige på hvordan det er å være en variant. Håndboka er et levende dokument\nsom vi ønsker alle ansatte skal ha eierskap til. Vi oppfordrer alle til å endre\neller legge til innhold i den. Håndboken\n ligger åpent på GitHub  hvor\n alle kan sende inn endringer \neller  stille spørsmål .",
    "department": [
      "Trondheim",
      "Oslo",
      "Bergen",
      "Molde"
    ]
  },

Sample på punkt to, <code> faller ut, se også håndbok https://handbook.variant.no/information#Heimevernet-(HV)-og-militaertjeneste

{
    "slug": "Heimevernet-(HV)-og-militaertjeneste",
    "title": "Heimevernet (HV) og militærtjeneste",
    "urlPath": "/information",
    "matter": {
      "title": "Det praktiske"
    },
    "systemId": "handbook",
    "url": "/information#Heimevernet-(HV)-og-militaertjeneste",
    "content": "Variant dekker lønn under HV-øvelser. Dette timeføres som vanlig under\n .",
    "department": [
      "Trondheim",
      "Oslo",
      "Bergen",
      "Molde"
    ]
  },
@cbrevik
Copy link
Member Author

cbrevik commented Apr 24, 2023

Disse faller ut også, i tillegg til verdiene:
image

@cbrevik
Copy link
Member Author

cbrevik commented Apr 24, 2023

Skulle vi hatt en linter på indekseringen kanskje?

@cbrevik
Copy link
Member Author

cbrevik commented Apr 24, 2023

Burde utrede om vi skal returnere markdown til indeksering for GPT/vector-database. Jeg vet at GPT kan forstå markdown, og kunne i så tilfelle også gitt lenker til de som spør spørsmål. Men usikker på om markdown her ville ødelagt relatedness-søk på embeddings - så der må kanskje ren tekst til.

@mikaelbr
Copy link
Member

mikaelbr commented Jun 8, 2023

Tror forresten dette kan løses enkelt med a legge til flere noder til indexeren

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants