Åpen Kildekode Brukeragent Oppslagsstabell • PageviewsOnline

github.com/pageviewsonline/user-agent-lookup-table

Dette repositoryet inneholder et normalisert, kuratert datasett av brukeragent-strenger, lagret som JSON-filer og designet for å brukes som en oppslags-tabell for å utlede enkel brukeragentdata, for eksempel brukeragentklienten og operativsystemet.

Det brukes som en komponent i PageviewsOnline, men publiseres her for generell bruk.

Datasettet suppleres av enkle hjelpeskript som validerer dataene og eksporterer dem til andre formater eller programmeringsspråk (for eksempel Java).

Prosjektfilosofi

Målet med dette prosjektet er ikke å tilby en feilfri eller helt nøyaktig brukeragentdeteksjon, men en praktisk løsning som etter beste evne forbedres over tid gjennom reell bruk og fellesskapsbidrag.

Gjenkjenning av brukeragent er iboende ufullkommen. I stedet for å streve etter fullstendig nøyaktighet, fokuserer dette prosjektet på å være:

Praktisk
Vedlikeholdbar
Gjennomsiktig
Godt nok til analyse og klassifisering i virkelige situasjoner

Nøyaktigheten forbedres over tid gjennom kuraterte oppdateringer, faktisk bruk og bidrag fra fellesskapet.

Heuristisk parsing og komplekse regulære uttrykk gir ofte avkall på forutsigbarhet til fordel for marginale nøyaktighetsgevinster.

Dette prosjektet foretrekker:

Åpenhet fremfor magi
Kuratert data fremfor ugjennomsiktig logikk
Forklarbare resultater fremfor spekulativ deteksjon

Funksjoner

Normalisert, manuelt gjennomgått brukeragentdatasett
Enkelt og forutsigbart oppslagsatferd
JSON-basert format, enkelt å inspisere og bruke versjonskontroll
Lette valideringsskripter
Eksporter hjelpefunksjoner for andre språk (f.eks. Java)
Aktivt brukt i et produksjons-SaaS-miljø

Normaliserte Brukeragent-Strenger

Hovedmålet med dette prosjektet er å hente ut høynivå, stabil informasjon fra brukeragentstrenger på en rask og forutsigbar måte.

For å støtte dette, normaliseres hver brukeragentstreng før behandling. Normalisering fjerner ustabil variasjon (for eksempel versjonsnumre og forskjeller i store og små bokstaver) samtidig som den bevarer den strukturelle og semantiske betydningen av brukeragentstrengen.

Brukeragentstrenger normaliseres ved hjelp av følgende trinn:

Erstatt alle siffer (0-9) med plassholdertegnet x. Dette fjerner støy forårsaket av versjonsendringer samtidig som tokenstrukturen og lengden bevares.
Gjør hele strengen til små bokstaver. Brukeragent-tokener er konvensjonelt ikke følsomme for store og små bokstaver, og å gjøre bokstavene små sikrer konsekvente og pålitelige oppslag.

For eksempel følger følgende brukeragentstreng:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36

Er normalisert til:

mozilla/x.x (windows nt xx.x; winxx; xxx) applewebkit/xxx.xx (khtml, like gecko) chrome/xxx.x.x.x safari/xxx.xx

Denne normaliseringsmetoden gjør brukeragenter enklere å gruppere, sammenligne og vedlikeholde over tid, samtidig som den forblir tilstrekkelig nøyaktig for overordnet klassifisering av klienter og operativsystemer.

Ved å eliminere variasjon knyttet til versjon og bokstavcase, blir oppslagprosessen mer forutsigbar og motstandsdyktig mot fremtidige endringer i brukeragenten.

Dataformat

Hver normalisert brukeragent-oppføring inkluderer:

id - Den normaliserte brukeragentstrengen
client_family - Overordnet klientklassifisering (f.eks. nettleser, bot, app)
os_family - Høynivå-klassifisering av operativsystemer

Nøyaktige felter kan endre seg over tid etter hvert som datasettet vokser.

Oppslagsatferd

Matching av brukeragent utføres mot normaliserte strenger.

Eksakte treff foretrekkes; delvise eller heuristiske treff unngås bevisst for å holde oppførselen forutsigbar og feilsøkbar.

Bidra

Bidrag er svært velkomne og bidrar til å forbedre den overordnede kvaliteten og nøyaktigheten til dette prosjektet.

Den mest effektive måten å bidra på er ved å legge til eller oppdatere normaliserte brukeragentoppføringer i filen user_agents.json, sammen med relevant klassifiseringsdata.

Når endringene dine er klare, vennligst send inn en pull request som inneholder de nødvendige dataene og/eller kodeoppdateringene.

Til og med delvis eller ufullstendig informasjon er nyttig og verdsatt - hvert bidrag bidrar til å forbedre dekningen og langsiktig pålitelighet.

Kom i gang (Rask veiledning)

Kjernen i dette prosjektet er settet med JSON-datafiler som ligger i data-katalogen.

For å hjelpe med å vedlikeholde og gjenbruke disse dataene, inneholder repositoriet et lite sett med enkle Node.js-skript som utfører grunnleggende validering og eksportoppgaver.

Vanlige tilgjengelige kommandoer:

npm run test - Validerer JSON-data og sjekker for strukturelle eller konsistensfeil.
npm run build - Bygger, sorterer og eksporterer den normaliserte dataen til andre formater for programmeringsspråk (for eksempel Java) for enklere integrasjon.

Disse verktøyene er bevisst minimale, med fokus på datakorrekthet og bærbarhet i stedet for avansert prosessering.

User-Agent Strenger Er Ikke Pålitelige

Å utlede nøyaktig informasjon fra bruker-agent-strenger er i utgangspunktet upålitelig av flere grunner:

Det finnes ingen formell standard eller spesifikasjon som regulerer strukturen eller innholdet i brukeragentstrenger
Mange brukeragenter etterligner bevisst andre brukeragenter for kompatibilitet og eldre systemer

På grunn av dette er det svært vanskelig å fastslå brukeragentdata på en helt nøyaktig og konsekvent måte.

Dette biblioteket bør derfor betraktes som en best-effort-løsning, ikke som en kilde til garanti eller autoritativ sannhet.

Med fortsatt bruk og bidrag fra fellesskapet kan nøyaktigheten forbedres over tid.

Versjonering & Stabilitet

Datasettet kan endre seg over tid ettersom brukeragenter utvikler seg.

Klassifikasjoner anses ikke som brytende endringer, selv mellom mindre versjoner.

Forbrukere bør betrakte resultatene som veiledende indikasjoner, ikke som kontraktlige garantier.

Lisens

Dette prosjektet og dataene det inneholder er lisensiert under Apache License 2.0 (Apache-2.0).

Kommersiell bruk, modifikasjon og omfordeling er tillatt.

Bidrag er velkomne og verdsatt.

Varemerke

PageviewsOnline, Two-Dot-Oh, og alle tilknyttede logoer, tjenestenavnene eller branding er varemerker tilhørende Two-Dot-Oh.

Dette prosjektet er åpen kildekode; bruk av PageviewsOnline-navnet eller tilknyttet merkevarebygging i forbindelse med et produkt, en tjeneste eller et tilbud er imidlertid ikke tillatt uten skriftlig forhåndsgodkjenning.

Forker og avledede verk må bruke et annet navn og en annen merkevare, og må ikke gi inntrykk av støtte fra eller tilknytning til PageviewsOnline eller Two-Dot-Oh.

github.com/pageviewsonline/user-agent-lookup-table