Skaičiuokite puslapių peržiūras, ne žmones. Privatumas pirmiausia – žiniatinklio analizė, saugiai laikoma ES.
ATIDARYTA BETA
Skaičiuokite puslapių peržiūras, ne žmones. Privatumas pirmiausia – žiniatinklio analizė, saugiai laikoma ES.

Atviro kodo vartotojo agentų paieškos lentelė

Atviro kodo naudotojo agentų paieškos duomenų rinkinys su numatyta elgsena. JSON pagrindu sukurta, žmogaus peržiūra patikrinta ir skirta praktiniams analitiniams tikslams.
Šį puslapį iš anglų kalbos išvertė mūsų labai motyvuoti AI praktikantai, kad jums būtų patogiau. Jie dar mokosi, todėl kai kurios klaidos gali pasitaikyti. Dėl tiksliausios informacijos prašome remtis anglų versija.
Pradžia Atviro kodo projektai Atviro kodo vartotojo agentų paieškos lentelė

Šiame saugykloje yra normalizuotas, kruopščiai atrinktas naudotojo agentų eilutėmis sudarytas duomenų rinkinys, saugomas kaip JSON failų rinkinys ir skirtas naudoti kaip paieškos lentelė, siekiant išgauti paprastus naudotojo agentų duomenis, tokius kaip naudotojo agento klientas ir operacinė sistema.

Jis naudojamas kaip PageviewsOnline komponentas, tačiau čia publikuojamas bendram naudojimui.

Duomenų rinkinys yra papildytas paprastais pagalbiniais skriptais, skirtais patikrinti duomenis ir išvesti juos į kitus formatus ar programavimo kalbas (pavyzdžiui, Java).

Projekto Filosofija

Šio projekto tikslas nėra pateikti tobulo ar visiškai tiksliai atpažįstančią naudotojo agentų detekcijos sistemą, o praktinis, kiek įmanoma geriausiai veikiantis sprendimas, kuris laikui bėgant tobulėja dėl realaus naudojimo ir bendruomenės indėlių.

Vartotojo agento atpažinimas savaime nėra visiškai tikslus. Vietoj to, kad siektų visiško tikslumo, šis projektas sutelkia dėmesį į tai, kad būtų:

  • Praktinis
  • Lengvai palaikomas
  • Skaidrus
  • Pakankamai gera realiojo pasaulio analitika ir klasifikacija

Tikslumas didėja laikui bėgant per kruopščiai paruoštus atnaujinimus, realiojo pasaulio naudojimą ir bendruomenės įnašus.

Heuristinė analizė ir sudėtingos reguliarios išraiškos dažnai aukojasi dėl prognozuojamumo, siekdamos nedidelių tikslumo pagerėjimų.

Šis projektas teikia pirmenybę:

  • Skaidrumas virš magijos
  • Atrinkti duomenys vietoje neaiškios logikos
  • Paaiškinami rezultatai, o ne spekuliatyvus aptikimas.

Funkcijos

  • Normalizuotas, žmogaus peržiūrėtas vartotojo agentų duomenų rinkinys
  • Paprastas ir nuspėjamas paieškos elgesys
  • JSON pagrindu paremtas formatas, lengva patikrinti ir valdyti versijas
  • Lengvi validacijos skriptai
  • Eksportuoti pagalbininkus kitoms kalboms (pvz. Java)
  • Aktyviai naudojamas gamybos SaaS aplinkoje

Normalizuotos Naudotojo Agentų Eilutės

Šio projekto pagrindinis tikslas – greitai ir prognozuojamai išgauti aukšto lygio, stabilios informacijos iš naudotojo agentų eilučių.

Kad tai užtikrintume, kiekviena naudotojo agento eilutė yra normalizuojama prieš apdorojimą. Normalizavimas pašalina nestabilias variacijas (pavyzdžiui, versijų numerius ir didžiųjų bei mažųjų raidžių skirtumus), išlaikant naudotojo agento struktūrinę ir semantinę prasmę.

Naudotojo agentų eilutės yra normalizuojamos naudojant šiuos žingsnius:

  • Pakeiskite visus skaitmenis (0-9) į vietos ženklą x. Tai pašalina triukšmą, kurį sukelia versijų pokyčiai, ir išlaiko žetonų struktūrą ir ilgį.
  • Paverskite visą eilutę mažosiomis raidėmis. Vartotojo agento žymės pagal konvenciją nėra jautrios didžiosioms ir mažosioms raidėms, o mažųjų raidžių naudojimas užtikrina nuoseklią ir patikimą paiešką.

Pavyzdžiui, žemiau pateikta naudotojo agento eilutė:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36

Normalizuota iki:

mozilla/x.x (windows nt xx.x; winxx; xxx) applewebkit/xxx.xx (khtml, like gecko) chrome/xxx.x.x.x safari/xxx.xx

Šis normalizavimo požiūris palengvina naudotojų agentų grupavimą, palyginimą ir palaikymą laikui bėgant, tuo pačiu užtikrindamas pakankamą tikslumą aukšto lygio klientų ir operacinių sistemų klasifikavimui.

Pašalinus versijai būdingą variabilumą ir didžiųjų/mažiųjų raidžių skirtumus, paieškos procesas taps labiau nuspėjamas ir atsparus būsimiems naudotojo agento pakeitimams.

Duomenų Formatas

Kiekvienas normalizuotas naudotojo agento įrašas apima:

  • id - Normalizuota naudotojo agento eilutė
  • kliento šeima - Aukšto lygio kliento klasifikavimas (pvz., naršyklė, robotas, programa)
  • os_family - Aukšto lygio operacinių sistemų klasifikacija

Tikslūs laukai gali keistis laikui bėgant, kai duomenų rinkinys auga.

Paieškos elgsena

Vartotojo agento atitikimas atliekamas prieš normalizuotas eilutes.

Pageidaujami tikslūs atitikmenys; daliniai arba heuristiniai atitikmenys yra sąmoningai vengiami, kad elgesys būtų nuspėjamas ir lengvai derinamas.

Prisidėjimas

Prisidėjimai yra labai laukiami ir padeda pagerinti bendrą projekto kokybę bei tikslumą.

Geriausias būdas prisidėti – pridėti arba atnaujinti normalizuotus vartotojo agentų įrašus failo user_agents.json, kartu su atitinkamais klasifikavimo duomenimis.

Kai jūsų pakeitimai bus paruošti, prašome pateikti pull request, kuriame būtų reikiami duomenys ir (arba) kodo atnaujinimai.

Net ir dalinė ar nevisa informacija yra naudinga ir vertinama – kiekvienas įnašas padeda pagerinti aprėptį ir ilgalaikį patikimumą.

Pradžia (Greitas Vadovas)

Šio projekto esmė yra JSON duomenų failų rinkinys, esantis data/ kataloge.

Kad būtų lengviau prižiūrėti ir naudoti šiuos duomenis, šioje repozitorijoje yra nedidelis paprastų Node.js skriptų rinkinys, kuris atlieka pagrindinę validaciją ir eksportavimo užduotis.

Dažniausiai galimos komandos:

  • npm run test - Patikrina JSON duomenis ir tikrina, ar nėra struktūros ar nuoseklumo klaidų.
  • npm run build - Sukuria, surūšiuoja ir eksportuoja normalizuotus duomenis į kitų programavimo kalbų formatus (pvz., Java) lengvesnei integracijai.

Šie įrankiai yra sąmoningai minimalistiniai, orientuoti į duomenų tikslumą ir perkeliamumą, o ne į sudėtingą apdorojimą.

Naudotojo Agentų Eilutės Nėra Patikimos

Gauti tikslią informaciją iš naudotojo agento eilutės yra savaime nepatikima dėl kelių priežasčių:

  • Nėra jokio formalaus standarto ar specifikacijos, kuri reglamentuotų naudotojo agento eilutės struktūrą ar turinį.
  • Daug naudotojo agentų sąmoningai klastuoja arba imituoja kitus naudotojo agentus dėl suderinamumo ir senųjų versijų palaikymo

Dėl to labai sunku nustatyti naudotojo agento duomenis visiškai tiksliai ir nuosekliai.

Taigi šią biblioteką reikėtų laikyti kaip sprendimą, įgyvendintą su geriausiomis įmanomomis pastangomis, o ne kaip šaltinį, iš kurio galima gauti garantuotą ar autoritatyvią tiesą.

Nuolatinio naudojimo ir bendruomenės įnašų dėka tikslumas laikui bėgant gali pagerėti.

Versijavimas & Stabilumas

Duomenų rinkinys gali keistis laikui bėgant, kai keičiasi naudotojų agentai.

Klasifikacijos nėra laikomos nesuderinamais pokyčiais, net ir tarp mažųjų versijų.

Vartotojai turėtų traktuoti rezultatus kaip tik geranoriškos užuominos, o ne kaip sutarčių garantijas.

Licencija

Šis projektas ir jo duomenys yra išleisti pagal Apache License 2.0 (Apache-2.0).

Komercinis naudojimas, modifikavimas ir perskirstymas yra leidžiami.

Prisidėjimai yra laukiami ir vertinami.

Prekės ženklas

PageviewsOnline, Two-Dot-Oh ir visų su tuo susijusių logotipų, paslaugų pavadinimų ar prekės ženklų yra Two-Dot-Oh prekės ženklai.

Šis projektas yra atvirojo kodo; tačiau PageviewsOnline vardo ar bet kokio su juo susijusio prekės ženklo naudojimas kontekste su produktu, paslauga ar pasiūlymu nėra leidžiamas be išankstinio rašytinio sutikimo.

Forkai ir išvestiniai darbai turi naudoti kitą pavadinimą ir prekinio ženklo įvaizdį ir negali reikšti ar rodyti, kad PageviewsOnline ar Two-Dot-Oh juos remia ar su jais yra susiję.