ओपन सोर्स यूज़र एजेंट लुकअप तालिका • PageviewsOnline

github.com/pageviewsonline/user-agent-lookup-table

यह रिपॉज़िटरी मानकीकृत, चयनित यूजर एजेंट स्ट्रिंग्स का एक डेटा सेट रखती है, जिसे JSON फ़ाइलों के रूप में स्टोर किया गया है और लुकअप टेबल के रूप में उपयोग करने के लिए डिज़ाइन किया गया है ताकि सरल यूजर एजेंट डेटा निकाला जा सके, जैसे यूजर एजेंट क्लाइंट और ऑपरेटिंग सिस्टम।

यह PageviewsOnline के एक घटक के रूप में उपयोग किया जाता है, लेकिन यहाँ सामान्य-उद्देश्य के लिए प्रकाशित किया गया है।

डेटासेट के साथ डेटा सत्यापित करने और उसे अन्य फ़ॉर्मैट्स या प्रोग्रामिंग भाषाओं (जैसे Java) में एक्सपोर्ट करने के लिए सरल सहायक स्क्रिप्ट्स जोड़े गए हैं।

परियोजना का दर्शन

इस परियोजना का लक्ष्य एक पूर्णतः त्रुटिहीन या बिल्कुल सही यूज़र-एजेंट पहचान प्रणाली प्रदान करना नहीं है, बल्कि एक व्यावहारिक, सर्वोत्तम-प्रयास वाला समाधान है जो वास्तविक दुनिया के उपयोग और समुदाय के योगदानों से समय के साथ सुधरता रहता है।

यूज़र एजेंट डिटेक्शन अपने आप में अपर्याप्त है। पूरी सटीकता हासिल करने के बजाय, इस परियोजना का फोकस यह है कि:

व्यावहारिक
रख-रखाव योग्य
पारदर्शी
वास्तविक दुनिया के विश्लेषण और वर्गीकरण के लिए यह काफी पर्याप्त है।

सटीकता समय के साथ बढ़ती है, चयनित अपडेट्स, वास्तविक दुनिया में उपयोग, और समुदाय के योगदानों के माध्यम से.

ह्यूरेस्टिक पार्सिंग और जटिल रेगुलर एक्सप्रेशन अक्सर पूर्वानुमान क्षमता खोकर मामूली सटीकता लाभ उठा लेते हैं.

यह परियोजना निम्न चीजों को प्राथमिकता देती है:

जादू से अधिक पारदर्शिता
अस्पष्ट तर्क के ऊपर चयनित डेटा
व्याख्यात्मक परिणाम अटकलबाजी-आधारित डिटेक्शन के मुकाबले बेहतर

विशेषताएं

मानकीकृत, मानव-समीक्षित उपयोगकर्ता-एजेंट डेटासेट
सरल और पूर्वानुमान योग्य खोज व्यवहार
JSON-आधारित फ़ॉर्मैट, जाँचने में आसान और संस्करण-नियंत्रित
हल्के सत्यापन स्क्रिप्ट्स
अन्य भाषाओं के लिए सहायक फ़ंक्शन एक्सपोर्ट करें (जैसे Java)
उत्पादन SaaS वातावरण में सक्रिय रूप से उपयोग किया जाता है

मानकीकृत यूज़र एजेंट स्ट्रिंग्स

इस परियोजना का प्राथमिक उद्देश्य यूज़र एजेंट स्ट्रिंग्स से उच्च-स्तरीय, स्थिर जानकारी को एक तेज़ और पूर्वानुमेय तरीके से निकालना है।

यह सुनिश्चित करने के लिए, प्रत्येक यूज़र एजेंट स्ट्रिंग प्रोसेसिंग से पहले सामान्यीकृत किया जाता है। सामान्यीकरण अस्थिर विविधता (जैसे संस्करण संख्या और केसिंग के अंतर) को हटाता है, जबकि यूज़र एजेंट के संरचनात्मक और अर्थपूर्ण अर्थ को बनाए रखता है।

यूज़र एजेंट स्ट्रिंग्स को नीचे दिए गए चरणों के अनुसार सामान्यीकृत किया जाता है:

सभी संख्यात्मक अंकों (0-9) को प्लेसहोल्डर अक्षर x से बदलिए। यह संस्करण परिवर्तन के कारण होने वाले शोर को हटाता है और टोकन संरचना तथा लंबाई बनाए रखता है।
स्ट्रिंग को पूरी तरह लोअरकेस में बदलिए। यूज़र एजेंट टोकन सामान्यतः केस-इनसेंसिटिव होते हैं, और लोअरकेस करने से संगत और विश्वसनीय लुकअप सुनिश्चित होते हैं।

उदाहरण के लिए, निम्न यूज़र एजेंट स्ट्रिंग:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36

मानकीकृत है:

mozilla/x.x (windows nt xx.x; winxx; xxx) applewebkit/xxx.xx (khtml, like gecko) chrome/xxx.x.x.x safari/xxx.xx

यह सामान्यीकरण पद्धति उपयोगकर्ता एजेंटों को समय के साथ समूहित, तुलना करने और बनाए रखने में आसान बनाती है, जबकि उच्च-स्तरीय क्लाइंट और ऑपरेटिंग सिस्टम वर्गीकरण के लिए पर्याप्त सटीक रहती है।

संस्करण-विशिष्ट और केस-संबंधी विविधताओं को समाप्त करके, लुकअप प्रक्रिया अधिक पूर्वानुमानित हो जाती है और भविष्य में यूज़र एजेंट परिवर्तनों के प्रति अधिक लचीली रहती है।

डेटा प्रारूप

हर मानकीकृत यूजर एजेंट प्रविष्टि में शामिल है:

id - सामान्यीकृत यूजर एजेंट स्ट्रिंग
client_family - उच्च-स्तरीय क्लाइंट वर्गीकरण (जैसे ब्राउज़र, बॉट, ऐप)
os_family - उच्च-स्तरीय ऑपरेटिंग सिस्टम वर्गीकरण

डेटासेट बढ़ने के साथ सटीक फ़ील्ड समय के साथ विकसित हो सकते हैं.

खोज व्यवहार

यूज़र एजेंट मैचिंग सामान्यीकृत स्ट्रिंग्स के विरुद्ध किया जाता है।

ठीक मिलान को प्राथमिकता दी जाती है; आंशिक या ह्यूरेस्टिक मिलान जानबूझकर नहीं किया गया ताकि व्यवहार पूर्वानुमानित और डिबग करने योग्य बना रहे।

योगदान

योगदान बेहद स्वागतयोग्य हैं और इस परियोजना की समग्र गुणवत्ता और सटीकता को बेहतर बनाने में मदद करते हैं.

योगदान करने का सबसे प्रभावी तरीका मानकीकृत यूज़र एजेंट प्रविष्टियाँ जोड़ना या अपडेट करना है, जो user_agents.json फ़ाइल में हों, और साथ ही संबंधित वर्गीकरण डेटा भी शामिल हो।

जब आपके परिवर्तन तैयार हो जाएँ, कृपया आवश्यक डेटा और/या कोड अपडेट्स शामिल करते हुए एक पुल रिक्वेस्ट सबमिट करें.

आंशिक या अधूरी जानकारी भी उपयोगी और सराही जाती है — हर योगदान कवरेज और दीर्घकालिक विश्वसनीयता में सुधार करने में मदद करता है.

शुरुआत (त्वरित मार्गदर्शिका)

इस प्रोजेक्ट का मूल भाग JSON डेटा फ़ाइलों के सेट में है, जो data/ डायरेक्टरी में स्थित हैं।

इस डेटा के रख-रखाव और पुनः उपयोग में मदद करने के लिए, रिपॉज़िटरी में कुछ सरल Node.js स्क्रिप्ट्स का एक छोटा समूह शामिल है जो बुनियादी सत्यापन और एक्सपोर्ट कार्य करते हैं।

आमतौर पर उपलब्ध कमांडें:

npm run test - JSON डेटा का सत्यापन करता है और संरचनात्मक या संगतता त्रुटियाँ जाँचता है.
npm run build - मानकीकृत डेटा को क्रमबद्ध करके अन्य प्रोग्रामिंग भाषाओं के फॉर्मैट में निर्यात करता है (जैसे Java) ताकि एकीकरण आसान हो.

ये टूल्स जानबूझकर काफी सरल रखे गए हैं, डेटा की सटीकता और पोर्टेबिलिटी पर जोर देते हैं, न कि जटिल प्रोसेसिंग पर.

यूज़र-एजेंट स्ट्रिंग्स विश्वसनीय नहीं हैं

यूज़र-एजेंट स्ट्रिंग्स से सही जानकारी निकालना कई कारणों से स्वाभाविक रूप से विश्वसनीय नहीं होता:

यूज़र-एजेंट स्ट्रिंगों की संरचना या सामग्री को निर्धारित करने वाला कोई औपचारिक मानक या विनिर्देशन नहीं है
कई यूज़र-एजेंट जानबूझकर दूसरे यूज़र-एजेंट की नकल करते हैं ताकि संगतता बनाए रखने के लिए और पुरानी प्रणालियों के कारण।

इस कारण से, यूज़र-एजेंट डेटा को पूरी तरह से सटीक और एकरूप तरीके से निर्धारित करना बेहद कठिन है.

इस लाइब्रेरी को इसलिए एक सर्वोत्तम-प्रयत्न समाधान के रूप में माना जाना चाहिए, न कि गारंटीकृत या आधिकारिक सत्य का स्रोत।

निरंतर उपयोग और समुदाय के योगदान के साथ, समय के साथ सटीकता बेहतर हो सकती है.

संस्करण और स्थिरता

जैसे-जैसे उपयोगकर्ता एजेंट विकसित होते हैं, डेटासेट समय के साथ बदल सकता है.

वर्गीकरणों को ब्रेकिंग परिवर्तन नहीं माना जाता है, भले ही वे छोटे संस्करणों के बीच हों।

उपभोक्ताओं को परिणामों को सर्वोत्तम-प्रयास के संकेत के रूप में मानना चाहिए, न कि अनुबंधीय गारंटी के रूप में.

लाइसेंस

यह परियोजना और इसके डेटा Apache License 2.0 (Apache-2.0) के तहत जारी किए गए हैं।

व्यावसायिक उपयोग, संशोधन और पुनर्वितरण की अनुमति है.

योगदानों का स्वागत है और उनकी सराहना की जाएगी.

ट्रेडमार्क

PageviewsOnline, Two-Dot-Oh, और किसी भी संबद्ध लोगो, सेवा-नाम, या ब्रांडिंग Two-Dot-Oh के ट्रेडमार्क हैं.

यह परियोजना ओपन सोर्स है; हालांकि, PageviewsOnline नाम या किसी भी संबद्ध ब्रांडिंग को किसी उत्पाद, सेवा, या प्रस्ताव के साथ उपयोग करना पूर्व लिखित सहमति के बिना अनुमति नहीं है।

फोर्क्स और व्युत्पन्न कार्यों को एक अलग नाम और ब्रांडिंग का उपयोग करना चाहिए और PageviewsOnline या Two-Dot-Oh के पक्ष में समर्थन या संबद्धता का संकेत नहीं देना चाहिए.

github.com/pageviewsonline/user-agent-lookup-table