स्पार्क स्ट्रीमिंग डेटा क्लीनिंग यंत्रणा
(I) डीस्ट्रीम आणि आरडीडी
आपल्याला माहिती आहे की, स्पार्क स्ट्रीमिंगची गणना स्पार्क कोअरवर आधारित आहे आणि स्पार्क कोअरचा गाभा RDD आहे, म्हणून स्पार्क स्ट्रीमिंग देखील RDD शी संबंधित असणे आवश्यक आहे. तथापि, स्पार्क स्ट्रीमिंग वापरकर्त्यांना थेट RDD वापरण्याची परवानगी देत नाही, परंतु DStream संकल्पनांचा संच सारांशित करते, DStream आणि RDD हे समावेशक संबंध आहेत, तुम्ही ते जावामधील सजावट पॅटर्न म्हणून समजू शकता, म्हणजेच, DStream हे RDD चे एक संवर्धन आहे, परंतु वर्तन RDD सारखेच आहे.
DStream आणि RDD दोन्हीमध्ये अनेक अटी आहेत.
(१) मध्ये समान ट्रान्सफॉर्मेशन क्रिया आहेत, जसे की मॅप, रिड्यूसबायकी, इ., परंतु काही अद्वितीय देखील आहेत, जसे की विंडो, मॅपविथस्टेटेड, इ.
(२) सर्वांमध्ये कृती क्रिया असतात, जसे की foreachRDD, count, इ.
प्रोग्रामिंग मॉडेल सुसंगत आहे.
(ब) स्पार्क स्ट्रीमिंगमध्ये डीस्ट्रीमचा परिचय
DStream मध्ये अनेक वर्ग आहेत.
(१) डेटा सोर्स क्लासेस, जसे की इनपुटडीस्ट्रीम, डायरेक्टकाफ्काइनपुटस्ट्रीम इत्यादी.
(२) रूपांतरण वर्ग, सामान्यतः मॅप्डडीस्ट्रीम, शफल्डडीस्ट्रीम
(३) आउटपुट क्लासेस, सामान्यतः जसे की ForEachDStream
वरीलवरून, सुरुवातीपासून (इनपुट) शेवटपर्यंत (आउटपुट) डेटा DStream प्रणालीद्वारे केला जातो, याचा अर्थ असा की वापरकर्ता सामान्यतः थेट RDD जनरेट आणि हाताळू शकत नाही, याचा अर्थ असा की DStream ला RDD च्या जीवनचक्रासाठी जबाबदार राहण्याची संधी आणि कर्तव्य आहे.
दुसऱ्या शब्दांत, स्पार्क स्ट्रीमिंगमध्ये एक आहेस्वयंचलित साफसफाईकार्य.
(iii) स्पार्क स्ट्रीमिंगमध्ये RDD निर्मितीची प्रक्रिया
स्पार्क स्ट्रीमिंगमधील आरडीडीचा जीवनप्रवाह खालीलप्रमाणे ढोबळ आहे.
(१) इनपुटडीस्ट्रीममध्ये, प्राप्त डेटा आरडीडीमध्ये रूपांतरित केला जातो, जसे की डायरेक्टकाफ्काइनपुटस्ट्रीम, जो काफ्काआरडीडी जनरेट करतो.
(२) नंतर मॅप्डडीस्ट्रीम आणि इतर डेटा रूपांतरणाद्वारे, या वेळेला थेट रूपांतरणासाठी नकाशा पद्धतीशी संबंधित आरडीडी म्हणतात.
(३) आउटपुट क्लास ऑपरेशनमध्ये, जेव्हा RDD उघड होतो तेव्हाच तुम्ही वापरकर्त्याला संबंधित स्टोरेज, इतर गणना आणि इतर ऑपरेशन्स करू देऊ शकता.