स्पार्क स्ट्रीमिंग डेटा क्लीनिंग यंत्रणा
(I) DStream आणि RDD
आपल्याला माहित आहे की, स्पार्क स्ट्रीमिंगची गणना स्पार्क कोअरवर आधारित आहे आणि स्पार्क कोरचा मूळ भाग आरडीडी आहे, म्हणून स्पार्क स्ट्रीमिंग आरडीडीशी देखील संबंधित असणे आवश्यक आहे.तथापि, स्पार्क स्ट्रीमिंग वापरकर्त्यांना RDD थेट वापरण्याची परवानगी देत नाही, परंतु DStream संकल्पनांचा एक संच ॲबस्ट्रॅक्ट करते, DStream आणि RDD हे सर्वसमावेशक संबंध आहेत, तुम्ही हे जावामधील सजावट नमुना म्हणून समजू शकता, म्हणजेच DStream ही RDD ची वाढ आहे, परंतु वर्तन आरडीडी सारखे आहे.
डीएसस्ट्रीम आणि आरडीडी दोन्हीमध्ये अनेक अटी आहेत.
(1) समान परिवर्तन क्रिया आहेत, जसे की नकाशा, reduceByKey, इ, परंतु काही अद्वितीय, जसे की Window, mapWithStated, इ.
(२) सर्व क्रिया क्रिया आहेत, जसे की foreachRDD, गणना इ.
प्रोग्रामिंग मॉडेल सुसंगत आहे.
(ब) स्पार्क स्ट्रीमिंगमध्ये डीएसस्ट्रीमचा परिचय
DStream मध्ये अनेक वर्ग आहेत.
(1) डेटा स्रोत वर्ग, जसे की InputDStream, विशिष्ट DirectKafkaInputStream, इ.
(२) रूपांतरण वर्ग, विशेषत: MappedDStream, ShuffledDStream
(३) आउटपुट वर्ग, विशेषत: ForEachDStream सारखे
वरील वरून, सुरुवातीपासून (इनपुट) ते शेवटपर्यंत (आउटपुट) डेटा डीएसस्ट्रीम सिस्टमद्वारे केला जातो, याचा अर्थ असा होतो की वापरकर्ता सामान्यत: थेट आरडीडी तयार करू शकत नाही आणि हाताळू शकत नाही, याचा अर्थ डीएसस्ट्रीमकडे संधी आणि दायित्व आहे. RDDs च्या जीवन चक्रासाठी जबाबदार.
दुसऱ्या शब्दांत, स्पार्क स्ट्रीमिंगमध्ये एक आहेस्वयंचलित साफसफाईकार्य
(iii) स्पार्क स्ट्रीमिंगमध्ये RDD निर्मितीची प्रक्रिया
स्पार्क स्ट्रीमिंगमधील आरडीडीचा जीवनप्रवाह खालीलप्रमाणे उग्र आहे.
(1) InputDStream मध्ये, प्राप्त डेटाचे RDD मध्ये रूपांतर होते, जसे की DirectKafkaInputStream, जे KafkaRDD व्युत्पन्न करते.
(2) नंतर MappedDStream आणि इतर डेटा रूपांतरणाद्वारे, या वेळेस रूपांतरणासाठी नकाशा पद्धतीशी संबंधित थेट RDD म्हणतात.
(३) आउटपुट क्लास ऑपरेशनमध्ये, जेव्हा RDD उघड होईल, तेव्हा तुम्ही वापरकर्त्याला संबंधित स्टोरेज, इतर गणना आणि इतर ऑपरेशन्स करू देऊ शकता.