শোনা যাচ্ছে যে ডেটা-ই নাকি এখন টেকনোলোজির প্রাণ! তবে আজ কাল তো শোনা কথায় ও কান দিতে নেই। সে যা-ই হোক , প্রবাদ আছে “যা রটে, তা কিছু তো বটে !”
কিছু ই হোক বা অনেক কিছু হোক একটু তদন্ত করে জানতে তো আর দোস নেই। যত জানবো, ততই শিখবো। তাহলে চলুন ডেটা কি? কেন এই ব্যাটার এর দাপট? আর রটনা কতটা সঠিক?
ডেটা কি ?
ধরুন, আপনি বললেন “পিপ!” ।
কি মনে হচ্ছে লেখক পাগল হয়ে গেসে? লেখার সময় বাইরে একটা গাড়ি যাচ্ছে, আর এটা হর্ণ দিলো পিপ। এখন এইযে প্রথম আপনি পিপ বললেন। কেউ কি কিছু বুঝবে? বা কোন কাজ হবে এটা দিয়ে? না কেউ কুছু বুঝবে না বা কিছু ঘটবে না। কিন্তু মজার ব্যাপার হলো এই যে “ পিপ” বললেন এটা কিন্তু একটা ডেটা! একটু সহজ করে যদি বলি, অনেকতা এরকম সংজ্ঞা দেয়া যায় — ডেটা হচ্ছে এমন একটি অকেজো একক যা কোনো নির্দিষ্ট অর্থ বহন করে না বা যা দারা কিছু বোঝায় না।
তাহলে যে জিনিস টা কে বলছি অকেজো, তার আবার এত দাম কিসের?
চলুন এবার অকেজো জিনিস নিয়ে আরেকটু সময় নষ্ট করি, তার জন্য বুঝতে হবে ইনফরমেশন।
ইনফরমেশন আবার কি ?
যখন কোন ডেটা বা ডেটা-সেট কে কোন কাজের উদ্দেশ্যে সাজানো হয় বা সংগঠিত করা হয় এবং যখন এটি অকেজো জিনিস থেকে থেকে কার্যকর কিছু একটা তৈরী করা হয় যা থেকে অর্থপূর্ণ কিছু বের হয় বা বোধগম্য হয় তাকে ইনফরমেশন বলে। যেমন , ওইযে- পিপ বলেছিলেন যে, মনে আছে? চলুন আরেকবার বলুন, কিন্তু একটু অন্য ভাবে- “সাইড পাওয়ার জন্য একটি গাড়ি পিপ — পিপ করে হর্ণ দিচ্ছে”। এবার এই পিপ পিপ পাগলামির কোন অর্থ বের হলো? এইযে পিপ থেকে একটা অর্থবোধক কিছু একটা বের হলো এটাই হলো ইনফরমেশন। এইবার আর তাহলে আর কেউ পাগল বলবে না!
আচ্ছা সব ই বুঝলাম , কিন্তু এই ইনফরমেশন দিয়ে কাজ টা কি? খায় না মাথায় দেয়? আর এর কেন এত দাপট সেটার উত্তর তো পেলাম না!
ধরুন, আপনি একটা কোম্পানি দিতে যাচ্ছেন। সেটা যেকোন কিছু একটা ভেবে নিন। আপাতত ধরে নিচ্ছি সিগারেট কোম্পানি দিচ্ছেন। যেখানে ৭-১০ ধরনের প্রডাক্ট থাকবে। বাঙ্গালী পেটে ভাত থাক বা না থাক সিগারেট তো খাবেই। বাহ, কি সুন্দর আইডিয়া! এইবার আর ঠেকায় কে? এবার তো নিশ্চিত কোটিপতি!
থামুন ১ সেকেন্ড! কিন্ত কোম্পানি দিয়েই কি আপনি কোটিপতি হয়ে যেতে পারবেন? যদি সবাই পারত তাহলে তো আর দেশে গরীব বা মধ্যবিত্ত থাকত না, তাইনা? তাহলে এইযে আপনি কোম্পানি দিয়েই আশা করছেন বিশাল বড়লোক হয়ে যাবেন। এটা সম্ভব, অবশ্যই সম্ভব। কিন্তু তার জন্য আপনাকে করতে হবে মার্কেট রিসার্চ। জনগণ কি চায় সেটা বুঝতে হবে। জানতে হবে অতীতের হিস্টরি। কোন প্রডাক্ট কেমন চলবে সেটা বুঝতে হবে, কোথায় কোথায় চলবে সেটা বুঝতে হবে। আবার গত ১০ বছর একটা জিনিস চলসে সেটাই আপনি মার্কেটে লঞ্চ করলেও ধরা খেতে পারেন। হয়ত মানুষ সেটার চেয়ে একটু অন্য রকম কিছু চায়। এরকম আরো অনেক সমস্যা আছে।
তাহলে এর সমাধান কি?
এর সমাধান দিতে পারে ডেটা এনালাইসিস। এবার আসি তাহলে –
ডেটা আনালাইসিস কি?
ডেটা আনালিসিস হলো এমন একটি প্রকৃয়া যেটার মাধ্যমে ডেটা থেকে কোন উদ্দেশ্যে কোন প্রতিষ্ঠানের জন্য সঠিক তথ্য দেয়ার জন্য এবং সঠিক সিদ্ধান্ত নেয়ার জন্য ডেটা ক্লিনিং, মডেলিং এবং ভিজুলাইজেশন করা হয়। যাতে করে অনেক ডেটা থেকে ওই প্রতিষ্ঠান আ ব্যক্তির যা দরকার, বা যে সিদ্ধান্ত দরকার সেটা চোখে দেখেই বুঝে ফেলা যায়।
আর এই ডেটা থেকে আবার ডেটা সাইন্টিস্ট রা বিভিন্ন এলগরিদম এবং মডেল ব্যবহার করে মেশিন লার্ণিং, কৃত্তিম বুদ্ধিমত্তা- অটোমেশন সহ বিভিন্ন কাজ করে থাকেন। আর এই ডেটা আসে কোথায় থেকে? বা কিভাবে আসে? একবার চিন্তা করে দেখুন তো।।
ডেটা গুলো বিভিন্ন ভিন ভিন প্ল্যাটফর্ম থেকে আসে, একেকটি একেক ফরম্যাট এ আসে। কোনটি আসে ফাইল আকার, কোনোটি আসে গুগল ফর্মস এ, কোন ডেটা আসে ডেটাবেজ সিস্টেম থেকে, কোনটি আবার ছবি অডিও বা ভিডিও আকারে! আবার সব ডেটা সব এনালিসিস এর জন্য দরকার ও নেই! তাহলে, এইযে বিভিন্ন স্থান থেকে এবং বিভিন্ন ভাবে বিশাল পরিমানের ডেটা আসছে, এই ডেটা কে এনালিস্ট রিপ্রেজেন্ট করবে কিভাবে? আর ট্রানজাকশনাল ডেটাবেজ থেকে কোন ডিসিশন ও দেয়া যায়না।
ট্রানজ্যাকশলান ডেটাবেজ কি?
ট্রান্স্যাকশনাল ডেটাবেজ হলো যে ডেটাবেইজে প্রতিনিয়ত ডেটা ঢুকছে। হতে পারে সেটা কেনা কাটার ডেটা, হতে পারে মার্কেটিং এর ডেটা, হতে পারে সোশ্যাল মিডিয়া ডেটা। এই ডেটাবেজ থেকে ডিসিশন দেয়া বা এনালিসিস করা সম্ভব নয় (উচিত নয় / করা হয়না) কেন? কারণ , যেহেতু এই ডেটা প্রতি নিয়ত ঢুকে এবং আপডেট হয়, সেটা থেকে ভবিষ্যতের কোন বড় ডিসিশন দিলে ভুল হবার সম্ভাবনা প্রবল। তাই এনালিসিস করা হয় সাধারণত ডেটা ওয়্যারহাউজে বা এনালিটিক্যাল ডেটাবেজে।
এনালিটিক্যাল ডেটাবেজ কি?
ট্রান্স্যাকশনাল ডেটাবেজে যেমন প্রিনিয়ত ডেটা আপডেট বা ডিলেট হয় , এনালিটিক্যাল ডেটাবেজে এর উল্টো। এখানো শুধু ডেটা প্রবেশ করে। ডেটা আপডেট বা ডিলেট হয়না। এখানে শুধু মাত্র কিছুদিন বা কিছু নির্দিষ্ট সময় পর পর ডেটা প্রবেশ করে এবং এখান থেকে শুধু দেখা হয় বা সিলেক্ট অপারেশন চালানো হয়। ডেটা ভিজুয়ালাইজেশন করা হয় এবং ব্যবসার জন্য বা প্রতিষ্ঠানের জন্য বড় কোন সিদ্ধান্ত এখান থেকে নেয়া হয়।
সে জন্য আবার ডেটা পাইপলাইন তৈরী করা দরকার, ডেটা ক্লিন করা দরকার, ট্রান্সফরমেশন দরকার। কারণ ধরেন আপনার কাছে আছে ১ পেটা বাইতের ডেটা! সব ডেটা তো দরকার নেই আপনার! মিনিংলেস ডেটা বা অপ্রয়োজনীয় ডেটা ফেলে দিতে হবে এবং বিভিন্ন স্থানের বিভন্ন ফরম্যাটের ডেটা কে একতি নির্দিষ্ট কাটাহ্মো তে আনতে হবে। এটা কে বা কারা করে? ডেটা ইঞ্জিনিয়ার রা করে।
ডেটা ইঞ্জিনিয়ারিং কি?
ডেটা ইঞ্জিনিয়ারিং হলো বিভিন্ন বিভিন্ন স্থান থেকে বিভিন্ন ফরম্যাট এর ডেটা সংগ্রহ করে, মিনিংলেস ‘র’ (raw) ডেটা কে মিনিংফুল বা গুরুত্বপূর্ণ ডেটা তে রুপান্তর করা, সেটির একটি পাইপলাইন তৈরী করা এবং ম্যানেজ করা যেটি ব্যবহার করে ডেটা এনালিস্ট বা ডেটা সাইন্টিস্ট তা বিভিন্ন কাজ করতে পারে।
শুনে অনেক ছোট কাজ মনে হলেও মূলত এটি-ই সবচেয়ে বড় এবং গুরুত্বপূর্ণ কাজ।
বর্তমানে ডেটা এনালিস্ট এবং ডেটা ইঞ্জিনিয়ার দের সম্মান এবং স্যালারী বেশ ভারি। যেমন- আপনার লিঙ্কডিন একাউন্ট থাকলে https://www.linkedin.com/jobs/search/?keywords=data%20engineer এই লিঙ্ক এ ঢুকে দেখে নিতে পারেন। বিশ্বের সবচেয়ে বড় বড় টেক কম্পানি গুলো এখান থেকে অনেক রিসোর্স নিয়োগ দেয়। তাছাড়া glassdoor , Indeed , Talend ও salary.com এর তথ্য অনুযায়ী US এ ডেটা ইঞ্জিনিয়ার দের এভারেজ বেতন বছরে এক লক্ষ ডলারের ও বেশি!
ডেটা ইঞ্জিনিয়ার হতে গেলে আপনাকে কিছু কাজ শিখে ফেলতে হবে। যেমন
· Software Engineering এর বেসিক
· ডেটাবেজ এর আর্কিটেকচার ডিজাইন
· এডভান্সড লেভেলের SQL (যে যত কথা ই বলুক , SQL আপনার অবশ্যই লাগবে)
· পাইথন প্রোগ্রামিং
· ডেটা ওয়্যারহাউজিং
· ক্লাউড কম্পিউটিং
· লিন্যাক্স
· ETL, ডেটা পাইপলাইন ও ডেটা স্ট্রিমিং
· ডেটা ক্লিনিং , ইত্যাদি
এই লিস্টে যে কাজ গুলো আছে সেগুলো একজন ভালভাবে শিখে ফেলতে পারলেই হয়ে উঠতে পারবেন একজন সফল ডেটা ইঞ্জিনিয়ার। চাইলে আপনি গুগল করে আস্তে আস্তে শিখে ফেলতে পারেন। অথবা বিভিন্ন স্থানে ভাল ভাল কোর্স আছে সেগুলো করে ফেলতে পারেন। যেমন গুগল, আইবিএম বা এমাজনের কিছু সুন্দর কোর্স আছে, কোর্সেরা তে কিছু ভাল কোর্স আছে। আবার কিছু পপুলার কমিউনিটি আছে যারা বেশ ভালো কোর্স করায়। তাছাড়াও আরো কিছু ভালো রিসোর্স পাবেন গুগল করলে বা ইউটিবে। তাহলে, আর দেরি কেন? সবাই তো এগিয়ে যাচ্ছে, আপনিও শুরু করে দেন এখনি! আপনার জন্য শুভ কামনা।
Shoaib Rahman
Instructor & Data Engineer
MSc. in Machine Leaning & Data Science
Comments
Post a Comment