Skip to main content

ডেটা এবং ক্যারিয়ার

 শোনা যাচ্ছে যে ডেটা-ই নাকি এখন টেকনোলোজির প্রাণ! তবে আজ কাল তো শোনা কথায় ও কান দিতে নেই। সে যা-ই হোক , প্রবাদ আছে “যা রটে, তা কিছু তো বটে !”

কিছু ই হোক বা অনেক কিছু হোক একটু তদন্ত করে জানতে তো আর দোস নেই। যত জানবো, ততই শিখবো। তাহলে চলুন ডেটা কি? কেন এই ব্যাটার এর দাপট? আর রটনা কতটা সঠিক?

ডেটা কি ?

ধরুন, আপনি বললেন “পিপ!” ।

কি মনে হচ্ছে লেখক পাগল হয়ে গেসে? লেখার সময় বাইরে একটা গাড়ি যাচ্ছে, আর এটা হর্ণ দিলো পিপ। এখন এইযে প্রথম আপনি পিপ বললেন। কেউ কি কিছু বুঝবে? বা কোন কাজ হবে এটা দিয়ে? না কেউ কুছু বুঝবে না বা কিছু ঘটবে না। কিন্তু মজার ব্যাপার হলো এই যে “ পিপ” বললেন এটা কিন্তু একটা ডেটা! একটু সহজ করে যদি বলি, অনেকতা এরকম সংজ্ঞা দেয়া যায় — ডেটা হচ্ছে এমন একটি অকেজো একক যা কোনো নির্দিষ্ট অর্থ বহন করে না বা যা দারা কিছু বোঝায় না।

তাহলে যে জিনিস টা কে বলছি অকেজো, তার আবার এত দাম কিসের?

চলুন এবার অকেজো জিনিস নিয়ে আরেকটু সময় নষ্ট করি, তার জন্য বুঝতে হবে ইনফরমেশন।

ইনফরমেশন আবার কি ?

যখন কোন ডেটা বা ডেটা-সেট কে কোন কাজের উদ্দেশ্যে সাজানো হয় বা সংগঠিত করা হয় এবং যখন এটি অকেজো জিনিস থেকে থেকে কার্যকর কিছু একটা তৈরী করা হয় যা থেকে অর্থপূর্ণ কিছু বের হয় বা বোধগম্য হয় তাকে ইনফরমেশন বলে। যেমন , ওইযে- পিপ বলেছিলেন যে, মনে আছে? চলুন আরেকবার বলুন, কিন্তু একটু অন্য ভাবে- “সাইড পাওয়ার জন্য একটি গাড়ি পিপ — পিপ করে হর্ণ দিচ্ছে”। এবার এই পিপ পিপ পাগলামির কোন অর্থ বের হলো? এইযে পিপ থেকে একটা অর্থবোধক কিছু একটা বের হলো এটাই হলো ইনফরমেশন। এইবার আর তাহলে আর কেউ পাগল বলবে না!

আচ্ছা সব ই বুঝলাম , কিন্তু এই ইনফরমেশন দিয়ে কাজ টা কি? খায় না মাথায় দেয়? আর এর কেন এত দাপট সেটার উত্তর তো পেলাম না!

ধরুন, আপনি একটা কোম্পানি দিতে যাচ্ছেন। সেটা যেকোন কিছু একটা ভেবে নিন। আপাতত ধরে নিচ্ছি সিগারেট কোম্পানি দিচ্ছেন। যেখানে ৭-১০ ধরনের প্রডাক্ট থাকবে। বাঙ্গালী পেটে ভাত থাক বা না থাক সিগারেট তো খাবেই। বাহ, কি সুন্দর আইডিয়া! এইবার আর ঠেকায় কে? এবার তো নিশ্চিত কোটিপতি!

থামুন ১ সেকেন্ড! কিন্ত কোম্পানি দিয়েই কি আপনি কোটিপতি হয়ে যেতে পারবেন? যদি সবাই পারত তাহলে তো আর দেশে গরীব বা মধ্যবিত্ত থাকত না, তাইনা? তাহলে এইযে আপনি কোম্পানি দিয়েই আশা করছেন বিশাল বড়লোক হয়ে যাবেন। এটা সম্ভব, অবশ্যই সম্ভব। কিন্তু তার জন্য আপনাকে করতে হবে মার্কেট রিসার্চ। জনগণ কি চায় সেটা বুঝতে হবে। জানতে হবে অতীতের হিস্টরি। কোন প্রডাক্ট কেমন চলবে সেটা বুঝতে হবে, কোথায় কোথায় চলবে সেটা বুঝতে হবে। আবার গত ১০ বছর একটা জিনিস চলসে সেটাই আপনি মার্কেটে লঞ্চ করলেও ধরা খেতে পারেন। হয়ত মানুষ সেটার চেয়ে একটু অন্য রকম কিছু চায়। এরকম আরো অনেক সমস্যা আছে।

তাহলে এর সমাধান কি?

এর সমাধান দিতে পারে ডেটা এনালাইসিস। এবার আসি তাহলে –

ডেটা আনালাইসিস কি?

ডেটা আনালিসিস হলো এমন একটি প্রকৃয়া যেটার মাধ্যমে ডেটা থেকে কোন উদ্দেশ্যে কোন প্রতিষ্ঠানের জন্য সঠিক তথ্য দেয়ার জন্য এবং সঠিক সিদ্ধান্ত নেয়ার জন্য ডেটা ক্লিনিং, মডেলিং এবং ভিজুলাইজেশন করা হয়। যাতে করে অনেক ডেটা থেকে ওই প্রতিষ্ঠান আ ব্যক্তির যা দরকার, বা যে সিদ্ধান্ত দরকার সেটা চোখে দেখেই বুঝে ফেলা যায়।

আর এই ডেটা থেকে আবার ডেটা সাইন্টিস্ট রা বিভিন্ন এলগরিদম এবং মডেল ব্যবহার করে মেশিন লার্ণিং, কৃত্তিম বুদ্ধিমত্তা- অটোমেশন সহ বিভিন্ন কাজ করে থাকেন। আর এই ডেটা আসে কোথায় থেকে? বা কিভাবে আসে? একবার চিন্তা করে দেখুন তো।।

ডেটা গুলো বিভিন্ন ভিন ভিন প্ল্যাটফর্ম থেকে আসে, একেকটি একেক ফরম্যাট এ আসে। কোনটি আসে ফাইল আকার, কোনোটি আসে গুগল ফর্মস এ, কোন ডেটা আসে ডেটাবেজ সিস্টেম থেকে, কোনটি আবার ছবি অডিও বা ভিডিও আকারে! আবার সব ডেটা সব এনালিসিস এর জন্য দরকার ও নেই! তাহলে, এইযে বিভিন্ন স্থান থেকে এবং বিভিন্ন ভাবে বিশাল পরিমানের ডেটা আসছে, এই ডেটা কে এনালিস্ট রিপ্রেজেন্ট করবে কিভাবে? আর ট্রানজাকশনাল ডেটাবেজ থেকে কোন ডিসিশন ও দেয়া যায়না।

ট্রানজ্যাকশলান ডেটাবেজ কি?

ট্রান্স্যাকশনাল ডেটাবেজ হলো যে ডেটাবেইজে প্রতিনিয়ত ডেটা ঢুকছে। হতে পারে সেটা কেনা কাটার ডেটা, হতে পারে মার্কেটিং এর ডেটা, হতে পারে সোশ্যাল মিডিয়া ডেটা। এই ডেটাবেজ থেকে ডিসিশন দেয়া বা এনালিসিস করা সম্ভব নয় (উচিত নয় / করা হয়না) কেন? কারণ , যেহেতু এই ডেটা প্রতি নিয়ত ঢুকে এবং আপডেট হয়, সেটা থেকে ভবিষ্যতের কোন বড় ডিসিশন দিলে ভুল হবার সম্ভাবনা প্রবল। তাই এনালিসিস করা হয় সাধারণত ডেটা ওয়্যারহাউজে বা এনালিটিক্যাল ডেটাবেজে।

এনালিটিক্যাল ডেটাবেজ কি?

ট্রান্স্যাকশনাল ডেটাবেজে যেমন প্রিনিয়ত ডেটা আপডেট বা ডিলেট হয় , এনালিটিক্যাল ডেটাবেজে এর উল্টো। এখানো শুধু ডেটা প্রবেশ করে। ডেটা আপডেট বা ডিলেট হয়না। এখানে শুধু মাত্র কিছুদিন বা কিছু নির্দিষ্ট সময় পর পর ডেটা প্রবেশ করে এবং এখান থেকে শুধু দেখা হয় বা সিলেক্ট অপারেশন চালানো হয়। ডেটা ভিজুয়ালাইজেশন করা হয় এবং ব্যবসার জন্য বা প্রতিষ্ঠানের জন্য বড় কোন সিদ্ধান্ত এখান থেকে নেয়া হয়।

সে জন্য আবার ডেটা পাইপলাইন তৈরী করা দরকার, ডেটা ক্লিন করা দরকার, ট্রান্সফরমেশন দরকার। কারণ ধরেন আপনার কাছে আছে ১ পেটা বাইতের ডেটা! সব ডেটা তো দরকার নেই আপনার! মিনিংলেস ডেটা বা অপ্রয়োজনীয় ডেটা ফেলে দিতে হবে এবং বিভিন্ন স্থানের বিভন্ন ফরম্যাটের ডেটা কে একতি নির্দিষ্ট কাটাহ্মো তে আনতে হবে। এটা কে বা কারা করে? ডেটা ইঞ্জিনিয়ার রা করে।

ডেটা ইঞ্জিনিয়ারিং কি?

ডেটা ইঞ্জিনিয়ারিং হলো বিভিন্ন বিভিন্ন স্থান থেকে বিভিন্ন ফরম্যাট এর ডেটা সংগ্রহ করে, মিনিংলেস ‘র’ (raw) ডেটা কে মিনিংফুল বা গুরুত্বপূর্ণ ডেটা তে রুপান্তর করা, সেটির একটি পাইপলাইন তৈরী করা এবং ম্যানেজ করা যেটি ব্যবহার করে ডেটা এনালিস্ট বা ডেটা সাইন্টিস্ট তা বিভিন্ন কাজ করতে পারে।

শুনে অনেক ছোট কাজ মনে হলেও মূলত এটি-ই সবচেয়ে বড় এবং গুরুত্বপূর্ণ কাজ।

বর্তমানে ডেটা এনালিস্ট এবং ডেটা ইঞ্জিনিয়ার দের সম্মান এবং স্যালারী বেশ ভারি। যেমন- আপনার লিঙ্কডিন একাউন্ট থাকলে https://www.linkedin.com/jobs/search/?keywords=data%20engineer এই লিঙ্ক এ ঢুকে দেখে নিতে পারেন। বিশ্বের সবচেয়ে বড় বড় টেক কম্পানি গুলো এখান থেকে অনেক রিসোর্স নিয়োগ দেয়। তাছাড়া glassdoor , Indeed , Talend ও salary.com এর তথ্য অনুযায়ী US এ ডেটা ইঞ্জিনিয়ার দের এভারেজ বেতন বছরে এক লক্ষ ডলারের ও বেশি!

ডেটা ইঞ্জিনিয়ার হতে গেলে আপনাকে কিছু কাজ শিখে ফেলতে হবে। যেমন

· Software Engineering এর বেসিক

· ডেটাবেজ এর আর্কিটেকচার ডিজাইন

· এডভান্সড লেভেলের SQL (যে যত কথা ই বলুক , SQL আপনার অবশ্যই লাগবে)

· পাইথন প্রোগ্রামিং

· ডেটা ওয়্যারহাউজিং

· ক্লাউড কম্পিউটিং

· লিন্যাক্স

· ETL, ডেটা পাইপলাইন ও ডেটা স্ট্রিমিং

· ডেটা ক্লিনিং , ইত্যাদি

এই লিস্টে যে কাজ গুলো আছে সেগুলো একজন ভালভাবে শিখে ফেলতে পারলেই হয়ে উঠতে পারবেন একজন সফল ডেটা ইঞ্জিনিয়ার। চাইলে আপনি গুগল করে আস্তে আস্তে শিখে ফেলতে পারেন। অথবা বিভিন্ন স্থানে ভাল ভাল কোর্স আছে সেগুলো করে ফেলতে পারেন। যেমন গুগল, আইবিএম বা এমাজনের কিছু সুন্দর কোর্স আছে, কোর্সেরা তে কিছু ভাল কোর্স আছে। আবার কিছু পপুলার কমিউনিটি আছে যারা বেশ ভালো কোর্স করায়। তাছাড়াও আরো কিছু ভালো রিসোর্স পাবেন গুগল করলে বা ইউটিবে। তাহলে, আর দেরি কেন? সবাই তো এগিয়ে যাচ্ছে, আপনিও শুরু করে দেন এখনি! আপনার জন্য শুভ কামনা।

Shoaib Rahman

Instructor & Data Engineer

MSc. in Machine Leaning & Data Science

Comments

Popular posts from this blog

Installing VirtualBox and Ubuntu/Cloudera in VirtualBox

A  step-by-step guide on how to install VirtualBox, Ubuntu, and Cloudera using the provided .vmdk and .ovf files. [IF YOU HAVE ALREADY WSL INSTALLED, YOU CAN OMMIT STEP: B] STEP A: Install VirtualBox: Virtualbox Installation: i. Go to the Oracle VirtualBox download page:  https://www.virtualbox.org/wiki/Downloads ii. Download the appropriate version for your operating system (Windows, macOS, or Linux). c iii. Run the downloaded installer and follow the prompts to complete the installation. Virtualbox Install VirtualBox Extension Pack: i. Download the Extension Pack from the provided link:  https://download.virtualbox.org/virtualbox/7.0.6/VirtualBoxSDK-7.0.6-155176.zip ii. Extract the contents of the zip file. Open VirtualBox, go to “File” > “Preferences” > “Extensions”. Click the “+” icon to add a new extension and browse to the extracted folder, then select the .vbox-extpack file. Click “Install” and accept the license agreement to install the Extension Pack. =====...