wiki | Wiki Kactii

/ Home

ML Engineering Bootcamp

Python for Machine Learning:
- Python syntax and basics (variables, loops, conditionals)
- Data structures (lists, dictionaries, sets, tuples)
- File handling and working with CSV, JSON, and Excel
- Writing reusable functions and classes (OOP concepts)
- Python libraries (NumPy, Pandas, Matplotlib, Seaborn)
- List comprehensions and generator expressions
- Error handling (try-except blocks)
- Working with Jupyter Notebooks and IDEs (PyCharm, VS Code)
- Using virtual environments and package management (pip, conda)
- Debugging and testing (PyTest, logging, breakpoints)
Data Preprocessing:
- Handling missing data (mean, median, mode imputation, forward/backward fill)
- Feature scaling (min-max scaling, standardization, normalization)
- Categorical encoding (one-hot encoding, label encoding, binary encoding)
- Feature selection (correlation matrix, recursive feature elimination)
- Feature engineering (creating new features, feature transformation)
- Dealing with outliers (Z-score, IQR method, capping/flooring)
- Handling imbalanced datasets (SMOTE, undersampling, oversampling)
- Binning continuous variables (equal-width, equal-frequency)
- Data transformation (log transformation, Box-Cox, Yeo-Johnson)
- Splitting data (train-test, cross-validation)
Exploratory Data Analysis (EDA):
- Data visualization (bar plots, histograms, scatter plots, box plots)
- Summary statistics (mean, median, mode, variance, standard deviation)
- Correlation analysis (Pearson, Spearman correlation, heatmaps)
- Pairwise relationships (pair plots, scatter matrix)
- Identifying trends and patterns in data (time series analysis)
- Detecting anomalies and outliers (box plot, z-score, IQR)
- Visualizing distributions and data spread (kernel density plots)
- Dimensionality reduction for visualization (PCA, t-SNE)
- Handling skewed data (log transformations, power transformations)
- Grouping and aggregating data for analysis (groupby, pivot tables)
Supervised Learning Algorithms:
- Linear regression (assumptions, regularization with Lasso/Ridge)
- Logistic regression (binary classification, ROC curves, AUC)
- Decision trees (gini index, information gain, pruning)
- Random forests (bagging, feature importance, OOB error)
- Support vector machines (kernel trick, margin maximization)
- Gradient boosting algorithms (XGBoost, LightGBM, CatBoost)
- k-Nearest Neighbors (KNN) for classification and regression
- Naive Bayes classifier (Gaussian, Multinomial, Bernoulli)
- Model evaluation metrics (accuracy, precision, recall, F1 score)
- Hyperparameter tuning (grid search, random search, Bayesian optimization)
FastAPI for ML Applications:
- Introduction to FastAPI (asynchronous programming, Uvicorn server)
- Building ML APIs with FastAPI (input validation, request handling)
- Asynchronous endpoints for scalable ML services
- Dependency injection for database and model loading
- CORS and security settings for FastAPI apps
- Model deployment with FastAPI and Docker
- Creating background tasks for long-running ML jobs
- API versioning and documentation with Swagger/OpenAPI
- Integrating FastAPI with databases (SQLAlchemy, NoSQL)
- Load testing FastAPI applications (Locust, Apache Bench)
Flask for ML Applications:
- Introduction to Flask (routing, request handling, WSGI)
- Building RESTful APIs with Flask for ML models
- Model deployment using Flask and Docker
- Handling file uploads (for ML model inputs) with Flask
- Using Flask extensions for database integration (Flask-SQLAlchemy)
- Securing Flask APIs with authentication (JWT, OAuth)
- Error handling and logging in Flask
- Creating modular applications with Flask Blueprints
- Deploying Flask apps on cloud platforms (Heroku, AWS, Azure)
- Integrating Flask with front-end technologies (Flask-SocketIO, Flask-CORS)
Unsupervised Learning Algorithms:
- K-means clustering (elbow method, silhouette score)
- Hierarchical clustering (agglomerative, divisive, dendrograms)
- Principal Component Analysis (PCA) for dimensionality reduction
- t-SNE and UMAP for visualization of high-dimensional data
- DBSCAN for density-based clustering
- Association rule learning (Apriori algorithm, FP-Growth)
- Anomaly detection techniques (Isolation Forest, One-Class SVM)
- Gaussian Mixture Models (GMMs) for clustering
- Self-organizing maps (SOMs) for clustering and visualization
- Autoencoders for unsupervised feature learning and anomaly detection
MLP Classifier and Neural Networks:
- Structure of neural networks (input, hidden, output layers)
- Activation functions (ReLU, Sigmoid, Tanh, Softmax)
- Forward propagation and backpropagation
- Cost functions (mean squared error, cross-entropy)
- Optimizers (gradient descent, Adam, RMSProp)
- Regularization techniques (dropout, weight decay)
- Multi-class classification with MLP
- Early stopping and learning rate schedules
- Model initialization techniques (He, Xavier, uniform initialization)
- Using TensorFlow and PyTorch for building neural networks
Optimization Techniques:
- Gradient Descent (batch gradient descent, mini-batch SGD)
- Stochastic Gradient Descent (SGD) with momentum
- Adam, RMSProp, and AdaGrad optimizers
- Learning rate schedules (step decay, exponential decay)
- Adaptive learning rates with AdamW and Nadam
- Early stopping to prevent overfitting
- L1 and L2 regularization (Lasso and Ridge)
- Optimizing memory usage for large datasets
- Distributed training and parallelization techniques
- Hyperparameter tuning with Random and Grid Search
Azure Virtual Machines for ML:
- Creating and configuring Azure Virtual Machines for ML
- Choosing the right VM size and instance types for ML workloads
- Installing ML frameworks and libraries on VMs (TensorFlow, PyTorch)
- Running Jupyter Notebooks on Azure VMs
- Using Azure Bastion for secure VM access
- Scaling VMs using Azure Virtual Machine Scale Sets
- Setting up autoscaling for cost-efficient compute
- Monitoring VM performance (CPU, RAM, disk usage)
- Backup and recovery strategies for Azure VMs
- Securing Azure VMs with firewalls, SSH keys, and managed identities
Azure Container Apps (ACA):
- Introduction to Azure Container Apps for ML model deployment
- Building and containerizing ML models with Docker
- Pushing containers to Azure Container Registry (ACR)
- Deploying containerized models on ACA
- Autoscaling containers with Azure Container Apps
- Monitoring and logging container performance
- Using Azure Virtual Networks (VNet) with Container Apps
- Securing containers with Azure IAM (Identity and Access Management)
- Integrating ACA with Azure Functions and Logic Apps
- Handling high availability and load balancing for containerized applications
Model Evaluation & Metrics:
- Confusion matrix (True Positive, False Positive, False Negative, True Negative)
- Accuracy, Precision, Recall, and F1 Score
- ROC-AUC Curve and Area Under Curve (AUC)
- Precision-Recall curves for imbalanced datasets
- Cross-validation (K-fold, stratified, leave-one-out)
- Bias-variance tradeoff and model overfitting/underfitting
- Metrics for regression (Mean Absolute Error, RMSE, R-squared)
- Class imbalance handling (SMOTE, undersampling, oversampling)
- Model calibration and reliability curves
- Model interpretability (SHAP, LIME)
Docker for ML:
- Building Docker images for ML models
- Writing Dockerfiles for ML applications
- Managing Docker containers using Docker CLI and Docker Desktop
- Container networking and volume management
- Best practices for optimizing Docker images (multi-stage builds, caching)
- Pushing images to Docker Hub and private registries
- Running GPU-enabled Docker containers for ML
- Automating Docker builds with GitHub Actions or Jenkins
- Containerizing Jupyter Notebooks for reproducibility
- Managing Docker containers in production environments
Docker Compose:
- Writing docker-compose.yml for multi-container applications
- Defining services, volumes, and networks in Docker Compose
- Orchestrating ML pipelines using Docker Compose
- Managing environment variables and secrets in Docker Compose
- Scaling services using Docker Compose (replicas, load balancing)
- Networking between containers (service discovery)
- Persisting data with Docker volumes in Compose
- Restart policies and service health checks in Docker Compose
- Integrating Docker Compose with CI/CD pipelines
- Using Docker Compose in development and production environments
Microservices Architecture:
- Overview of microservices (decentralized architecture)
- Building ML services as microservices (modularity, loose coupling)
- Communication between microservices (REST, gRPC, messaging queues)
- Designing scalable and fault-tolerant microservices
- API gateway patterns for managing microservices traffic
- Service discovery and load balancing in microservices architecture
- Monitoring and logging in microservices (Prometheus, Grafana)
- Fault tolerance strategies (circuit breaker, retry mechanisms)
- Security in microservices (OAuth2, JWT, API keys)
- Deploying microservices using Kubernetes and Docker Swarm
Hyperparameter Tuning:
- Grid Search for hyperparameter tuning
- Random Search for efficient hyperparameter exploration
- Bayesian Optimization for hyperparameters
- Cross-validation strategies for hyperparameter tuning
- Early stopping to optimize tuning processes
- Hyperparameter tuning for deep learning models
- Automated machine learning (AutoML) for hyperparameter selection
- Tuning learning rates, batch sizes, and optimizers
- Hyperparameter tuning for tree-based models (XGBoost, LightGBM)
- Tracking and managing hyperparameter experiments (MLflow)
Azure Machine Learning Service:
- Setting up and managing Azure Machine Learning Workspaces
- Training models on Azure ML using compute clusters
- Using Azure ML Designer for visual machine learning pipelines
- AutoML for automatic model selection and tuning
- Versioning and tracking models with Azure ML
- Deploying models as web services using Azure ML Endpoints
- Monitoring deployed models for performance and drift
- Integrating Azure ML with GitHub and Azure DevOps for MLOps
- Managing datasets and datastores in Azure ML
- Cost management and optimization strategies in Azure ML
MLOps:
- Creating automated CI/CD pipelines for ML models
- Versioning models and monitoring model drift
- Automating model deployment and updates in production
- Managing model artifacts with MLflow and DVC
- Monitoring and logging model performance in production
- A/B testing and shadow deployments for ML models
- Scaling models in production using Kubernetes and Azure AKS
- Ensuring reproducibility with containerized ML models (Docker)
- Integrating ML pipelines with GitHub Actions, Jenkins, or Azure DevOps
- Handling model governance and compliance (data privacy, security)
Time Series Analysis:
- Time series decomposition (trend, seasonality, residual components)
- Autoregressive models (AR, ARMA, ARIMA)
- Exponential smoothing methods (Holt-Winters, SES)
- LSTM networks for time series forecasting
- Evaluation metrics for time series models (MAE, RMSE, MAPE)
- Time series cross-validation and backtesting techniques
- Seasonal decomposition of time series (STL, multiplicative models)
- Handling seasonality and cyclic trends in time series data
- Feature engineering for time series data (lag, window features)
- Multi-step forecasting and handling long-range dependencies
Azure Data Factory:
- Creating data pipelines with Azure Data Factory
- Data integration and ETL processes using ADF
- Connecting ADF to various data sources (Azure Blob, SQL, etc.)
- Scheduling and orchestrating data workflows with ADF
- Monitoring and managing pipeline execution in ADF
- Handling data transformations with ADF (mapping data flows)
- Using ADF for big data processing with Spark and Databricks
- Implementing fault tolerance and retries in ADF pipelines
- Security and access control in ADF (managed identities, data encryption)
- Integrating ADF with other Azure services (Azure ML, Synapse Analytics)
Cloud Platforms for ML:
- Comparison of Azure ML, AWS SageMaker, and Google AI Platform
- Training and deploying models on Azure ML
- Using cloud storage for datasets and models (Azure Blob, AWS S3)
- Cost management and optimization for cloud ML services
- Using cloud GPUs and TPUs for large-scale ML training
- Distributed training and model parallelism on cloud platforms
- Monitoring and managing cloud-based ML workloads
- Serverless ML using AWS Lambda, Azure Functions, and Google Cloud Functions
- Hybrid cloud and multi-cloud strategies for ML
- Data security and compliance in cloud ML environments
GenAI and LLMs:
- Introduction to large language models (GPT, BERT, T5, etc.)
- Fine-tuning pre-trained LLMs for specific tasks
- Transfer learning using LLMs for NLP applications
- Prompt engineering and using LLM APIs (OpenAI, Hugging Face)
- Deploying large models efficiently (model pruning, quantization)
- Generative AI applications (text generation, summarization, translation)
- Ethical considerations in using LLMs (bias, privacy, fairness)
- Training custom language models with Transformer architectures
- Zero-shot, few-shot learning with LLMs
- Comparing LLMs with traditional NLP techniques