Apache Spark com MinIO e SQL Server
Contextualizacao
Este projeto implementa um pipeline de dados completo seguindo a arquitetura Data Lakehouse.
Fluxo do Pipeline
- Extracao dos dados do SQL Server 2022
- Armazenamento como CSV no MinIO bucket landing-zone
- Leitura dos CSVs e conversao para Delta Lake no bucket bronze
- Operacoes DML nas tabelas Delta
Tecnologias
| Tecnologia | Versao |
|---|---|
| Python | 3.11 |
| Apache Spark | 3.5.1 |
| Delta Lake | 3.2.0 |
| SQL Server | 2022 Dev |
| MinIO | latest |