Search Results: etl-pipeline

Found 30 Skills

harvard-artifacts-etl-pipeline

Build ETL pipelines and analytics dashboards for Harvard Art Museums API data with MySQL storage and Streamlit visualization

🇺🇸|EnglishTranslated

Data Processingaradotso/data-skills

harvard-art-museums-etl-pipeline

Build end-to-end ETL pipelines with Harvard Art Museums API, SQL analytics, and Streamlit visualization

🇺🇸|EnglishTranslated

Data Processingaradotso/data-skills

retail-etl-pipeline-medallion

End-to-end retail ETL pipeline using PySpark, SQL Server, and Medallion Architecture (Bronze/Silver/Gold layers) for data warehousing

🇺🇸|EnglishTranslated

Data Processingk-dense-ai/claude-scienti...

polars

Fast in-memory DataFrame library for datasets that fit in RAM. Use when pandas is too slow but data still fits in memory. Lazy evaluation, parallel execution, Apache Arrow backend. Best for 1-100GB datasets, ETL pipelines, faster pandas replacement. For larger-than-RAM data use dask or vaex.

🇺🇸|EnglishTranslated

Data Processingaj-geddes/useful-ai-promp...

batch-processing-jobs

Implement robust batch processing systems with job queues, schedulers, background tasks, and distributed workers. Use when processing large datasets, scheduled tasks, async operations, or resource-intensive computations.

🇺🇸|EnglishTranslated

Data Processingeyadsibai/ltk

polars

Use when "Polars", "fast dataframe", "lazy evaluation", "Arrow backend", or asking about "pandas alternative", "parallel dataframe", "large CSV processing", "ETL pipeline", "expression API"

🇺🇸|EnglishTranslated

Data Processingk1lgor/virtual-company

data-engineer

Use this for SQL queries, database schema design, ETL pipelines, data transformations (pandas/Spark), and data validation.

🇺🇸|EnglishTranslated

Data Processingaradotso/data-skills

amee-joshi-data-engineering-portfolio

Reference portfolio demonstrating Azure data engineering patterns, Medallion architecture, and end-to-end analytics solutions

🇺🇸|EnglishTranslated

Data Processingaws/agent-toolkit-for-aws

ingesting-into-data-lake

Import data into the AWS data lake from S3 files, local uploads, JDBC databases (Oracle, SQL Server, PostgreSQL, MySQL, RDS, Aurora), Amazon Redshift, Snowflake, BigQuery, DynamoDB, or existing Glue catalog tables (migration). Default target is S3 Tables; standard Iceberg on a general purpose bucket is supported where S3 Tables is not adopted. Handles one-time loads, recurring pipelines, migrations. Triggers on: import data, load data, ingest, sync database, migrate table, move data to AWS, set up pipeline, ETL, pull from Snowflake, query BigQuery into S3, export DynamoDB, CTAS, convert to Iceberg. Do NOT use for setting up or troubleshooting Glue connections (use connecting-to-data-source), creating empty tables (use creating-data-lake-table), running queries (use querying-data-lake), finding tables by fuzzy name (use finding-data-lake-assets), catalog audit (use exploring-data-catalog), or SaaS platforms like Salesforce, ServiceNow, SAP, MongoDB, Kafka.

🇺🇸|EnglishTranslated

Data Processingeyadsibai/ltk

data-engineering

Use when "data pipelines", "ETL", "data warehousing", "data lakes", or asking about "Airflow", "Spark", "dbt", "Snowflake", "BigQuery", "data modeling"

🇺🇸|EnglishTranslated

Testing & QAmajesticlabs-dev/majestic...

test-fixture-generator

Generate synthetic test data with edge cases for ETL pipeline testing.

🇺🇸|EnglishTranslated

Data Processingaradotso/data-skills

harvard-art-museums-etl-analytics

End-to-end ETL pipeline and analytics application for Harvard Art Museums API with Streamlit dashboards

🇺🇸|EnglishTranslated