Scraping-Pipeline
1 · Crawler
→2 · Detector
→3 · Cleaner
→4 · Structurer
→5 · Enricher
→6 · OCR
→7 · Storage
Tech-Stack
Frontend
Next.js 14 14.xReact App Router, SSR/CSRReact Query 5.xServer State, Polling, CacheTypeScriptTypsicherheitBackend
NestJS 10.xHTTP Server, Dependency InjectionPrisma 7.xORM, Query Builderbetter-sqlite3SQLite Driver (sync, kein Network I/O)Scraping
PlaywrightBrowser-Rendering für SPAs (Chromium headless)AxiosHTTP-Client für statische SeitenCheerioHTML-Parser (jQuery-kompatibel)francSpracherkennung (500+ Sprachen)robots-parserrobots.txt ParserOptional
MinerU SidecarPython-Service für komplexe Layouts (Port 3765)OCR-Status
○
Tesseract OCR
—
OCR aktivieren
per Scraper · ocrEnabled Flag
Instanz
API Base URL
http://localhost:3001/api/v1
Datenbank
SQLite · apps/api-nest/prisma/scrapeengine.db
Scraper
—
Jobs gesamt
—
Records gesamt
—
Erfolgsrate
—
Projekt
ScrapeEngine
Team
Jakob Kampmann · goava.ai