Adaptacyjny Web Scraper z Modelami Językowymi

Generated from prompt:

prezentację akademicką (seminarium dyplomowe, poziom magisterski) w języku polskim na temat: „Adaptacyjny Web Scraper z wykorzystaniem modeli językowych” 📌 Wymagania ogólne: czas prezentacji: około 10 minut liczba slajdów: 15–18 styl: techniczny, akademicki, zrozumiały każdy slajd: krótki tekst wprowadzający (1 zdanie na górze) 3–5 punktów bulletpoint unikać ścian tekstu stosować czytelne sformułowania prezentacja ma być teoretyczna (bez wyników eksperymentalnych) 🧱 Struktura prezentacji (obowiązkowa): Strona tytułowa Struktura prezentacji Problem badawczy Cel pracy Podstawy web scrapingu Techniki ekstrakcji danych (HTML, API, headless browser) Modele językowe (LLM) Podejścia do wykorzystania LLM Adaptacyjność systemu Architektura systemu Workflow działania Metodologia badań Oczekiwane rezultaty (hipotezy) Zalety i wady podejścia Zastosowania i ograniczenia praktyczne Możliwości rozwoju Podsumowanie Slajd końcowy (pytania) 🧠 Kontekst projektu: projekt dotyczy stworzenia systemu ekstrakcji danych z internetu system ma być adaptacyjny (odporny na zmiany struktury stron) wykorzystuje modele językowe (LLM) jako wsparcie dla klasycznego scrapingu podejście hybrydowe: klasyczny scraping (HTML/API) fallback do LLM 🧪 Zakres analizy: porównanie podejść: klasyczny scraping scraping wspierany przez LLM skupienie na kompromisie: dokładność vs koszt obliczeniowy vs wydajność 📊 Metodologia (do uwzględnienia): testowanie różnych modeli: GPT LLaMA / Mistral metryki: accuracy (poprawność danych) czas przetwarzania koszt (API / lokalne modele) ⚠️ Ważne uwagi: nie zakładaj gotowych wyników eksperymentalnych zamiast tego: przedstaw hipotezy przewidywane rezultaty uwzględnij realne aspekty: API vs HTML scraping anti-bot systems ograniczenia prawne 🎨 Styl slajdów: profesjonalny, minimalistyczny techniczny, ale czytelny sugeruj miejsca na: diagram architektury pipeline danych schemat działania 🎯 Cel prezentacji: Pokazanie koncepcji systemu, uzasadnienie wyboru podejścia oraz przygotowanie gruntu pod przyszłą implementację i badania.

Prezentacja magisterska na temat koncepcji adaptacyjnego systemu ekstrakcji danych z WWW z wykorzystaniem modeli językowych (LLM). Omówienie problemu niestabilności klasycznego scrapingu, architektury hybrydowej, workflow, metodologii badań, zalet, w

April 18, 202639 slides

Slide 1 of 39

Slide 1 - Prezentacja Magisterska

Adaptacyjny Web Scraper z wykorzystaniem modeli językowych

Koncepcja adaptacyjnego systemu ekstrakcji danych z wykorzystaniem AI

Slide 2 of 39

Slide 2 - Strona tytułowa

Adaptacyjny Web Scraper z wykorzystaniem modeli językowych

Seminarium dyplomowe - poziom magisterski

---

Photo by Umberto on Unsplash

Slide 3 of 39

Slide 3 - Strona tytułowa

Adaptacyjny Web Scraper z wykorzystaniem modeli językowych

Seminarium dyplomowe (poziom magisterski) | Autor: Łukasz Rotko

Slide 4 of 39

Slide 4 - Struktura prezentacji

Struktura prezentacji
Problem badawczy i cel pracy
Podstawy i techniki scrapingu
Modele językowe w ekstrakcji danych
Architektura i workflow systemu
Metodologia i hipotezy badawcze
Analiza zalet, wad i ograniczeń
Podsumowanie i wnioski

Slide 5 of 39

Slide 5 - Struktura prezentacji

Problem badawczy i cel pracy
Podstawy scrapingu i techniki ekstrakcji
Modele językowe w ekstrakcji danych
Architektura i workflow systemu
Metodologia i hipotezy badawcze
Analiza zalet, wad i ograniczeń praktycznych
Możliwości rozwoju i podsumowanie

Slide 6 of 39

Slide 6 - Problem badawczy

Proces ekstrakcji danych jest często niestabilny i podatny na częste błędy.
Struktura stron WWW jest wysoce nieustrukturyzowana i dynamicznie zmienna.
Klasyczne scrapery wymagają stałej, kosztownej ręcznej aktualizacji reguł.
Brak odporności na zmiany struktury HTML ogranicza skalowalność rozwiązań.

Slide 7 of 39

Slide 7 - Problem badawczy

Ekstrakcja danych z internetu jest procesem niestabilnym i podatnym na błędy.
Dane na stronach WWW są nieustrukturyzowane i dynamicznie zmienne.
Klasyczne narzędzia są bardzo wrażliwe na zmiany struktury HTML.
Wysoki koszt utrzymania i ciągłej aktualizacji parserów danych.
Główny problem: brak odporności systemu na zmiany strony.

Slide 8 of 39

Slide 8 - Cel pracy

Zaprojektowanie systemu adaptacyjnego do ekstrakcji danych WWW.
Wykorzystanie modeli językowych (LLM) jako wsparcia klasycznego scrapingu.
Analiza efektywności podejścia hybrydowego (HTML/API + LLM).
Porównanie rozwiązań pod kątem dokładności, kosztów i wydajności.
Przygotowanie teoretycznych podstaw dla przyszłej implementacji.

Slide 9 of 39

Slide 9 - Cel pracy

Zaprojektowanie systemu ekstrakcji o podwyższonej adaptacyjności do zmian.
Wykorzystanie modeli językowych (LLM) jako warstwy inteligentnego wsparcia.
Analiza porównawcza podejść w kontekście jakości, kosztów i wydajności.
Przygotowanie koncepcji gotowej do implementacji i dalszych badań.

Slide 10 of 39

Slide 10 - Fundamenty systemu

Podstawy teoretyczne i techniki ekstrakcji

Analiza klasycznych metod scrapingu i możliwości LLM

Slide 11 of 39

Slide 11 - Sekcja I

Podstawy i metodyka scrapingu

Fundamenty techniczne ekstrakcji danych z sieci WWW

---

Photo by Umberto on Unsplash

Slide 12 of 39

Slide 12 - Podstawy i techniki scrapingu

Web scraping to proces automatycznego pobierania danych ze stron.
Standardowy proces: pobieranie HTML, analiza DOM, ekstrakcja, zapis.
Kluczowe techniki: XPath, selektory CSS, API (JSON), headless browsers.
Główna słabość: sztywna zależność od struktury strony internetowej.
Potrzeba przejścia na podejście hybrydowe (klasyka + AI).

Slide 13 of 39

Slide 13 - Podstawy web scrapingu

Web scraping: automatyczne pobieranie i przetwarzanie treści ze stron WWW.
Standardowy workflow: Pobranie (HTTP) -> Parsowanie (DOM) -> Ekstrakcja danych -> Zapis.
Kluczowe ograniczenia: Sztywna zależność od struktury HTML/CSS/XPath.
Brak elastyczności prowadzi do częstych awarii przy zmianach designu strony.

Slide 14 of 39

Slide 14 - Modele językowe (LLM)

Modele językowe (LLM) oferują zaawansowaną interpretację nieustrukturyzowanych danych.
Możliwość ekstrakcji informacji i mapowania ich na format JSON.
Wykorzystanie jako inteligentny fallback w przypadku błędów parsera.
Techniki: Prompt-based extraction, Few-shot learning, Schema-based prompting.
Klucz do adaptacyjności: interpretacja semantyczna zamiast analizy składniowej.

Slide 15 of 39

Slide 15 - Techniki ekstrakcji danych

Parsing HTML: Bezpośrednia analiza kodu strukturalnego (np. BeautifulSoup).
Interfejsy API: Pobieranie ustrukturyzowanych danych (JSON) - najbardziej stabilne.
Headless Browsers: Symulacja zachowania użytkownika (np. Playwright, Selenium).
Podejścia hybrydowe: Łączenie wydajności parsingu z elastycznością przeglądarek.

Slide 16 of 39

Slide 16 - Architektura systemu

Architektura i Workflow systemu

Koncepcja hybrydowego systemu adaptacyjnego

Slide 17 of 39

Slide 17 - Sekcja II

Modele językowe w scrapingu

Wykorzystanie potencjału LLM w inteligentnej ekstrakcji danych

---

Photo by Tom Parkes on Unsplash

Slide 18 of 39

Slide 18 - Architektura systemu

Modułowy crawler odpowiedzialny za pobieranie treści strony.
Parser klasyczny działający jako pierwsza linia ekstrakcji.
Moduł LLM uruchamiany w przypadku awarii parsera.
Warstwa walidacji zapewniająca spójność strukturalną danych.
Zintegrowany proces zapisu wyników do bazy danych.

---

Photo by Kelly Sikkema on Unsplash

Slide 19 of 39

Slide 19 - Modele językowe (LLM)

LLM pozwalają na zaawansowaną interpretację i rozumienie nieustrukturyzowanego tekstu.
Ekstrakcja informacji: Przetwarzanie treści HTML na strukturalne dane (np. JSON).
Mechanizm Fallback: Automatyczne użycie modelu w przypadku niepowodzenia klasycznego parsera.
Zdolność do generalizacji: Modele lepiej radzą sobie z nieznanymi strukturami stron.

Slide 20 of 39

Slide 20 - Workflow działania systemu

Krok	Działanie	Technologia
1. Pobieranie	Pobranie surowej treści strony	Crawler / Headless Browser
2. Parser	Próba ekstrakcji regułowej (CSS/XPath)	Klasyczny Web Scraper
3. Analiza AI	Fallback do LLM w razie błędu	LLM (GPT/Llama/Mistral)
4. Walidacja	Sprawdzenie poprawności schematu danych	Walidator JSON/Schema

Slide 21 of 39

Slide 21 - Podejścia do wykorzystania LLM

Prompt-based extraction: Definiowanie reguł ekstrakcji poprzez instrukcje naturalnego języka.
Few-shot learning: Podawanie przykładów struktury danych dla poprawy trafności.
Schema-based extraction: Wymuszanie formatu wyjściowego zgodnego z definicją (JSON Schema).
Pełna integracja z klasycznym scrapingiem jako warstwa inteligencji.

Slide 22 of 39

Slide 22 - Badania naukowe

Metodologia i oczekiwane rezultaty

Teoretyczne ramy badań i hipotezy

Slide 23 of 39

Slide 23 - Sekcja III

Architektura i metodologia

Projekt systemu adaptacyjnego oraz plan badań

---

Photo by Tom Parkes on Unsplash

Slide 24 of 39

Slide 24 - Metodologia badań

Porównanie efektywności podejścia klasycznego oraz hybrydowego.
Testowanie modeli: GPT (właścicielskie) vs LLaMA/Mistral (open source).
Metryki analizy: dokładność (accuracy), czas odpowiedzi, koszt obliczeniowy.
Skupienie na kompromisie: wydajność vs. stabilność ekstrakcji.
Analiza bez gotowych wyników – podejście teoretyczno-hipotetyczne.

Slide 25 of 39

Slide 25 - Architektura systemu

Moduł Crawlera: Odpowiedzialny za pobieranie treści ze stron internetowych.
Parser Klasyczny: Szybka ekstrakcja oparta na znanych selektorach.
Moduł LLM: Inteligentna analiza danych w przypadku błędów parsowania.
Warstwa walidacji: Weryfikacja spójności danych przed ostatecznym zapisem.

Slide 26 of 39

Slide 26 - Oczekiwane rezultaty (hipotezy)

Hipoteza: Podejście hybrydowe osiąga najlepszy balans między jakością a kosztem.
LLM znacząco zwiększą odporność systemu na zmiany struktury stron.
Modele open source będą tańsze, ale mogą wymagać więcej zasobów lokalnych.
Czas przetwarzania będzie wyższy w systemach wspieranych przez LLM.
Ekstrakcja oparta na LLM zredukuje liczbę błędów w danych nieustrukturyzowanych.

Slide 27 of 39

Slide 27 - Metodologia badań

Porównanie podejść: klasyczny scraping vs. podejście hybrydowe (wsparcie LLM).
Testowane modele: Komercyjne (GPT-4) oraz Open Source (LLaMA/Mistral).
Metryki oceny: Dokładność (accuracy), czas przetwarzania i koszt (API/GPU).
Analiza kompromisu między wydajnością czasową a kosztem obliczeniowym.

Slide 28 of 39

Slide 28 - Zalety i wady podejścia

Zalety podejścia LLM

Wysoka elastyczność ekstrakcji.
Odporność na zmiany HTML.
Zrozumienie kontekstu danych.

Wady i wyzwania

Wysoki koszt zapytań do API.
Potencjalne błędy interpretacji.
Zależność od jakości promptu.

Slide 29 of 39

Slide 29 - Zalety i wady podejścia LLM

Zalety podejścia LLM

Wysoka odporność na zmiany DOM.
Elastyczność ekstrakcji danych.
Zdolność interpretacji treści.
Mniejsza potrzeba ręcznych reguł.

Wady i ograniczenia

Wysoki koszt zapytań API.
Ryzyko halucynacji modelu.
Zależność od jakości promptu.
Wyższe zużycie zasobów.

Slide 30 of 39

Slide 30 - Zalety i wady podejścia

Zalety podejścia LLM

Znacznie wyższa odporność na zmiany struktury HTML stron.
Wysoka elastyczność w ekstrakcji różnorodnych danych.
Zredukowany nakład pracy na ręczne utrzymanie reguł.

Ograniczenia praktyczne

Znaczący koszt zapytań do modeli (API/GPU).
Ryzyko błędów interpretacji danych (hallucinations).
Zależność od precyzji przygotowanego promptu.
Problemy z systemami anty-bot i wymogami prawnymi.

Slide 31 of 39

Slide 31 - Zastosowania i ograniczenia praktyczne

Zastosowania: monitoring cen, agregacja danych, analiza treści.
Ograniczenia: zabezpieczenia anty-bot (WAF, Captcha).
Wyzwania związane z dostępnością i limitami API.
Istotne aspekty prawne i etyczne pozyskiwania danych.

Slide 32 of 39

Slide 32 - Zastosowania i ograniczenia

Główne obszary: Monitoring cen, agregacja danych, analiza treści.
Wyzwania techniczne: systemy anti-bot, konieczność obsługi API.
Aspekty prawne: zgodność z regulaminami stron (ToS), RODO.
Ograniczenia: konieczność skalowalności przy dużej liczbie danych.
Potrzeba zabezpieczeń przeciwko blokowaniu przez serwery docelowe.

Slide 33 of 39

Slide 33 - Podsumowanie i wnioski

Modele LLM zwiększają stabilność systemów przy dynamicznych stronach.
Podejście hybrydowe pozwala zrównoważyć koszty z precyzją ekstrakcji.
Hipoteza: System hybrydowy zapewnia optymalny balans koszt-jakość.
Dalsze kierunki: Auto-optymalizacja promptów, fine-tuning i bazy wiedzy.

Slide 34 of 39

Slide 34 - Możliwości rozwoju

Automatyczna optymalizacja promptów (prompt engineering).
Fine-tuning modeli językowych pod specyficzne domeny.
Głęboka integracja z zewnętrznymi bazami wiedzy.
Rozszerzenie systemu o obsługę skomplikowanych stron dynamicznych.

Slide 35 of 39

Slide 35 - Możliwości rozwoju

Automatyczna optymalizacja promptów (Self-correction).
Fine-tuning modeli językowych pod specyficzne domeny danych.
Integracja z grafowymi bazami wiedzy dla lepszego kontekstu.
Rozszerzenie wsparcia dla bardzo dynamicznych stron SPA.
Rozwój systemów automatycznego wykrywania zmian struktury HTML.

Slide 36 of 39

Slide 36 - Slajd końcowy

Dziękuję za uwagę

Dziękuję za uwagę. Czy mają Państwo jakieś pytania?

Slide 37 of 39

Slide 37 - Podsumowanie

Podejście hybrydowe stanowi najbardziej efektywne rozwiązanie problemów niestabilności klasycznego web scrapingu.

Podsumowanie koncepcji systemu adaptacyjnego

---

Photo by Nastuh Abootalebi on Unsplash

Slide 38 of 39

Slide 38 - Podsumowanie i Pytania

Podsumowanie: Podejście hybrydowe jest przyszłością ekstrakcji danych.

Dziękuję za uwagę. Czy mają Państwo jakieś pytania?

Slide 39 of 39

Slide 39 - Pytania i odpowiedzi

Dziękuję za uwagę - czy mają Państwo pytania?

Zapraszam do dyskusji

Discover More Presentations

Explore thousands of AI-generated presentations for inspiration

Browse Presentations

Create Your Own Presentation

Generate professional presentations in seconds with Karaf's AI. Customize this presentation or start from scratch.

Create New Presentation