Adaptacyjny Web Scraper z Modelami Językowymi

Generated from prompt:

prezentację akademicką (seminarium dyplomowe, poziom magisterski) w języku polskim na temat: „Adaptacyjny Web Scraper z wykorzystaniem modeli językowych” 📌 Wymagania ogólne: czas prezentacji: około 10 minut liczba slajdów: 15–18 styl: techniczny, akademicki, zrozumiały każdy slajd: krótki tekst wprowadzający (1 zdanie na górze) 3–5 punktów bulletpoint unikać ścian tekstu stosować czytelne sformułowania prezentacja ma być teoretyczna (bez wyników eksperymentalnych) 🧱 Struktura prezentacji (obowiązkowa): Strona tytułowa Struktura prezentacji Problem badawczy Cel pracy Podstawy web scrapingu Techniki ekstrakcji danych (HTML, API, headless browser) Modele językowe (LLM) Podejścia do wykorzystania LLM Adaptacyjność systemu Architektura systemu Workflow działania Metodologia badań Oczekiwane rezultaty (hipotezy) Zalety i wady podejścia Zastosowania i ograniczenia praktyczne Możliwości rozwoju Podsumowanie Slajd końcowy (pytania) 🧠 Kontekst projektu: projekt dotyczy stworzenia systemu ekstrakcji danych z internetu system ma być adaptacyjny (odporny na zmiany struktury stron) wykorzystuje modele językowe (LLM) jako wsparcie dla klasycznego scrapingu podejście hybrydowe: klasyczny scraping (HTML/API) fallback do LLM 🧪 Zakres analizy: porównanie podejść: klasyczny scraping scraping wspierany przez LLM skupienie na kompromisie: dokładność vs koszt obliczeniowy vs wydajność 📊 Metodologia (do uwzględnienia): testowanie różnych modeli: GPT LLaMA / Mistral metryki: accuracy (poprawność danych) czas przetwarzania koszt (API / lokalne modele) ⚠️ Ważne uwagi: nie zakładaj gotowych wyników eksperymentalnych zamiast tego: przedstaw hipotezy przewidywane rezultaty uwzględnij realne aspekty: API vs HTML scraping anti-bot systems ograniczenia prawne 🎨 Styl slajdów: profesjonalny, minimalistyczny techniczny, ale czytelny sugeruj miejsca na: diagram architektury pipeline danych schemat działania 🎯 Cel prezentacji: Pokazanie koncepcji systemu, uzasadnienie wyboru podejścia oraz przygotowanie gruntu pod przyszłą implementację i badania.

Prezentacja magisterska na temat koncepcji adaptacyjnego systemu ekstrakcji danych z WWW z wykorzystaniem modeli językowych (LLM). Omówienie problemu niestabilności klasycznego scrapingu, architektury hybrydowej, workflow, metodologii badań, zalet, w

April 18, 202639 slides
Slide 1 of 39

Slide 1 - Prezentacja Magisterska

Adaptacyjny Web Scraper z wykorzystaniem modeli językowych

Koncepcja adaptacyjnego systemu ekstrakcji danych z wykorzystaniem AI

Slide 1 - Prezentacja Magisterska
Slide 2 of 39

Slide 2 - Strona tytułowa

Adaptacyjny Web Scraper z wykorzystaniem modeli językowych

Seminarium dyplomowe - poziom magisterski

---

Photo by Umberto on Unsplash

Slide 2 - Strona tytułowa
Slide 3 of 39

Slide 3 - Strona tytułowa

Adaptacyjny Web Scraper z wykorzystaniem modeli językowych

Seminarium dyplomowe (poziom magisterski) | Autor: Łukasz Rotko

Slide 3 - Strona tytułowa
Slide 4 of 39

Slide 4 - Struktura prezentacji

  • Struktura prezentacji
  • Problem badawczy i cel pracy
  • Podstawy i techniki scrapingu
  • Modele językowe w ekstrakcji danych
  • Architektura i workflow systemu
  • Metodologia i hipotezy badawcze
  • Analiza zalet, wad i ograniczeń
  • Podsumowanie i wnioski
Slide 4 - Struktura prezentacji
Slide 5 of 39

Slide 5 - Struktura prezentacji

  • Problem badawczy i cel pracy
  • Podstawy scrapingu i techniki ekstrakcji
  • Modele językowe w ekstrakcji danych
  • Architektura i workflow systemu
  • Metodologia i hipotezy badawcze
  • Analiza zalet, wad i ograniczeń praktycznych
  • Możliwości rozwoju i podsumowanie
Slide 5 - Struktura prezentacji
Slide 6 of 39

Slide 6 - Problem badawczy

  • Proces ekstrakcji danych jest często niestabilny i podatny na częste błędy.
  • Struktura stron WWW jest wysoce nieustrukturyzowana i dynamicznie zmienna.
  • Klasyczne scrapery wymagają stałej, kosztownej ręcznej aktualizacji reguł.
  • Brak odporności na zmiany struktury HTML ogranicza skalowalność rozwiązań.
Slide 6 - Problem badawczy
Slide 7 of 39

Slide 7 - Problem badawczy

  • Ekstrakcja danych z internetu jest procesem niestabilnym i podatnym na błędy.
  • Dane na stronach WWW są nieustrukturyzowane i dynamicznie zmienne.
  • Klasyczne narzędzia są bardzo wrażliwe na zmiany struktury HTML.
  • Wysoki koszt utrzymania i ciągłej aktualizacji parserów danych.
  • Główny problem: brak odporności systemu na zmiany strony.
Slide 7 - Problem badawczy
Slide 8 of 39

Slide 8 - Cel pracy

  • Zaprojektowanie systemu adaptacyjnego do ekstrakcji danych WWW.
  • Wykorzystanie modeli językowych (LLM) jako wsparcia klasycznego scrapingu.
  • Analiza efektywności podejścia hybrydowego (HTML/API + LLM).
  • Porównanie rozwiązań pod kątem dokładności, kosztów i wydajności.
  • Przygotowanie teoretycznych podstaw dla przyszłej implementacji.
Slide 8 - Cel pracy
Slide 9 of 39

Slide 9 - Cel pracy

  • Zaprojektowanie systemu ekstrakcji o podwyższonej adaptacyjności do zmian.
  • Wykorzystanie modeli językowych (LLM) jako warstwy inteligentnego wsparcia.
  • Analiza porównawcza podejść w kontekście jakości, kosztów i wydajności.
  • Przygotowanie koncepcji gotowej do implementacji i dalszych badań.
Slide 9 - Cel pracy
Slide 10 of 39

Slide 10 - Fundamenty systemu

Podstawy teoretyczne i techniki ekstrakcji

Analiza klasycznych metod scrapingu i możliwości LLM

Slide 10 - Fundamenty systemu
Slide 11 of 39

Slide 11 - Sekcja I

Podstawy i metodyka scrapingu

Fundamenty techniczne ekstrakcji danych z sieci WWW

---

Photo by Umberto on Unsplash

Slide 11 - Sekcja I
Slide 12 of 39

Slide 12 - Podstawy i techniki scrapingu

  • Web scraping to proces automatycznego pobierania danych ze stron.
  • Standardowy proces: pobieranie HTML, analiza DOM, ekstrakcja, zapis.
  • Kluczowe techniki: XPath, selektory CSS, API (JSON), headless browsers.
  • Główna słabość: sztywna zależność od struktury strony internetowej.
  • Potrzeba przejścia na podejście hybrydowe (klasyka + AI).
Slide 12 - Podstawy i techniki scrapingu
Slide 13 of 39

Slide 13 - Podstawy web scrapingu

  • Web scraping: automatyczne pobieranie i przetwarzanie treści ze stron WWW.
  • Standardowy workflow: Pobranie (HTTP) -> Parsowanie (DOM) -> Ekstrakcja danych -> Zapis.
  • Kluczowe ograniczenia: Sztywna zależność od struktury HTML/CSS/XPath.
  • Brak elastyczności prowadzi do częstych awarii przy zmianach designu strony.
Slide 13 - Podstawy web scrapingu
Slide 14 of 39

Slide 14 - Modele językowe (LLM)

  • Modele językowe (LLM) oferują zaawansowaną interpretację nieustrukturyzowanych danych.
  • Możliwość ekstrakcji informacji i mapowania ich na format JSON.
  • Wykorzystanie jako inteligentny fallback w przypadku błędów parsera.
  • Techniki: Prompt-based extraction, Few-shot learning, Schema-based prompting.
  • Klucz do adaptacyjności: interpretacja semantyczna zamiast analizy składniowej.
Slide 14 - Modele językowe (LLM)
Slide 15 of 39

Slide 15 - Techniki ekstrakcji danych

  • Parsing HTML: Bezpośrednia analiza kodu strukturalnego (np. BeautifulSoup).
  • Interfejsy API: Pobieranie ustrukturyzowanych danych (JSON) - najbardziej stabilne.
  • Headless Browsers: Symulacja zachowania użytkownika (np. Playwright, Selenium).
  • Podejścia hybrydowe: Łączenie wydajności parsingu z elastycznością przeglądarek.
Slide 15 - Techniki ekstrakcji danych
Slide 16 of 39

Slide 16 - Architektura systemu

Architektura i Workflow systemu

Koncepcja hybrydowego systemu adaptacyjnego

Slide 16 - Architektura systemu
Slide 17 of 39

Slide 17 - Sekcja II

Modele językowe w scrapingu

Wykorzystanie potencjału LLM w inteligentnej ekstrakcji danych

---

Photo by Tom Parkes on Unsplash

Slide 17 - Sekcja II
Slide 18 of 39

Slide 18 - Architektura systemu

  • Modułowy crawler odpowiedzialny za pobieranie treści strony.
  • Parser klasyczny działający jako pierwsza linia ekstrakcji.
  • Moduł LLM uruchamiany w przypadku awarii parsera.
  • Warstwa walidacji zapewniająca spójność strukturalną danych.
  • Zintegrowany proces zapisu wyników do bazy danych.

---

Photo by Kelly Sikkema on Unsplash

Slide 18 - Architektura systemu
Slide 19 of 39

Slide 19 - Modele językowe (LLM)

  • LLM pozwalają na zaawansowaną interpretację i rozumienie nieustrukturyzowanego tekstu.
  • Ekstrakcja informacji: Przetwarzanie treści HTML na strukturalne dane (np. JSON).
  • Mechanizm Fallback: Automatyczne użycie modelu w przypadku niepowodzenia klasycznego parsera.
  • Zdolność do generalizacji: Modele lepiej radzą sobie z nieznanymi strukturami stron.
Slide 19 - Modele językowe (LLM)
Slide 20 of 39

Slide 20 - Workflow działania systemu

KrokDziałanieTechnologia
1. PobieraniePobranie surowej treści stronyCrawler / Headless Browser
2. ParserPróba ekstrakcji regułowej (CSS/XPath)Klasyczny Web Scraper
3. Analiza AIFallback do LLM w razie błęduLLM (GPT/Llama/Mistral)
4. WalidacjaSprawdzenie poprawności schematu danychWalidator JSON/Schema
Slide 20 - Workflow działania systemu
Slide 21 of 39

Slide 21 - Podejścia do wykorzystania LLM

  • Prompt-based extraction: Definiowanie reguł ekstrakcji poprzez instrukcje naturalnego języka.
  • Few-shot learning: Podawanie przykładów struktury danych dla poprawy trafności.
  • Schema-based extraction: Wymuszanie formatu wyjściowego zgodnego z definicją (JSON Schema).
  • Pełna integracja z klasycznym scrapingiem jako warstwa inteligencji.
Slide 21 - Podejścia do wykorzystania LLM
Slide 22 of 39

Slide 22 - Badania naukowe

Metodologia i oczekiwane rezultaty

Teoretyczne ramy badań i hipotezy

Slide 22 - Badania naukowe
Slide 23 of 39

Slide 23 - Sekcja III

Architektura i metodologia

Projekt systemu adaptacyjnego oraz plan badań

---

Photo by Tom Parkes on Unsplash

Slide 23 - Sekcja III
Slide 24 of 39

Slide 24 - Metodologia badań

  • Porównanie efektywności podejścia klasycznego oraz hybrydowego.
  • Testowanie modeli: GPT (właścicielskie) vs LLaMA/Mistral (open source).
  • Metryki analizy: dokładność (accuracy), czas odpowiedzi, koszt obliczeniowy.
  • Skupienie na kompromisie: wydajność vs. stabilność ekstrakcji.
  • Analiza bez gotowych wyników – podejście teoretyczno-hipotetyczne.
Slide 24 - Metodologia badań
Slide 25 of 39

Slide 25 - Architektura systemu

  • Moduł Crawlera: Odpowiedzialny za pobieranie treści ze stron internetowych.
  • Parser Klasyczny: Szybka ekstrakcja oparta na znanych selektorach.
  • Moduł LLM: Inteligentna analiza danych w przypadku błędów parsowania.
  • Warstwa walidacji: Weryfikacja spójności danych przed ostatecznym zapisem.
Slide 25 - Architektura systemu
Slide 26 of 39

Slide 26 - Oczekiwane rezultaty (hipotezy)

  • Hipoteza: Podejście hybrydowe osiąga najlepszy balans między jakością a kosztem.
  • LLM znacząco zwiększą odporność systemu na zmiany struktury stron.
  • Modele open source będą tańsze, ale mogą wymagać więcej zasobów lokalnych.
  • Czas przetwarzania będzie wyższy w systemach wspieranych przez LLM.
  • Ekstrakcja oparta na LLM zredukuje liczbę błędów w danych nieustrukturyzowanych.
Slide 26 - Oczekiwane rezultaty (hipotezy)
Slide 27 of 39

Slide 27 - Metodologia badań

  • Porównanie podejść: klasyczny scraping vs. podejście hybrydowe (wsparcie LLM).
  • Testowane modele: Komercyjne (GPT-4) oraz Open Source (LLaMA/Mistral).
  • Metryki oceny: Dokładność (accuracy), czas przetwarzania i koszt (API/GPU).
  • Analiza kompromisu między wydajnością czasową a kosztem obliczeniowym.
Slide 27 - Metodologia badań
Slide 28 of 39

Slide 28 - Zalety i wady podejścia

Zalety podejścia LLM

  • Wysoka elastyczność ekstrakcji.
  • Odporność na zmiany HTML.
  • Zrozumienie kontekstu danych.

Wady i wyzwania

  • Wysoki koszt zapytań do API.
  • Potencjalne błędy interpretacji.
  • Zależność od jakości promptu.
Slide 28 - Zalety i wady podejścia
Slide 29 of 39

Slide 29 - Zalety i wady podejścia LLM

Zalety podejścia LLM

  • Wysoka odporność na zmiany DOM.
  • Elastyczność ekstrakcji danych.
  • Zdolność interpretacji treści.
  • Mniejsza potrzeba ręcznych reguł.

Wady i ograniczenia

  • Wysoki koszt zapytań API.
  • Ryzyko halucynacji modelu.
  • Zależność od jakości promptu.
  • Wyższe zużycie zasobów.
Slide 29 - Zalety i wady podejścia LLM
Slide 30 of 39

Slide 30 - Zalety i wady podejścia

Zalety podejścia LLM

  • Znacznie wyższa odporność na zmiany struktury HTML stron.
  • Wysoka elastyczność w ekstrakcji różnorodnych danych.
  • Zredukowany nakład pracy na ręczne utrzymanie reguł.

Ograniczenia praktyczne

  • Znaczący koszt zapytań do modeli (API/GPU).
  • Ryzyko błędów interpretacji danych (hallucinations).
  • Zależność od precyzji przygotowanego promptu.
  • Problemy z systemami anty-bot i wymogami prawnymi.
Slide 30 - Zalety i wady podejścia
Slide 31 of 39

Slide 31 - Zastosowania i ograniczenia praktyczne

  • Zastosowania: monitoring cen, agregacja danych, analiza treści.
  • Ograniczenia: zabezpieczenia anty-bot (WAF, Captcha).
  • Wyzwania związane z dostępnością i limitami API.
  • Istotne aspekty prawne i etyczne pozyskiwania danych.
Slide 31 - Zastosowania i ograniczenia praktyczne
Slide 32 of 39

Slide 32 - Zastosowania i ograniczenia

  • Główne obszary: Monitoring cen, agregacja danych, analiza treści.
  • Wyzwania techniczne: systemy anti-bot, konieczność obsługi API.
  • Aspekty prawne: zgodność z regulaminami stron (ToS), RODO.
  • Ograniczenia: konieczność skalowalności przy dużej liczbie danych.
  • Potrzeba zabezpieczeń przeciwko blokowaniu przez serwery docelowe.
Slide 32 - Zastosowania i ograniczenia
Slide 33 of 39

Slide 33 - Podsumowanie i wnioski

  • Modele LLM zwiększają stabilność systemów przy dynamicznych stronach.
  • Podejście hybrydowe pozwala zrównoważyć koszty z precyzją ekstrakcji.
  • Hipoteza: System hybrydowy zapewnia optymalny balans koszt-jakość.
  • Dalsze kierunki: Auto-optymalizacja promptów, fine-tuning i bazy wiedzy.
Slide 33 - Podsumowanie i wnioski
Slide 34 of 39

Slide 34 - Możliwości rozwoju

  • Automatyczna optymalizacja promptów (prompt engineering).
  • Fine-tuning modeli językowych pod specyficzne domeny.
  • Głęboka integracja z zewnętrznymi bazami wiedzy.
  • Rozszerzenie systemu o obsługę skomplikowanych stron dynamicznych.
Slide 34 - Możliwości rozwoju
Slide 35 of 39

Slide 35 - Możliwości rozwoju

  • Automatyczna optymalizacja promptów (Self-correction).
  • Fine-tuning modeli językowych pod specyficzne domeny danych.
  • Integracja z grafowymi bazami wiedzy dla lepszego kontekstu.
  • Rozszerzenie wsparcia dla bardzo dynamicznych stron SPA.
  • Rozwój systemów automatycznego wykrywania zmian struktury HTML.
Slide 35 - Możliwości rozwoju
Slide 36 of 39

Slide 36 - Slajd końcowy

Dziękuję za uwagę

Dziękuję za uwagę. Czy mają Państwo jakieś pytania?

Slide 36 - Slajd końcowy
Slide 37 of 39

Slide 37 - Podsumowanie

Podejście hybrydowe stanowi najbardziej efektywne rozwiązanie problemów niestabilności klasycznego web scrapingu.

Podsumowanie koncepcji systemu adaptacyjnego

---

Photo by Nastuh Abootalebi on Unsplash

Slide 37 - Podsumowanie
Slide 38 of 39

Slide 38 - Podsumowanie i Pytania

Podsumowanie: Podejście hybrydowe jest przyszłością ekstrakcji danych.

Dziękuję za uwagę. Czy mają Państwo jakieś pytania?

Slide 38 - Podsumowanie i Pytania
Slide 39 of 39

Slide 39 - Pytania i odpowiedzi

Dziękuję za uwagę - czy mają Państwo pytania?

Zapraszam do dyskusji

Slide 39 - Pytania i odpowiedzi

Discover More Presentations

Explore thousands of AI-generated presentations for inspiration

Browse Presentations
Powered by AI

Create Your Own Presentation

Generate professional presentations in seconds with Karaf's AI. Customize this presentation or start from scratch.

Create New Presentation

Powered by Karaf.ai — AI-Powered Presentation Generator