Web Scraper, Weather API in izbira orodij za vsebino

V Agentflow V2 in drugih flowih imate na voljo več orodij za pridobivanje podatkov s spleta: Web Scraper Tool (statični HTML), Weather API (vreme po lokaciji) in Document Loaderji Playwright/Puppeteer (strani, ki zahtevajo JavaScript). Ta stran pomaga izbrati pravo orodje.


Kdaj kaj uporabiti (povzetek)

Potreba Priporočeno orodje Opombe
Vreme za mesto (npr. Ljubljana, Maribor) Weather API API ključ iz AiServiceConfig / Shared credential. Najhitrejše in zanesljivo.
Statična HTML stran (blog, dokumentacija, novice brez JS) Web Scraper Tool En URL ali rekurzivno/sitemap. Ne izvaja JavaScripta.
Stran, ki zahteva JavaScript (npr. vreme.arso.gov.si, SPA) Playwright Web Scraper ali Puppeteer Web Scraper (Document Loader) Uporabite v pipelineu / Document Store, ne kot agent tool. Izvajata JS v brskalniku.
Iskanje po spletu (search) Brave Search, Exa Search, Tavily itd. Agent tooli za iskanje; za vsebino strani nato Web Scraper ali Playwright.

Web Scraper Tool (agent tool)

  • Namen: Pridobivanje besedila s spletnih strani, ki so že v začetnem HTML-u (brez izvajanja JavaScripta).
  • Vhod: En URL (npr. https://example.com/page).
  • Izhod: JSON z url, title, description, body_text (in po potrebi error).

Vizualni prikaz v Flowise (Agentflow V2)

Spodaj je prikazano, kako izgleda Web Scraper Tool orodje, ko ga dodate na Agent Canvas:

Web Scraper Tool

Kdaj deluje dobro

  • Strani z veliko vsebine v tagih <p> ali v main / article / body.
  • Blogi, dokumentacija, preproste novice (če so vsebina že v HTML-u).

Kdaj ne deluje (prazen ali neuporaben body_text)

  • Strani, ki vsebino naložijo z JavaScriptom (React, Vue, “Nalagam…”, “Please enable JavaScript”).
  • V takih primerih orodje:
    • Odstrani script, style, noscript, template, svg iz HTML-ja (manj šuma).
    • Zazna tipične placeholdere (npr. “Please enable JavaScript”, “Nalagam”) in v odgovor doda error z napisom, da je stran JS-renderirana in naj se uporabi Puppeteer/Playwright.

Robustnost

  • Orodje ni bilo oslabljeno: za običajne statične strani obnašanje ostaja enako ali boljše (čistejše besedilo brez skript).
  • Če dobite v odgovoru error o JavaScript-renderirani strani, uporabite Playwright ali Puppeteer Document Loader za ta URL.

Weather API (agent tool)

  • Namen: Trenutno vreme in napoved za kraj (mesto ali “Mesto, Država”).
  • Vhod: Lokacija (npr. Ljubljana, Maribor, Slovenia, London).
  • Credentials: WeatherAPI.com ključ (nastavi se v AiServiceConfig pod “Other Services” in zaseje kot “Shared Weather API”).

Za vremenske podatke je to primerna izbira; za strani tipa vreme.arso.gov.si (težke JS aplikacije) raje uporabite Weather API ali Playwright za ARSO, ne Web Scraper Tool.


Playwright / Puppeteer (Document Loaderji)

  • Kje jih najdete: V flowu kot Document Loader (npr. Playwright Web Scraper, Puppeteer Web Scraper), ne v sekciji agent Tools.
  • Kdaj jih uporabiti: Ko stran za prikaz vsebine zahteva izvajanje JavaScripta (npr. vreme.arso.gov.si, enostranične aplikacije).
  • Nastavitve: “Wait Until” (npr. Network Idle), “Wait for selector to load” – izberite selektor, ki se pojavi, ko je vsebina naložena.

Podrobnosti so v dokumentaciji Document Loaderjev: Playwright Web Scraper, Puppeteer Web Scraper.


Primeri

  • “Kakšno je vreme v Ljubljani?” → Agent uporabi Weather API z vhodom Ljubljana (ali Ljubljana, Slovenia).
  • “Kaj piše na https://example.com/blog/post?” (statična stran) → Web Scraper Tool z danim URL-jem.
  • “Pridobi vsebino z https://vreme.arso.gov.si/”Playwright Web Scraper (Document Loader) v pipelineu; Web Scraper Tool bo za to stran vrnil opozorilo o JS-renderirani strani.

Povezave

results matching ""

    No results matching ""