Web Scraper, Weather API in izbira orodij za vsebino
V Agentflow V2 in drugih flowih imate na voljo več orodij za pridobivanje podatkov s spleta: Web Scraper Tool (statični HTML), Weather API (vreme po lokaciji) in Document Loaderji Playwright/Puppeteer (strani, ki zahtevajo JavaScript). Ta stran pomaga izbrati pravo orodje.
Kdaj kaj uporabiti (povzetek)
| Potreba | Priporočeno orodje | Opombe |
|---|---|---|
| Vreme za mesto (npr. Ljubljana, Maribor) | Weather API | API ključ iz AiServiceConfig / Shared credential. Najhitrejše in zanesljivo. |
| Statična HTML stran (blog, dokumentacija, novice brez JS) | Web Scraper Tool | En URL ali rekurzivno/sitemap. Ne izvaja JavaScripta. |
| Stran, ki zahteva JavaScript (npr. vreme.arso.gov.si, SPA) | Playwright Web Scraper ali Puppeteer Web Scraper (Document Loader) | Uporabite v pipelineu / Document Store, ne kot agent tool. Izvajata JS v brskalniku. |
| Iskanje po spletu (search) | Brave Search, Exa Search, Tavily itd. | Agent tooli za iskanje; za vsebino strani nato Web Scraper ali Playwright. |
Web Scraper Tool (agent tool)
- Namen: Pridobivanje besedila s spletnih strani, ki so že v začetnem HTML-u (brez izvajanja JavaScripta).
- Vhod: En URL (npr.
https://example.com/page). - Izhod: JSON z
url,title,description,body_text(in po potrebierror).
Vizualni prikaz v Flowise (Agentflow V2)
Spodaj je prikazano, kako izgleda Web Scraper Tool orodje, ko ga dodate na Agent Canvas:

Kdaj deluje dobro
- Strani z veliko vsebine v tagih
<p>ali vmain/article/body. - Blogi, dokumentacija, preproste novice (če so vsebina že v HTML-u).
Kdaj ne deluje (prazen ali neuporaben body_text)
- Strani, ki vsebino naložijo z JavaScriptom (React, Vue, “Nalagam…”, “Please enable JavaScript”).
- V takih primerih orodje:
- Odstrani
script,style,noscript,template,svgiz HTML-ja (manj šuma). - Zazna tipične placeholdere (npr. “Please enable JavaScript”, “Nalagam”) in v odgovor doda error z napisom, da je stran JS-renderirana in naj se uporabi Puppeteer/Playwright.
- Odstrani
Robustnost
- Orodje ni bilo oslabljeno: za običajne statične strani obnašanje ostaja enako ali boljše (čistejše besedilo brez skript).
- Če dobite v odgovoru
erroro JavaScript-renderirani strani, uporabite Playwright ali Puppeteer Document Loader za ta URL.
Weather API (agent tool)
- Namen: Trenutno vreme in napoved za kraj (mesto ali “Mesto, Država”).
- Vhod: Lokacija (npr.
Ljubljana,Maribor, Slovenia,London). - Credentials: WeatherAPI.com ključ (nastavi se v AiServiceConfig pod “Other Services” in zaseje kot “Shared Weather API”).
Za vremenske podatke je to primerna izbira; za strani tipa vreme.arso.gov.si (težke JS aplikacije) raje uporabite Weather API ali Playwright za ARSO, ne Web Scraper Tool.
Playwright / Puppeteer (Document Loaderji)
- Kje jih najdete: V flowu kot Document Loader (npr. Playwright Web Scraper, Puppeteer Web Scraper), ne v sekciji agent Tools.
- Kdaj jih uporabiti: Ko stran za prikaz vsebine zahteva izvajanje JavaScripta (npr. vreme.arso.gov.si, enostranične aplikacije).
- Nastavitve: “Wait Until” (npr. Network Idle), “Wait for selector to load” – izberite selektor, ki se pojavi, ko je vsebina naložena.
Podrobnosti so v dokumentaciji Document Loaderjev: Playwright Web Scraper, Puppeteer Web Scraper.
Primeri
- “Kakšno je vreme v Ljubljani?” → Agent uporabi Weather API z vhodom
Ljubljana(aliLjubljana, Slovenia). - “Kaj piše na https://example.com/blog/post?” (statična stran) → Web Scraper Tool z danim URL-jem.
- “Pridobi vsebino z https://vreme.arso.gov.si/” → Playwright Web Scraper (Document Loader) v pipelineu; Web Scraper Tool bo za to stran vrnil opozorilo o JS-renderirani strani.