Data Miner: jak pobierać dowolne dane ze stron, bez API?

0 napisany przez Sławomir Borowy, 21 maja 2020

Wyciąganie danych ze stron, które nie oferują API potrafi być nużące. Czasem pomoże Screaming Frog z opcją ekstrakcji danych po XPath, ale liczba błędów jakie zrobisz zanim dostaniesz potrzebne dane, może popsuć Ci dzień. A gdyby tak „wybierać” myszką dane, które chcemy pobrać z dowolnej strony?  

Data Miner Tool

Dane, za darmo!

Data Miner, to wtyczka do Chrome, która pozwala (przynajmniej częściowo) wizualizować proces wyboru danych które chcesz pobrać. Co lepsze – narzędzie to potrafi samodzielnie przechodzić na kolejne podstrony, aby pobrać więcej danych. 

Data Miner extracts to CSV


Data Miner posiada płatne plany, ale to co wszyscy lubimy to wersja darmowa , która pozwala pobierać dane z 500 stron miesięcznie. O ile nie jesteś szalonym headhunterem zbierającym po forach kontakty do programistów, a tylko czasem potrzebujesz stworzyć jakiś zbiór danych (np. listę serwisów dostępnych w popularnym portalu oferującym sprzedaż artykułów sponsorowanych), to możesz to zrobić zupełnie za friko i to bez wiedzy programistycznej!

Do czego przyda się Data Miner? 

Wiecie ile średnio kosztuje link z publikacji na WhitePressie? 300 zł netto.
Co ciekawe, średnio ma on 128 tys. unikalnych użytkowników miesięcznie generujących średni szacowany wg Senuto ruch na poziomie 32 tys. sesji :) 
Uzyskanie takiej wiedzy, to jeden ze scenariuszy użycia Data Minera. 

Pobieranie maili, numerów telefonów, czy linków z wybranej podstrony to zadania, które potrafią być przy większych serwisach dość nużące, ale nie oszukujmy się – jeśli coś da się zrobić naokoło, ale bez uczenia nowych rzeczy, to będziemy to robić naokoło (czyt. kopiować ręcznie).
Trudniej robi się, gdy dane znajdują się np. na kilkudziesięciu podstronach, wtedy wyszukiwanie konkretnych danych robi się kłopotliwe i grozi błędami. Tutaj Miner może zaoszczędzić mnóstwo czasu.

Jak to działa?

Pozwolę sobie pominąć omawianie procesu konfiguracji zbierania danych – autorzy zrobili to wystarczająco dobrze, i choć na początku prawie na pewno zrozumienie mechanizmów będzie nieco kłopotliwe, warto zacząć po prostu od tutoriali przygotowanych przez autorów.

Ja pokażę Wam jak pobrać listę ponad 10 tys. ofert publikacji sponsorowanych z cenami, tematyką i danymi o ruchu i użytkownikach z WhitePressa.
Oczywiście sam portal umożliwia proste operacje na tych danych dzięki filtrom i sortowaniu, ale już np. listowanie wg liczby linków przychodzących nie jest możliwe i dla każdego adresu trzeba za każdym razem sprawdzać indywidualnie.

Moja przykładowa konfiguracja „przepisu” dla Data Minera składa się z 5 kroków (można wykonać więcej typów operacji, ale nasz proces jest dość prosty).
Na wybranej stronie z danymi uruchamiamy wtyczkę i wybieramy opcję „New recipe” a potem w kolejnych zakładkach:

1. Wybór typu zbieranych danych:
 lista (dane z tabeli) albo dane szczegółowe (np. z kart produktów)

2. Określenie wierszy tabeli: tu jest smaczek, że dane dla narzędzia zaznaczamy klawiszem SHIFT (nic nie klikamy na stronie!):

(wskazówka: narzędzie nie umie samo wyłapać nagłówków w tabeli, ale dookreślając kodem „tbody>tr” pominiemy analizowanie nagłówków – to przydaje się kiedy, pobieramy dane z wielu podstron, bo wtedy za każdym razem pobierane będą też nagłówki)

3. Określanie kolumn z których mają zostać zebrane dane: może ich być dowolnie dużo, ale każdorazowe określanie co dokładnie chcemy pobrać wymaga nieco zabawy i testów – i tutaj właśnie narzędzie dzięki wizualnej oprawie i możliwości testowania niemal na żywo (kliknij w ikonę oka!) pozwala na wyciągnięcie takich danych jakie potrzebujemy:   



4. Paginacja: jedna z unikalnych cech narzędzia, która pozwala określić gdzie szukać danych dalej – dzięki czemu możliwe jest pobranie danych z setek kolejnych podstron automatycznie:

5. Zatwierdzanie i zapisywanie przepisu, który potem możemy uruchamiać dowolnie często (ale pamiętajcie o limicie 500 stron miesięcznie!):

Tak wygląda przykładowa podstrona z zaznaczonymi danymi do ekstrakcji:



A tak wygląda wynik pobrania danych, które możemy eksportować do CSV/XLS i pracować z nimi dalej w dowolny sposób:

Dowiedz się jak, wdrożyć nową wersję GA4 i zarządzać jej ustawieniami.


Bonus! dla leniwych:

O ile polecam pobawić się narzędziem (bo dostarcza mnóstwo radości), to przecież nie mogę się łudzić, że choć 10% z Was będzie się chciało testować, dopóki naprawdę nie będziecie tego potrzebować. 
Szanuję Wasz czas, dlatego w ramach zachęty do testowania dołączam opracowany gotowiec do pobrania: arkusz z listą serwisów dostępnych w WhitePress wraz z cenami, danymi o ruchu, indeksacją w Google oraz dodatkowo liczbą linków/domen zewnętrznych z MajesticSEO (dodatkowe dane zostały oczywiście dołączone już po zebraniu głównej listy domen). Enjoy! ;)
   

5/5 - (1 vote)

O autorze:

Sławomir Borowy

Nie ma dla niego straconych tematów. Nawet, kiedy wszystko wskazuje na to, że strona przestanie być widoczna w wyszukiwarce, on znajduje sposób na odwrócenie trendu. To dlatego obsługuje najważniejszych klientów w agencji 4PEOPLE. Na imprezach branżowych udowadnia, że o marketingu w wyszukiwarkach można mówić zajmująco, ale też z sensem. Jego wystąpienia mogli oglądać goście wydarzeń, m.in.: Silesia SEM, Festiwal SEO, czy Internetowe Rewolucje z Google. Angażuje się w działalność społeczną. W 2013 roku przez trzy tygodnie uczył kenijskich nauczycieli podstaw obsługi komputerów i internetu.

Spodobał Ci się artykuł? Oceń go!

5/5 - (1 vote)
Reklama w Internecie nie musi być droga!

Reklama w Internecie nie musi być droga!

Umów się na konsultację i poznaj propozycję naszych działań wraz z ich wyceną.

Marketing dla ludzi
Zapisz się do newslettera!
Zdobywaj wiedzę! Co dwa tygodnie otrzymasz najciekawsze artykuły na swoją skrzynkę e-mail!
...i dołącz do ponad 600 subskrybentów!