Augustus 2015, ik was voor het eerst bezig met Python voordat ik in September zou beginnen aan een minor in Applied Data Science bij Fontys ICT. (Voorheen had ik enkel nog met PHP content opgehaald voor de SEO scan van Websitescanner).

Voordat je machine learning en andere algoritmen kunt toepassen is het belangrijk om data te hebben.

Data scraping met Python

Als test met data scraping schreef ik een klein script om prijzen van Jumbo supermarkten op te halen met Python (per Jumbo supermarkt).

Niet heel netjes geschreven maar het werkte. Omdat Jumbo meerdere prijsmodellen hanteert (afhankelijk van de concurrentie kan een product soms 10 cent duurder of goedkoper zijn) moest dit script per Jumbo locatie de prijs controleren.

Volgende stap die ik nam was het ophalen van dezelfde prijzen bij Albert Heijn. Dit was vrij makkelijk.

Toen ik de prijzen van avocado’s bij Jumbo en Albert Heijn naast elkaar had ben ik het gaan uitbreiden met als resultaat dat ik de eerste boodschappen vergelijkingssite in Nederland, Boodschappen.io.

Doormiddel van Affiliate Marketing nog een tijd geld verdient (met het promoten van maaltijdboxen en alternatieve webwinkels voor bijvoorbeeld wijn als iemand daar op zocht) voordat ik de site offline haalde.

Kon de prijzen niet goed up-to-date halen door missende data en veranderende lay-outs bij de webwinkels.

Was ook bang dat de supermarkten niet super blij zouden zijn met al het dataverkeer. Vergeleken met concurrenten die later online kwamen was wat ik deed nog peanuts.

Zowel de scrapers als de site zelf werkte op basis van Python.