Twee gigabyte aan gebruiksgegevens van zijn zoekmachine gooide AOL op straat, voor onderzoeksdoeleinden. Dat gebeurde afgelopen week. Het ging om 20 miljoen zoekopdrachten van 658.000 webzoekers. De data waren geanonimiseerd. Toen de downloadlink uitlekte kon iedereen de zoekopdrachten bestuderen, een indruk krijgen van hetgeen men naar zoekt. Meer niet. Maar het duurde echter niet lang voordat de New York Times de anonieme data wist te combineren en een naam en gezicht aan AOL-zoeker nummer 4417749 wist te hangen. Elsevier-verhaal hier. Voor zover de anonimiteit.
Hoewel er op het eerste oog geen schokkende dingen zijn gebeurd met de verstrekte AOL-data roept deze gebeurtenis weer vragen rondom privacy van internetgebruikers op. Waarom moeten die data, in dit geval over een tijdspanne van 3 maanden, bewaard worden? Zoekmachines als Google en AOL zeggen dat dat nodig is voor marketing- en eigen onderzoeksdoeleinden. Zonder historische zoekdata, zegt Google, zou het bedrijf bijvoorbeeld geen alternatieve spelling van zoekopdrachten kunnen suggereren ("Bedoelde u XYZ?"). Waar zoekbedrijven dit soort zoekgegevens nog maar gebruiken is geen publieke informatie. Immers, de data zouden als basis moeten dienen voor nog niet bestaande zoekdiensten.
Maar tot hoe is het zinvol om zoekdata te bewaren, al dan niet in combinatie met het IP-adres van de webzoeker. Jason Calacanis, oprichter van Weblogs Inc. nu met zijn Netscape.com in een strijdje verwikkeld met Digg.com, reageerde vrij stellig op het uitlekken van de zoekdata bij zijn werkgever:
"(...) Frankly, I want us to NOT KEEP LOGS of our search data. Yep, you heard that right... we shouldn't even keep this data. I know that's crazy, but I learned this week that Wikipedia turned off their log files. They did this for tech reasons, but they now are keeping them off and not looking to solve the problem because of the huge upside of users knowing their searches on Wikipedia DON'T EVEN EXIST! (...)"Wikipedia, dus, bewaart helemaal geen zoekgeschiedenis van zijn gebruikers (wel de changelogs van lemma's). En de van oorsprong Nederlandse metazoeker Ixquick besloot enkele maanden geleden ook alle zoekhistorische gegevens van zijn gebruikers te wissen, twee weken na datainvoer. Dat is niet bijzonder vreemd, aangezien Ixquick geen zoekbedrijf pur sang is, maar een schil bovenop meerdere zoekmachines. Hoe dan ook, het initiatief zou navolging moeten krijgen in de markt. Immers, exploitant Alex van Eesteren stelt een daad en stelt een maximum bewaartermijn aan de data die zijn gebruikers achter laten.
Brewster Kahle zei in oktober 2005 tijdens Robert Cringelys NerdTV-uitzending het volgende over privacy, het bewaren van zoekgegevens en zoekmachines:
"(...) Dat roept vragen op over privacy waar we op langere termijn over na moeten denken. Nu gaat dat goed, maar bedrijven veranderen net zoals hun bestuurders en hun grenzen. Ze onthouden exact wie wannneer welke zoekopdracht invoerde. Die gegevens kunnen ze aan een IP-adres relateren en daarmee aan een persoon. Zo krijgen ze een zeer verfijnd beeld van iemands interesses. Het is niet zoals een bibliotheek waar je anoniem een boek kunt pakken en er doorheen bladeren.Maar toen hadden we in de Europa de wettelijk verplichte bewaarplicht van verkeersgegevens voor telecom-, internet- en hostingbedrijven nog niet. Zou een zoekstring overigens onder de bewaarplicht vallen ... ? Google hoofd Privacy, onlangs in Nederland, ziet een IP-adres in ieder geval niet als een persoonsgegeven.
We beginnen ons nu pas te beseffen wat er bewaard wordt over ons. Je moet nu beginnen met het weggooien van gegevens. Gooi bijvoorbeeld alle data van ouder dan dertig dagen weg nadat je de marketinggegevens eruit hebt gedestilleerd. We hebben leiders nodig die vertellen hoe ze dat doen. Zij moeten een voorbeeld stelllen. Ik denk dat die voorbeelden afkomstig zullen zijn uit de technologische non-profit sector. Denk aan organisaties als EFF, Creative Commons, Mozilla en Apache. (...)"
Op 3 augustus liet Google-stagiair Dan Frankowski tijdens een conferentie zien dat niet enkel het zoekbedrijf zelf verantwoordelijk gehouden kan worden voor de privacy van zijn gebruikers. Hij toonde aan dat geanonimiseerde publieke data met elkaar gecombineerd kunnen worden om alsnog de identiteit van webzoekers of recensenten achteraf alsnog kan worden vastgesteld.
Gepost door erwin op augustus 12, 2006 01:37 pm | Rubriek: Algemeen , Audio/video , Technologie



