Spring naar bijdragen

  • Is Dit de Grootste Toekomstige Strijd voor Stichting Brein: De Oorlog tegen Illegale AI-Datasets?

     Delen


    Het bestrijden van het gebruik van illegale datasets voor het trainen van AI modellen is een complexe en uitdagende taak. De afgelopen tijd heeft Stichting Brein bijvoorbeeld een grote Nederlandse dataset offline gehaald, die bestond uit boeken, nieuwsartikelen van websites zoals Nu.nl, en ondertitels van films en tv-series uit illegale bronnen. Dit is een duidelijke stap in de strijd tegen het misbruik van auteursrechtelijk beschermd materiaal, maar maar is het ook mogelijk om grip te krijgen op dit probleem?

    Makkelijk aan data te komen

    Informatie die online beschikbaar is, zoals nieuwsartikelen, ondertitels en zelfs openbare kunstwerken, is vaak slechts een paar klikken verwijderd. Voor AI ontwikkelaars die hun modellen willen trainen, is het technisch gezien relatief eenvoudig om grote hoeveelheden data te verzamelen via technieken zoals webscraping. Dit maakt het erg verleidelijk om deze data te gebruiken, zelfs als dat niet legaal is. Veel mensen realiseren zich niet dat het kopiëren van deze informatie een inbreuk op auteursrechten is, of ze denken dat de kans dat ze gepakt worden klein is.

    Moeilijk om op te sporen

    Zelfs als een illegale dataset wordt ontdekt en offline gehaald, zoals Stichting Brein recentelijk heeft gedaan, blijft het lastig om de verspreiding ervan volledig te stoppen. Data kan snel opnieuw worden gedeeld via andere kanalen of worden opgeslagen op locaties buiten het bereik van nationale wetgeving. Daarnaast is het moeilijk om te achterhalen wie de dataset allemaal heeft gedownload en gebruikt. Dit maakt de handhaving van auteursrechten erg ingewikkeld, zeker als de data al in verschillende AI modellen is verwerkt.

    Snel veranderende technologie

    De technologie rond AI ontwikkelt zich sneller dan ooit. Nieuwe methoden en technieken voor het verzamelen en verwerken van data worden continu ontwikkeld, wat het voor wet en regelgeving lastig maakt om bij te blijven. Terwijl de technologie vooruit dendert, blijven juridische kaders vaak achter. Dit zorgt ervoor dat degenen die zich niet aan de regels houden vaak een technologische voorsprong hebben, en dat maakt het moeilijker om hen op verantwoording te roepen.

    Wereldwijd probleem

    Het internet kent geen grenzen, en dat maakt de handhaving van auteursrechten extra lastig. Een dataset die in Nederland illegaal wordt bevonden, kan eenvoudig naar servers in een ander land worden verplaatst, waar de regels misschien minder streng zijn. Internationale samenwerking is daarom cruciaal, maar dit is vaak complex en traag. Bovendien zijn de juridische systemen en handhavingscapaciteiten per land verschillend, wat het moeilijk maakt om wereldwijd dezelfde normen toe te passen.

    Gebrek aan bewustzijn

    Veel AI ontwikkelaars zijn zich niet volledig bewust van de juridische en ethische implicaties van het gebruik van bepaalde datasets. Onderzoeken, zoals die van de NOS, hebben aangetoond dat werken van Nederlandse beeldmakers zonder hun toestemming zijn gebruikt voor het trainen van bekende AI afbeeldinggeneratoren zoals DALL-E en Midjourney. Dit gebrek aan bewustzijn kan deels worden verklaard door de complexiteit van de technologie en de snelheid waarmee deze zich ontwikkelt, maar het toont ook aan dat er meer gedaan moet worden om ontwikkelaars en bedrijven bewust te maken van de risico's en verantwoordelijkheden.

    Conclusie

    De acties van Stichting Brein laten zien dat er stappen worden gezet om het probleem aan te pakken, maar het blijft een grote uitdaging. De combinatie van makkelijk toegankelijke data, de moeilijkheid van handhaving, de snel veranderende technologie, de internationale dimensie van het probleem, en het gebrek aan bewustzijn onder AI ontwikkelaars maken dit een uiterst complexe kwestie. Om echt vooruitgang te boeken, zal een breed scala aan maatregelen nodig zijn, variërend van technologische innovaties en strengere handhaving tot meer samenwerking en bewustwordingscampagnes. Het is duidelijk dat dit geen probleem is dat eenvoudig kan worden opgelost, maar elke stap in de goede richting helpt om de impact te verminderen.

    Door William,

     



    William
     Delen


    Terugkoppeling

    Aanbevolen reactie

    • Administrators

    De AI-Dataset die door BREIN offline is gehaald was gericht op het ondersteunen van AI computermodellen en in het bijzonder voor zogenaamde large language models (LLMs). Er zitten grote verschillen in de door AI gebruikte datasets en is ook volledig afhankelijk van het doel van de gegenereerde content. Hieronder een korte opgave van de verschillen waar we op dit moment mee te maken hebben als consument.

    Het gebruik van AI-datasets verschilt aanzienlijk op basis van het uiteindelijke doel, namelijk persoonlijk gebruik of algemeen openbaar gebruik, vooral in de context van grote taalmodellen (LLMs). Hier is een korte uitleg van de verschillen:

    ### AI-datasets voor Persoonlijk Gebruik:
    1. **Doel**: De datasets worden gebruikt om modellen te trainen die gepersonaliseerde content genereren voor individueel gebruik. Dit kan bijvoorbeeld zijn voor persoonlijke projecten, hobby's, zelfstudie of entertainment.
    2. **Dataset Samenstelling**: De datasets kunnen bestaan uit persoonlijke notities, e-mails, privé-documenten, of andere persoonlijke gegevens die relevant zijn voor de gebruiker.
    3. **Privacy en Veiligheid**: Aangezien de data vaak persoonlijk en gevoelig kan zijn, is privacy een belangrijke overweging. Er moeten adequate maatregelen worden genomen om ervoor te zorgen dat de data niet wordt gelekt of misbruikt.
    4. **Nauwkeurigheid en Validatie**: De focus ligt op het genereren van content die nuttig en relevant is voor de gebruiker. De nauwkeurigheid en validatie van de output kunnen minder streng zijn omdat er geen brede consequenties zijn voor het publieke domein.

    ### AI-datasets voor Algemeen Openbaar Gebruik:
    1. **Doel**: De datasets worden gebruikt om modellen te trainen die content genereren voor een breed publiek. Dit omvat nieuwsartikelen, openbare blogs, wetenschappelijke stukken, en andere vormen van massacommunicatie.
    2. **Dataset Samenstelling**: Deze datasets zijn vaak samengesteld uit breed toegankelijke en geverifieerde bronnen zoals encyclopedieën, officiële rapporten, wetenschappelijke papers, en gecontroleerde nieuwswebsites.
    3. **Privacy en Veiligheid**: Aangezien de output voor het grote publiek is, moeten deze datasets voldoen aan strenge privacywetten en ethische richtlijnen om ervoor te zorgen dat geen persoonlijke of misleidende informatie wordt verspreid.
    4. **Nauwkeurigheid en Validatie**: Er zijn hoge standaarden voor de accuraatheid en betrouwbaarheid van de gegenereerde content omdat foutieve informatie kan leiden tot verkeerde beslissingen of publieke misleiding. Vaak wordt er een strikter validatieproces toegepast om de waarheidsgetrouwheid van de artikelen te waarborgen.

    ### Specifieke Overwegingen voor Gedeeltelijk Waarheidsbewuste Artikelen:
    - **Bronverificatie**: Voor datasets die gedeeltelijk waarheidsbewuste artikelen bevatten, is het cruciaal om de bronnen en de integriteit van de informatie streng te controleren.
    - **Bias en Ethiek**: Het gebruik van dergelijke datasets moet zorgvuldig worden gemonitord om bias te minimaliseren en te voorkomen dat foutieve of misleidende informatie wijdverspreid wordt.

    Samenvattend, het verschil tussen AI datasets voor persoonlijk en algemeen openbaar gebruik ligt voornamelijk in hun doelstelling, de samenstelling van de datasets, privacy- en veiligheidsmaatregelen, en de mate van nauwkeurigheid en validatie die vereist is voor de gegenereerde content.

    Link naar opmerking
    Deel via andere websites



    Doe je mee?

    Je kunt nu een bericht plaatsen en je later registeren. Als je al een account hebt, kun je je hier aanmelden.
    Note: Your post will require moderator approval before it will be visible.

    Gast
    Voeg een reactie toe...

    ×   Je hebt opgemaakte inhoud geplakt.   Opmaak verwijderen

      Only 75 emoji are allowed.

    ×   Jouw link is automatisch embedded.   Toon als een normale link

    ×   Je vorige inhoud is hersteld.   Schoon editor

    ×   You cannot paste images directly. Upload or insert images from URL.


Mededelingen

  • Nieuwe handleiding

  • Laatste nieuws

  • Willekeurig topic

  • Nu op het forum

    heaven1

    Geplaatst

    Hallo mensen    Heeft er iemand een invite voor me van deze site onhit https://onehit.org/login/   Alvast bedankt hiervoor

    jackjack78

    Geplaatst

    Happy New Year! I hope this year brings you plenty of joy and great moments. Let’s make it a year filled with fun, growth, and exciting adventures!

    Eater

    Geplaatst

    Emma Mackey gecast als de Witte Heks in Greta Gerwig's Narnia-film In een spannende ontwikkeling heeft de BAFTA-winnaar Emma Mackey, bekend van de populaire serie Sex Education, de rol van de Witte Heks weten te bemachtigen in de aankomende Narnia-film van filmmaker Greta Gerwig. Volgens The Hollywood Reporter zal Mackey samen te zien zijn met de legendarische Meryl Streep, die in onderhandeling is om de rol van Aslan te spelen, en Daniel Craig, die de oom van Digory Kirke zal vertolken. Netflix heeft nog niet officieel gereageerd op deze casting, maar het lijkt erop dat de film zich zal richten op The Magician’s Nephew, het zesde boek uit de geliefde Narnia-serie van auteur C.S. Lewis. Dit verhaal onthult de oorsprong van de magische wereld van Narnia en volgt twee kinderen, Digory Kirke en Polly Plummer, die via de magie van Digory's oom Narnia ontdekken en de kwaadaardige Witte Heks, ook wel bekend als Jadis, tegenkomen. In een opvallende zet voor Netflix krijgt de film een exclusieve wereldwijde IMAX-release van twee weken in 2026, voordat hij op de streamingdienst beschikbaar komt. Dit markeert een nieuwe strategie voor Netflix, dat in 2018 aankondigde nieuwe series en filmprojecten te ontwikkelen op basis van de iconische Chronicles of Narnia-serie. Gerwig heeft inmiddels een overeenkomst gesloten om minstens twee van deze films te schrijven en te regisseren. De boekenreeks van C.S. Lewis is in het verleden meerdere keren aangepast, waaronder een geanimeerde mini-serie in 1979 en een filmreeks die begon met The Lion, the Witch and the Wardrobe in 2005, geregisseerd door Andrew Adamson. De aankomende film zal ook een reunie betekenen voor Gerwig en Mackey, die eerder samenwerkten aan de kaskraker Barbie van Warner Bros. Met de casting van Emma Mackey als de Witte Heks belooft deze nieuwe interpretatie van Narnia een spannende en visueel verbluffende ervaring te worden. Fans van de boeken en de eerdere films kijken reikhalzend uit naar deze nieuwe aanpassing, die ongetwijfeld een frisse kijk zal bieden op een tijdloos verhaal.
  • Recente actieve topics

×
×
  • Nieuwe aanmaken...