Blog

(Leestijd: 2 - 3 minuten)

Amerikaanse marine

Beter begrip van de fundamentele sociale dynamiek, evolutie van linguïstische gemeenschappen, nieuwe vormen van collectieve expressie in de loop der tijd

Onderzoekers van de Amerikaanse marine willen een wereldwijd archief van sociale media creëren met 350 miljard digitale gegevensrecords als onderdeel van lopende onderzoeksinspanningen op de Naval Postacademische School in Monterey, Canada, uitgevoerd door het Ministerie van Defensie en Analyse aan de Marine Postacademische School.
Zoals in de synopsis is uiteengezet, beoogt het militaire onderzoeksproject een beter begrip van de fundamentele sociale dynamiek te bieden, de evolutie van linguïstische gemeenschappen en nieuwe vormen van collectieve expressie in de loop van de tijd en tussen landen te modelleren.
De Amerikaanse marine wil tussen minimaal 7 januari 2014 en 31 december 2016 via social-mediaberichten doorspitten en de gegevens verzamelen op één enkel social media platform dat bestaat uit "alle openbaar beschikbare berichten, opmerkingen of berichten verzonden op het platform gedurende de opgegeven periode. "

Archief zal records bevatten van 200 miljoen gebruikers uit 100 landen

200 miljoen unieke gebruikers uit ten minste 100 landen zullen hun berichten laten toevoegen aan het wereldwijde sociale media-archief van de marine. Geen enkel land kan meer dan 30% van de gebruikers als input hebben.
Bovendien moet het archief "berichten bevatten die zijn geschreven in ten minste 60 talen, waarbij ten minste 50% van de berichten zijn geschreven in niet-Engelse talen."

Uitlsuitend openbare informatie

In de samenvatting van het project wordt echter ook vermeld dat de verzamelde gegevens "uitsluitend uit openbare informatie" moeten bestaan, zonder dat er privégegevens moeten worden gecrawld en aan de database moeten worden toegevoegd.
De rest van de minimumvereisten voor de 350 miljard records die moeten worden verzameld voor het archief zijn als volgt:

  • Elke record in het archief moet de volledige tekst van een post op sociale media bevatten, ongewijzigd ten opzichte van de oorspronkelijke inhoud en opmaak, met alle openbaar beschikbare metadata, inclusief land, taal, hashtags, locatie, handle, timestamp en URL's, die waren geassocieerd met de originele posting.
  • Alle records moeten de tijd en datum bevatten waarop elk bericht is verzonden en de openbare gebruikershandgreep die aan het bericht is gekoppeld.
  • Geschatte locatie-informatie, met zelf gerapporteerde woonplaats van gebruikers, of andere openbaar beschikbare geolocatie-informatie, moet worden opgenomen voor ten minste 20% van de records

Gegevens zullen worden gebruikt voor pedagogische doeleinden

De synopsis van het onderzoeksproject zegt ook dat de gegevens zullen worden gebruikt voor pedagogische doeleinden, om 'studenten nieuwe kansen te bieden voor thesisonderzoek en de ontwikkeling van' big data 'analytische vaardigheden."

Het militaire onderzoeksteam wil "een grootschalig wereldwijd historisch archief van sociale mediadata verkrijgen, met de volledige tekst van alle openbare sociale mediaposts, in alle landen en talen die onder het sociale mediaplatform vallen."

"Met sociale mediadata kunnen we voor het eerst meten hoe informele expressies en straattaal evolueren in de loop van de tijd, in een breed scala van menselijke samenlevingen, zodat we kunnen beginnen te begrijpen hoe en waarom gemeenschappen ontstaan rond bepaalde vormen van woordwijzigingen, "vertelde T. Camber Warren (de belangrijkste onderzoeker die aan het project was toegewezen) aan Bloomberg.

Bron:Bleeping Computer

Image sources