måndag, november 17, 2008

En teknisk fråga

Jag läste ett inlägg av Josef och följande fråga uppstod då jag håller på att skriva en text som ska publiceras i akademiska sammanhang. Vad är förhållandet mellan metadata och trafikdata? Jag uppfattar att trafikdata är en form av metadata, där det senare är ett mer omfattande begrepp. Stämmer det? Finns det något tekniskt lexikon, lärobok i datalogi eller annat verk där jag kan hitta detta definierat? Jag kan inte hänvisa till wikipedia i dessa sammanhang.

48 kommentarer:

Anonym sa...

metadata är data om datat. metadata kan vara inbäddat i själva dataströmmen men det kan lika gärna komma utanför dataströmmen.

Exempelvis en mp3 fil (kan ha) ett antal headers inbäddat i själva filen som beskriver vad filen innehåller. Det är metadata som är inbäddat i mediet självt.

Andra exempel på metadata är abbonnent datat, duration, start stop om t.ex ett telefonsamtal. Detta är exempel på metadata som inte är inbäddat i trafikdatat. Detta p.g.a att telenätet består av två nät, ett signalnät och ett trafiknät. Ett inspelat telefonsamtal, d.v.s själva talet, är ointressant utan vidhängande metadata, d.v.s vem ringde vart, och när.

Men, knorren är som sagt, metadata är data some beskriver datat på något sätt.

/klacke

Mark Klamberg sa...

Klacke,
Jag har två frågor.

1. Är trafikdata inbäddat i trafikströmmen? Jar har uppfattat att det är så.

2. I 5 § förordning (2007:261) om behandling av personuppgifter i Försvarets radioanstalts försvarsunderrättelse- och utvecklingsverksamhet står följande:

"5 § Vid Försvarets radioanstalt får det finnas uppgiftssamlingar för information om signalmiljön. Uppgiftssamlingarna får endast innehålla information och tekniska parametrar som rör signalmiljön.

Personuppgifter i en uppgiftssamling för information om signalmiljön skall gallras senast vid utgången av det första året efter det att behandlingen av uppgifterna påbörjades, om inte Försvarets radioanstalt dessförinnan har beslutat att uppgifterna skall bevaras därför att de fortfarande behövs för det ändamål för vilket de behandlas. Om uppgifter bevaras med stöd av ett sådant beslut skall de gallras eller frågan om bevarande prövas på nytt senast vid utgången av det första året efter beslutet."

Detta rör en databas (uppgiftssamling). Uppfattar du att trafikdata lagras i denna, tillhör trafikdata signalmiljön?

Alternativet är följande.
"2 § Vid Försvarets radioanstalt får det finnas uppgiftssamlingar för råmaterial. Uppgiftssamlingarna får endast innehålla obearbetat och automatiskt bearbetat material som har inhämtats i försvarsunderrättelseverksamheten och utvecklingsverksamheten.

Personuppgifter i en uppgiftssamling för råmaterial skall gallras senast vid utgången av det tredje året efter det att behandlingen av uppgifterna påbörjades, om inte Försvarets radioanstalt dessförinnan har beslutat att uppgifterna skall bevaras därför att de fortfarande behövs för det ändamål för vilket de behandlas. Om uppgifter bevaras med stöd av ett sådant beslut skall de gallras eller frågan om bevarande prövas på nytt senast vid utgången av det tredje året efter beslutet."

eldh sa...
Den här kommentaren har tagits bort av skribenten.
Mark Klamberg sa...

Klacke, du skriver:
"Andra exempel på metadata är abbonnent datat, duration, start stop om t.ex ett telefonsamtal. Detta är exempel på metadata som inte är inbäddat i trafikdatat."

"Duration, start och stop" har jag uppfattat är del av trafikdata. Som jurist har jag tittat på cyberbrottkonventionen som anger följande definition.

"traffic data" means any computer data relating to a communication by means of a computer system, generated by a computer system that formed a part in the chain of communication, indicating the communication’s origin, destination, route, time, date, size, duration, or type of underlying service.

Är det en felaktig definition eller möjligen en definition som avviker från hur tekniker ser på saken?

Mark Klamberg sa...

Klacke,
För att undvika missförstånd. Jag skiljer på innehållsdata och trafikdata, där jag tror att det senare är en form av metadata.

eldh sa...

Den vanligaste definitionen jag har sett av metadata är "data om data".

Om trafikdata ska klassas som meadata beror på användningen av trafikdatan. Den kan ses som metadata, om det är innehållet i paketet/sessionen som är intressant, eller som "vanlig" data, om man använder informationen som trafikdatan ger för sig själv. Om man exempelvis bygger ett sociogram är innehållen i paketen som skickas irrelevanta, och trafikdatan kan rimligen inte ses som metadata.

"Metadata is structured information that describes, explains, locates, or otherwise makes it easier to retrieve, use, or manage an information resource. Metadata is often called data about data or information about information." – http://www.niso.org/publications/press/UnderstandingMetadata.pdf

Trafikdata är, om man ska vara metaforisk, kuverten som datan skickas i. Där finns address och avsändare (i form av ip-nummer), och rimligen bör även tidpunkt och möjligtvis trafikens storlek räknas som trafikdata. Svaret på fråga 1 är således JA.

Vad som menas signalmiljö är inte solklart, men med största säkerhet ingår trafikdata i begreppet. Den andra paragrafen du citerar inkluderar uppenbarligen även innehållet i trafiken.

eldh sa...

Din definition av trafikdata verkar rimlig, och jag antar att FRA kommer att tolka begreppet på liknande sätt. Det innebär i så fall att trafikdatan är mycket användbar "för sig själv". Du kan se vem som kommunicerat med vem, vilket program de använt, hur länge kommunikationen pågått och hur stor mängd data som skickades.

Olof Bjarnason sa...

Tror inte det finns någon formell datateknisk definition av detta Mark.

Metadata brukar, som Klacke skriver, användas så fort vi har att göra med "indirekt data" eller "data om data " (meta betyder 'om').

Andra exempel är antalet bytes stor en fil är (metadata), taggar på ett blogginlägg (metadata), headerinfo i ett mail (från,till-server etc.)

Så jag är ganska övertygad om att din tolkning är korrekt (trafikdata är en sorts metadata - trafikdata är en delmängd av metadata som man säger inom datalogin)

Hans J sa...

Så här skriver Wikipedia om 'meta-'.

Meta- är ett prefix som kommer från grekiskan och betyder mellan, efter eller över.

Jag skulle vilja använda "över" i det här sammanhanget. Det är lite grand som kuvertet i förhållandet till innehållet i ett brev. Men det är också beskrivning Om innehållet.

När man började använda "databaser" för sådär 30 år sedan hade man länge använt raka "filer". Man insåg dock att man med fördel kunde skilja på 'innehållet' och 'beskrivningen av innehållet'. Man fick betydligt bättre funktionalitet om inte beskrivningen måste ligga i själva programmet. Därför innehåller "databaser" nuförtiden särskilda filer som beskriver vad som ligger i de andra filerna i "databasen" (samling av information jämte beskrivning av informationen).

Begreppet används också i övrigt om beskrivning av data. Till exempel om "brevhuvud" i email, telefonnummer i listor av telefonsamtal. Själva telefonsamtalet kanske inte finns kvar men de använda telefonnumren; avsändande, mottagande kan finnas kvar.

Så meta-data är relativt. Man kan mycket väl tänka sig meta-data i flera nivåer.

Ett besläktat begrepp är "overhead". Overhead är någonting som hör ihop med någonting annat utan att "ingå" i det.

Mark, Behöver du mer? Jag kan skriva ett par A4-sidor om du behöver.

Anonym sa...

Som tekniker skulle jag säga att "trafikdata" inte är ett särskilt väldefinierat begrepp men jag skulle utgå från att signalering (dvs. metadata inom telekom) är vad som avses om inte sammanhanget leder mig att tro annat.

Om metadata finns inbäddat i dataströmmen eller ligger separat beror på om man tittar på ett protokoll med signalering in-band eller out-of-band.

För IP-trafik ligger metadatat i pakethuvudena, dvs. på vissa positioner i dataströmmen. Saken kompliceras dock av att man kör IP i andra transportprotokoll som även de kan innehålla metadata.

I praktiken kan svaret alltså snabbt bli lite mer luddigt än ett tydligt ja/nej. Vitsen med IP är ju att vara ett protokoll att transportera data mellan nät (inter-net) över vilt skilda transporter.

// Jonas

Mark Klamberg sa...

Orsaken till att jag frågar är flera. Dels vill jag veta i vilken databas FRA lagrar trafikdata och var det regleras i ovan nämnda förordning. Det verkar kunna gå in i både 2 och 5 §§, eller?

Den andra anledningen rör 1 § andra stycket signalspaningslagen och sidan 72 i prop. 2006/07:63.

1 § andra stycket första punkten talar om följa förändringar i signalmiljön. Stycke 2 på sidan 72 talar om signalmiljö och metadata.

1 § andra stycket andra punkten talar om teknik och metodutveckling.Stycke 3 på sidan 72 talar om teknikutveckling samt trafikdata (information om mellan vilka viss kommunikation äger rum).

Varför har man delat upp andra stycket i två punkter?

Teknik och metodutveckling verkar avse trafikdata.

Avser 1 § andra stycket första punkten om signalmiljön metadata som ej är trafikdata? Vad kan det vara för något?

eldh sa...

Jag hade trott hittills att trafikdata refererade till information man får i nätverkslagret av OSI-modellen. Men din definition verkar det som att trafikdata även inkluderar information från transport- och kanske till och med sessionslagret.

Har du inte stött på OSI-modellen tidigare kanske det är dags nu. Den förklara väl hur trafiken som skickas över internet är uppgyggd.

http://en.wikipedia.org/wiki/OSI_model

Mark Klamberg sa...

Tack för svaren,

Det verkar vara lite oklarhet i hur man ska skilja metadata från trafikdata. Jag kommer nog köra på att trafikdata är en form av metadata. Har ni någon manual eller annat punlicerat material som jag kan referera till?

Hans J sa...

Uppgiftssamling om signalmiljön skulle kunna vara abbonent-förteckning, förteckning om telefonstationer, de olika sätt som samtal mm kodas på. "Personuppgifter i uppgiftssamling" låter ju som abbonentförteckning - telefonkatalog i elektronisk form.

Jag uppfattar inte att trafikdata tillhör denna del. Personuppgifterna är ju konstanta, medan de olika nummer som rings varierar. Trafik är något som rör sig.

Dessa personuppgifter, om det är abbonentförteckning, lär ju innehålla även uppgifter om "hemliga" telefonnummer och de blir kanske även snabbt föråldrade så att dessa måste gallras verkar inte revolutionerande.

Varför inte fråga FRA, vad som avses med lagstiftningen?
Vad är det för mening med en lag som inte kan tydas?

Mark Klamberg sa...

Eldh,
Låt oss diskutera utifrån OSI-modellen.

Kan det vara så att trafikdata ligger i lager 4 (transportlager) medan det kan finnas annan metadata i lager 5-6 (nätverk- och datalinklager)? Kan detta vara förklaringen till varför man delat upp det?

Mark Klamberg sa...

Hans J,
Du kan ha rätt! Det låter rimligt.

Jag ska fråga FRA vid tillfälle. Vill först förbereda mig så jag ställer rätt frågor.

Mark Klamberg sa...

Hittade tidigare under dagen följande trevliga avsnitt i förarbetena till FRA-lagen.

"Den myndighet som regeringen bestämmer får samarbeta med andra länder och organisationer för att kunna följa förändringar i signalmiljön i omvärlden, den tekniska utvecklingen och signalskyddet samt fortlöpande utveckla den teknik och metodik som behövs för att bedriva verksamheten."

I klartext: FRA samarbetar med motsvarande organisationer i andra länder om att samla in trafikdata.

Anonym sa...

eldh: Tvärtom. OSI-modellen förklarar inte hur trafiken på ser ut. Den enklare Internetmodellen vann nämligen över OSI och nu finns det ytterst få applikationer som följer OSI. (Däremot återkommer många av begreppen så det är ändå bra som ren allmänbildning att känna till. Dock är det inte särskilt relevant för frågan om trafikdata.)

Mark: Varför man plötsligt byter begrepp mitt i texten och delar upp saker på flera snarlika punkter beror väl på att det är jurister som skrivit den? ;-)

Ärligt talat så tror jag inte du kommer någon vart med att be tekniker tolka juridiska texter. Man tolkar som bekant inte i vårt gebit, man frågar den som skrivit texten om det är några oklarheter.

"Uppgifter om signalmiljön" kan betyda precis vad som helst i mina öron.

// Jonas

eldh sa...

Den enda vettiga informationen man får på transportlagret är vilken port som kommunikationen sker över, alltså om det rör sig om web-surfning, epost, ftp-överföring, bittorrent etc. Storlek och tidsuppgifter kan lätt samlas in på sessionslagret, men även tidigare, även om det kan vara mer beräkningskrävande. Den informationen som borde vara mest relevant är väl IP-numren, som ligger i nätverkslagret. I datalinklagret finns ingen användbar information som jag kan se. Där finns bara information om vilken som är nästa anhalt för paketet, men inget om slutmottagaren.

För övrigt, att kalla trafikdata för metadata är, enligt mig, att förminska dess betydelse, eftersom trafikdatan är mycket informationsrik i sig själv. Medan begreppet metadata implicerar att det bara handlar om pekare till "riktig" information. Jag skulle säga att trafikdata är mycket viktigare än innehållsdata för de syften som FRA samlar in data.

ChrisK sa...

Som nämnts - Trafikdata är en form av metadata.

Intressant borde dock vara den legala metadata som FRA kan tillverka. Alltså hur de bygger upp sina databaser genom att kategorisera efter vissa variabler.

Tino sa...

(Det är lätt att missförstå 'trafikdata'. Min första reaktion var ganska lik Klackes då man lätt läser ett odefinerat 'trafikdata' som "all data i trafik" = innehållsdata + metadata som inbäddats i dataströmmen. )

'Trafikdata' som cyberbrottkonventionen definerar det är alltså ett väldigt specfikt subset av det i och utanför dataströmmen som kan kallas metadata. Jag antar att det är detta du menar med "trafikdata är en form av metadata" (så, ja, det är korrekt).

Ang. din senare fråga 1 till Klacke om huruvida trafikdata är inbäddat i trafikströmmen så beror det på kommunikationsprotokollet. Om vi t.ex. tittar på TCP/IP:

communication’s origin: Ja, det finns en "avsändare" i den s.k. 'header' med metadata som skickas tillsammans med innehållsdata i from av datapaket.

destination: ja, samma sak här, detta finns i headern.

route: detta är diskutabelt, mig veterligen (men jag kan ha fel) kommer inte historik om vilken väg ett datapaket tagit till mottagaren med i datapaketet (och därmed i 'trafikströmmen'). Man kan däremot logga vilken väg ett paket tagit genom att avgöra vilken kabel paketet går igenom. Detta är då en form av metadata om trafiken som jag skulle säga inte är en del av trafikflödet.

time, date: jag tror inte detta ingår i headern (men här kan jag mycket väl ha fel). Förmodligen avser cyberbrottkonventionens definition en datum/tidsstämpel när paketet uppfångades. I så fall är det ju inte denna trafikinformation en del av trafikflödet.

size: ja, detta är en del av paketen.

duration: diskutabelt, förmodligen menas: tiden en tcp/ip-anslutning varit öppen, och detta är så vitt jag vet inte inbäddat i trafikflödet, utan något man måste avgöra externt när man loggar.

type of underlying service: väldigt vagt, kan tolkas som t.ex. 'portnummer' i TCP/IP. I så fall, ja, det är med i paketen.

/Tino

Mark Klamberg sa...

Jag ska slå en signal till rättsenheten på försvarsdepartementet.

eldh sa...

Tror f ö du har misstolkat citatet om samarbete med utlänska organisationer. Om det är som Hans J säger om signalmiljön, vilket låter rimligt, så skulle detta citat endast innebära att man utbyter information om vem som gömmer sig bakom vissa ip-adresser, mail-adresser etc, men inte information om den faktiska trafiken, alltså inte trafikdata.

Man kan dock säga att FRA samarbetar med liknande organisationer om att ANVÄNDA och FÖRSTÅ den data de samlar in.

Hans J sa...

@Anonym:
Internetmodellen har inte vunnit. I praktiken är det väl så men då det i stort bara är så att 2 av lagren i OSI är sammanbakade i "internet-modellen" är det bara av akademiskt intresse.

Mark Klamberg sa...

Låt oss anta att med signalmiljö avser en abonnentförteckning, dvs motsvarande FRAs telefonkatalog. Då har vi klarat av vad följa förändringar i signalmiljön är för något. Detta lagras i signalmiljödatabasen, 5 § förordning (2007:261).

Därtill kommer metod- och teknikutvecklingen där det talas om "information ... om mellan vilka viss kommunikation äger rum". Här verkar det handla om trafikdata. Det verkar lagras i källdatabasen (uppgiftssamling för råmaterial), 2 § förordning (2007:261)

Från dessa två databaser vet man vem som talar med vem och FRa kan justera urvalsdatabasen (uppgiftssamlingar för information om företeelser mot vilka signalspaningen inriktas), 6 § förordning (2007:261).

Det är min arbetshypotes.

Anonym sa...

Hans J: Visst, OSI-modellen är inte irrelevant eftersom den mappar hyfsat mot Internetmodellen. Men det är defintivt att förvirra Marks fråga att diskutera OSI-lager. Texten gäller ju troligen även PSTN så väl som X.25 och annat.

Påståendet att OSI beskriver Internet är dock direkt felaktigt. (Både historiskt sett och tekniskt sett. Detta ville jag understryka för att inte någon skulle bli förvirrad.)

Hans J sa...

Vi har att göra med flera olika typer av dataströmmar och på olika nivåer.

När det gäller IP-paket så är det som eldh noggrant beskriver.

När det gäller telefonsamtal (som också kan gå som IP-paket) så ligger det meta-data som är aktuell i en annan nivå.

Jag tror att vi får urskilja vad det är för typ av trafik vi talar om först: IP-trafik(email, surfning mm), Telefoni (uppringare, mottagare, duration) och kanske ett antal andra men jag gissar att det i huvudsak är dessa två.

Vi kan alltså beträffande IP-telefoni ha dels metadata som beskriver ändpunkter för ip-trafiken, dels metadata på en nästa nivå som beskriver telefonnummer mm.

Det är inte säkert att juristerna har exakt klarhet i den underliggande tekniken (inte ens på FRA :-)) och att det därför är luddigt.

Mark Klamberg sa...

Hans J skriver: "Jag tror att vi får urskilja vad det är för typ av trafik vi talar om först: IP-trafik(email, surfning mm), Telefoni (uppringare, mottagare, duration) och kanske ett antal andra men jag gissar att det i huvudsak är dessa två."

Jag har skrivit två artiklar om detta på wikipedia där jag behandlar telefoni- och internettrafik separat. Kolla in svenska wikipedia "call detail record" och "Internet Protocol Detail Record". Återkom gärna därefter.

Pelle sa...

Jag tror det är riktigt att anta att med "trafikdata" menas data som finns (explicit) i dataströmmen som FRA snappar upp, t.ex. IP-nummer osv. Det är (meta)data som lagts till av någon anledning av sändaren, för att vara meningsfull för sändaren, mottagaren, en mellanhand (t.ex. en router), eller liknande. För att denna trafikdata ska kunna betraktas som metadata från perspektivet av sändare, mellanhand, eller mottagare, så måste det finnas något mer som skickas, den egentliga datan ("innehållet"), där vissa aspekter (t.ex. mottagare) av denna beskrivs av metadatan.

Givetvis kan denna information samlas in av FRA och användas som primär information, för att modellera kommunikation och skapa sociogram eller liknande. Precis som tidigare kommentatorer påpekat kan denna extraherade data knappast längre betraktas som metadata från FRA:s perspektiv - de ignorerar (oftast) den data som annars utgjorde innehållet i meddelandet, och intresserar sig primärt för det som tidigare var sekundärt (trafikdata), som i FRA:s ögon blir av primärt intresse.

Jag tror att begreppet trafikdata kan betraktas som ganska entydigt definierat oavsett vem som är betraktare eller för vilket syfte man använder den. Detsamma gäller rimligtsvis inte för begreppet metadata, då det är avhängigt betraktarens perspektiv och syfte. Därmed inte sagt att FRA och lagtexten följer detta rimliga resonemang, de skulle t.ex. kunna välja att alltid definiera metadata utifrån den normala användningen, och totalt bortse från att för deras eget syfte handlar det inte längre om metadata, utan om primärt innehåll. Men detta är bara en spekulation.

Hursomhelst, jag har en poäng till. Även om trafikdata under vissa omständigheter kan betraktas som en instans av det mer generella begreppet medatata, så kan ju givetvis metadata syfta på andra saker också - det följer ju logiskt av att det är ett mer generellt begrepp. T.ex. skulle metadata, i FRA:s tolkning, kunna syfta på data som FRA själva har "skapat" på något sätt genom att behandla dataströmmen som kommer till dem. Det kan t.ex. handla om statistik av olika slag, eller något annat data som de extraherar ur den ursprungliga dataströmmen. Jämför med begreppet Data mining. Min poäng är alltså att "metadata" kan syfta på både trafikdata (som inte skapats av FRA utan endast extraherats och insamlats i oförändrad form), och på ny "data om data" som skapats av FRA själva genom olika slags databehandling, algoritmer, etc. T.ex. skulle själva databasen som modellerar sociogram kunna sägas utgöras av metadata, data som har en högre abstraktionsnivå än den ursprungliga datan som den vaskades ut ifrån.

Mark Klamberg sa...

Jag råkar veta att FRAs sociogram lagras i analysdatabasen, 3 § förordning (2007:261). Där finns saker som "analysresultat", "bearbetningsunderlag" och "rapportunderlag". Jag tror analysresultat betecknar sociogram. Bearbetnings- och rapportunderlag verkar vara mer förädlade produkter.

Anonym sa...

Jag kan förklara tror jag.

Tänk dig en bild tagen med en kamera, en bild i jpeg format. Jpeg formatet tillåter an rad olika former av metadata, t ex. vilken kamera som använts, slutartid osv. denna metadata kallas för Exif. Professionella fotografer lägger ofta till ytterligare metadata i jpeg-filen i form av IPTC-data, som innehåller en rubrik, beskrivning, kontaktuppgifter, nyckelord om bilden osv.. Detta är typisk metadata, och den är knuten till bilden i fråga.

Så länge fotografen inte skickar bilden någonstans och den bara finns i dennes dator, så finns givetvis ingen trafikdata.

Men om fotografen sedan skickar bilden någonstans, så kan man givetvis samla trafikdata rörande denna kommunikation.

Metadata = Information inuti datan som metadatan informaerar om.

Trafikdata = Information om en utförd kommunikation.

En lasbilschaufför kan ha med sig en massa papper om vad lasten i lasbilen innehåller. Detta kan jämföras med metadata. Uppgifter om vart lastbilen kört, vilken väg, tidpunkter, hastighet osv.. är å andra sidan trafikdata som i sig inte behöver ha något att göra med vad lasten innehöll.

Blev det klarare nu?

/ --

Mark Klamberg sa...

Anonym,
Ditt exempel med lastbilen var klargörande.

Menar du att det är fel att kalla trafikdata för metadata? Trafikdatan säger ju inget om den primära datan (innehållet i ett meddelande).

Björn Felten sa...

@Mark:

För en gångs skull så kan jag rekommendera svenska wikipedia.

Deras artikel om trafikdata förefaller att täcka in det mesta, och innehåller en hel del relevanta länkar för fortsatta studier.

Annars är såväl "trafikdata" som "metadata", som så många redan påpekat, inte några särskilt väldefinierade begrepp inom området datakommunikation.

Precis som exempelvis "personlig integritet" så är det ganska luddiga begrepp, och därför tydligen oemotståndliga för politiker och byråkrater.

Mark Klamberg sa...

Björn,
Det är jag som skrivit den wikipedia-artikel som du länkat till. Det innebär inte att den är 100 % korrekt. Därför är det utmärkt med denna diskussion.

Björn Felten sa...

LOL! Där ser man. :)

Fast det är ju fler än en författare som varit inne och filat på artikeln under dess historia, även om de flesta av de senaste korrigeringarna kommit från samma IP-nummer (130.237.xxx.xxx), som företer alla tecken på att komma från ditt tangentbord.

Jodå, i så fall tycker jag att du fått de flesta pusselbitarna på rätt plats, även om jag insisterar på att varken "trafikdata" eller "metadata" är något som vi inom datakom brukar svänga oss med, vi föredrar ordentligt specificerade (som i standardiserade) termer.

bosson sa...

@Mark "Avser 1 § andra stycket första punkten om signalmiljön metadata som ej är trafikdata? Vad kan det vara för något?"

På den andra frågan så är jag säker på att det omfattar analytisk data, t.ex. antal mail mellan A och B.

Se även Ciscos lawfull interception:
http://tools.ietf.org/html/rfc2924
... för mer information om trafikdata över IP. Verkar likt "IPDR.org" som du refererar till på wikipedia.

Kålan sa...

Jag har ett tips om vad NSA och FBI använder för avlyssning. Carnivore är ett system som lagrar metadata. Om man läser lite om den här programvaran, så förstår man att den stämmer bra in på FRAs tänkta verksamhet. I Carnivore är tex. metadata email-adresser mm. Programvaran installeras på en dator i anslutning till Internetleverantören.

http://arstechnica.com/news.ars/post/20080316-an-overview-of-the-nsas-domestic-spying-program.html

http://en.wikipedia.org/wiki/Carnivore_(FBI)

Mikael Nilsson sa...

Nu är ju mitt forskningsämne metadata, så det går att komplicera i ett antal dimensioner.

Kort sagt, vad som är metadata beror på vad man ser som "data". Om "data" = en JPEG-bild, så är metadata information om bilden.

Om "data" = en kommunikationssession, så blir metadata information som rör denna.

Men metadata kan vara av olika granularitet. I vissa fall kan metadata vara så detaljerat att man kan återskapa själva datat ifrån metadatat. Så metadata är tillämpningsberoende - det kan vara väldigt övergripande eller väldigt detaljerat.

Så - det lönar sig troligen att vara mer precis. Trafikdata är mer väldefinierat, tex, eftersom det rör sig om vem som pratat med vem, och när. Metadata om ett samtal kan vara trafikdata, men även (i teorin) omfatta "vad rörde sig samtalet om", etc, dvs röra *innehållet* i samtalet...

Metadata är nog inte ett så användbart begrepp för att vara precis.

Kålan sa...

@Mikael Nilsson

Jag håller med fullständigt, det finns knappast någon knivskarp gräns mellan metadata och data. När det gäller tex. en bild eller torrentfil så förstår alla vad metadata är, men när det gäller datakommunikation så blir det svårare med gränsdragningen.

När det gäller ett samtal så kan ju metadata vara själva samtalet i textform.

Sjöholm sa...

Lite OffTopic länk till en presentation från en firma i sociogrambranchen.
Ger en överskådlig bild av använndningsmöjligheterna för databaserna och kanske en hint om vilken data som man är intresserad av.

http://www.scribd.com/doc/6303977/ThorpeGlen-Cell-Snooping-Sales-Presentation-2008

Quest sa...

Tillåt mig spekulera litet.

FRA har trots allt en historia inom signalspaning. Låt oss anta att det färgar deras bild av världen. Anta att de faktiskt genuint tycker att trafik har "flyttat" från etern till kabel.

I detta perspektiv vill de sannolikt titta på en kabel som en signalbärare.

I det här perspektivet har de egentligen startat onödigt långt från svaret, ehuru vi redan vet att så gott som all trafik i kabeln är IP (sannolikt Internet) eller SS7 (sannolikt publik telefoni).

Men - betänk arvet ovan. De här människorna vill gardera sig mot att någon spion försöker vara hemlig genom något esoteriskt knep i någon udda trafikström.

Om vi vill förstå FRAs inspektion av kabeltrafik, bör vi nog tänka på den som väldigt inklusiv.

Jag skulle vilja föreslå två, som jag tycker, mer användbara begrepp:

innehåll: innehåll är hela dataströmmen, inklusive all information vi kan få av ramverket som signalerar. Detta kan vara IP-nummer, portar, URLar, text i mejl, telefonnummer, abonentnummer, kanaler, våglängder, samtalsinnehåll, debiteringsinformation, etc.

kontext: sådan information som kan knytas till de som signalerar och de omständigheter under vilka de signalerar. Detta kan vara tidpunkter, data som är kända om abonenterna sedan tidigare, vilka ISPer IP-numren är registrerade på, hur mycket data som utböts, fördröjningar, kunskap om vad den specifika typen av trafik brukar innebära, etc.

Diskussionen här och i många andra FRA-sammanhang har varit väldigt fokuserad på Internet och telefoni, men FRA har sannolikt inte lyxen att göra en sådan avgränsning. Om de skulle göra någon sådan avgränsning skulle de ju riskera att lämna ett mörkt hörn där de skumma typerna kan mygla ostört.

Josef sa...

Metadata = "Information om informationen" där fall och betraktare bestämmer noggrannare vad som är vad.
Trafikdata = Kan inte det också vara
dels "Information om informationen" , innehållet, eller båda? Dvs om något ännu luddigare definitioner.
Så tolkar jag det. Precis som i cyberbrottskonventionen borde det väl finnas en definition man utgått ifrån när man skrev paragraferna. Eller pratar vi "trafikstråk" igen...

Tomas Mattsson sa...

Mark,

Se "Databaser och datamodeller", Bo Sundgren, ISBN 91-44-18061-6, s 15.

Mark Klamberg sa...

Tack för alla kommentarer!

Jag har nu en klar bild av hur dessa begrepp förhåller sig till varandra.

Ska ta en titt på Sundgrens bok och jag har ju Mikael Nilssons kontaktuppgifter så detta ska nog reda ut sig. Antar att du har en del litteratur som jag kan referera till om det är ditt forskningsämne.

Anonym sa...

Quest: Förenklingarna förvirrar. Du kunde lika gärna sagt att vi redan vet att det som flödar i kablen är SDH eller MPLS eller ATM. (Dessutom mer korrekt.) Men vem blir lyckligare av det? Man drar bara fel slutsatser.

// Jonas

Tomas Mattsson sa...

Många kommentarer har varit inne på att det beror på huruvida något ska betraktas som metadata eller ej. Och jag delar den uppfattningen.

När det gäller resonemanget om FRA och dess databaser skulle jag definiera trafikdatat i kablarna som enbart data. Dessa data beskrivs sedan av FRA upprättade metadata, metadata lagras i metadatabas, som krävs för att det datorstödda databashanteringssystemet ska kunna administrera datat i FRA:s databaser. För att skapa en databas måste först metadata definieras, och metadatat får man i allmänhet knappa in för hand i metadatabasen. Metadatabasens struktur, den kan FRA inte påverka, är given av databashanteringssystemet (Oracle är ett, Informix ett annat).

Alltså: Databashanteringssystemets metadatabas definierar FRA:s olika databaser som bland annat innehåller trafikdata.

Tomas Mattsson sa...

Tillägg:

Programvaran som t.ex. ritar sociogram kommunicerar med trafikdatabasen via databashanteringssystemet.

Tor sa...

@Quest:
Det finns två skäl som jag kan se till att lagtexten behandlar saker på en så låg abstraktionsnivå:
1) Man vill ha en teknikneutral och konsekvent behandling.
2) Man vill medvetet undvika att föra tankarna till avlyssning genom att istället tala som saker som analys av signaler. Dvs. den moraliska aspekten omvandlas till teknikaliteter.

Du tog upp 1), men jag tror inte man ska glömma förklaring 2).