Datafilerna som används som input för ett informationssystem varierar mycket beroende på systemets syfte. Det finns inget enda svar, men här är några vanliga typer:
Strukturerade data: Dessa data är organiserade i ett fördefinierat format, ofta relationella databaser eller kalkylblad. Exempel inkluderar:
* CSV (komma separerade värden): En enkel textfil där värden separeras med komma. Mycket vanligt för att importera och exportera data.
* TSV (flik separerade värden): Liknar CSV, men använder flikar som separatorer.
* json (JavaScript -objektnotation): Ett mänskligt läsbart textformat för att representera strukturerade data. Används allmänt för webb -API:er och datautbyte.
* xml (Extensible Markup Language): Ett Markup-språk som definierar en uppsättning regler för kodningsdokument i ett format som är både mänskligt läsbart och maskinläsbart.
* SQL -databaser (t.ex. MySQL, PostgreSQL, Oracle, SQL Server): Dessa butiksdata i relationella tabeller, åtkomliga via SQL -frågor. Själva databasen är inmatningen, inte en enda fil.
* kalkylarkfiler (t.ex. XLSX, XLS): Filer skapade av program som Microsoft Excel eller Google Sheets.
Semi-strukturerade data: Data som inte överensstämmer med en fördefinierad modell, men som fortfarande har vissa organisatoriska egenskaper. Exempel:
* loggfiler: Textfiler som registrerar händelser och åtgärder inom ett system.
* JSON med schemavariationer: JSON -data där strukturen kan variera något mellan poster.
* xml -filer utan strikt schema: XML -data där strukturen inte strikt verkställs.
ostrukturerade data: Data utan ett fördefinierat format eller organisation. Exempel inkluderar:
* textdokument (.txt, .doc, .pdf): Ordbehandlingsdokument, PDF -filer, etc. kräver ofta NLP -tekniker för naturliga språkbehandling (NLP) för analys.
* Images (.jpg, .png, .gif): Bildfiler som används för bildigenkänning och analys.
* ljudfiler (.mp3, .wav): Ljudfiler för taligenkänning och ljudanalys.
* Videofiler (.mp4, .avi): Videofiler för videoanalys.
Andra datakällor: Inmatning är inte alltid från filer. Ett informationssystem kan också få input från:
* API:er (applikationsprogrammeringsgränssnitt): Tillåt kommunikation mellan olika programvarusystem.
* databaser (som nämnts ovan): Direkt fråga och ta emot data från en databas.
* sensorer: Insamling av data från fysiska sensorer (temperatur, tryck etc.).
* Streaming Data: Dataströmmar i realtid från olika källor.
De specifika datafilerna som används helt beror på applikationen. Ett lönesystem kan använda en CSV -fil med anställdas data, medan en maskininlärningsmodell kan använda ett stort datasätt med bilder. Att förstå inmatningsdata är avgörande för att utveckla och underhålla något informationssystem.