7 trin til læring af dataudvikling og datavidenskab

Forfatter: Eugene Taylor
Oprettelsesdato: 12 August 2021
Opdateringsdato: 22 Juni 2024
Anonim
7 trin til læring af dataudvikling og datavidenskab - Teknologi
7 trin til læring af dataudvikling og datavidenskab - Teknologi

Indhold


Kilde: Paul Fleet / Dreamstime.com

Tag væk:

Datavidenskab læres bedst ved at gøre, men et godt fundament for statistik og maskinindlæring er også vigtigt.

Jeg bliver ofte spurgt, hvordan man lærer data mining og data science. Her er min oversigt.

Du kan bedst lære data mining og data science ved at gøre det, så start med at analysere data så hurtigt som muligt! Glem dog ikke at lære teorien, da du har brug for et godt statistisk og maskinelæringsgrundlag for at forstå, hvad du laver, og for at finde rigtige nuggets af værdi i støj fra big data.

Her er syv trin til læring af data mining og data science. Selvom de er nummererede, kan du gøre dem parallelt eller i en anden rækkefølge.

  1. Sprog: Lær R, Python og SQL
  2. Værktøjer: Lær, hvordan du bruger værktøjer til dataindvinding og visualisering
  3. bøger: Læs introduktionsbøger for at forstå det grundlæggende
  4. Uddannelse: Se webinarer, tag kurser og overvej et certifikat eller en grad i datavidenskab (Læs mere i Ben Loricas Sådan plejes en datavidenskabsmand.)
  5. Data: Kontroller tilgængelige dataressourcer, og find noget der
  6. Konkurrencer: Deltag i data mining-konkurrencer
  7. Interagere med andre datavidenskabsmænd via sociale netværk, grupper og møder

I denne artikel bruger jeg data mining og data science om hverandre. Se min præsentation, Analytics Industrioversigt, hvor jeg ser på udviklingen og populariteten af ​​forskellige udtryk som statistik, opdagelse af viden, data mining, forudsigelig analyse, data science og big data.


1. At lære sprog

En nylig KDnuggets-afstemning fandt, at de mest populære sprog til datamining er R, Python og SQL. Der er mange ressourcer til hver, for eksempel:

  • Gratis e-bog om Data Science med R
  • Kom godt i gang med Python til datavidenskab
  • Python til dataanalyse: Agile værktøjer til reelle verdensdata
  • En uundværlig Python: Datasourcing til datavidenskab
  • W3-skoler, der lærer SQL

2. Værktøjer: Datamining, datavidenskab og visualiseringssoftware

Der er mange data mining-værktøjer til forskellige opgaver, men det er bedst at lære, hvordan man bruger en data mining-pakke, der understøtter hele dataanalyseprocessen. Du kan starte med open source (gratis) værktøjer som KNIME, RapidMiner og Weka.

For mange analytikjob skal du dog kende SAS, som er det førende kommercielle værktøj og meget udbredt. Anden populær software til analyse og dataindvinding inkluderer MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler og Rattle.


Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Visualisering er en væsentlig del af enhver dataanalyse. Lær hvordan du bruger Microsoft Excel (god til mange enklere opgaver), R-grafik (især ggplot2), og også Tableau - en fremragende pakke til visualisering. Andre gode visualiseringsværktøjer inkluderer TIBCO Spotfire og Miner3D.

3. bøger

Der er mange data mining og data science bøger tilgængelige, men du kan kontrollere disse:

  • Datamining og analyse: Grundlæggende koncepter og algoritmer, gratis PDF-download (udkast), af Mohammed Zaki og Wagner Meira Jr.
  • Datamining: Praktiske maskinlæringsværktøjer og teknikker af Ian Witten, Eibe Frank og Mark Hall fra forfatterne af Weka og anvendelse af Weka i vid udstrækning i eksempler
  • Elementerne i statistisk læring, datamining, inferens og forudsigelse af Trevor Hastie, Robert Tibshirani, Jerome Friedman. En god introduktion til det matematisk orienterede
  • LIONbook: Learning and Intelligent Optimization, af Roberto Battiti og Mauro Brunato, frit tilgængeligt på Internettet, kapitel for kapitel
  • Minedrift af massive datasætbog, af A. Rajaraman, J. Ullman
  • StatSoft elektronisk statistikbog (gratis) inkluderer mange dataindvindingsemner

4. Uddannelse: webinarer, kurser, certifikater og grader

Du kan starte med at se nogle af de mange gratis webinarer og webcasts om de nyeste emner inden for analyse, big data, data mining og data science.

Der er også mange onlinekurser, korte og lange, mange af dem gratis. (Se KDnuggets online uddannelsesmappe.)

Tjek især disse kurser:

  • Machine Learning, på Coursera, undervist af Andrew Ng
  • Læring af data ved edX, undervist af Caltech-professor Yaser Abu-Mostafa
  • Åben onlinekursus i anvendt datavidenskab fra Syracuse iSchool
  • Data Mining med Weka, gratis onlinekursus
  • Se også gratis online-lysbilleder fra mit Data Mining Course, et semestert introduktionskursus i data mining

Endelig skal du overveje at få certifikater inden for data mining og data science eller avancerede grader, såsom en kandidatgrad i data science.

5. Data

Du har brug for data for at analysere - se KDnuggets-bibliotek med datasæt til datamining, herunder:

  • Regerings-, føderale-, stat-, by-, lokale og offentlige datasider og portaler
  • Data API'er, hubs, markedspladser, platforme, portaler og søgemaskiner
  • Gratis offentlige datasæt

6. Konkurrencer

Igen lærer du bedst ved at gøre, så deltag i Kaggle-konkurrencer. Start med begynderkonkurrencer, såsom Forudsigelse af Titanic Survival ved hjælp af maskinlæring.

7. Interaktion: Møder, grupper og sociale netværk

Du kan deltage i mange peer-grupper. Se de Top 30 LinkedIn-grupper for Analytics, Big Data, Data Mining og Data Science.

AnalyticBridge er et aktivt samfund til analyse og datavidenskab.

Du kan deltage i nogle af de mange møder og konferencer om Analytics, Big Data, Data Mining, Data Science og Knowledge Discovery.

Overvej også at deltage i ACM SIGKDD, der arrangerer den årlige KDD-konference - den førende forskningskonference på området.

Denne artikel er siv fra KDNuggets.com. Det er blevet brugt med tilladelse fra forfatteren.