7 krokov pre učenie sa ťažby a vedy o údajoch

Autor: Eugene Taylor
Dátum Stvorenia: 12 August 2021
Dátum Aktualizácie: 22 V Júni 2024
Anonim
7 krokov pre učenie sa ťažby a vedy o údajoch - Technológie
7 krokov pre učenie sa ťažby a vedy o údajoch - Technológie

Obsah


Zdroj: Paul Fleet / Dreamstime.com

Zobrať:

Najdôležitejšie je naučiť sa vedu o údajoch, ale dobré základy štatistiky a strojového učenia sú tiež dôležité.

Často sa ma pýtajú, ako sa naučiť získavanie údajov a vedu o údajoch. Tu je moje zhrnutie.

Získavanie údajov a vedu o údajoch sa môžete najlepšie naučiť tým, že začnete analyzovať údaje čo najskôr! Nezabudnite sa však naučiť teóriu, pretože potrebujete dobrý základ pre štatistiku a strojové učenie, aby ste pochopili, čo robíte, a aby ste v hluku veľkých dát našli skutočné nulové hodnoty.

Tu je sedem krokov na naučenie sa získavania údajov a vedy o údajoch. Aj keď sú očíslované, môžete ich vykonávať súbežne alebo v inom poradí.

  1. Jazyky: Naučte sa R, Python a SQL
  2. Nástroje: Naučte sa používať nástroje na získavanie a vizualizáciu údajov
  3. knihy: Prečítajte si úvodné knihy, aby ste porozumeli základom
  4. Vzdelanie: Sledujte webináre, zúčastnite sa kurzov a zvážte osvedčenie alebo titul v odbore dát (viac informácií nájdete v Ben Loricas Ako vychovávať vedca údajov.)
  5. Dáta: Skontrolujte dostupné zdroje údajov a nájdite niečo
  6. Súťaže: Zúčastnite sa súťaží o dolovanie údajov
  7. Interakcia s inými vedcami údajov prostredníctvom sociálnych sietí, skupín a stretnutí

V tomto článku používam získavanie údajov a vedu o dáta zameniteľne. Pozrite si moju prezentáciu, Prehľad o priemysle v nástroji Analytics, kde sa zameriavam na vývoj a popularitu rôznych výrazov, ako sú štatistika, získavanie znalostí, získavanie údajov, prediktívna analýza, veda o údajoch a veľké údaje.


1. Výučba jazykov

Nedávny prieskum KDnuggets zistil, že najobľúbenejšími jazykmi na získavanie údajov sú R, Python a SQL. Existuje veľa zdrojov, napríklad:

  • Bezplatná elektronická kniha o vede údajov s R.
  • Začíname s programom Python For Data Science
  • Python pre analýzu dát: Agilné nástroje pre dáta v reálnom svete
  • Nepostrádateľný Python: Zdroj údajov pre vedu o údajoch
  • W3 Školy učiace sa SQL

2. Nástroje: Softvér na ťažbu dát, vedu o údajoch a vizualizáciu

Existuje mnoho nástrojov na dolovanie údajov pre rôzne úlohy, ale je najlepšie sa naučiť, ako používať balík na dolovanie údajov, ktorý podporuje celý proces analýzy údajov. Môžete začať s open-source (bezplatnými) nástrojmi ako KNIME, RapidMiner a Weka.


Pre mnoho analytických úloh však potrebujete vedieť SAS, ktorý je popredným komerčným nástrojom a je široko používaný. K ďalším populárnym softvérom na analýzu a dolovanie údajov patria MATLAB, STATSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler a Rattle.

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Vizualizácia je nevyhnutnou súčasťou akejkoľvek analýzy údajov. Naučte sa používať program Microsoft Excel (vhodný pre mnoho jednoduchších úloh), grafiku R (najmä ggplot2) a tiež Tableau - vynikajúci balík na vizualizáciu. Medzi ďalšie dobré vizualizačné nástroje patria TIBCO Spotfire a Miner3D.

3. knihy

K dispozícii je veľa kníh o ťažbe údajov a vedeckých knihách, ale môžete ich skontrolovať:

  • Ťažba a analýza údajov: základné pojmy a algoritmy, bezplatné stiahnutie PDF (koncept), Mohammed Zaki a Wagner Meira Jr.
  • Dolovanie dát: Praktické nástroje a techniky strojového učenia, Ian Witten, Eibe Frank a Mark Hall, od autorov spoločnosti Weka a rozsiahle využívanie Weka v príkladoch
  • Prvky štatistického učenia, získavania údajov, dedukcie a predpovede, Trevor Hastie, Robert Tibshirani, Jerome Friedman. Skvelý úvod pre matematicky orientovaných
  • LIONbook: Learning and Intelligent Optimization, Roberto Battiti a Mauro Brunato, voľne dostupné na webe, kapitola po kapitole
  • Mining of Massive Book Datetsets, autor: A. Rajaraman, J. Ullman
  • Kniha Elektronická štatistika StatSoft (zadarmo) obsahuje mnoho tém týkajúcich sa získavania údajov

4. Vzdelávanie: Webináre, kurzy, certifikáty a tituly

Môžete začať tým, že si pozeráte niektoré z mnohých bezplatných webinárov a webcastov o najnovších témach v oblasti analýzy, veľkých dát, dolovania dát a dátovej vedy.

Existuje tiež veľa online kurzov, krátkych a dlhých, veľa z nich zadarmo. (Pozri adresár online vzdelávania KDnuggets.)

Skontrolujte najmä tieto kurzy:

  • Strojové učenie, Coursera, vyučoval Andrew Ng
  • Učíme sa od Data na EDX, vyučuje profesor Caltech Yaser Abu-Mostafa
  • Otvorte online kurz Aplikovaných dát zo Syracuse iSchool
  • Ťažba dát s Weka, kurz online zadarmo
  • Skontrolujte tiež bezplatné snímky online z môjho kurzu dolovania dát, semestrálneho úvodného kurzu získavania údajov

Nakoniec zvážte získanie certifikátov v oblasti získavania údajov a vedy o údajoch alebo pokročilých titulov, napríklad magisterského stupňa v odbore dát.

5. Dáta

Budete potrebovať údaje na analýzu - pozri adresár KDnuggets dátových súborov na dolovanie dát, vrátane:

  • Vládne, federálne, štátne, mestské, miestne a verejné dátové weby a portály
  • Dátové rozhrania API, uzly, trhoviská, platformy, portály a vyhľadávacie nástroje
  • Bezplatné verejné dátové súbory

6. Súťaže

Opäť sa najlepšie naučíte tým, že sa zúčastníte súťaží Kaggle. Začnite súťažami pre začiatočníkov, ako je napríklad Predpovedanie prežitia pomocou Titanicu pomocou strojového učenia.

7. Interakcia: Stretnutia, skupiny a sociálne siete

Môžete sa pripojiť k mnohým skupinám rovesníkov. Pozrite si 30 najlepších skupín LinkedIn pre Analytics, Big Data, Data Mining a Data Science.

AnalyticBridge je aktívna komunita pre analytiku a informatiku.

Môžete sa zúčastniť na mnohých stretnutiach a konferenciách týkajúcich sa služieb Analytics, Big Data, Data Mining, Data Science a Discover Knowledge.

Zvážte tiež pripojenie sa k ACM SIGKDD, ktorý organizuje výročnú konferenciu KDD - vedúcu výskumnú konferenciu v tejto oblasti.

Tento článok vychádza z webu KDNuggets.com. Používa sa so súhlasom autora.