1 of 24

Software packages for data analyses and statistics

Attila Krajcsi

Last update: 2024 September

2 of 24

Outline

  • Spreadsheets
  • Statistical packages
  • Computer program languages

  • Data formats and data exchange

3 of 24

Spreadsheet software

4 of 24

5 of 24

Two main reasons to use spreadsheet

  • It is much more powerful than most people assume
    • E.g., rare statistics, in many fields most analyses can be performed, ergonomic data and result handling
    • Simulations
  • First step for computer programming
    • This is a must for cognitive scientists

6 of 24

Which spreadsheet software to choose?

Ergonomic

Yes

Getting close

Yes

Price

Commercial

Free

Free

Operating system

Win and Mac

Win, Mac and Linux

In browsers

File format

Incompletely documented xlsx

Open ods

Multiple format

Speed

Fast

Improving

Slow

Functions

Many

Many

Fewer

Statistical analyses from menu

A few (and additional extensions)

Fewer

None

Online files

Yes

Yes

Yes

Other

Online form

7 of 24

Spreadsheet software

See the Spreadsheet basics slides

8 of 24

Statistical packages

9 of 24

Statistic packages

  • Fixed layout
    • Variables and cases
    • A variable is a full column
      • New data cannot be inserted below them
    • Formulas use full columns (variables) including each row
  • Properties of variables can be set
  • Transformations, instead of formulas

    [Practice]

10 of 24

Spreadsheet vs statistical packages

Spreadsheet

Statistical packages

For general calculations, with some statistical analyses

More statistical analyses, less general calculations

Flexible layout

Fixed layout

Formulas and chart are usually refreshed automatically

Results and charts should be rerun when modifying source data (but see, e.g., jamovi)

Result and formulas together

Relation of the result and the calculation is less trivial

11 of 24

A few examples

  • jamovi
    • Free
    • Easy to use
    • Data, results and analyses settings in a single file
  • JASP
    • Free
    • Accessible bayesian statistics
  • CogStat
    • Free, easy to use
    • Automatic calculations
    • Smart output

  • SPSS
    • Well known
    • Many statistical procedures
    • Quite expensive
  • PSPP
    • Free SPSS clone
    • For simple tasks and for learning

12 of 24

A few examples, contd.

  • R (R Commander, RKward, Deducer, stb.)
    • Free
    • Knows almost everything (professional statisticians use it)
    • Harder to use (missing an easy to use GUI)
  • Spreadsheet
    • Many free solutions
    • Limited statistical capabilities
      • But statistical extensions
  • ROPStat
    • Easy to use
    • Cheap

http://en.wikipedia.org/wiki/Comparison_of_statistical_packages

13 of 24

Computer programming languages

14 of 24

Programming languages

  • A bit like an SPSS syntax file
    • But more general
  • Repeating procedure can be automatic
  • Slower to learn than GUI software packages
  • If you’ve learnt a computer language, it is much easier to learn the next ones
    • And spreadsheet use is a first step
  • Processing large data with special procedures (e.g., EEG, MRI, eye movement, etc.)

15 of 24

Which language to use?

  • High level
    • Faster code writing, slower execution (not too slow though)
  • Interpreted language
    • Interactive, immediate execution, but slower

  • Python
    • General
    • Numerical and partially statistical modules
  • Matlab
    • Mainly for numerical calculations
  • R
    • Mainly for statistical calculations
  • Julia

16 of 24

Which solution to choose?

  • Large data and special procedures
    • Computer languages
    • (Our lab usually uses Python)
  • General data processing, exploration, simple statistics
    • Spreadsheet
    • (Our lab usually uses LibreOffice)
  • More special statistical procedures
    • Statistical packages
    • (Our lab usually uses CogStat, jamovi, and JASP)

17 of 24

Adatcsere és adatformátumok

18 of 24

Adatcsere vágólapon

  • Másolás - beillesztés

  • Csak ha egy gépen fut mindkét szoftver
  • Korlátozott, hogy a vágólap mit támogat

19 of 24

Adatcsere fájlokkal

  • Egyik programból elmentjük (mentés vagy export)
  • Másik programból megnyitjuk (megnyitás vagy import)

  • Még ha az adatok nagy része át is vihető, az adatok egy kisebb része elveszhet
    • Milyen funkciót támogat a másik program?
    • A közvetítő adatformátum milyen funkciókat támogat?
    • Melyik program milyen formátumot tud olvasni és írni?

20 of 24

Adatformátumok

Gyakoriság

  • Gyakoriak
    • Sok szoftver ismeri
    • Pl. .csv, .xls
  • Ritkák
    • Kevés szoftver ismeri
    • pl. .msw

Szoftverek alapértelmezett formátuma

  • Excel régebbi - xls
  • Excel újabb - xlsx
  • LibreOffice - ods
  • SPSS - sav
  • ROPStat - msw

21 of 24

Adatformátumok - Formátum alapja

  • Szöveg alapú fájlok (pl. Jegyzettömbbel megnyitva olvasható)
    • Text fájl (.txt)
      • vesszővel elválasztott (.csv)
      • tabulátorral elválasztott
      • stb.
    • XML fájl
      • Ezek is szöveges fájlok, speciális jelöléssel
      • (Alábbiak tömörített fájlok)
      • LibreOffice .ods
      • MS Excel .xlsx
  • Bináris fájlok
    • SPSS .sav
    • Excel .xls
    • Stb.

22 of 24

Problémák az átvitelkor

  • Ékezetes karakterek
    • Nem mindegyik szoftver támogatja, illetve nem mindegyik helyen
  • Tizedes elválasztó
    • Vessző vagy pont
    • Hatással lehet az operációs rendszer, a szoftver és a dokumentum beállítása is

23 of 24

Feladat

  • Vidd át az SPSS adatodat ROPStatba és Excelbe/Calcba
  • Vidd át a ROPStat adatodat SPSS-be és Excelbe/Calcba
  • Vidd át Excel/Calc adatodat SPSS-be és ROPStatba

  • Több megoldás is elképzelhető
  • Mindenképp próbálj ki vágólap és fájl megoldást is
  • Hasonlítsd össze, hogy
    • melyik mennyire egyszerű
    • hol nem veszik el információ

  • Vidd át a Google Táblázatban gyűjtött adatodat egy statisztikai szoftverbe

24 of 24

További információ