Ruhr Economic Papers

Ruhr Economic Papers #660

Fast, Approximate MCMC for Bayesian Analysis of Large Data Sets: A Design Based Approach

von Matthias Kaeding

UDE, RWI, 10/2016, 23 S./p., 8 Euro, ISBN 978-3-86788-766-3 DOI: 10.4419/86788766

download

Zusammenfassung

Zur bayesianischen Analyse von großen Datensätzen schlagen wir eine schnelle, approximative Variante des Metropolis-Hastings-Algorithmus vor. Für diesen ist es erforderlich, Loglikelihood-Differenzen zu berechnen; im vorgestellten Ansatz werden diese als Daten angesehen, deren Summe zu schätzen ist. Die Basis bildet hierbei eine Stichprobe aus dem vollständigen Datensatz, so dass dieser nicht gespeichert werden muss. Die Stichprobe wird via cube sampling, einem balanciertem Stichprobendesign gezogen: Hierbei wird die Stichprobe so gezogen, dass der Mittelwert von ausgewählten Hilfsvariablen in der Stichprobe nahe dem Mittelwert der Hilfsvariablen in der Grundgesamtheit ist. Mehrere algorithmisch und statistisch effiziente Schätzer für die Summe der Loglikelihood-Differenzen, basierend auf der Stichprobe, werden entwickelt. Via Monte-Carlo Simulationen werden die vorgestellten Methoden evaluiert. Dabei zeigt sich, dass es eine Abwägung zwischen Rechenaufwand und Approximationsfehler gibt, jedoch kann der Approximationsfehler unter einer signifikanten Einsparung von Rechenaufwand auf einem vernachlässigbaren Niveau gehalten werden. Die vorgestellte Methode wird auf einen großen Datensatz aus deutschen Benzinpreisen für das erste Quartal 2015 angewandt.

JEL-Classification: C11, C55, C83

Keywords: Bayesian inference; big data; approximate MCMC; survey sampling

Hoch