<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD Journal Publishing DTD v2.3 20070202//EN" "journalpublishing.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" article-type="research-article">
<front>
<journal-meta>
<journal-id journal-id-type="publisher-id">Front. Neurosci.</journal-id>
<journal-title>Frontiers in Neuroscience</journal-title>
<abbrev-journal-title abbrev-type="pubmed">Front. Neurosci.</abbrev-journal-title>
<issn pub-type="epub">1662-453X</issn>
<publisher>
<publisher-name>Frontiers Media S.A.</publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.3389/fnins.2017.00504</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Neuroscience</subject>
<subj-group>
<subject>Original Research</subject>
</subj-group>
</subj-group>
</article-categories>
<title-group>
<article-title>Variational Bayesian Parameter Estimation Techniques for the General Linear Model</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name><surname>Starke</surname> <given-names>Ludger</given-names></name>
<xref ref-type="aff" rid="aff1"><sup>1</sup></xref>
</contrib>
<contrib contrib-type="author" corresp="yes">
<name><surname>Ostwald</surname> <given-names>Dirk</given-names></name>
<xref ref-type="aff" rid="aff1"><sup>1</sup></xref>
<xref ref-type="aff" rid="aff2"><sup>2</sup></xref>
<xref ref-type="aff" rid="aff3"><sup>3</sup></xref>
<xref ref-type="author-notes" rid="fn001"><sup>&#x0002A;</sup></xref>
<uri xlink:href="http://loop.frontiersin.org/people/80379/overview"/>
</contrib>
</contrib-group>
<aff id="aff1"><sup>1</sup><institution>Arbeitsbereich Computational Cognitive Neuroscience, Department of Education and Psychology, Freie Universit&#x000E4;t Berlin</institution> <country>Berlin, Germany</country></aff>
<aff id="aff2"><sup>2</sup><institution>Center for Cognitive Neuroscience Berlin, Freie Universit&#x000E4;t Berlin</institution> <country>Berlin, Germany</country></aff>
<aff id="aff3"><sup>3</sup><institution>Center for Adaptive Rationality, Max Planck Institute for Human Development</institution> <country>Berlin, Germany</country></aff>
<author-notes>
<fn fn-type="edited-by"><p>Edited by: John Ashburner, UCL Institute of Neurology, United Kingdom</p></fn>
<fn fn-type="edited-by"><p>Reviewed by: Lester Melie-Garcia, Centre Hospitalier Universitaire Vaudois (CHUV), Switzerland; Mark Rowland, University of Cambridge, United Kingdom</p></fn>
<fn fn-type="corresp" id="fn001"><p>&#x0002A;Correspondence: Dirk Ostwald <email>dirk.ostwald&#x00040;fu-berlin.de</email></p></fn>
<fn fn-type="other" id="fn002"><p>This article was submitted to Brain Imaging Methods, a section of the journal Frontiers in Neuroscience</p></fn></author-notes>
<pub-date pub-type="epub">
<day>15</day>
<month>09</month>
<year>2017</year>
</pub-date>
<pub-date pub-type="collection">
<year>2017</year>
</pub-date>
<volume>11</volume>
<elocation-id>504</elocation-id>
<history>
<date date-type="received">
<day>06</day>
<month>07</month>
<year>2017</year>
</date>
<date date-type="accepted">
<day>24</day>
<month>08</month>
<year>2017</year>
</date>
</history>
<permissions>
<copyright-statement>Copyright &#x000A9; 2017 Starke and Ostwald.</copyright-statement>
<copyright-year>2017</copyright-year>
<copyright-holder>Starke and Ostwald</copyright-holder>
<license xlink:href="http://creativecommons.org/licenses/by/4.0/"><p>This is an open-access article distributed under the terms of the Creative Commons Attribution License (CC BY). The use, distribution or reproduction in other forums is permitted, provided the original author(s) or licensor are credited and that the original publication in this journal is cited, in accordance with accepted academic practice. No use, distribution or reproduction is permitted which does not comply with these terms.</p></license>
</permissions>
<abstract><p>Variational Bayes (VB), variational maximum likelihood (VML), restricted maximum likelihood (ReML), and maximum likelihood (ML) are cornerstone parametric statistical estimation techniques in the analysis of functional neuroimaging data. However, the theoretical underpinnings of these model parameter estimation techniques are rarely covered in introductory statistical texts. Because of the widespread practical use of VB, VML, ReML, and ML in the neuroimaging community, we reasoned that a theoretical treatment of their relationships and their application in a basic modeling scenario may be helpful for both neuroimaging novices and practitioners alike. In this technical study, we thus revisit the conceptual and formal underpinnings of VB, VML, ReML, and ML and provide a detailed account of their mathematical relationships and implementational details. We further apply VB, VML, ReML, and ML to the general linear model (GLM) with non-spherical error covariance as commonly encountered in the first-level analysis of fMRI data. To this end, we explicitly derive the corresponding free energy objective functions and ensuing iterative algorithms. Finally, in the applied part of our study, we evaluate the parameter and model recovery properties of VB, VML, ReML, and ML, first in an exemplary setting and then in the analysis of experimental fMRI data acquired from a single participant under visual stimulation.</p></abstract>
<kwd-group>
<kwd>variational Bayes</kwd>
<kwd>general linear model (GLM)</kwd>
<kwd>fMRI neuroimaging</kwd>
<kwd>restricted maximum likelihood estimation</kwd>
<kwd>covariance estimation</kwd>
<kwd>data analysis</kwd>
<kwd>machine learning</kwd>
</kwd-group>
<counts>
<fig-count count="11"/>
<table-count count="5"/>
<equation-count count="56"/>
<ref-count count="98"/>
<page-count count="22"/>
<word-count count="15686"/>
</counts>
</article-meta>
</front>
<body>
<sec sec-type="intro" id="s1">
<title>1. Introduction</title>
<p>Variational Bayes (VB), variational maximum likelihood (VML) (also known as expectation-maximization), restricted maximum likelihood (ReML), and maximum likelihood (ML) are cornerstone parametric statistical estimation techniques in the analysis of functional neuroimaging data. In the SPM software environment (<ext-link ext-link-type="uri" xlink:href="http://www.fil.ion.ucl.ac.uk/spm/">http://www.fil.ion.ucl.ac.uk/spm/</ext-link>), one of the most commonly used software packages in the neuroimaging community, variants of these estimation techniques have been implemented for a wide range of data models (Penny et al., <xref ref-type="bibr" rid="B73">2011</xref>; Ashburner, <xref ref-type="bibr" rid="B4">2012</xref>). For fMRI data, these models vary from mass-univariate general linear and auto-regressive models (e.g., Friston et al., <xref ref-type="bibr" rid="B34">1994</xref>, <xref ref-type="bibr" rid="B29">2002a</xref>,<xref ref-type="bibr" rid="B33">b</xref>; Penny et al., <xref ref-type="bibr" rid="B72">2003</xref>), over multivariate decoding models (e.g., Friston et al., <xref ref-type="bibr" rid="B28">2008a</xref>), to dynamic causal models (e.g., Friston et al., <xref ref-type="bibr" rid="B31">2003</xref>; Marreiros et al., <xref ref-type="bibr" rid="B56">2008</xref>; Stephan et al., <xref ref-type="bibr" rid="B85">2008</xref>). For M/EEG data, these models range from channel-space general linear models (e.g., Kiebel and Friston, <xref ref-type="bibr" rid="B49">2004a</xref>,<xref ref-type="bibr" rid="B50">b</xref>), over dipole and distributed source reconstruction models (e.g., Friston et al., <xref ref-type="bibr" rid="B30">2008b</xref>; Kiebel et al., <xref ref-type="bibr" rid="B48">2008</xref>; Litvak and Friston, <xref ref-type="bibr" rid="B54">2008</xref>), to a large family of dynamic causal models (e.g., David et al., <xref ref-type="bibr" rid="B21">2006</xref>; Chen et al., <xref ref-type="bibr" rid="B19">2008</xref>; Moran et al., <xref ref-type="bibr" rid="B62">2009</xref>; Pinotsis et al., <xref ref-type="bibr" rid="B75">2012</xref>; Ostwald and Starke, <xref ref-type="bibr" rid="B71">2016</xref>).</p>
<p>Because VB, VML, ReML, and ML determine the scientific inferences drawn from empirical data in any of the above mentioned modeling frameworks, they are of immense importance for the neuroimaging practitioner. However, the theoretical underpinnings of these estimation techniques are rarely covered in introductory statistical texts and the technical literature relating to these techniques is rather evolved. Because of their widespread use within the neuroimaging community, we reasoned that a theoretical treatment of these techniques in a familiar model scenario may be helpful for both neuroimaging novices, who would like to learn about some of the standard statistical estimation techniques employed in the field, and for neuroimaging practitioners, who would like to further explore the foundations of these and alternative model estimation approaches.</p>
<p>In this technical study, we thus revisit the conceptual underpinnings of the aforementioned techniques and provide a detailed account of their mathematical relations and implementational details. Our exposition is guided by the fundamental insight that VML, ReML, and ML can be understood as special cases of VB (Friston et al., <xref ref-type="bibr" rid="B29">2002a</xref>, <xref ref-type="bibr" rid="B32">2007</xref>; Friston, <xref ref-type="bibr" rid="B27">2008</xref>). In the current note, we reiterate and consolidate this conceptualization by paying particular attention to the respective technique&#x00027;s formal treatment of a model&#x00027;s parameter set. Specifically, across the estimation techniques of interest, model parameters are either treated as random variables, in which case they are endowed with prior and posterior uncertainty modeled by parametric probability density functions, or as non-random quantities. In the latter case, prior and posterior uncertainties about the respective parameters&#x00027; values are left unspecified. Because the focus of the current account is on statistical estimation techniques, we restrict the model of application to a very basic scenario that every neuroimaging practitioner is familiar with: the analysis of a single-participant, single-session EPI time-series in the framework of the general linear model (GLM) (Monti, <xref ref-type="bibr" rid="B61">2011</xref>; Poline and Brett, <xref ref-type="bibr" rid="B76">2012</xref>). Importantly, in line with the standard practice in fMRI data analysis, we do not assume spherical covariance matrices (e.g., Zarahn et al., <xref ref-type="bibr" rid="B98">1997</xref>; Purdon and Weisskoff, <xref ref-type="bibr" rid="B77">1998</xref>; Woolrich et al., <xref ref-type="bibr" rid="B94">2001</xref>; Friston et al., <xref ref-type="bibr" rid="B33">2002b</xref>; Mumford and Nichols, <xref ref-type="bibr" rid="B65">2008</xref>).</p>
<p>We proceed as follows. After some preliminary notational remarks, we begin the theoretical exposition by first introducing the model of application in Section 2.1. We next briefly discuss two standard estimation techniques (conjugate Bayes and ML for spherical covariance matrices) that effectively span the space of VB, VML, ReML, and ML and serve as useful reference points in Section 2.2. After this prelude, we are then concerned with the central estimation techniques of interest herein. In a hierarchical fashion, we subsequently discuss the theoretical background and the practical algorithmic application of VB, VML, ReML, and ML to the GLM in Sections 2.3&#x02013;2.6. We focus on the central aspects and conceptual relationships of the techniques and present all mathematical derivations as Supplementary Material. In the applied part of our study (Section 3), we then firstly evaluate VB, VML, ReML, and ML from an objective Bayesian viewpoint (Bernardo, <xref ref-type="bibr" rid="B11">2009</xref>) in simulations; and secondly, apply them to real fMRI data acquired from a single participant under visual stimulation (Ostwald et al., <xref ref-type="bibr" rid="B70">2010</xref>). We close by discussing the relevance and relation of our exposition with respect to previous treatments of the topic matter in Section 4.</p>
<p>In summary, we make the following novel contributions in the current technical study. Firstly, we provide a comprehensive mathematical documentation and derivation of the conceptual relationships between VB, VML, ReML, and ML. Secondly, we derive a collection of explicit algorithms for the application of these estimation techniques to the GLM with non-spherical linearized covariance matrix. Finally, we explore the validity of the ensuing algorithms in simulations and in the application to real experimental fMRI data. We complement our theoretical documentation by the practical implementation of the algorithms and simulations in a collection of Matlab .m files (MATLAB and Optimization Toolbox Release 2014b, The MathWorks, Inc., Natick, MA, United States), which is available from the Open Science Framework (<ext-link ext-link-type="uri" xlink:href="https://osf.io/c4ux7/">https://osf.io/c4ux7/</ext-link>). On occasion, we make explicit reference to these functions, which share the stub <italic>vbg_</italic><sup>&#x0002A;</sup><italic>.m</italic>.</p>
<sec>
<title>1.1. Notation and preliminary remarks</title>
<p>A few remarks on our mathematical notation are in order. We formulate VB, VML, ReML, and ML against the background of probabilistic models (e.g., Bishop, <xref ref-type="bibr" rid="B13">2006</xref>; Barber, <xref ref-type="bibr" rid="B7">2012</xref>; Murphy, <xref ref-type="bibr" rid="B66">2012</xref>). By probabilistic models we understand (joint) probability distributions over sets of observed and unobserved random variables. Notationally, we do not distinguish between probability distributions and their associated probability density functions and write, for example, <italic>p</italic>(<italic>y</italic>, &#x003B8;) for both. Because we are only concerned with parametric probabilistic models of the Gaussian type, we assume throughout the main text that all probability distributions of real random vectors have densities. We do, however, distinguish between the conditioning of a probability distribution of a random variable <italic>y</italic> on a (commonly unobserved) random variable &#x003B8;, which we denote by <italic>p</italic>(<italic>y</italic>|&#x003B8;), and the parameterization of a probability distribution of a random variable <italic>y</italic> by a (non-random) parameter &#x003B8;, which we denote by <italic>p</italic><sub>&#x003B8;</sub>(<italic>y</italic>). Importantly, in the former case, &#x003B8; is conceived of as random variable, while in the latter case, it is not. Equivalently, if &#x003B8;<sup>&#x0002A;</sup> denotes a value that the random variable &#x003B8; may take on, we set <inline-formula><mml:math id="M1"><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B8;</mml:mi><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003B8;</mml:mi></mml:mrow><mml:mrow><mml:mo>&#x0002A;</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x021D4;</mml:mo><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003B8;</mml:mi></mml:mrow><mml:mrow><mml:mo>&#x0002A;</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula>.</p>
<p>Otherwise, we use standard applied mathematical notation. For example, real vectors and matrices are denoted as elements of &#x0211D;<sup><italic>n</italic></sup> and &#x0211D;<sup><italic>m</italic>&#x000D7;<italic>n</italic></sup> for <italic>n, m</italic> &#x02208; &#x02115;, <inline-formula><mml:math id="M2"><mml:msub><mml:mrow><mml:mi>I</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> denotes the <italic>n</italic>-dimensional identity matrix, |&#x000B7;| denotes a matrix determinant, tr(&#x000B7;) denotes the trace operator, and p.d. denotes a positive-definite matrix. <italic>H</italic><sub><italic>f</italic></sub> (<italic>a</italic>) denotes the Hessian matrix of some real-valued function <italic>f</italic> (<italic>x</italic>) evaluated at <italic>x</italic> &#x0003D; <italic>a</italic>. We denote the probability density function of a Gaussian distributed random vector <italic>y</italic> with expectation parameter &#x003BC; and covariance parameter &#x003A3; by <italic>N</italic>(<italic>y</italic>; &#x003BC;, &#x003A3;). Finally, because of the rather applied character of this note, we formulate functions primarily by means of the definition of the values they take on and eschew formal definitions of their domains and ranges. Further notational conventions that apply in the context of the mathematical derivations provided in the Supplementary Material are provided therein.</p>
</sec>
</sec>
<sec id="s2">
<title>2. Theory</title>
<sec>
<title>2.1. Model of interest</title>
<p>Throughout this study, we are interested in estimating the parameters of the model</p>
<disp-formula id="E1"><label>(1)</label><mml:math id="M3"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>y</mml:mi><mml:mo>=</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:mi>&#x003B5;</mml:mi><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>where <italic>y</italic> &#x02208; &#x0211D;<sup><italic>n</italic></sup> denotes the data, <italic>X</italic> &#x02208; &#x0211D;<sup><italic>n</italic>&#x000D7;<italic>p</italic></sup> denotes a design matrix of full column rank <italic>p</italic>, and &#x003B2; &#x02208; &#x0211D;<sup><italic>p</italic></sup> denotes a parameter vector. We make the following fundamental assumption about the error term &#x003B5; &#x02208; &#x0211D;<sup><italic>n</italic></sup></p>
<disp-formula id="E2"><label>(2)</label><mml:math id="M4"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>&#x003B5;</mml:mi><mml:mo>&#x0007E;</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B5;</mml:mi><mml:mo>;</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext class="textrm" mathvariant="normal">with</mml:mtext><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mstyle displaystyle="true"><mml:munderover accentunder="false" accent="false"><mml:mrow><mml:mo>&#x02211;</mml:mo></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>k</mml:mi></mml:mrow></mml:munderover></mml:mstyle><mml:mo class="qopname">exp</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mi>i</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msub><mml:mrow><mml:mi>Q</mml:mi></mml:mrow><mml:mrow><mml:mi>i</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">p</mml:mtext><mml:mo>.</mml:mo><mml:mtext>d</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>In words, we assume that the error term is distributed according to a Gaussian distribution with expectation parameter 0 &#x02208; &#x0211D;<sup><italic>n</italic></sup> and positive-definite covariance matrix <inline-formula><mml:math id="M5"><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula>. Importantly, we do not assume that <italic>V</italic><sub>&#x003BB;</sub> is necessarily of the form <inline-formula><mml:math id="M6"><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:msub><mml:mrow><mml:mi>I</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>, i.e., we allow for non-sphericity of the error terms. In Equation (2), &#x003BB;<sub>1</sub>, &#x02026;, &#x003BB;<sub><italic>k</italic></sub>, is a set of <italic>covariance component parameters</italic> and <inline-formula><mml:math id="M7"><mml:msub><mml:mrow><mml:mi>Q</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mo>&#x02026;</mml:mo><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>Q</mml:mi></mml:mrow><mml:mrow><mml:mi>k</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> is a set of <italic>covariance basis matrices</italic>, which are assumed to be fixed and known. We assume throughout, that the true, but unknown, values of &#x003BB;<sub>1</sub>, &#x02026;, &#x003BB;<sub><italic>k</italic></sub> are such that <italic>V</italic><sub>&#x003BB;</sub> is positive-definite. In line with the common denotation in the neuroimaging literature, we refer to Equations (1) and (2) as the <italic>general linear model</italic> (GLM) and its formulation by means of Equations (1) and (2) as its <italic>structural form</italic>.</p>
<p>Models of the form (1) and (2) are widely used in the analysis of neuroimaging data, and, in fact, throughout the empirical sciences (e.g., Rutherford, <xref ref-type="bibr" rid="B78">2001</xref>; Draper and Smith, <xref ref-type="bibr" rid="B22">2014</xref>; Gelman et al., <xref ref-type="bibr" rid="B36">2014</xref>). In the neuroimaging community, models of the form Equations (1) and (2) are used, for example, in the analysis of fMRI voxel time-series at the session and participant-level (Monti, <xref ref-type="bibr" rid="B61">2011</xref>; Poline and Brett, <xref ref-type="bibr" rid="B76">2012</xref>), for the analysis of group effects (Mumford and Nichols, <xref ref-type="bibr" rid="B63">2006</xref>, <xref ref-type="bibr" rid="B64">2009</xref>), or in the context of voxel-based morphometry (Ashburner and Friston, <xref ref-type="bibr" rid="B5">2000</xref>; Ashburner, <xref ref-type="bibr" rid="B3">2009</xref>).</p>
<p>In the following, we discuss the application of VB, VML, ReML, and ML to the general forms of Equations (1) and (2). In our examples, however, we limit ourselves to the application of the GLM in the analysis of a single voxel&#x00027;s time-series in a single fMRI recording (run). In this case, <italic>y</italic> &#x02208; &#x0211D;<sup><italic>n</italic></sup> corresponds to the voxel&#x00027;s MR values over EPI volume acquisitions and <italic>n</italic> &#x02208; &#x02115; represents the total number of volumes acquired during the session. The design matrix <italic>X</italic> &#x02208; &#x0211D;<sup><italic>n</italic>&#x000D7;<italic>p</italic></sup> commonly constitutes a constant regressor and the onset stick functions of different experimental conditions convolved with a hemodynamic response function and a constant offset. This renders the parameter entries &#x003B2;<sub><italic>j</italic></sub> (<italic>j</italic> &#x02208; &#x02115;<sub><italic>p</italic></sub>) to correspond to the average session MR signal and condition-specific effects. Importantly, in the context of fMRI time-series analyses, the most commonly used form of the covariance matrix <italic>V</italic><sub>&#x003BB;</sub> employs <italic>k</italic> &#x0003D; 2 covariance component parameters &#x003BB;<sub>1</sub> and &#x003BB;<sub>2</sub> and corresponding covariance basis matrices</p>
<disp-formula id="E3"><label>(3)</label><mml:math id="M8"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>Q</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>I</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>Q</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>Q</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mi>j</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mo class="qopname">exp</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>&#x003C4;</mml:mi></mml:mrow></mml:mfrac><mml:mo>|</mml:mo><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mi>j</mml:mi><mml:mo>|</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>This specific form of the error covariance matrix encodes exponentially decaying correlations between neighboring data points, and, with &#x003C4; :&#x0003D; 0.2, corresponds to the widely used approximation to the <italic>AR(1)</italic> &#x0002B; <italic>white noise</italic> model in the analysis of fMRI data (Purdon and Weisskoff, <xref ref-type="bibr" rid="B77">1998</xref>; Friston et al., <xref ref-type="bibr" rid="B33">2002b</xref>).</p>
<p>In Figure <xref ref-type="fig" rid="F1">1</xref>, we visualize the exemplary design matrix and covariance basis matrix set that will be employed in the example applications throughout the current section. In the example, we assume two experimental conditions, which have been presented with an expected inter-trial interval of 6 s (standard deviation 1 s) during an fMRI recording session comprising <italic>n</italic> &#x0003D; 400 volumes and with a TR of 2 s. The design matrix was created using the micro-time resolution convolution and downsampling approach discussed in Henson and Friston (<xref ref-type="bibr" rid="B45">2007</xref>).</p>
<fig id="F1" position="float">
<label>Figure 1</label>
<caption><p><bold>(A)</bold> Example design and covariance basis matrices. The upper panels depict the design matrix <italic>X</italic> &#x02208; &#x0211D;<sup>400 &#x000D7; 2</sup> and the covariance basis matrices <inline-formula><mml:math id="M9"><mml:msub><mml:mrow><mml:mi>Q</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mn>400</mml:mn><mml:mo>&#x000D7;</mml:mo><mml:mn>400</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula> used in the example applications of the current section. The design matrix encodes the onset functions of two hypothetical experimental conditions which were convolved with the canonical hemodynamic response function. Events of each condition are presented approximately every 6 s, and <italic>n</italic> &#x0003D; 400 data points with a TR of 2 s are modeled. The covariance basis matrices are specified in Equation (3) and shown here for <italic>n</italic> &#x0003D; 400 based on their evaluation using <italic>spm_Ce.m</italic>. <bold>(B)</bold> The left panel depicts a magnification of the first 20 entries of <italic>Q</italic><sub>2</sub>. The right panel depicts the entries of the first row of <italic>Q</italic><sub>2</sub> for 12 columns. For &#x003C4; &#x0003D; 0.2 the entries model exponentially decaying error correlations. <bold>(C)</bold> A data realization of the ensuing GLM model with true, but unknown, values of &#x003B2; &#x0003D; (2, &#x02212;1)<sup><italic>T</italic></sup> and &#x003BB; &#x0003D; (&#x02212;0.5, &#x02212;2)<sup><italic>T</italic></sup>. Note that we do not model a signal offset, or equivalently, set the beta parameter for the signal offset to zero. For implementational details, please see <italic>vbg_1.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0001.tif"/>
</fig>
</sec>
<sec>
<title>2.2. Conjugate bayes and ML under error sphericity</title>
<p>We start by briefly recalling the fundamental results of conjugate Bayesian and classical point-estimation for the GLM with spherical error covariance matrix. In fact, the introduction of ReML (Friston et al., <xref ref-type="bibr" rid="B29">2002a</xref>; Phillips et al., <xref ref-type="bibr" rid="B74">2002</xref>) and later VB (Friston et al., <xref ref-type="bibr" rid="B32">2007</xref>) to the neuroimaging literature were motivated amongst other things by the need to account for non-sphericity of the error distributions in fMRI time-series analysis (Purdon and Weisskoff, <xref ref-type="bibr" rid="B77">1998</xref>; Woolrich et al., <xref ref-type="bibr" rid="B94">2001</xref>). Further, while not a common approach in fMRI, recalling the conjugate Bayes scenario helps to contrast the probabilistic model of interest in VB from its mathematically more tractable, but perhaps less intuitively plausible, analytical counterpart. Together, the two estimation techniques discussed in the current section may thus be conceived as forming the respective endpoints of the continuum of estimation techniques discussed in the remainder.</p>
<p>With spherical covariance matrix, the GLM of Equations (1) and (2) simplifies to</p>
<disp-formula id="E4"><label>(4)</label><mml:math id="M10"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>y</mml:mi><mml:mo>=</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:mi>&#x003B5;</mml:mi><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">where</mml:mtext><mml:mi>&#x003B5;</mml:mi><mml:mo>&#x0007E;</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B5;</mml:mi><mml:mo>;</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:msub><mml:mrow><mml:mi>I</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>A conjugate Bayesian treatment of the GLM considers the structural form Equation (4) as a conditional probabilistic statement about the distribution of the observed random variable <italic>y</italic></p>
<disp-formula id="E5"><label>(5)</label><mml:math id="M11"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:msub><mml:mrow><mml:mi>I</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>which is referred to as the <italic>likelihood</italic> and requires the specification of the marginal distribution <italic>p</italic>(&#x003B2;, &#x003C3;<sup>2</sup>), referred to as the <italic>prior</italic>. Together, the likelihood and the prior define the probabilistic model of interest, which takes the form of a joint distribution over the observed random variable <italic>y</italic> and the unobserved random variables &#x003B2; and &#x003C3;<sup>2</sup>:</p>
<disp-formula id="E6"><label>(6)</label><mml:math id="M12"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Based on the probabilistic model (Equation 5), the two fundamental aims of Bayesian inference are, firstly, to determine the conditional parameter distribution given a value of the observed random variable <italic>p</italic>(&#x003B2;, &#x003C3;<sup>2</sup>|<italic>y</italic>), often referred to as the <italic>posterior</italic>, and secondly, to evaluate the marginal probability <italic>p</italic>(<italic>y</italic>) of a value of the observed random variable, often referred to as <italic>marginal likelihood</italic> or <italic>model evidence</italic>. The latter quantity forms an essential precursor for Bayesian model comparison, as discussed for example in further detail in Stephan et al. (<xref ref-type="bibr" rid="B82">2016a</xref>). Note that in our treatment of the Bayesian scenario the marginal and conditional probability distributions of &#x003B2; and &#x003C3;<sup>2</sup> are meant to capture our uncertainty about the values of these parameters and not distributions of true, but unknown, parameter values. For the true, but unknown, values of &#x003B2; and &#x003C3;<sup>2</sup> we postulate, as in the classical point-estimation scenario, that they assume fixed values, which are never revealed (but can of course be chosen <italic>ad libitum</italic> in simulations).</p>
<p>The VB treatment of Equation (6) assumes proper prior distributions for &#x003B2; and &#x003C3;<sup>2</sup>. In this spirit, the closest conjugate Bayesian equivalent is hence the assumption of proper prior distributions. For the case of the model (Equation 6), upon reparameterization in terms of a precision parameter &#x003BB; :&#x0003D; 1/&#x003C3;<sup>2</sup>, a natural conjugate approach assumes a non-independent prior distribution of Gaussian-Gamma form,</p>
<disp-formula id="E7"><label>(7)</label><mml:math id="M13"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>G</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>a</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>b</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>where <inline-formula><mml:math id="M14"><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>a</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>b</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:mi>&#x0211D;</mml:mi></mml:math></inline-formula> are the prior distribution parameters and <inline-formula><mml:math id="M15"><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mstyle class="text"><mml:mtext class="textrm" mathvariant="normal">p</mml:mtext><mml:mo>.</mml:mo><mml:mtext>d</mml:mtext><mml:mo>.</mml:mo></mml:mstyle></mml:math></inline-formula> is the prior beta parameter covariance structure. For the gamma distribution we use the shape and rate parameterization. Notably, the Gaussian distribution of &#x003B2; is parameterized conditional on the value of &#x003BB; in terms of its covariance &#x003A3;<sub>&#x003B2;</sub>. Under this prior assumption, it can be shown that the posterior distribution is also of Gaussian-Gamma form,</p>
<disp-formula id="E8"><label>(8)</label><mml:math id="M16"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>G</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>a</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>b</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with posterior parameters</p>
<disp-formula id="E9"><label>(9)</label><mml:math id="M17"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mi>X</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mi>y</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mi>X</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>a</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:msub><mml:mrow><mml:mi>a</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x0002B;</mml:mo><mml:mi>n</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>b</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>b</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mi>y</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msubsup><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msubsup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msubsup><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msubsup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Furthermore, in this scenario the marginal likelihood evaluates to a multivariate non-central T-distribution</p>
<disp-formula id="E10"><label>(10)</label><mml:math id="M18"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BD;</mml:mi></mml:mrow><mml:mrow><mml:mi>y</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with expectation, covariance, and degrees of freedom parameters</p>
<disp-formula id="E11"><label>(11)</label><mml:math id="M19"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mtext class="textrm" mathvariant="normal">,</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mn>2</mml:mn><mml:mi>b</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mi>a</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:mi>n</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mo>&#x0002B;</mml:mo><mml:msub><mml:mrow><mml:mi>I</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003BD;</mml:mi></mml:mrow><mml:mrow><mml:mi>y</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>2</mml:mn><mml:mi>a</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:mi>n</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>respectively. For derivations of Equations (8&#x02013;11) see, for example, Lindley and Smith (<xref ref-type="bibr" rid="B53">1972</xref>), Broemeling (<xref ref-type="bibr" rid="B16">1984</xref>), and Gelman et al. (<xref ref-type="bibr" rid="B36">2014</xref>).</p>
<p>Importantly, in contrast to the VB, VML, ReML, and ML estimation techniques developed in the remainder, the assumption of the prior probabilistic dependency of the effect size parameter on the covariance component parameter in Equation (7) eshews the need for iterative approaches and results in the fully analytical solutions of Equations (8&#x02013;11). However, as there is no principled reason beyond mathematical convenience that motivates this prior dependency, the fully conjugate framework seems to be rarely used in the analysis of neuroimaging data. Moreover, the assumption of an uninformative improper prior distribution (Frank et al., <xref ref-type="bibr" rid="B26">1998</xref>) is likely more prevalent in the neuromaging community than the natural conjugate form discussed above. This is due to the implementation of a closely related procedure in FSL&#x00027;s FLAME software (Woolrich et al., <xref ref-type="bibr" rid="B95">2004</xref>, <xref ref-type="bibr" rid="B96">2009</xref>). However, because VB assumes proper prior distributions, we eschew the details of this approach herein.</p>
<p>In contrast to the probabilistic model of the Bayesian scenario, the classical ML approach for the GLM does not conceive of &#x003B2; and &#x003C3;<sup>2</sup> as unobserved random variables, but as parameters, for which point-estimates are desired. The probabilistic model of the classical ML approach for the structural model (Equation 4) thus takes the form</p>
<disp-formula id="E12"><label>(12)</label><mml:math id="M20"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:msub><mml:mrow><mml:mi>I</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>The ML point-estimators for &#x003B2; and &#x003C3;<sup>2</sup> are well-known to evaluate to (e.g., Hocking, <xref ref-type="bibr" rid="B46">2013</xref>)</p>
<disp-formula id="E13"><label>(13)</label><mml:math id="M21"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mi>X</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mi>y</mml:mi></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>and</p>
<disp-formula id="E14"><label>(14)</label><mml:math id="M22"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003C3;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Note that Equation (13) also corresponds to the ordinary least-squares estimator. It can be readily generalized for non-spherical error covariance matrices by a &#x0201C;sandwiched&#x0201D; inclusion of the appropriate error covariance matrix, if this is (assumed) to be known, resulting in the generalized least-squares estimator (e.g., Draper and Smith, <xref ref-type="bibr" rid="B22">2014</xref>). Further note that Equation (14) is a biased estimator for &#x003C3;<sup>2</sup> and hence commonly replaced by its restricted maximum likelihood counterpart, which replaces the factor <italic>n</italic><sup>&#x02212;1</sup> by the factor (<italic>n</italic>&#x02212;<italic>p</italic>)<sup>&#x02212;1</sup> (e.g., Foulley, <xref ref-type="bibr" rid="B24">1993</xref>).</p>
<p>Having briefly reviewed the conjugate Bayesian and classical point estimation techniques for the GLM parameters under the assumption of a spherical error covariance matrix, we next discuss VB, VML, ReML, and ML for the scenario laid out in Section 2.1.</p>
</sec>
<sec>
<title>2.3. Variational bayes (VB)</title>
<p>VB is a computational technique that allows for the evaluation of the primary quantities of interest in the Bayesian paradigm as introduced above: the posterior parameter distribution and the marginal likelihood. For the GLM, VB thus rests on the same probabilistic model as standard conjugate Bayesian inference: the structural form of the GLM (cf. Equations 1, 2) is understood as the parameter conditional likelihood distribution and both parameters are endowed with marginal distributions. The probabilistic model of interest in VB thus takes the form</p>
<disp-formula id="E15"><label>(15)</label><mml:math id="M23"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with likelihood distribution</p>
<disp-formula id="E16"><label>(16)</label><mml:math id="M24"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Above, we have seen that a conjugate prior distribution can be constructed which allows for exact inference in models of the form Equations (1) and (2) based on a conditionally-dependent prior distribution and simple covariance form. In order to motivate the application of the VB technique to the GLM, we here thus assume that the marginal distribution <italic>p</italic>(&#x003B2;, &#x003BB;) factorizes, i.e., that</p>
<disp-formula id="E17"><label>(17)</label><mml:math id="M25"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Under this assumption, exact Bayesian inference for the GLM is no longer possible and approximate Bayesian inference is clearly motivated (Murphy, <xref ref-type="bibr" rid="B66">2012</xref>).</p>
<p>To compute the marginal likelihood and obtain an approximation to the posterior distribution over parameters <italic>p</italic>(&#x003B2;,&#x003BB;|<italic>y</italic>), VB uses the following decomposition of the log marginal likelihood into two information theoretic quantities (Cover and Thomas, <xref ref-type="bibr" rid="B20">2012</xref>), the <italic>free energy</italic> and a <italic>Kullback-Leibler (KL) divergence</italic></p>
<disp-formula id="E18"><label>(18)</label><mml:math id="M26"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>B</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mi>K</mml:mi><mml:mi>L</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>We discuss the constituents of the right-hand side of Equation (18) in turn. Firstly, <italic>q</italic>(&#x003B2;, &#x003BB;) denotes the so-called <italic>variational distribution</italic>, which will constitute the approximation to the posterior distribution and is of parameterized form, i.e., governed by a probability density. We refer to the parameters of the variational distribution as <italic>variational parameters</italic>. Secondly, the non-negative KL-divergence is defined as the integral</p>
<disp-formula id="E19"><label>(19)</label><mml:math id="M27"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>K</mml:mi><mml:mi>L</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mstyle mathsize='140%' displaystyle='true'><mml:mo>&#x0222B;</mml:mo></mml:mstyle><mml:mstyle mathsize='140%' displaystyle='true'><mml:mo>&#x0222B;</mml:mo></mml:mstyle><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>d</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mi>d</mml:mi><mml:mi>&#x003BB;</mml:mi><mml:mtext>&#x000A0;</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Note that, formally, the KL-divergence is a functional, i.e., a function of functions, in this case the probability density functions <italic>q</italic>(&#x003B2;, &#x003BB;) and <italic>p</italic>(&#x003B2;, &#x003BB;|<italic>y</italic>), and returns a scalar number. Intuitively, it measures the dissimilarity between its two input distributions: the more similar the variational distribution <italic>q</italic>(&#x003B2;, &#x003BB;) is to the posterior distribution <italic>p</italic>(&#x003B2;, &#x003BB;|<italic>y</italic>), the smaller the divergence becomes. It is of fundamental importance for the VB technique that the KL-divergence is always positive and zero if, and only if, <italic>q</italic>(&#x003B2;, &#x003BB;) and <italic>p</italic>(&#x003B2;, &#x003BB;|<italic>y</italic>) are equal. For a proof of these properties, see Appendix A in Ostwald et al. (<xref ref-type="bibr" rid="B69">2014</xref>). Together with the log marginal likelihood decomposition Equation (18) the properties of the KL-divergence equip the free energy with its central properties for the VB technique, as discussed below. A proof of Equation (18) with &#x003D1; :&#x0003D; {&#x003B2;, &#x003BB;} is provided in Appendix B in Ostwald et al. (<xref ref-type="bibr" rid="B69">2014</xref>).</p>
<p>The free energy itself is defined by</p>
<disp-formula id="E20"><label>(20)</label><mml:math id="M28"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>B</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mstyle mathsize='140%' displaystyle='true'><mml:mo>&#x0222B;</mml:mo></mml:mstyle><mml:mstyle mathsize='140%' displaystyle='true'><mml:mo>&#x0222B;</mml:mo></mml:mstyle><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>d</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mi>d</mml:mi><mml:mi>&#x003BB;</mml:mi><mml:mtext>&#x000A0;</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Due to the non-negativity of the KL-divergence, the free energy is always smaller than or equal to the log marginal likelihood&#x02014;the free energy thus forms a lower bound to the log marginal likelihood. Note that in Equation (20), the data <italic>y</italic> is assumed to be fixed, such that the free energy is a function of the variational distribution only. Because, for a given data observation, the log marginal likelihood ln <italic>p</italic>(<italic>y</italic>) is a fixed quantity, and because increasing the free energy contribution to the right-hand side of Equation (18) necessarily decreases the KL-divergence between the variational and the true posterior distribution, maximization of the free energy with respect to the variational distribution has two consequences: firstly, it renders the free energy an increasingly better approximation to the log marginal likelihood; secondly, it renders the variational approximation an increasingly better approximation to the posterior distribution.</p>
<p>In summary, VB rests on finding a variational distribution that is as similar as possible to the posterior distribution, which is equivalent to maximizing the free energy with regard to the variational distribution. The maximized free energy then substitutes for the log marginal likelihood and the corresponding variational distribution yields an approximation to the posterior parameter distribution, i.e.,</p>
<disp-formula id="E21"><label>(21)</label><mml:math id="M29"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mstyle displaystyle="true"><mml:munder class="msub"><mml:mrow><mml:mo class="qopname">max</mml:mo></mml:mrow><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:munder></mml:mstyle><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>B</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02248;</mml:mo><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext class="textrm" mathvariant="normal">and&#x000A0;</mml:mtext><mml:mstyle displaystyle="true"><mml:munder><mml:mrow><mml:mo class="qopname">arg</mml:mo><mml:mo class="qopname">max</mml:mo></mml:mrow><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:munder></mml:mstyle><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>B</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02248;</mml:mo><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>To facilitate the maximization process, the variational distribution is often assumed to factorize over parameter sets, an assumption commonly referred to as <italic>mean-field approximation</italic> (Friston et al., <xref ref-type="bibr" rid="B32">2007</xref>)</p>
<disp-formula id="E22"><label>(22)</label><mml:math id="M30"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Of course, if the posterior does not factorize accordingly, i.e., if</p>
<disp-formula id="E23"><label>(23)</label><mml:math id="M31"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02260;</mml:mo><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>the mean-field approximation limits the exactness of the method.</p>
<p>In applications, maximization of the free energy is commonly achieved by either <italic>free-form</italic> or <italic>fixed-form</italic> schemes. In brief, free-form maximization schemes do not assume a specific form of the variational distribution, but employ a fundamental theorem of variational calculus to maximize the free energy and to analytically derive the functional form and parameters of the variational distribution. For more general features of the free-form approach, please see, for example, Bishop (<xref ref-type="bibr" rid="B13">2006</xref>), Chappell et al. (<xref ref-type="bibr" rid="B18">2009</xref>), and Ostwald et al. (<xref ref-type="bibr" rid="B69">2014</xref>). Fixed-form maximization schemes, on the other hand, assume a specific parametric form for the variational distribution&#x00027;s probability density function from the outset. Under this assumption, the free energy integral (Equation 20) can be evaluated (or at least approximated) analytically and rendered a function of the variational parameters. This function can in turn be optimized using standard nonlinear optimization algorithms. In the following section, we apply a fixed-form VB approach to the current model of interest.</p>
<sec>
<title>2.3.1. Application to the GLM</title>
<p>To demonstrate the fixed-form VB approach to the GLM of Equations (1) and (2), we need to specify the parametric forms of the prior distributions <italic>p</italic>(&#x003B2;) and <italic>p</italic>(&#x003BB;), as well as the parametric forms of the variational distribution factors <italic>q</italic>(&#x003B2;) and <italic>q</italic>(&#x003BB;). Here, we assume that all these marginal distributions are Gaussian, and hence specified in terms of their expectation and covariance parameters:</p>
<disp-formula id="E24"><label>(24)</label><mml:math id="M32"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">where</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">p</mml:mtext><mml:mo>.</mml:mo><mml:mtext>d</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<disp-formula id="E25"><label>(25)</label><mml:math id="M33"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">where</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>k</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>k</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">p</mml:mtext><mml:mo>.</mml:mo><mml:mtext>d</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<disp-formula id="E26"><label>(26)</label><mml:math id="M34"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">where</mml:mtext><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">p</mml:mtext><mml:mo>.</mml:mo><mml:mtext>d</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<disp-formula id="E27"><label>(27)</label><mml:math id="M35"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">where</mml:mtext><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>k</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>k</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">p</mml:mtext><mml:mo>.</mml:mo><mml:mtext>d</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Note that we denote parameters of the prior distributions with Greek and parameters of the variational distributions with Roman letters. Together with Equations (1&#x02013;3), Equations (24&#x02013;27) specify all distributions necessary to evaluate the free energy integral and render the free energy a function of the variational parameters. We document this derivation in Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S1.2</xref> and here limit ourselves to the presentation of the result: under the given assumptions about the prior, likelihood, and variational distributions, the variational free energy is a function of the variational parameters <italic>m</italic><sub>&#x003B2;</sub>, <italic>S</italic><sub>&#x003B2;</sub>, <italic>m</italic><sub>&#x003BB;</sub>, and <italic>S</italic><sub>&#x003BB;</sub>, and, using mild approximations in its analytical derivation, evaluates to</p>
<disp-formula id="E28"><label>(28)</label><mml:math id="M36"><mml:mrow><mml:mtable columnalign='left'><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:msup><mml:mi>F</mml:mi><mml:mrow><mml:mi>V</mml:mi><mml:mi>B</mml:mi></mml:mrow></mml:msup><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mi>n</mml:mi><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mo>&#x0007C;</mml:mo><mml:msub><mml:mi>V</mml:mi><mml:mrow><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub></mml:mrow></mml:msub><mml:mo>&#x0007C;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>y</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>T</mml:mi></mml:msup><mml:msubsup><mml:mi>V</mml:mi><mml:mrow><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mo stretchy='false'>(</mml:mo><mml:mi>y</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:mtext>tr</mml:mtext><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:msup><mml:mi>X</mml:mi><mml:mi>T</mml:mi></mml:msup><mml:msubsup><mml:mi>V</mml:mi><mml:mrow><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub></mml:mrow><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>4</mml:mn></mml:mfrac><mml:mtext>tr</mml:mtext><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>B</mml:mi><mml:mrow><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub></mml:mrow></mml:msub><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mi>p</mml:mi><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mo>&#x0007C;</mml:mo><mml:msub><mml:mi>&#x003A3;</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo>&#x0007C;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>&#x003BC;</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>T</mml:mi></mml:msup><mml:msubsup><mml:mi>&#x003A3;</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>&#x003BC;</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:mtext>tr</mml:mtext><mml:mo stretchy='false'>(</mml:mo><mml:msubsup><mml:mi>&#x003A3;</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mi>k</mml:mi><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mo>&#x0007C;</mml:mo><mml:msub><mml:mi>&#x003A3;</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo>&#x0007C;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>&#x003BC;</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>T</mml:mi></mml:msup><mml:msubsup><mml:mi>&#x003A3;</mml:mi><mml:mi>&#x003BB;</mml:mi><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>&#x003BC;</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:mtext>tr</mml:mtext><mml:mo stretchy='false'>(</mml:mo><mml:msubsup><mml:mi>&#x003A3;</mml:mi><mml:mi>&#x003BB;</mml:mi><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mi>k</mml:mi><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mi>e</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mo>&#x0007C;</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:msub><mml:mo>&#x0007C;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mi>p</mml:mi><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mi>e</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mn>2</mml:mn></mml:mfrac><mml:mi>ln</mml:mi><mml:mo>&#x0007C;</mml:mo><mml:msub><mml:mi>S</mml:mi><mml:mi>&#x003BB;</mml:mi></mml:msub><mml:mo>&#x0007C;</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow></mml:math></disp-formula>
<p>with</p>
<disp-formula id="E29"><label>(29)</label><mml:math id="M37"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>H</mml:mi></mml:mrow><mml:mrow><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>&#x0002B;</mml:mo><mml:msub><mml:mrow><mml:mi>H</mml:mi></mml:mrow><mml:mrow><mml:mo class="qopname">tr</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>&#x0002B;</mml:mo><mml:msub><mml:mrow><mml:mi>H</mml:mi></mml:mrow><mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>In Equation (28), the third term may be viewed as an <italic>accuracy term</italic> which measures the deviation of the estimated model prediction from the data, the eighth and twelfth terms may be viewed as <italic>complexity terms</italic>, that measure how far the model can and has to deviate from its prior expectations to account for the data, and the last four terms can be conceived as <italic>maximum entropy</italic> terms that ensure that the posterior parameter uncertainty is as large as possible given the available data (Jaynes, <xref ref-type="bibr" rid="B47">2003</xref>).</p>
<p>In principle, any numerical routine for the maximization of nonlinear functions could be applied to maximize the free energy function of Equation (28) with respect to its parameters. Because of the relative simplicity of Equation (28), we derived explicit update equations by evaluating the VB free energy gradient with respect to each of the parameters and setting to zero as documented in Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S1.2</xref>. This analytical approach yields a set of four update equations and, together with the iterative evaluation of the VB free energy function (Equation 28), results in a VB algorithm for the current model as documented in Algorithm 1. Here, and in all remaining algorithms, convergence is assessed in terms of a vanishing of the free energy increase between successive iterations. This difference is evaluated against a convergence criterion &#x003B4;, which we set to &#x003B4; &#x0003D; 10<sup>&#x02212;3</sup> for all reported simulations.</p>
<table-wrap position="float">
<caption><p><bold>Algorithm 1</bold> VB Algorithm (for details, see <italic>vbg_est_vb.m</italic>)</p></caption>
<table frame="hsides" rules="groups">
<tbody>
<tr>
<td align="left" valign="top" colspan="2"><bold>Input</bold>: &#x000A0;data <italic>y</italic>, prior parameters &#x003BC;<sub>&#x003B2;</sub>, &#x003A3;<sub>&#x003B2;</sub>, &#x003BC;<sub>&#x003BB;</sub>, &#x003A3;<sub>&#x003BB;</sub>, model components <italic>X, Q</italic><sub>1</sub>, <italic>Q</italic><sub>2</sub></td></tr>
<tr>
<td align="left" valign="top" colspan="2"><bold>Output</bold>: &#x000A0;variational parameters <inline-formula><mml:math id="M38"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula>, free energy <italic>F</italic><sup><italic>VB</italic>(<italic>i</italic>)</sup></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;1:</td>
<td align="left" valign="top">&#x000A0;<bold>Initialization:</bold> <italic>i</italic> :&#x0003D; 1, <inline-formula><mml:math id="M39"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>, <inline-formula><mml:math id="M40"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>, <inline-formula><mml:math id="M41"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>, <inline-formula><mml:math id="M42"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>, &#x00394;<italic>F</italic><sup><italic>VB</italic>(<italic>i</italic>)</sup> :&#x0003D; &#x0221E;, <inline-formula><mml:math id="M43"><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:msup><mml:mrow><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:msup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>B</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;2:</td>
<td align="left" valign="top">&#x000A0;<bold>while</bold> &#x00394;<italic>F</italic><sup><italic>VB</italic>(<italic>i</italic>)</sup> &#x0003E; &#x003B4; <bold>do</bold></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;3:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;<italic>i</italic> :&#x0003D; <italic>i</italic> &#x0002B; 1</td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;4:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;evaluate <inline-formula><mml:math id="M44"><mml:msub><mml:mrow><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow></mml:msub></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;5:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;<inline-formula><mml:math id="M45"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msub><mml:mrow><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow></mml:msub><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;6:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;<inline-formula><mml:math id="M46"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mi>y</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;7:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;<inline-formula><mml:math id="M47"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;8:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;solve <inline-formula><mml:math id="M48"><mml:mfrac><mml:mrow><mml:mi>&#x02202;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x02202;</mml:mi><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mi>j</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:msub></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>B</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula> for <inline-formula><mml:math id="M49"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;9:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;evaluate <inline-formula><mml:math id="M50"><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:msup><mml:mrow><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>B</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;10:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x00394;<italic>F</italic><sup><italic>VB</italic>(<italic>i</italic>)</sup> :&#x0003D; <italic>F</italic><sup><italic>VB</italic>(<italic>i</italic>)</sup>&#x02212;<italic>F</italic><sup><italic>VB</italic>(<italic>i</italic>&#x02212;1)</sup></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;11:</td>
<td align="left" valign="top">&#x000A0;<bold>end while</bold></td></tr>
</tbody>
</table>
</table-wrap>
<p>In Figure <xref ref-type="fig" rid="F2">2</xref>, we visualize the application of the VB algorithm to an example fMRI time-series realization from the model described in Section 2.1 with true, but unknown, parameter values &#x003B2; &#x0003D; (2, &#x02212;1)<sup><italic>T</italic></sup> and &#x003BB; &#x0003D; (&#x02212;0.5, &#x02212;2)<sup><italic>T</italic></sup>. We used imprecise priors for both &#x003B2; and &#x003BB; by setting</p>
<disp-formula id="E30"><label>(30)</label><mml:math id="M51"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd><mml:mtd><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext></mml:mtd><mml:mtd><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none none none none none none none none none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none none none none none none none none none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:mn>10</mml:mn></mml:mtd><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd><mml:mtd><mml:mn>10</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd><mml:mtd><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext></mml:mtd><mml:mtd><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi><mml:mo>;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none none none none none none none none none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none none none none none none none none none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:mn>10</mml:mn></mml:mtd><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd><mml:mtd><mml:mn>10</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Figure <xref ref-type="fig" rid="F2">2A</xref> depicts the prior distribution over &#x003B2;, and the true, but unknown, value of &#x003B2; as black &#x000D7;. Figure <xref ref-type="fig" rid="F2">2B</xref> depicts the variational distribution over &#x003B2; after convergence for a VB free energy convergence criterion of &#x003B4; &#x0003D; 10<sup>&#x02212;3</sup>. Given the imprecise prior distribution, this variational distribution falls close to the true, but unknown, value. In general, convergence of the algorithm is achieved within 4&#x02013;6 iterations. Figures <xref ref-type="fig" rid="F2">2C,D</xref> depict the prior distribution over &#x003BB; and the variational distribution over &#x003BB; upon convergence, respectively. As for &#x003B2;, the approximation of the posterior distribution is close to the true, but unknown, value of &#x003BB;. Finally, Figures <xref ref-type="fig" rid="F2">2E,F</xref> depict the VB free energy surface as a function of the variational parameters <italic>m</italic><sub>&#x003B2;</sub> and <italic>m</italic><sub>&#x003BB;</sub>, respectively. For the chosen prior distributions, the VB free energy surfaces display clear global maxima, which the VB algorithm can identify. Note, however, that the maximum of the VB free energy as a function of <italic>m</italic><sub>&#x003BB;</sub> is located on an elongated crest.</p>
<fig id="F2" position="float">
<label>Figure 2</label>
<caption><p>VB estimation. <bold>(A)</bold> Prior distribution <italic>p</italic>(&#x003B2;) with expectation <inline-formula><mml:math id="M53"><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> and covariance &#x003A3;<sub>&#x003B2;</sub>: &#x0003D; 10/<sub>2</sub>. Here, and in all subpanels, the black &#x000D7; marks the true, but unknown, parameter value. <bold>(B)</bold> Variational approximation <italic>q</italic><sup>(<italic>c</italic>)</sup>(&#x003B2;) to the posterior distribution upon convergence (&#x003B4; &#x0003D; 10<sup>&#x02212;3</sup>). <bold>(C)</bold> Prior distribution <italic>p</italic>(&#x003BB;) with expectation <inline-formula><mml:math id="M54"><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> and covariance &#x003A3;<sub>&#x003BB;</sub> &#x0003D; 10/<sub>2</sub>. <bold>(D)</bold> Variational approximation <italic>q</italic><sup>(<italic>c</italic>)</sup>(&#x003BB;) to the posterior distribution upon convergence. <bold>(E)</bold> Variational free energy dependence on <italic>m</italic><sub>&#x003B2;</sub>. The blue &#x000D7; indicates the prior expectation parameter and the red &#x0002B; marks the approximated posterior expectation parameter. <bold>(F)</bold> Variational free energy dependence on <italic>m</italic><sub>&#x003BB;</sub>. The blue &#x000D7; indicates the prior expectation parameter and the red &#x000D7; marks the approximated posterior expectation parameter. For implementational details, please see <italic>vbg_1.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0002.tif"/>
</fig>
</sec>
</sec>
<sec>
<title>2.4. Variational maximum likelihood (VML)</title>
<p>Variational Maximum Likelihood (Beal, <xref ref-type="bibr" rid="B9">2003</xref>), also referred to as (variational) expectation-maximization (McLachlan and Krishnan, <xref ref-type="bibr" rid="B57">2007</xref>; Barber, <xref ref-type="bibr" rid="B7">2012</xref>), can be considered a semi-Bayesian estimation approach. For a subset of model parameters, VML determines a Bayesian posterior distribution, while for the remaining parameters maximum-likelihood point estimates are evaluated. As discussed below, VML can be derived as a special case of VB under specific assumptions about the posterior distribution of the parameter set for which only point estimates are desired. If for this parameter set additionally a constant, improper prior is assumed, variational Bayesian inference directly yields VML estimates. In its application to the GLM, we here choose to treat &#x003B2; as the parameter for which a posterior distribution is derived, and &#x003BB; as the parameter for which a point-estimate is desired.</p>
<p>The current probabilistic model of interest thus takes the form</p>
<disp-formula id="E32"><label>(31)</label><mml:math id="M55"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with likelihood distribution</p>
<disp-formula id="E33"><label>(32)</label><mml:math id="M56"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Note that in contrast to the probabilistic model underlying VB estimation, &#x003BB; is not treated as a random variable and thus merely parameterizes the joint distribution of &#x003B2; and <italic>y</italic>. Similar to VB, VML rests on a decomposition of the log marginal likelihood</p>
<disp-formula id="E34"><label>(33)</label><mml:math id="M57"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mo class="qopname">&#x0222B;</mml:mo><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>d</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>into a free energy and a KL-divergence term</p>
<disp-formula id="E35"><label>(34)</label><mml:math id="M58"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mi>K</mml:mi><mml:mi>L</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>In contrast to the VB free energy, the VML free energy is defined by</p>
<disp-formula id="E36"><label>(35)</label><mml:math id="M59"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mstyle mathsize='140%' displaystyle='true'><mml:mo>&#x0222B;</mml:mo></mml:mstyle><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>d</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>while the KL divergence term takes the form</p>
<disp-formula id="E37"><label>(36)</label><mml:math id="M60"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>K</mml:mi><mml:mi>L</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mstyle mathsize='140%' displaystyle='true'><mml:mo>&#x0222B;</mml:mo></mml:mstyle><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>d</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>In Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S2</xref>, we show how the VML framework can be derived as a special case of VB by assuming an improper prior for &#x003BB; and a Dirac measure <inline-formula><mml:math id="M61"><mml:msub><mml:mrow><mml:mi>&#x003B4;</mml:mi></mml:mrow><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>&#x0002A;</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:msub></mml:math></inline-formula> for the variational distribution of &#x003BB;. Importantly, it is the parameter value &#x003BB;<sup>&#x0002A;</sup> of the Dirac measure that corresponds to the parameter &#x003BB; in the VML framework.</p>
<sec>
<title>2.4.1. Application to the GLM</title>
<p>In the application of the VML approach to the GLM of Equations (1) and (2) we need to specify the parametric forms of the prior distribution <italic>p</italic>(&#x003B2;) and the parametric form of the variational distribution <italic>q</italic>(&#x003B2;). As above, we assume that these distributions are Gaussian, i.e.,</p>
<disp-formula id="E38"><label>(37)</label><mml:math id="M62"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">where</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">p</mml:mtext><mml:mo>.</mml:mo><mml:mtext>d</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<disp-formula id="E39"><label>(38)</label><mml:math id="M63"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">where</mml:mtext><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mi>p</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>p</mml:mi></mml:mrow></mml:msup><mml:mtext class="textrm" mathvariant="normal">p</mml:mtext><mml:mo>.</mml:mo><mml:mtext>d</mml:mtext><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Based on the specifications of Equations (37) and (38), the integral definition of the VML free energy can be analytically evaluated under mild approximations, which yields the VML free energy function of the variational parameters <italic>m</italic><sub>&#x003B2;</sub> and <italic>S</italic><sub>&#x003B2;</sub> and the parameter &#x003BB;</p>
<disp-formula id="E40"><label>(39)</label><mml:math id="M64"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mi>n</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">tr</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>-</mml:mo><mml:mo class="qopname">tr</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mi>e</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>We document the derivation of Equation (39) in Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S1.3</xref>. In contrast to the VB free energy (cf. Equation 28), the VML free energy for the GLM is characterized by the absence of terms relating to the prior and posterior uncertainty about the covariance component parameter &#x003BB;. To maximize the VML free energy, we again derived a set of update equations as documented in Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S1.3</xref>. These update equations give rise to a VML algorithm for the current model, which we document in Algorithm 2.</p>
<table-wrap position="float">
<caption><p><bold>Algorithm 2</bold> VML Algorithm (for details, see <italic>vbg_est_vml.m</italic>)</p></caption>
<table frame="hsides" rules="groups">
<tbody>
<tr>
<td align="left" valign="top" colspan="2"><bold>Input:</bold> data <italic>y</italic>, prior parameters &#x003BC;<sub>&#x003B2;</sub>, &#x003A3;<sub>&#x003B2;</sub>, initial value &#x003BB;<sup>(1)</sup>, model <italic>X, Q</italic><sub>1</sub>, <italic>Q</italic><sub>2</sub></td>
</tr>
<tr>
<td align="left" valign="top" colspan="2"><bold>Output:</bold> variational parameters <inline-formula><mml:math id="M65"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:math></inline-formula>, free energy <italic>F</italic><sup><italic>VML</italic>(<italic>i</italic>)</sup></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;1:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;<bold>Initialization:</bold> <italic>i</italic> :&#x0003D; 1 and <inline-formula><mml:math id="M66"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>, <inline-formula><mml:math id="M67"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>, &#x00394;<italic>F</italic><sup><italic>VML</italic>(<italic>i</italic>)</sup> :&#x0003D; &#x0221E;, and <inline-formula><mml:math id="M68"><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:msup><mml:mrow><mml:mi>L</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:msup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula>.</td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;2:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;<bold>while</bold> &#x00394;<italic>F</italic><sup><italic>VML</italic>(<italic>i</italic>)</sup> &#x0003E; &#x003B4; <bold>do</bold></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;3:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0; <italic>i</italic> :&#x0003D; <italic>i</italic> &#x0002B; 1</td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;4:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0; <inline-formula><mml:math id="M69"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mi>y</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;5:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0; <inline-formula><mml:math id="M70"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:msubsup><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;6:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0; solve <inline-formula><mml:math id="M71"><mml:mfrac><mml:mrow><mml:mi>&#x02202;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x02202;</mml:mi><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mi>j</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula> for &#x003BB;<sup>(<italic>i</italic>)</sup></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;7:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0; evaluate <inline-formula><mml:math id="M72"><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:msup><mml:mrow><mml:mi>L</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:msup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;8:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0; &#x00394;<italic>F</italic><sup><italic>VML</italic>(<italic>i</italic>)</sup> :&#x0003D; <italic>F</italic><sup><italic>VML</italic>(<italic>i</italic>)</sup> &#x02212; <italic>F</italic><sup><italic>VML</italic>(<italic>i</italic>&#x02212;1)</sup></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;9:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;<bold>end while</bold></td>
</tr>
</tbody>
</table>
</table-wrap>
<p>In Figure <xref ref-type="fig" rid="F3">3</xref>, we visualize the application of the VML algorithm to an example fMRI time-series realization of the model described in Section 2.1 with true, but unknown, parameter values &#x003B2; &#x0003D; (2, &#x02212;1)<sup><italic>T</italic></sup> and &#x003BB; &#x0003D; (&#x02212;0.5, &#x02212;2)<sup><italic>T</italic></sup>. As above, we used an imprecise prior for &#x003B2; by setting</p>
<disp-formula id="E41"><label>(40)</label><mml:math id="M73"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none none none none none none none none none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none none none none none none none none none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:mn>10</mml:mn></mml:mtd><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd><mml:mtd><mml:mn>10</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>and set the initial covariance component estimate to &#x003BB;<sup>(1)</sup> &#x0003D; (0, 0)<sup><italic>T</italic></sup>. Figure <xref ref-type="fig" rid="F3">3A</xref> depicts the prior distribution over &#x003B2; and the true, but unknown, value of &#x003B2;. Figure <xref ref-type="fig" rid="F3">3B</xref> depicts the variational distribution over &#x003B2; after convergence with a VML free energy convergence criterion of &#x003B4; &#x0003D; 10<sup>&#x02212;3</sup>. As in the VB scenario, given the imprecise prior distribution, this variational distribution falls close to the true, but unknown, value and convergence is usually achieved within 4&#x02013;6 iterations. Figures <xref ref-type="fig" rid="F3">3C,D</xref> depict the VML free energy surface as a function of the variational parameter <italic>m</italic><sub>&#x003B2;</sub> and the parameter &#x003BB;, respectively. For the chosen prior distributions, the VML free energy surfaces displays a clear global maximum as a function of <italic>m</italic><sub>&#x003B2;</sub>, while the maximum location as a function of <italic>m</italic><sub>&#x003BB;</sub> is located on an elongated crest.</p>
<fig id="F3" position="float">
<label>Figure 3</label>
<caption><p>VML estimation. <bold>(A)</bold> Prior distribution <italic>p</italic>(&#x003B2;) with expectation <inline-formula><mml:math id="M74"><mml:msub><mml:mrow><mml:mi>&#x003BC;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> and covariance &#x003A3;<sub>&#x003B2;</sub>: &#x0003D; 10/<sub>2</sub>. Here, and in all subpanels, the black &#x000D7; marks the true, but unknown, parameter value. <bold>(B)</bold> Variational approximation <italic>q</italic><sup>(<italic>c</italic>)</sup>(&#x003B2;) to the posterior distribution upon convergence of the algorithm. <bold>(C)</bold> VML free energy dependence on <italic>m</italic><sub>&#x003B2;</sub>. The blue &#x000D7; indicates the prior expectation parameter and the red &#x0002B; marks the approximated posterior expectation parameter. <bold>(D)</bold> VML free energy dependence on &#x003BB;. The blue &#x000D7; indicates the parameter value at algorithm initialization and the red &#x0002B; marks the parameter value upon algorithm convergence. For implementational details, please see <italic>vbg_1.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0003.tif"/>
</fig>
</sec>
</sec>
<sec>
<title>2.5. Restricted maximum likelihood (ReML)</title>
<p>ReML is commonly viewed as a generalization of the maximum likelihood approach, which in the case of the GLM yields unbiased, rather than biased, covariance component parameter estimates (Harville, <xref ref-type="bibr" rid="B44">1977</xref>; Phillips et al., <xref ref-type="bibr" rid="B74">2002</xref>; Searle et al., <xref ref-type="bibr" rid="B80">2009</xref>). In this context and using our denotations, the ReML estimate <inline-formula><mml:math id="M75"><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula> is defined as the maximizer of the ReML objective function</p>
<disp-formula id="E42"><label>(41)</label><mml:math id="M76"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mstyle displaystyle="true"><mml:munder><mml:mrow><mml:mo class="qopname">arg</mml:mo><mml:mo class="qopname">max</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:munder></mml:mstyle><mml:mtext>&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>&#x02113;</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>where</p>
<disp-formula id="E43"><label>(42)</label><mml:math id="M77"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>&#x02113;</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mo>|</mml:mo><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo class="qopname">^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>G</mml:mi><mml:mi>L</mml:mi><mml:mi>S</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo class="qopname">^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>G</mml:mi><mml:mi>L</mml:mi><mml:mi>S</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>denotes the ReML objective function and</p>
<disp-formula id="E44"><label>(43)</label><mml:math id="M78"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>G</mml:mi><mml:mi>L</mml:mi><mml:mi>S</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mi>X</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>y</mml:mi></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>denotes the generalized least-squares estimator for &#x003B2;. Because <inline-formula><mml:math id="M79"><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>G</mml:mi><mml:mi>L</mml:mi><mml:mi>S</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula> depends on &#x003BB; in terms of <italic>V</italic><sub>&#x003BB;</sub>, maximizing the ReML objective function necessitates iterative numerical schemes. Traditional derivations of the ReML objective function, such as provided by LaMotte (<xref ref-type="bibr" rid="B51">2007</xref>) and Hocking (<xref ref-type="bibr" rid="B46">2013</xref>), are based on mixed-effects linear models and the introduction of a contrast matrix <italic>A</italic> with the property that <italic>A</italic><sup><italic>T</italic></sup><italic>X</italic> &#x0003D; 0 and then consider the likelihood of <italic>A</italic><sup><italic>T</italic></sup><italic>y</italic> after canceling out the deterministic part of the model. In Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S1.4</xref> we show that, up to an additive constant, the ReML objective function also corresponds to the VML free energy under the assumption of an improper constant prior distribution for &#x003B2;, and an exact update of the VML free energy with respect to the variational distribution of &#x003B2;, i.e., setting <italic>q</italic>(&#x003B2;) &#x0003D; <italic>p</italic><sub>&#x003BB;</sub>(&#x003B2;|<italic>y</italic>). In other words, for the probabilistic model</p>
<disp-formula id="E45"><label>(44)</label><mml:math id="M80"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;with&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mn>1</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>it holds that</p>
<disp-formula id="E47"><label>(45)</label><mml:math id="M82"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>&#x02113;</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mi>c</mml:mi><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>where</p>
<disp-formula id="E48"><label>(46)</label><mml:math id="M83"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>c</mml:mi><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mi>n</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>and thus</p>
<disp-formula id="E49"><label>(47)</label><mml:math id="M84"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mstyle displaystyle="true"><mml:munder><mml:mrow><mml:mo class="qopname">arg</mml:mo><mml:mo class="qopname">max</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:munder></mml:mstyle><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:mi>y</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>ReML estimation of covariance components in the context of the general linear model can thus be understood as the special case of VB, in which &#x003B2; is endowed with an improper constant prior distribution, the posterior distribution over &#x003BB; is taken to be the Dirac measure <inline-formula><mml:math id="M85"><mml:msub><mml:mrow><mml:mi>&#x003B4;</mml:mi></mml:mrow><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>&#x0002A;</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:msub></mml:math></inline-formula>, and the point estimate of &#x003BB;<sup>&#x0002A;</sup> maximizes the ensuing VML free energy under exact inference of the posterior distribution of &#x003B2;. In this view, the additional term of the ReML objective function with respect to the ML objective function obtains an intuitive meaning: <inline-formula><mml:math id="M86"><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi><mml:mo>|</mml:mo></mml:math></inline-formula> corresponds to the entropy of the posterior distribution <italic>p</italic><sub>&#x003BB;</sub>(&#x003B2;|<italic>y</italic>) which is maximized by the ReML estimate <inline-formula><mml:math id="M87"><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub></mml:math></inline-formula>. The ReML objective function thus accounts for the uncertainty that stems from estimating of the parameter &#x003B2; by assuming that is as large as possible under the constraints of the data observed.</p>
<p>In line with the discussion of VB and VML, we may define a ReML free energy, by which we understand the VML free energy function evaluated at <italic>p</italic><sub>&#x003BB;</sub>(&#x003B2;|<italic>y</italic>) for the probabilistic model (Equation 44). In Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S1.4</xref>, we show that this ReML free energy can be written as</p>
<disp-formula id="E50"><label>(48)</label><mml:math id="M88"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mi>n</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">tr</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mi>e</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Note that the equivalence of Equation (48) to the constant-augmented ReML objective function of Equation (45) derives from the fact that under the infinitely imprecise prior distribution for &#x003B2; the variational expectation and covariance parameters evaluate to</p>
<disp-formula id="E52"><label>(49)</label><mml:math id="M90"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>G</mml:mi><mml:mi>L</mml:mi><mml:mi>S</mml:mi></mml:mrow></mml:msub><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn><mml:mo>-</mml:mo></mml:mrow></mml:msubsup><mml:mi>X</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>respectively. With respect to the general VML free energy, the ReML free energy is characterized by the absence of a term that penalizes the deviation of the variational parameter <italic>m</italic><sub>&#x003B2;</sub> from its prior expectation, because the infinitely imprecise prior distribution <italic>p</italic>(&#x003B2;) provides no constraints on the estimate of &#x003B2;. To maximize the ReML free energy, we again derived a set of update equations which we document in Algorithm 3. In Figure <xref ref-type="fig" rid="F4">4</xref>, we visualize the application of the ReML algorithm to an example fMRI time-series realization of the model described in Section 2.1 with true, but unknown, parameter values &#x003B2; &#x0003D; (2, &#x02212;1)<sup><italic>T</italic></sup> and &#x003BB; &#x0003D; (&#x02212;0.5, &#x02212;2)<sup><italic>T</italic></sup>. Here, we chose the &#x003B2; prior distribution parameters as the initial values for the variational parameters by setting</p>
<disp-formula id="E53"><label>(50)</label><mml:math id="M98 "><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none none none none none none none none none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext class="textrm" mathvariant="normal">and</mml:mtext><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mtable style="text-align:axis;" equalrows="false" columnlines="none none none none none none none none none" equalcolumns="false" class="array"><mml:mtr><mml:mtd><mml:mn>10</mml:mn></mml:mtd><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd><mml:mtd><mml:mn>10</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>and as above, set the initial covariance component estimate to &#x003BB;<sup>(1)</sup> &#x0003D; (0, 0)<sup><italic>T</italic></sup>.</p>
<table-wrap position="float">
<caption><p><bold>Algorithm 3</bold> ReML Algorithm (for details, see <italic>vbg_est_reml.m</italic>)</p></caption>
<table frame="hsides" rules="groups">
<tbody>
<tr>
<td align="left" valign="top" colspan="2"><bold>Input:</bold> data <italic>y</italic>, initial values <inline-formula><mml:math id="M91"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:math></inline-formula>, model <italic>X, Q</italic><sub>1</sub>, <italic>Q</italic><sub>2</sub></td></tr>
<tr>
<td align="left" valign="top" colspan="2"><bold>Output:</bold> variational parameters <inline-formula><mml:math id="M92"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:math></inline-formula>, free energy <italic>F</italic><sup><italic>ReML</italic>(<italic>i</italic>)</sup></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;1:</td>
<td align="left" valign="top">&#x000A0;<bold>Initialization:</bold> <italic>i</italic> :&#x0003D; 1, &#x000A0;&#x000A0;&#x00394;<italic>F</italic><sup><italic>ReML</italic>(<italic>i</italic>)</sup> :&#x0003D; &#x0221E;, and <inline-formula><mml:math id="M93"><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:msup><mml:mrow><mml:mi>L</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:msup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula>.</td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;2:</td>
<td align="left" valign="top">&#x000A0;<bold>while</bold> &#x00394;<italic>F</italic><sup><italic>ReML</italic>(<italic>i</italic>)</sup> &#x0003E; &#x003B4; <bold>do</bold></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;3:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; <inline-formula><mml:math id="M94"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>y</mml:mi></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;4:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; <inline-formula><mml:math id="M95"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;5:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; solve <inline-formula><mml:math id="M96"><mml:mfrac><mml:mrow><mml:mi>&#x02202;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x02202;</mml:mi><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mi>j</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula> for &#x003BB;<sup>(<italic>i</italic>)</sup></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;6:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; evaluate <inline-formula><mml:math id="M97"><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:msup><mml:mrow><mml:mi>L</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:msup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>R</mml:mi><mml:mi>e</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;7:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; &#x00394;<italic>F</italic><sup><italic>ReML</italic>(<italic>i</italic>)</sup> :&#x0003D; <italic>F</italic><sup><italic>ReML</italic>(<italic>i</italic>)</sup>&#x02212;<italic>F</italic><sup><italic>ReML</italic>(<italic>i</italic>&#x02212;1)</sup></td></tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;8:</td>
<td align="left" valign="top">&#x000A0;<bold>end while</bold></td></tr>
</tbody>
</table>
</table-wrap>
<fig id="F4" position="float">
<label>Figure 4</label>
<caption><p>ReML estimation. <bold>(A)</bold> Variational distribution <italic>q</italic><sup>(<italic>c</italic>)</sup>(&#x003B2;) after convergence based on the initial values <inline-formula><mml:math id="M99"><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> and <italic>S</italic><sub>&#x003B2;</sub>: &#x0003D; 10/<sub>2</sub> (convergence criterion &#x003B4; &#x0003D; 10<sup>&#x02212;3</sup>). Here, and in all subpanels, the black &#x000D7; marks the true, but unknown, parameter value. <bold>(B)</bold> ReML free energy dependence on <italic>m</italic><sub>&#x003B2;</sub>. Here, and in <bold>(C)</bold> the blue &#x000D7; indicates the parameter value at algorithm initialization and the red &#x0002B; marks the parameter value upon algorithm convergence. <bold>(C)</bold> ReML free energy dependence on &#x003BB;. For implementational details, please see <italic>vbg_1.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0004.tif"/>
</fig>
<p>Figure <xref ref-type="fig" rid="F4">4A</xref> depicts the converged variational distribution over &#x003B2; and the true, but unknown, value of &#x003B2; for a ReML free energy convergence criterion of &#x003B4; &#x0003D; 10<sup>&#x02212;3</sup>. Figures <xref ref-type="fig" rid="F4">4B,C</xref> depict the ReML free energy surface as a function of the variational parameter <italic>m</italic><sub>&#x003B2;</sub> and &#x003BB;, respectively. Note that due to the imprecise prior distributions in the VB and VML scenarios, the resulting free energy surfaces are almost identical to the ReML free energy surfaces.</p>
</sec>
<sec>
<title>2.6. Maximum likelihood (ML)</title>
<p>Finally, also the ML objective function can be viewed as the special case of the VB log marginal likelihood decomposition for variational distributions <italic>q</italic>(&#x003B2;) and <italic>q</italic>(&#x003BB;) both conforming to Dirac measures. Specifically, as shown in Supplement Material <xref ref-type="supplementary-material" rid="SM1">S2</xref> the ML estimate</p>
<disp-formula id="E54"><label>(51)</label><mml:math id="M100"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mstyle displaystyle="true"><mml:munder><mml:mrow><mml:mo class="qopname">arg</mml:mo><mml:mo class="qopname">max</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:munder></mml:mstyle><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>&#x02113;</mml:mi></mml:mrow><mml:mrow><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mstyle displaystyle="true"><mml:munder><mml:mrow><mml:mo class="qopname">arg</mml:mo><mml:mo class="qopname">max</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:munder></mml:mstyle><mml:mtext>&#x000A0;</mml:mtext><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mi>N</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>;</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>corresponds to the maximizer of the VML free energy for the probabilistic model</p>
<disp-formula id="E55"><label>(52)</label><mml:math id="M101"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>p</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>|</mml:mo><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext class="textrm" mathvariant="normal">&#x000A0;with&#x000A0;</mml:mtext><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003B4;</mml:mi></mml:mrow><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>&#x0002A;</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext class="textrm" mathvariant="normal">&#x000A0;and&#x000A0;</mml:mtext><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>i.e., a Dirac measure <inline-formula><mml:math id="M102"><mml:msub><mml:mrow><mml:mi>&#x003B4;</mml:mi></mml:mrow><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>&#x0002A;</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:msub></mml:math></inline-formula> for the variational distribution and an improper and constant prior density for the parameter &#x003B2;. Formally, we thus have</p>
<disp-formula id="E56"><label>(53)</label><mml:math id="M103"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo>^</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mstyle displaystyle="true"><mml:munder><mml:mrow><mml:mo class="qopname">arg</mml:mo><mml:mo class="qopname">max</mml:mo></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:munder></mml:mstyle><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>V</mml:mi><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B4;</mml:mi></mml:mrow><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mo>&#x0002A;</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>To align the discussion of ML with the discussion of VB, VML, and ReML, we may define the thus evaluated VML free energy as the <italic>ML free energy</italic>, which is just the standard log likelihood function of the GLM:</p>
<disp-formula id="E57"><label>(54)</label><mml:math id="M104"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mi>F</mml:mi></mml:mrow><mml:mrow><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B2;</mml:mi><mml:mo>,</mml:mo><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mi>n</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mn>2</mml:mn><mml:mi>&#x003C0;</mml:mi><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:mo class="qopname">ln</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>-</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>y</mml:mi><mml:mo>-</mml:mo><mml:mi>X</mml:mi><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Note that the posterior approximation <italic>q</italic>(&#x003B2;) does not encode any uncertainty in this case, and thus the additional term corresponding to the entropy of this distribution in the ReML free energy vanishes for the case of ML. Finally, to maximize the ML free energy we again derived a set of update equations (Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S1.5</xref>) which we document in Algorithm 4. In Figure <xref ref-type="fig" rid="F5">5</xref>, we visualize the application of this ML algorithm to an example fMRI time-series realization of the model described in Section 2.1 with true, but unknown, parameter values &#x003B2; &#x0003D; (2, &#x02212;1)<sup><italic>T</italic></sup> and &#x003BB; &#x0003D; (&#x02212;0.5, &#x02212;2)<sup><italic>T</italic></sup>, initial parameter settings of &#x003B2;<sup>(1)</sup> &#x0003D; (0, 0)<sup><italic>T</italic></sup> and &#x003BB;<sup>(1)</sup> &#x0003D; (0, 0)<sup><italic>T</italic></sup>, and ML free energy convergence criterion &#x003B4; &#x0003D; 10<sup>&#x02212;3</sup>. Figure <xref ref-type="fig" rid="F5">5A</xref> depicts the ML free energy maximization with respect to &#x003B2;<sup>(<italic>i</italic>)</sup> and Figure <xref ref-type="fig" rid="F5">5B</xref> depicts the ML free energy maximization with respect to &#x003BB;<sup>(<italic>i</italic>)</sup>. Note the similarity to the equivalent free energy surfaces in the VB, VML, and ReML scenarios.</p>
<table-wrap position="float">
<caption><p><bold>Algorithm 4</bold> ML Algorithm (for details, see <italic>vbg_est_ml.m</italic>)</p></caption>
<table frame="hsides" rules="groups">
<tbody>
<tr>
<td align="left" valign="top" colspan="2"><bold>Input:</bold> &#x000A0;data <italic>y</italic>, initial values &#x003B2;<sup>(1)</sup>, &#x003BB;<sup>(1)</sup>, model <italic>X, Q</italic><sub>1</sub>, <italic>Q</italic><sub>2</sub></td></tr>
<tr>
<td align="left" valign="top" colspan="2"><bold>Output:</bold> &#x000A0;parameter estimates &#x003B2;<sup>(<italic>i</italic>)</sup>, &#x003BB;<sup>(<italic>i</italic>)</sup>, free energy <italic>F</italic><sup><italic>ML</italic>(<italic>i</italic>)</sup></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;1:</td>
<td align="left" valign="top"><bold>&#x000A0;Initialization:</bold> <italic>i</italic>: &#x0003D; 1, &#x00394;<italic>F</italic><sup><italic>ML</italic>(<italic>i</italic>)</sup>: &#x0003D; &#x0221E;, <italic>F</italic><sup><italic>ML</italic>(<italic>i</italic>)</sup>: &#x0003D; <italic>F</italic><sup><italic>ML</italic></sup>(&#x003B2;<sup>(<italic>i</italic>)</sup>, &#x003BB;<sup>(<italic>i</italic>)</sup>).</td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;2:</td>
<td align="left" valign="top">&#x000A0;<bold>while</bold> &#x00394;<italic>F</italic><sup><italic>ML</italic>(<italic>i</italic>)</sup> &#x0003E; &#x003B4; <bold>do</bold></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;3:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; <italic>i</italic>: &#x0003D; <italic>i</italic> &#x0002B; 1</td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;4:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; <inline-formula><mml:math id="M105"><mml:msup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>X</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mi>X</mml:mi></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msubsup><mml:mrow><mml:mi>V</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup><mml:mi>y</mml:mi></mml:math></inline-formula></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;5:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; solve <inline-formula><mml:math id="M106"><mml:mfrac><mml:mrow><mml:mi>&#x02202;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x02202;</mml:mi><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mi>j</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mrow><mml:mi>M</mml:mi><mml:mi>L</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula> for &#x003BB;<sup>(<italic>i</italic>)</sup></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;6:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; <italic>F</italic><sup><italic>ML</italic>(<italic>i</italic>)</sup>: &#x0003D; <italic>F</italic><sup><italic>ML</italic></sup>(&#x003B2;<sup>(<italic>i</italic>)</sup>, &#x003BB;<sup>(<italic>i</italic>)</sup>)</td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;7:</td>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;&#x000A0; &#x00394;<italic>F</italic><sup><italic>ML</italic>(<italic>i</italic>)</sup>: &#x0003D; <italic>F</italic><sup><italic>ML</italic>(<italic>i</italic>)</sup>&#x02212;<italic>F</italic><sup><italic>ML</italic>(<italic>i</italic>&#x02212;1)</sup></td>
</tr>
<tr>
<td align="left" valign="top">&#x000A0;&#x000A0;&#x000A0;8:</td>
<td align="left" valign="top">&#x000A0;<bold>end while</bold></td>
</tr>
</tbody>
</table>
</table-wrap>
<fig id="F5" position="float">
<label>Figure 5</label>
<caption><p>ML estimation. <bold>(A)</bold> ML free energy dependence on &#x003B2;. Here, and in <bold>(B)</bold>, the black &#x000D7; marks the true, but unknown parameter value, the blue &#x000D7; indicates the parameter value at algorithm initialization and the red &#x0002B; marks the parameter value upon algorithm convergence. <bold>(B)</bold> ML free energy dependence on &#x003BB;. For implementational details, please see <italic>vbg_1.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0005.tif"/>
</fig>
<p>In summary, in this section we have shown how VML, ReML, and ML estimation can be understood as special case of VB estimation. In the application to the GLM, the hierarchical nature of these estimation techniques yields a nested set of free energy objective functions, in which gradually terms that quantify uncertainty about parameter subsets are eliminated (cf. Equations 28, 39, 48, and 54). In turn, the iterative maximization of these objective functions yields a nested set of numerical algorithms, which assume gradually less complex formats <bold>(Algorithms 1&#x02013;4)</bold>. As shown by the numerical examples, under imprecise prior distributions, the resulting free energy surfaces and variational (expectation) parameter estimates are highly consistent across the estimation techniques. Finally, for all techniques, the relevant parameter estimates converge to the true, but unknown, parameter values after a few algorithm iterations.</p>
</sec>
</sec>
<sec id="s3">
<title>3. Applications</title>
<p>In Section 2 we have discussed the conceptual relationships and the algorithmic implementation of VB, VML, ReML, and ML in the context of the GLM and demonstrated their validity for a single simulated data realization. In the current section, we are concerned with their performance over a large number of simulated data realizations (Section 3.1) and their exemplary application to real experimental data (Section 3.2).</p>
<sec>
<title>3.1. Simulations</title>
<p>Classical statistical theory has established a variety of criteria for the assessment of an estimator&#x00027;s quality (e.g., Lehmann and Casella, <xref ref-type="bibr" rid="B52">2006</xref>). Commonly, these criteria amount to the analytical evaluation of an estimators large sample behavior. In the current section we adopt the spirit of this approach in simulations. To this end, we first capitalize on an objective Bayesian standpoint (Bernardo, <xref ref-type="bibr" rid="B10">2003</xref>) by employing imprecise prior distributions to focus on the estimation techniques&#x00027; ability to recover the true, but unknown, parameters of the data generating model and the model structure itself. Specifically, we investigate the cumulative average and variance of the &#x003B2; and &#x003BB; parameter estimates under VB, VML, ReML, and ML and the ability of each technique&#x00027;s (marginal) likelihood approximation to distinguish between different data generating models. In a second step, we then demonstrate exemplarily how parameter prior specifications can induce divergences in the relative estimation qualities of the techniques.</p>
<sec>
<title>3.1.1. Parameter recovery</title>
<p>To study each estimation technique&#x00027;s ability to recover true, but unknown, model parameters, we drew 100 realizations of the example model discussed in Section 2.1 and focussed our evaluation on the cumulative averages and variances of the converged (variational) parameter estimates <inline-formula><mml:math id="M107"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula> (VB, VML, ReML), &#x003B2;<sup>(<italic>c</italic>)</sup> &#x02208; &#x0211D;<sup>2</sup> (ML), <inline-formula><mml:math id="M108"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula> (VB), and &#x003BB;<sup>(<italic>c</italic>)</sup>&#x02208;&#x0211D;<sup>2</sup> (VML, ReML, ML). The simulations are visualized in Figure <xref ref-type="fig" rid="F6">6</xref>. Each panel column of Figure <xref ref-type="fig" rid="F6">6</xref> depicts the results for one of the estimation techniques, and each panel row depicts the results for one of the four parameter values of interest. Each panel displays the cumulative average of the respective parameter estimate. Averages relating to estimates of &#x003B2; are depicted in blue, averages relating to estimates of &#x003BB; are depicted in green. In addition to the cumulative average, each panel shows the cumulative variance of the parameter estimates as shaded area around the cumulative average line, and the true, but unknown, values &#x003B2; &#x0003D; (2, 1)<sup><italic>T</italic></sup> and &#x003BB; &#x0003D; (&#x02212;0.5, &#x02212;2)<sup><italic>T</italic></sup> as gray line. Overall, parameter recovery as depicted here is within acceptable bounds and the estimates variances are tolerable. While there are no systematic differences in parameter recovery across the four estimation techniques, there are qualitative differences in the recovery of effect size and covariance component parameters. For all techniques, the recovery of the effect size parameters is unproblematic and highly reliable. The recovery of covariance component recovery, however, fails in a significant amount of approximately 15&#x02013;20% of data realizations. In the panels relating to estimates of &#x003BB; in Figure <xref ref-type="fig" rid="F6">6</xref>, these cases have been removed using an automated outlier detection approach (Grubbs, <xref ref-type="bibr" rid="B42">1969</xref>). In the outlying cases, the algorithms converged to vastly different values, often deviating from the true, but unknown, values by an order of magnitude (for a summary of the results without outlier removal, please refer to Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S3</xref>). To assess whether this behavior was specific to our implementation of the algorithms, we also evaluated the de-facto neuroimaging community standard for covariance component estimation, the <italic>spm_reml.m</italic> and <italic>spm_reml_sc.m</italic> functions of the SPM12 suite in the same model scenario. We report these simulations as Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S4</xref>. In brief, we found a similar covariance component (mis)estimation behavior as in our implementation.</p>
<fig id="F6" position="float">
<label>Figure 6</label>
<caption><p>Parameter recovery. The panels along the figure&#x00027;s columns depict the cumulative averages (blue/green lines), cumulative variances (blue/green shaded areas), and true, but unknown, parameter values (gray lines) for VB, VML, ReML, and ML estimation. Parameter estimates relating to the effect sizes &#x003B2; are visualized in blue, parameter estimates relating to the covariance components &#x003BB; are visualized in green. The panels along the figure&#x00027;s rows depict the parameter recovery performance for the subcomponents of the effect size parameters (row 1 and 2) and covariance component parameters (row 3 and 4), respectively. The covariance component parameter estimates are corrected for outliers as discussed in the main text. For implementational details, please see <italic>vbg_2.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0006.tif"/>
</fig>
<p>Further research revealed that the relative unreliability of algorithmic covariance component estimation is a well-known phenomenon in the statistical literature (e.g., Groeneveld and Kovac, <xref ref-type="bibr" rid="B41">1990</xref>; Boichard et al., <xref ref-type="bibr" rid="B15">1992</xref>; Groeneveld, <xref ref-type="bibr" rid="B40">1994</xref>; Foulley and van Dyk, <xref ref-type="bibr" rid="B25">2000</xref>). We see at least two possible explanations in the current case. Firstly, we did not systematically explore the behavior of the algorithmic implementation for different initial values. It is likely, that the number of estimation outliers can be reduced by optimizing, for each data realization, the algorithm&#x00027;s starting conditions. However, also in this case, an automated outlier detection approach would be necessary to optimize the respective initial values. Secondly, we noticed already in the demonstrative examples in Section 2, that the free energy surface with respect to the covariance components is not as well-behaved as for the effect sizes. Specifically, the maximum is located on an elongated crest of the function, which is relatively flat (see e.g., Figure <xref ref-type="fig" rid="F5">5B</xref>) and hence impedes the straight-forward identification of the maximizing parameter value (see also Figure 4 of Groeneveld and Kovac, <xref ref-type="bibr" rid="B41">1990</xref> for a very similar covariance component estimation objective function surface). In the Discussion section, we suggest a number of potential remedies for the observed outlier proneness of the covariance component estimation aspect of the VB, VML, ReML, and ML estimation techniques.</p>
</sec>
<sec>
<title>3.1.2. Model recovery</title>
<p>Having established overall reasonable parameter recovery properties for our implementation of the VB, VML, ReML, and ML estimation techniques, we next investigated the ability of the respective techniques&#x00027; (marginal) log likelihood approximations to recover true, but unknown, model structures. We here focussed on the comparison of two data generating models that differ in the design matrix structure and have identical error covariance structures. Model MG1 corresponds to the first column of the example design matrix of Figure <xref ref-type="fig" rid="F1">1</xref> and thus is parameterized by a single effect size parameter. Model MG2 corresponds to the model used in all previous applications comprising two design matrix columns. To assess the model recovery properties of the different estimation techniques, we generated 100 data realizations based on each of these two models with true, but unknown, effect size parameter values of &#x003B2;<sub>1</sub> &#x0003D; 2 (MG1 and MG2) and &#x003B2;<sub>2</sub> &#x0003D; &#x02212;1 (MG2 only), and covariance component parameters &#x003BB; &#x0003D; (&#x02212;0.5, &#x02212;2)<sup><italic>T</italic></sup> (MG1 and MG2), as in the previous simulations. We then analyzed each model&#x00027;s data realizations with data analysis models that corresponded to only the single data-generating design matrix regressor (MA1) or both regressors (MA2) for each of the four estimation techniques.</p>
<p>The results of this simulation are visualized in Figure <xref ref-type="fig" rid="F7">7</xref>. For each estimation technique (panels), the average free energies, after exclusion of outlier estimates for the covariance component parameters, are visualized as bars. The data-generating models MG1 and MG2 are grouped on the x-axis and the data-analysis models are grouped by bar color (MA1 green, MA2 yellow). As evident from Figure <xref ref-type="fig" rid="F7">7</xref>, the correct analysis model obtained the higher free energy, i.e., log model evidence approximation, for both data-generating models across all estimation techniques. This difference was more pronounced when analysing data generated by model MG2 than when analysing data generated by model MG1. In this case, the observed data pattern is clearly better described by MA2. In the case of the data-generating model MG1, data analysis model MA2 can naturally account for the observed data by estimating the second effect size parameter to be approximately zero. Nevertheless, this additional model flexibility is penalized correctly by all algorithms, such that the more parsimonious data analysis model MA1 assumes the higher log model evidence approximation also in this case. We can thus conclude that model recovery is achieved satisfactorily by all estimation techniques. A more detailed decomposition of the average free energies into the respective free energy&#x00027;s sum terms is provided in Supplementary Material <xref ref-type="supplementary-material" rid="SM1">S5</xref>.</p>
<fig id="F7" position="float">
<label>Figure 7</label>
<caption><p>Model recovery. Each panel depicts the average free energies of the indicated estimation technique over 100 data realizations. Two data generating models (MG1 and MG2, panel x-axis) were used and analyzed in a cross-over design with two data analysis models (MA1 and MA2, bar color). MG1 and MA1 comprise the same single column design matrix, and MG2 and MA2 comprise the same two column design matrix. Models MG1 and MA1 are nested in MG2 and MA2. Across all estimation techniques, the correct data generating model is identified as indexed by the respective higher free energy log model evidence approximation. For implementational details, please see <italic>vbg_3.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0007.tif"/>
</fig>
</sec>
<sec>
<title>3.1.3. Estimation quality divergences</title>
<p>Thus far, we have concentrated on the nested character of VML, ReML, and ML in VB and demonstrated that for the current model application the maximum-a-posteriori (MAP) estimates of VB and VML and the point estimates of ReML and ML are able to recover true, but unknown, parameter values. Naturally, the four estimation techniques differ in the information they provide upon estimation: VB estimates quantify posterior uncertainty about both effect size and covariance component parameters, VML estimates quantify posterior uncertainty about effect size parameters only, and ReML and ML do not quantify posterior uncertainty about either parameter class. Beyond these conceptual divergences, an interesting question concerns the qualitative and quantitative differences in estimation that result from the estimation techniques&#x00027; specific characteristics. In general, while the properties of ML estimates are fairly well understood from a classical frequentist perspective, the same cannot be said for the other techniques (e.g., Blei et al., <xref ref-type="bibr" rid="B14">2016</xref>). We return to this point in the Discussion section. In the current section, we demonstrate divergences in the quality of parameter estimation that emerge in high noise scenarios, which are able to uncover prior distribution induced regularization effects. We demonstrate this for both effect size (Figure <xref ref-type="fig" rid="F8">8A</xref>) and covariance component parameters (Figure <xref ref-type="fig" rid="F8">8B</xref>) in the example model described in Section 2.1.</p>
<fig id="F8" position="float">
<label>Figure 8</label>
<caption><p>Estimation quality divergences. Each panel depicts the estimated RMSE and estimation bias for all four estimation techniques over a range of noise levels parameterized by &#x003BB;<sub>1</sub>. The estimation techniques are color and linewidth coded. <bold>(A)</bold> Visualizes a simulation with focus on the effect size parameter estimates &#x003B2;, <bold>(B)</bold> visualizes a simulation with focus on the covariance component parameters &#x003BB;. For a detailed description of the simulation, please refer to the main text and for implementational details, please see <italic>vbg_4.m</italic>. Note that for <bold>(A)</bold>, the results of VB and VML and the results of ReML and ML coincide, and for <bold>(B)</bold> the results of ReML and VML coincide.</p></caption>
<graphic xlink:href="fnins-11-00504-g0008.tif"/>
</fig>
<p>The panels in Figure <xref ref-type="fig" rid="F8">8A</xref> depict simulation estimates of the the root-mean-square-error (RMSE) <inline-formula><mml:math id="M109"><mml:mi>E</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:msup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mstyle class="text"><mml:mtext class="textrm" mathvariant="normal">MAX</mml:mtext></mml:mstyle></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:mi>&#x003B2;</mml:mi><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mo>|</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula> (uppermost panel) and biases of the effect size parameter entries <inline-formula><mml:math id="M110"><mml:mi>E</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mstyle class="text"><mml:mtext class="textrm" mathvariant="normal">MAX</mml:mtext></mml:mstyle></mml:mrow></mml:msubsup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math id="M111"><mml:mi>E</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow><mml:mrow><mml:mstyle class="text"><mml:mtext class="textrm" mathvariant="normal">MAX</mml:mtext></mml:mstyle></mml:mrow></mml:msubsup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula> (middle and lowermost panel, respectively) over a range of values of the first covariance component parameter &#x003BB;<sub>1</sub>. Here, <inline-formula><mml:math id="M112"><mml:msup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mstyle class="text"><mml:mtext class="textrm" mathvariant="normal">MAX</mml:mtext></mml:mstyle></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msubsup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mstyle class="text"><mml:mtext class="textrm" mathvariant="normal">MAX</mml:mtext></mml:mstyle></mml:mrow></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow><mml:mrow><mml:mstyle class="text"><mml:mtext class="textrm" mathvariant="normal">MAX</mml:mtext></mml:mstyle></mml:mrow></mml:msubsup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> denotes the MAP estimates resulting under the VB and VML techniques, and the maximum (restricted) likelihood estimates resulting under ReML and ML, &#x003B2; denotes the true, but unknown, effect size parameter, <italic>E</italic>(&#x000B7;) denotes the expectation parameter, &#x000CA;(&#x000B7;) the estimation of an expectation by means of an average, and || &#x000B7; ||<sub>2</sub> denotes the Euclidean norm of a vector. The results for the different estimation techniques are color- and linewidth-coded and were obtained under the following simulation: the true, but unknown, effect size parameter values were set to &#x003B2; &#x0003D; (1, 1)<sup><italic>T</italic></sup> and the true, but unknown, parameter value of the second covariance component parameter was constant at &#x003BB;<sub>2</sub> &#x0003D; &#x02212;2. Varying the true, but unknown, value &#x003BB;<sub>1</sub> on the interval [6, 12] thus increased the contribution of independent and identically distributed noise to the data. For each estimation technique, the respective effect size estimates were initialized as specified in Table <xref ref-type="table" rid="T1">1</xref>. In brief, the estimates for &#x003B2;<sub>1</sub> were initialized to the true, but unknown, value and &#x003B2;<sub>2</sub> to zero. Crucially, VB and VML allow for the specification of prior distributions over &#x003B2;. Here, we used a precise prior covariance of <inline-formula><mml:math id="M113"><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:msup><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mo>-</mml:mo><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula> and an imprecise variance of <inline-formula><mml:math id="M114"><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:msup><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula>. Note that these algorithm parameters do not exist in ReML and ML. For each setting of &#x003BB;<sub>1</sub>, 100 realizations of the model were obtained, subjected to all four estimation techniques, and the RMSE and biases estimated by averaging over realizations. The following pattern of results emerges: in terms of the RMSE (upper panel), VB and VML exhibit a more stable estimation of &#x003B2;, with a lower deviation from zero compared to the trend of ReML and ML estimates, at higher noise levels. In more detail, this pattern results from the following effects on the individual &#x003B2;<sub>1</sub> and &#x003B2;<sub>2</sub> estimates: first, for VB and VML, the estimates &#x003B2;<sub>1</sub> exhibit virtually no biases, because their precise prior distribution fixes them at the true, but unknown value, (middle panel). For &#x003B2;<sub>2</sub> this regularization of &#x003B2;<sub>1</sub> results in more stable estimates as compared to ReML and ML, but for higher levels of noise also results in a downward bias (lowermost panel). Taken together, this simulation demonstrates, how, in the case of prior knowledge about the effect size parameters, the endowment of their estimates with precise priors in VB and VML can stabilize the overall effect size estimation and yield better estimates compared to ReML and ML.</p>
<table-wrap position="float" id="T1">
<label>Table 1</label>
<caption><p>Parameter initialization for the simulations reported in Figures <xref ref-type="fig" rid="F8">8A,B</xref> design.</p></caption>
<table frame="hsides" rules="groups">
<thead><tr>
<th/>
<th valign="top" align="center" colspan="4" style="border-bottom: thin solid #000000;"><bold>VB</bold></th>
<th valign="top" align="center" colspan="3" style="border-bottom: thin solid #000000;"><bold>VML</bold></th>
<th valign="top" align="center" colspan="2" style="border-bottom: thin solid #000000;"><bold>ReML</bold></th>
<th valign="top" align="center" colspan="2" style="border-bottom: thin solid #000000;"><bold>ML</bold></th>
</tr>
<tr>
<th/>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M115"><mml:msubsup><mml:mi>m</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M116"><mml:msubsup><mml:mi>S</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M117"><mml:msubsup><mml:mi>m</mml:mi><mml:mi>&#x003BB;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M118"><mml:msubsup><mml:mi>S</mml:mi><mml:mi>&#x003BB;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M119"><mml:msubsup><mml:mi>m</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M120"><mml:msubsup><mml:mi>S</mml:mi><mml:mi>&#x003B2;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M121"><mml:msup><mml:mi>&#x003BB;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M122"><mml:msup><mml:mi>&#x003B2;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M123"><mml:msup><mml:mi>&#x003BB;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M124"><mml:msup><mml:mi>&#x003B2;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:math></inline-formula></bold></th>
<th valign="top" align="center"><bold><inline-formula><mml:math id="M125"><mml:msup><mml:mi>&#x003BB;</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:math></inline-formula></bold></th>
</tr>
</thead>
<tbody>
<tr>
<td valign="top" align="left"><bold>8A</bold></td>
<td valign="top" align="center"><inline-formula><mml:math id="M126"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mn>1</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M127"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mn>0.01</mml:mn></mml:mrow><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn><mml:mrow><mml:mn>10</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M128"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M129"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mn>10</mml:mn></mml:mrow><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn><mml:mrow><mml:mn>10</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M130"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mn>1</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M131"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mn>0.01</mml:mn></mml:mrow><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn><mml:mrow><mml:mn>10</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M132"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M133"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mn>1</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M134"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M135"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mn>1</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M136"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
</tr>
<tr style="border-top: thin solid #000000;">
<td valign="top" align="left"><bold>8B</bold></td>
<td valign="top" align="center"><inline-formula><mml:math id="M137"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M138"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mn>10</mml:mn></mml:mrow><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn><mml:mrow><mml:mn>10</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M139"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M140"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mn>10</mml:mn></mml:mrow><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn><mml:mrow><mml:mn>10</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M141"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M142"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mn>10</mml:mn></mml:mrow><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn><mml:mrow><mml:mn>10</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M143"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M144"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M145"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M146"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
<td valign="top" align="center"><inline-formula><mml:math id="M147"><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula></td>
</tr>
</tbody>
</table>
</table-wrap>
<p>In a second simulation, visualized in Figure <xref ref-type="fig" rid="F8">8B</xref>, we investigated the interaction between prior regularization and estimation quality for the covariance component parameters. As in Figure <xref ref-type="fig" rid="F8">8A</xref>, the uppermost panel depicts the estimated RMSE for the &#x003BB; parameters, and the middle and lowermost panels the biases of each component parameter. As in the previous simulation, the true, but unknown, effect size parameter values were set to &#x003B2; &#x0003D; (1, 1) and &#x003BB;<sub>2</sub> &#x0003D; &#x02212;2 and &#x003BB;<sub>1</sub> was varied on the interval [&#x02212;1, 1]. The initial parameters for each estimation technique are documented in Table <xref ref-type="table" rid="T1">1</xref>. In brief, all effect size parameter estimates (expectations) were initialized to zero, and isotropic, imprecise prior covariance matrices were employed for VB and VML. The only estimation technique that endows &#x003BB; estimates with a prior distribution is VB. Here, we employ the imprecise prior covariance <inline-formula><mml:math id="M148"><mml:msub><mml:mrow><mml:mi>&#x003A3;</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mn>1</mml:mn><mml:msup><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:msub><mml:mrow><mml:mi>I</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:math></inline-formula>, which is, however, &#x0201C;precise enough&#x0201D; to exert some stabilization effects: as shown in the uppermost panel of Figure <xref ref-type="fig" rid="F8">8B</xref>, only the RMSE of the VB technique remains largely constant over the investigated space of &#x003BB;<sub>1</sub> values, while for all other estimation techniques the RMSE increases linearly. Two things are noteworthy here. First, at the level of the &#x003B2; estimates all techniques perform equally well in a bias-free manner (data not shown). Second, the &#x003BB;<sub>1</sub> parameter space investigated includes a region (around 0.5) for which also the VB estimation quality declines, but recovers thereafter, suggesting an interaction between the structural model properties and the parameter regime. For the individual entries of &#x003BB;, the decline in estimation quality in VML, ReML, and ML is not uniform: for &#x003BB;<sub>1</sub>, the estimation quality remains largely constant up to the critical region around 0.5, whereas the estimation quality of &#x003BB;<sub>2</sub> deteriorates with increasing values of &#x003BB;<sub>1</sub> and recovers briefly in the critical region around 0.5. Note that for both simulations of Figure <xref ref-type="fig" rid="F8">8</xref> we did not attempt to remove potential estimation outliers, because their definition in high noise scenarios is virtually impossible. It is thus likely, that the convergence failures observed in the first set of simulations contribute to the observed estimation errors. However, because these failures also afflict the VB and VML techniques which displayed improved estimation behavior in the simulations reported in Figure <xref ref-type="fig" rid="F8">8</xref>, it is likely that the observed pattern of results is indicative of qualitative estimation divergences.</p>
<p>In summary, in the reported simulations we tried to evaluate our implementation of VB, VML, ReML, and ML estimation techniques for a typical neuroimaging data analysis example. In our first simulation set, we observed generally satisfactory parameter recovery for imprecise priors, with the exception of covariance component parameter recovery on a subset of data realizations. In our second simulation, we additionally observed satisfactory model recovery. In our last set of simulations, we probed for estimation quality divergences between the techniques and could show how regularizing prior distributions of the advanced estimation techniques VB and VML can aid to stabilize effect size and covariance component parameter estimation. Naturally, the reported simulations are conditional on our chosen model structure, the true, but unknown, parameter values, and the algorithm initial conditions (prior distributions), and hence not easily generalizable.</p>
</sec>
</sec>
<sec>
<title>3.2. Application to real data</title>
<p>Having validated the VB, VML, ReML, and ML implementation in simulations, we were interested in their application to real experimental data with the main aim of demonstrating the possible parameter inferences that can (and cannot) be made with each technique. To this end, we applied VB, VML, ReML, and ML to a single participant fMRI data set acquired under visual checkerboard stimulation as originally reported in Ostwald et al. (<xref ref-type="bibr" rid="B70">2010</xref>). In brief, the participant was presented with a single reversing left hemi-field checkerboard stimulus for 1 s every 16.5&#x02013;21 s. These relatively long inter-stimulus intervals were motivated by the fact that the data was acquired as part of an EEG-fMRI study that investigated trial-by-trial correlations between EEG and fMRI evoked responses. Stimuli were presented at two contrast levels and there were 17 stimulus presentations per contrast level. 441 volumes of T2<sup>&#x0002A;</sup>-weighted functional data were acquired from 20 slices with 2.5 &#x000D7; 2.5 &#x000D7; 3 mm resolution and a TR of 1.5 s. The slices were oriented parallel to the AC-PC axis and positioned to cover the entire visual cortex. Data preprocessing using SPM5 included anatomical realignment to correct for motion artifacts, slice scan time correction, re-interpolation to 2 &#x000D7; 2 &#x000D7; 2 mm voxels, anatomical normalization, and spatial smoothing with a 5 mm FWHM Gaussian kernel. For full methodological details, please see Ostwald et al. (<xref ref-type="bibr" rid="B70">2010</xref>).</p>
<p>To demonstrate the application of VB, VML, ReML, and ML to this data set, we used the SPM12 facilities to create a three-column design matrix for the mass-univariate analysis of voxel time-course data. This design matrix included HRF-convolved stimulus onset functions for both stimulus contrast levels and a constant offset. The design matrix is visualized in Figure <xref ref-type="fig" rid="F10">10C</xref>. We then selected one slice of the preprocessed fMRI data (MNI plane <italic>z</italic> &#x0003D; 2) and used our implementation of the four estimation techniques to estimate the corresponding three effect size parameters &#x003B2; &#x02208; &#x0211D;<sup>3</sup> and the covariance component parameters &#x003BB; &#x02208; &#x0211D;<sup>2</sup> of the two covariance basis matrices introduced in Section 2.1 for each voxel. We focus our evaluation on the resulting variational parameter estimates of the effect size parameter &#x003B2;<sub>1</sub>, corresponding to the high stimulus contrast, and the first covariance component parameter &#x003BB;<sub>1</sub>, corresponding to the isotropic error component. In line with the common practice in neuroimaging data analysis, no outlier removal was performed for the latter parameter. The results are visualized in Figures <xref ref-type="fig" rid="F9">9</xref>, <xref ref-type="fig" rid="F10">10</xref>.</p>
<fig id="F9" position="float">
<label>Figure 9</label>
<caption><p>Effect size estimation. The figure panels depict the effect size parameter &#x003B2;<sub>1</sub> estimation results of the VB, VML, ReML, and ML algorithm application to the analysis of a single-participant single-run fMRI data set. This effect size parameter captures the effect of high contrast left visual hemifield checkerboard stimuli as encoded by the first column of the design matrix shown in <bold>(C)</bold>. The first column <bold>(A)</bold> displays the converged expectation parameter estimates, the second column <bold>(B)</bold> the associated variance estimates, and the third column <bold>(C)</bold> the posterior probability for the true, but unknown, effect size parameter to assume values larger than 4. For visual comparison, <bold>(D)</bold> depicts the result of a standard GLM data analysis of the same data set using SPM12. For implementational details, please see <italic>vbg_5.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0009.tif"/>
</fig>
<fig id="F10" position="float">
<label>Figure 10</label>
<caption><p>Covariance component parameter estimation. The figure panels depict the covariance component parameter &#x003BB;<sub>1</sub> estimation results of the VB, VML, ReML, and ML algorithm application to the analysis of a single-participant single-run fMRI data set. This covariance component parameter captures the effect of independently distributed errors. The first column <bold>(A)</bold> displays the converged (expectation) parameter estimates. The second column <bold>(B)</bold> displays the associated variance estimate and posterior probability for &#x003BB;<sub>1</sub> &#x0003E; 2, which is only quantifiable under the VB estimation technique. <bold>(C)</bold> Depicts the GLM design matrix that was used for the fMRI data analysis presented in Figures <xref ref-type="fig" rid="F8">8</xref>, <xref ref-type="fig" rid="F9">9</xref> (HC, high contrast stimuli regressor; LC, low contrast stimuli regressor; BL, baseline offset regressor). For implementational details, please see <italic>vbg_5.m</italic>.</p></caption>
<graphic xlink:href="fnins-11-00504-g0010.tif"/>
</fig>
<p>Figure <xref ref-type="fig" rid="F9">9</xref> visualizes the parameter estimates relating to the effect size parameter &#x003B2;<sub>1</sub>. The subpanels of Figure <xref ref-type="fig" rid="F10">10A</xref> depict the resulting two-dimensional map of converged variational parameter estimates, which differs only minimally between the four estimation techniques as indicated on the left of each panel. The variational parameter estimates are highest in the area of the right primary visual cortex, and lowest in the area of the cisterna ambiens/lower lateral ventricles. Figure <xref ref-type="fig" rid="F10">10B</xref> depicts the associated variational covariance parameter <inline-formula><mml:math id="M149"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula>, i.e., the first diagonal entry of the of the variational covariance matrix <inline-formula><mml:math id="M150"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mn>3</mml:mn><mml:mo>&#x000D7;</mml:mo><mml:mn>3</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula>. Here, the highest uncertainty is observed for ventricular locations and the right medial cerebral artery. Overall, the uncertainty estimates are marginally more pronounced for the VB and VML techniques compared to the ReML estimates. Note that the ML technique does not quantify the uncertainty of the GLM effect size parameters. Based on the variational parameters <inline-formula><mml:math id="M151"><mml:msubsup><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula> and <inline-formula><mml:math id="M152"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula>, Figure <xref ref-type="fig" rid="F10">10C</xref> depicts the probability that the true, but unknown, effect size parameter is larger than &#x003B7; &#x0003D; 4, i.e.,</p>
<disp-formula id="E58"><label>(55)</label><mml:math id="M153"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>&#x0003E;</mml:mo><mml:mi>&#x003B7;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>N</mml:mi></mml:mrow><mml:mrow><mml:mi>c</mml:mi><mml:mi>d</mml:mi><mml:mi>f</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B7;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003B2;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>where <italic>N</italic><sub><italic>cdf</italic></sub> denotes the univariate Gaussian cumulative density function. Here, the stimulus-contralateral right hemispheric primary visual cortex displays the highest values and the differences between VB, VML, and ReML are marginal. For comparison, we depict the result of a classical GLM analysis with contrast vector <italic>c</italic> &#x0003D; (1, 0, 0)<sup><italic>T</italic></sup> at an uncorrected cluster-defining threshold of <italic>p</italic> &#x0003C; 0.001 and voxel number threshold of <italic>k</italic> &#x0003D; 0 overlaid on the canonical single participant T1 image in Figure <xref ref-type="fig" rid="F9">9D</xref>. This analysis also identifies the right lateral primary visual cortex as area of strongest activation&#x02014;but in contrast to the VB, VML, and ReML results does not provide a visual account of the uncertainty associated with the parameter estimates and ensuing T-statistics. In summary, the VB, VML, and ReML-based quantification of effect sizes and their associated uncertainty revealed biologically meaningful results.</p>
<p>Figure <xref ref-type="fig" rid="F10">10</xref> visualizes the variational expectation parameters relating to the effect size parameter &#x003BB;<sub>1</sub>. Here, the subpanels of Figure <xref ref-type="fig" rid="F10">10A</xref> visualize the variational (expectation) parameters across the four estimation techniques. High values for this covariance component are observed in the areas covering cerebrospinal fluid (cisterna ambiens, lateral and third ventricles), lateral frontal areas, and the big arteries and veins. Notably, also in right primary visual cortex, the covariance component estimate is relatively large, indicating that the design matrix does not capture all stimulus-induced variability. The only estimation technique that also quantifies the uncertainty about the covariance component parameters is VB. The results of this quantification are visualized in Figure <xref ref-type="fig" rid="F10">10B</xref>. The first subpanel visualizes the variational covariance parameter <inline-formula><mml:math id="M154"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula>, i.e., the first diagonal entry of the variational covariance matrix <inline-formula><mml:math id="M155"><mml:msubsup><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mi>&#x0211D;</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo>&#x000D7;</mml:mo><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula>. The second subpanel visualizes the probability that the true, but unknown, covariance component parameter &#x003BB; is larger than &#x003B7; &#x0003D; 2, i.e.,</p>
<disp-formula id="E59"><label>(56)</label><mml:math id="M156"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>p</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>&#x0003E;</mml:mo><mml:mi>&#x003B7;</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mi>N</mml:mi></mml:mrow><mml:mrow><mml:mi>c</mml:mi><mml:mi>d</mml:mi><mml:mi>f</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>&#x003B7;</mml:mi><mml:mo>;</mml:mo><mml:msub><mml:mrow><mml:mi>m</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>S</mml:mi></mml:mrow><mml:mrow><mml:msub><mml:mrow><mml:mi>&#x003BB;</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>which, due to the relatively low uncertainty estimates <italic>S</italic><sub>&#x003BB;<sub>1</sub></sub> shows high similarity with the variational expectation parameter map. In summary, our exemplary application of VB, VML, ReML, and ML to real experimental data revealed biologically sensible results for both effect size and covariance component parameter estimates.</p>
</sec>
</sec>
<sec sec-type="discussion" id="s4">
<title>4. Discussion</title>
<p>In this technical study, we have reviewed the mathematical foundations of four major parametric statistical parameter estimation techniques that are routinely employed in the analysis of neuroimaging data. We have detailed, how VML (expectation-maximization), ReML, and ML parameter estimation can be viewed as special cases of the VB paradigm. We summarize these relationships and the non-technical application scenarios in which each technique corresponds to the method of choice in Figure <xref ref-type="fig" rid="F11">11</xref>. Further, we have provided a detailed documentation of the application of these four estimation techniques to the GLM with non-spherical, linearly decomposable error covariance, a fundamental modeling scenario in the analysis of fMRI data. Finally, we validated the ensuing iterative algorithms with respect to both simulated and real experimental fMRI data. In the following, we relate our exposition to previous treatments of similar topic matter, discuss potential future work on the qualitative properties of VB parameter estimation techniques, and finally comment on the general relevance of the current study.</p>
<fig id="F11" position="float">
<label>Figure 11</label>
<caption><p>VB, VML, ReML, and ML relationships and application scenarios. N/A denotes non-applicable.</p></caption>
<graphic xlink:href="fnins-11-00504-g0011.tif"/>
</fig>
<p>The relationships between VB, VML, ReML, and ML have been previously pointed out in Friston et al. (<xref ref-type="bibr" rid="B29">2002a</xref>) and Friston et al. (<xref ref-type="bibr" rid="B32">2007</xref>). In contrast to the current study, however, Friston et al. (<xref ref-type="bibr" rid="B29">2002a</xref>) and Friston et al. (<xref ref-type="bibr" rid="B32">2007</xref>) focus on high-level general results and provide virtually no derivations. Moreover, when introducing VB in Friston et al. (<xref ref-type="bibr" rid="B32">2007</xref>), the GLM with non-spherical, linearly decomposable error covariance is treated as one of a number of model applications and is not studied in detail across all estimation techniques. From this perspective, the current study can be understood as making many of the implicit results in Friston et al. (<xref ref-type="bibr" rid="B29">2002a</xref>) and Friston et al. (<xref ref-type="bibr" rid="B32">2007</xref>) explicit and filling in many of the detailed connections and consequences, which are implied by Friston et al. (<xref ref-type="bibr" rid="B29">2002a</xref>) and Friston et al. (<xref ref-type="bibr" rid="B32">2007</xref>). The relationship between VB and VML has been noted already from outset of the development of the VB paradigm (Beal, <xref ref-type="bibr" rid="B9">2003</xref>; Beal and Ghamarani, <xref ref-type="bibr" rid="B8">2003</xref>). In fact, VB was originally motivated as a generalization of the EM algorithm (Neal and Hinton, <xref ref-type="bibr" rid="B67">1998</xref>; Attias, <xref ref-type="bibr" rid="B6">2000</xref>). However, these treatments do not provide an explicit derivation of VML from VB based on the Dirac measure and do not make the connection to ReML. Furthermore, these studies do not focus on the GLM and its application in the analysis of fMRI data. Finally, a number of treatises have considered the application of VB to linear regression models (e.g., Bishop, <xref ref-type="bibr" rid="B13">2006</xref>; Tzikas et al., <xref ref-type="bibr" rid="B87">2008</xref>; Murphy, <xref ref-type="bibr" rid="B66">2012</xref>). However, these works do not consider non-spherical linearly decomposable error covariance matrices and also do not make the connection to classical statistical estimation using ReML for functional neuroimaging. Taken together, the current study complements the existing literature with its emphasis on the mathematical traceability of the relationship between VB, VML, ReML, and ML, its focus on the GLM application, and its motivation from a functional neuroimaging background.</p>
<sec>
<title>4.1. Estimator quality</title>
<p>Model estimation techniques yield estimators. Estimators are functions of observed data that return estimates of true, but unknown, model parameters, be it the point-estimates of classical frequentist statistics or the posterior distributions of the Bayesian paradigm (e.g., Wasserman, <xref ref-type="bibr" rid="B91">2010</xref>). An important issue in the development of estimation techniques is hence the quality of estimators to recover true, but unknown, model parameters and model structure. While this issue re-appears in the functional neuroimaging literature in various guises every couple of years (e.g., Vul et al., <xref ref-type="bibr" rid="B88">2009a</xref>; Eklund et al., <xref ref-type="bibr" rid="B23">2016</xref>), often accompanied by some flurry in the field (e.g., Abbott, <xref ref-type="bibr" rid="B1">2009</xref>; Nichols and Poline, <xref ref-type="bibr" rid="B68">2009</xref>; Vul et al., <xref ref-type="bibr" rid="B89">2009b</xref>; Eklund et al., <xref ref-type="bibr" rid="B23">2016</xref>; Miller, <xref ref-type="bibr" rid="B58">2016</xref>), it is perhaps true to state that the systematic study of estimator properties for functional neuroimaging data models is not the most matured research field. From an analytical perspective, this is likely due to the relative complexity of functional neuroimaging data models as compared to the fundamental scenarios that are studied in mathematical statistics (e.g., Shao, <xref ref-type="bibr" rid="B81">2003</xref>). In the current study, we used simulations to study both parameter and model recovery, and while obtaining overall satisfiable results, we found that the estimation of covariance component parameters can be deficient for a subset of data realizations. As pointed out in Section 3, this finding is not an unfamiliar result in the statistical literature (e.g., Harville, <xref ref-type="bibr" rid="B44">1977</xref>; Groeneveld and Kovac, <xref ref-type="bibr" rid="B41">1990</xref>; Boichard et al., <xref ref-type="bibr" rid="B15">1992</xref>; Groeneveld, <xref ref-type="bibr" rid="B40">1994</xref>). We see two potential avenues for improving on this issue in future research. Firstly, there exist a variety of covariance component estimation algorithm variants in the literature (e.g., Gilmour et al., <xref ref-type="bibr" rid="B38">1995</xref>; Witkovsk&#x01EF3;, <xref ref-type="bibr" rid="B93">1996</xref>; Thompson and M&#x000E4;ntysaari, <xref ref-type="bibr" rid="B86">1999</xref>; Foulley and van Dyk, <xref ref-type="bibr" rid="B25">2000</xref>; Misztal, <xref ref-type="bibr" rid="B59">2008</xref>) and research could be devoted to applying insights from this literature in the neuroimaging context. Secondly, as the deficient estimation primarily concerns the covariance component parameter that scales the AR(1) &#x0002B; WN model covariance basis matrix, it remains to be seen, whether the inclusion of a variety of physiological regressors in the deterministic aspect of the GLM will eventually supersede the need for covariance component parameter estimation in the analysis of first-level fMRI data altogether (e.g., Glover et al., <xref ref-type="bibr" rid="B39">2000</xref>; Lund et al., <xref ref-type="bibr" rid="B55">2006</xref>). Finally, we presented the application of VB, VML, ReML, and ML in the context of fMRI time-series analysis. As pointed out in Section 1, the very same statistical estimation techniques are of eminent importance for a wide range of other functional neuroimaging data models. Moreover, together with the GLM, they also form a fundamental building block of model-based behavioral data analyses as recently proposed in the context of &#x0201C;computational psychiatry&#x0201D; (e.g., Montague et al., <xref ref-type="bibr" rid="B60">2012</xref>; Schwartenbeck and Friston, <xref ref-type="bibr" rid="B79">2016</xref>; Stephan et al., <xref ref-type="bibr" rid="B82">2016a</xref>,<xref ref-type="bibr" rid="B83">b</xref>,<xref ref-type="bibr" rid="B84">c</xref>) and recent developments in the analysis of &#x0201C;big data&#x0201D; (e.g., Allenby et al., <xref ref-type="bibr" rid="B2">2014</xref>; Ghahramani, <xref ref-type="bibr" rid="B37">2015</xref>).</p>
<p>On a more general level, the relative merits of the parameter estimation techniques discussed herein form an important field for future research. Ideally, the statistical properties of estimators resulting from variational approaches were understood for the model of interest, and known properties of their specialized cases, such as the bias-free covariance component parameter estimation under ReML with respect to ML, would be deducible from these. However, as pointed out by Blei et al. (<xref ref-type="bibr" rid="B14">2016</xref>), the statistical properties of variational approaches are not yet well understood. Nevertheless, there exists a few results on the statistical properties of variational approaches, typically in terms of the variational expectations upon convergence and for fairly specific model classes. Of relevance for the model class considered herein is the recent work by You et al. (<xref ref-type="bibr" rid="B97">2014</xref>), who could show the consistency of the variational expectation in the frequentist sense, albeit for spherical covariance matrices and a gamma distribution for the covariance component parameter. For a broader model class with posterior support in real space (including the current model class of interest), Westling (<xref ref-type="bibr" rid="B92">2017</xref>) have worked toward establishing the consistency and asymptotic normality of variational expectation estimates. Finally, a number of authors have addressed consistency and asymptotic properties in selected model classes, such as Poisson-mixed effect models, stochastic block models, and Gaussian mixture models (Wang and Titterington, <xref ref-type="bibr" rid="B90">2006</xref>; Hall et al., <xref ref-type="bibr" rid="B43">2011</xref>; Celisse et al., <xref ref-type="bibr" rid="B17">2012</xref>; Bickel et al., <xref ref-type="bibr" rid="B12">2013</xref>).</p>
<p>In summary, understanding the qualitative statistical properties of variational Bayesian estimators and their relative merits with respect to more specialized approaches forms a burgeoning field of research. New impetus in this direction may also arise from recent attempts to understand the properties of deep learning algorithms from a probabilistic variational perspective (Gal and Ghahramani, <xref ref-type="bibr" rid="B35">2017</xref>).</p>
</sec>
</sec>
<sec sec-type="conclusions" id="s5">
<title>5. Conclusion</title>
<p>To conclude, we believe that the mathematization and validation of model estimation techniques employed in the neuroimaging field is an important endeavor as the field matures. With the current work, we attempted to provide a small step in this direction. We further hope to be able to contribute to a better understanding of the statistical properties of the parameter estimation techniques for neuroimaging-relevant model classes in our future work.</p>
</sec>
<sec id="s6">
<title>Author contributions</title>
<p>LS and DO conceptualized and designed the work, performed theoretical derivations, simulations and analyses, and drafted and revised the paper.</p>
<sec>
<title>Conflict of interest statement</title>
<p>The authors declare that the research was conducted in the absence of any commercial or financial relationships that could be construed as a potential conflict of interest.</p>
</sec>
</sec>
</body>
<back>
<sec sec-type="supplementary-material" id="s7">
<title>Supplementary material</title>
<p>The Supplementary Material for this article can be found online at: <ext-link ext-link-type="uri" xlink:href="http://journal.frontiersin.org/article/10.3389/fnins.2017.00504/full#supplementary-material">http://journal.frontiersin.org/article/10.3389/fnins.2017.00504/full#supplementary-material</ext-link></p>
<supplementary-material xlink:href="DataSheet1.pdf" id="SM1" mimetype="application/pdf" xmlns:xlink="http://www.w3.org/1999/xlink"/>
</sec>
<ref-list>
<title>References</title>
<ref id="B1">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Abbott</surname> <given-names>A.</given-names></name></person-group> (<year>2009</year>). <article-title>Brain imaging studies under fire</article-title>. <source>Nature</source> <volume>457</volume>:<fpage>245</fpage>. <pub-id pub-id-type="doi">10.1038/457245a</pub-id><pub-id pub-id-type="pmid">19148065</pub-id></citation></ref>
<ref id="B2">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Allenby</surname> <given-names>G. M.</given-names></name> <name><surname>Bradlow</surname> <given-names>E. T.</given-names></name> <name><surname>George</surname> <given-names>E. I.</given-names></name> <name><surname>Liechty</surname> <given-names>J.</given-names></name> <name><surname>McCulloch</surname> <given-names>R. E.</given-names></name></person-group> (<year>2014</year>). <article-title>Perspectives on bayesian methods and big data</article-title>. <source>Customer Needs Solut.</source> <volume>1</volume>, <fpage>169</fpage>&#x02013;<lpage>175</lpage>. <pub-id pub-id-type="doi">10.1007/s40547-014-0017-9</pub-id></citation></ref>
<ref id="B3">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Ashburner</surname> <given-names>J.</given-names></name></person-group> (<year>2009</year>). <article-title>Computational anatomy with the spm software</article-title>. <source>Magn. Reson. Imaging</source> <volume>27</volume>, <fpage>1163</fpage>&#x02013;<lpage>1174</lpage>. <pub-id pub-id-type="doi">10.1016/j.mri.2009.01.006</pub-id><pub-id pub-id-type="pmid">19249168</pub-id></citation></ref>
<ref id="B4">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Ashburner</surname> <given-names>J.</given-names></name></person-group> (<year>2012</year>). <article-title>Spm: a history</article-title>. <source>Neuroimage</source> <volume>62</volume>, <fpage>791</fpage>&#x02013;<lpage>800</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2011.10.025</pub-id><pub-id pub-id-type="pmid">22023741</pub-id></citation></ref>
<ref id="B5">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Ashburner</surname> <given-names>J.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2000</year>). <article-title>Voxel-based morphometry&#x02013;the methods</article-title>. <source>Neuroimage</source> <volume>11</volume>(<issue>6 Pt 1</issue>), <fpage>805</fpage>&#x02013;<lpage>821</lpage>. <pub-id pub-id-type="doi">10.1006/nimg.2000.0582</pub-id><pub-id pub-id-type="pmid">10860804</pub-id></citation></ref>
<ref id="B6">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Attias</surname> <given-names>H.</given-names></name></person-group> (<year>2000</year>). <article-title>A variational bayesian framework for graphical models</article-title>. <source>Adv. Neural Inform. Process. Syst.</source> <volume>12</volume>, <fpage>209</fpage>&#x02013;<lpage>215</lpage>.</citation></ref>
<ref id="B7">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Barber</surname> <given-names>D.</given-names></name></person-group> (<year>2012</year>). <source>Bayesian Reasoning and Machine Learning</source>. <publisher-loc>Cambridge</publisher-loc>: <publisher-name>Cambridge University Press</publisher-name>.</citation></ref>
<ref id="B8">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Beal</surname> <given-names>M.</given-names></name> <name><surname>Ghamarani</surname> <given-names>Z.</given-names></name></person-group> (<year>2003</year>). <article-title>The variational Bayesian EM algorithm for incomplete data: with application to scoring graphical model structures</article-title>, in <source>Bayesian Statistics 7</source>, eds <person-group person-group-type="editor"><name><surname>Bernardo</surname> <given-names>J. M.</given-names></name> <name><surname>Bayarri</surname> <given-names>M. J.</given-names></name> <name><surname>Berger</surname> <given-names>J. O.</given-names></name> <name><surname>Dawid</surname> <given-names>A. P.</given-names></name> <name><surname>Heckerman</surname> <given-names>D.</given-names></name> <name><surname>Smith</surname> <given-names>A. F. M.</given-names></name> <name><surname>West</surname> <given-names>M.</given-names></name></person-group> (<publisher-loc>Oxford</publisher-loc>: <publisher-name>Oxford University Press</publisher-name>), <fpage>1</fpage>&#x02013;<lpage>10</lpage>.</citation></ref>
<ref id="B9">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Beal</surname> <given-names>M. J.</given-names></name></person-group> (<year>2003</year>). <source>Variational Algorithms for Approximate Bayesian Inference</source>. <publisher-loc>London</publisher-loc>: <publisher-name>University of London</publisher-name>.</citation></ref>
<ref id="B10">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Bernardo</surname> <given-names>J. M.</given-names></name></person-group> (<year>2003</year>). <article-title>Bayesian Statistics</article-title>, in <source>Probability and Statistics</source>, ed <person-group person-group-type="editor"><name><surname>Viertl</surname> <given-names>R.</given-names></name></person-group> (<publisher-loc>Oxford</publisher-loc>: <publisher-name>Encyclopedia of Life Support Systems (EOLSS)</publisher-name>), <fpage>1</fpage>&#x02013;<lpage>46</lpage>.</citation></ref>
<ref id="B11">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Bernardo</surname> <given-names>J. M.</given-names></name></person-group> (<year>2009</year>). <source>Modern Bayesian Inference: Foundations and Objective Methods</source>, <volume>Vol. 200</volume>. <publisher-loc>Valencia</publisher-loc>: <publisher-name>Elsevier</publisher-name>.</citation></ref>
<ref id="B12">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Bickel</surname> <given-names>P.</given-names></name> <name><surname>Choi</surname> <given-names>D.</given-names></name> <name><surname>Chang</surname> <given-names>X.</given-names></name> <name><surname>Zhang</surname> <given-names>H.</given-names></name></person-group> (<year>2013</year>). <article-title>Asymptotic normality of maximum likelihood and its variational approximation for stochastic blockmodels</article-title>. <source>Ann. Stat.</source> <volume>41</volume>, <fpage>1922</fpage>&#x02013;<lpage>1943</lpage>. <pub-id pub-id-type="doi">10.1214/13-AOS1124</pub-id></citation></ref>
<ref id="B13">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Bishop</surname> <given-names>C. M.</given-names></name></person-group> (<year>2006</year>). <source>Pattern Recognition and Machine Learning (Information Science and Statistics)</source>. <publisher-loc>Secaucus, NJ</publisher-loc>: <publisher-name>Springer-Verlag</publisher-name> New York, Inc.</citation></ref>
<ref id="B14">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Blei</surname> <given-names>D. M.</given-names></name> <name><surname>Kucukelbir</surname> <given-names>A.</given-names></name> <name><surname>McAuliffe</surname> <given-names>J. D.</given-names></name></person-group> (<year>2016</year>). <article-title>Variational inference: a review for statisticians</article-title>. <source>arXiv preprint arXiv:1601.00670</source>.</citation></ref>
<ref id="B15">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Boichard</surname> <given-names>D.</given-names></name> <name><surname>Schaeffer</surname> <given-names>L.</given-names></name> <name><surname>Lee</surname> <given-names>A.</given-names></name></person-group> (<year>1992</year>). <article-title>Approximate restricted maximum likelihood and approximate prediction error variance of the mendelian sampling effect</article-title>. <source>Genet. Select. Evol.</source> <volume>24</volume>:<fpage>1</fpage>. <pub-id pub-id-type="doi">10.1186/1297-9686-24-4-331</pub-id></citation></ref>
<ref id="B16">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Broemeling</surname> <given-names>L. D.</given-names></name></person-group> (<year>1984</year>). <source>Bayesian Analysis of Linear Models. Statistics: A Series of Textbooks and Monographs</source>. <publisher-loc>New York, NY</publisher-loc>: <publisher-name>Taylor &#x00026; Francis</publisher-name>.</citation></ref>
<ref id="B17">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Celisse</surname> <given-names>A.</given-names></name> <name><surname>Daudin</surname> <given-names>J.-J.</given-names></name> <name><surname>Pierre</surname> <given-names>L.</given-names></name></person-group> (<year>2012</year>). <article-title>Consistency of maximum-likelihood and variational estimators in the stochastic block model</article-title>. <source>Electr. J. Stat.</source> <volume>6</volume>, <fpage>1847</fpage>&#x02013;<lpage>1899</lpage>. <pub-id pub-id-type="doi">10.1214/12-EJS729</pub-id></citation></ref>
<ref id="B18">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Chappell</surname> <given-names>M. A.</given-names></name> <name><surname>Groves</surname> <given-names>A. R.</given-names></name> <name><surname>Whitcher</surname> <given-names>B.</given-names></name> <name><surname>Woolrich</surname> <given-names>M. W.</given-names></name></person-group> (<year>2009</year>). <article-title>Variational bayesian inference for a nonlinear forward model</article-title>. <source>IEEE Trans. Signal Process.</source> <volume>57</volume>, <fpage>223</fpage>&#x02013;<lpage>236</lpage>. <pub-id pub-id-type="doi">10.1109/TSP.2008.2005752</pub-id></citation></ref>
<ref id="B19">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Chen</surname> <given-names>C.</given-names></name> <name><surname>Kiebel</surname> <given-names>S.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2008</year>). <article-title>Dynamic causal modelling of induced responses</article-title>. <source>Neuroimage</source> <volume>41</volume>, <fpage>1293</fpage>&#x02013;<lpage>1312</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2008.03.026</pub-id><pub-id pub-id-type="pmid">18485744</pub-id></citation></ref>
<ref id="B20">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Cover</surname> <given-names>T. M.</given-names></name> <name><surname>Thomas</surname> <given-names>J. A.</given-names></name></person-group> (<year>2012</year>). <source>Elements of Information Theory</source>. <publisher-loc>Hoboken, NJ</publisher-loc>: <publisher-name>John Wiley &#x00026; Sons</publisher-name>.</citation></ref>
<ref id="B21">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>David</surname> <given-names>O.</given-names></name> <name><surname>Kiebel</surname> <given-names>S. J.</given-names></name> <name><surname>Harrison</surname> <given-names>L. M.</given-names></name> <name><surname>Mattout</surname> <given-names>J.</given-names></name> <name><surname>Kilner</surname> <given-names>J. M.</given-names></name> <name><surname>Friston</surname> <given-names>K. J.</given-names></name></person-group> (<year>2006</year>). <article-title>Dynamic causal modeling of evoked responses in EEG and MEG</article-title>. <source>Neuroimage</source> <volume>30</volume>, <fpage>1255</fpage>&#x02013;<lpage>1272</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2005.10.045</pub-id><pub-id pub-id-type="pmid">16473023</pub-id></citation></ref>
<ref id="B22">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Draper</surname> <given-names>N. R.</given-names></name> <name><surname>Smith</surname> <given-names>H.</given-names></name></person-group> (<year>2014</year>). <source>Applied Regression Analysis</source>. <publisher-loc>Hoboken, NJ</publisher-loc>: <publisher-name>John Wiley &#x00026; Sons</publisher-name>.</citation></ref>
<ref id="B23">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Eklund</surname> <given-names>A.</given-names></name> <name><surname>Nichols</surname> <given-names>T. E.</given-names></name> <name><surname>Knutsson</surname> <given-names>H.</given-names></name></person-group> (<year>2016</year>). <article-title>Cluster failure: why fMRI inferences for spatial extent have inflated false-positive rates</article-title>. <source>Proc. Natl. Acad. Sci. U.S.A.</source> <volume>113</volume>, <fpage>7900</fpage>&#x02013;<lpage>7905</lpage>. <pub-id pub-id-type="doi">10.1073/pnas.1602413113</pub-id><pub-id pub-id-type="pmid">27357684</pub-id></citation></ref>
<ref id="B24">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Foulley</surname> <given-names>J.</given-names></name></person-group> (<year>1993</year>). <article-title>A simple argument showing how to derive restricted maximum likelihood</article-title>. <source>J. Dairy Sci.</source> <volume>76</volume>, <fpage>2320</fpage>&#x02013;<lpage>2324</lpage>. <pub-id pub-id-type="doi">10.3168/jds.S0022-0302(93)77569-4</pub-id></citation></ref>
<ref id="B25">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Foulley</surname> <given-names>J.</given-names></name> <name><surname>van Dyk</surname> <given-names>D.</given-names></name></person-group> (<year>2000</year>). <article-title>The px-em algorithm for fast stable fitting of henderson&#x00027;s mixed model</article-title>. <source>Genet. Sel. Evol.</source> <volume>32</volume>, <fpage>143</fpage>&#x02013;<lpage>163</lpage>. <pub-id pub-id-type="doi">10.1186/1297-9686-32-2-143</pub-id><pub-id pub-id-type="pmid">14736399</pub-id></citation></ref>
<ref id="B26">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Frank</surname> <given-names>L.</given-names></name> <name><surname>Buxton</surname> <given-names>R.</given-names></name> <name><surname>Wong</surname> <given-names>E.</given-names></name></person-group> (<year>1998</year>). <article-title>Probabilistic analysis of functional magnetic resonance imaging data</article-title>. <source>Magn. Reson. Med.</source> <volume>39</volume>, <fpage>132</fpage>&#x02013;<lpage>148</lpage>. <pub-id pub-id-type="doi">10.1002/mrm.1910390120</pub-id><pub-id pub-id-type="pmid">9438447</pub-id></citation></ref>
<ref id="B27">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2008</year>). <article-title>Hierarchical models in the brain</article-title>. <source>PLoS Comput. Biol.</source> <volume>4</volume>:<fpage>e1000211</fpage>. <pub-id pub-id-type="doi">10.1371/journal.pcbi.1000211</pub-id><pub-id pub-id-type="pmid">18989391</pub-id></citation></ref>
<ref id="B28">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Friston</surname> <given-names>K.</given-names></name> <name><surname>Chu</surname> <given-names>C.</given-names></name> <name><surname>Mour&#x000E3;o-Miranda</surname> <given-names>J.</given-names></name> <name><surname>Hulme</surname> <given-names>O.</given-names></name> <name><surname>Rees</surname> <given-names>G.</given-names></name> <name><surname>Penny</surname> <given-names>W.</given-names></name> <etal/></person-group>. (<year>2008a</year>). <article-title>Bayesian decoding of brain images</article-title>. <source>Neuroimage</source> <volume>39</volume>, <fpage>181</fpage>&#x02013;<lpage>205</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2007.08.013</pub-id><pub-id pub-id-type="pmid">17919928</pub-id></citation></ref>
<ref id="B29">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Friston</surname> <given-names>K.</given-names></name> <name><surname>Glaser</surname> <given-names>D.</given-names></name> <name><surname>Henson</surname> <given-names>R. N. A.</given-names></name> <name><surname>Kiebel</surname> <given-names>S.</given-names></name> <name><surname>Phillips</surname> <given-names>C.</given-names></name> <name><surname>Ashburner</surname> <given-names>J.</given-names></name></person-group> (<year>2002a</year>). <article-title>Classical and bayesian inference in neuroimaging: applications</article-title>. <source>Neuroimage</source> <volume>16</volume>, <fpage>484</fpage>&#x02013;<lpage>512</lpage>. <pub-id pub-id-type="doi">10.1006/nimg.2002.1091</pub-id><pub-id pub-id-type="pmid">12030833</pub-id></citation></ref>
<ref id="B30">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Friston</surname> <given-names>K.</given-names></name> <name><surname>Harrison</surname> <given-names>L.</given-names></name> <name><surname>Daunizeau</surname> <given-names>J.</given-names></name> <name><surname>Kiebel</surname> <given-names>S.</given-names></name> <name><surname>Phillips</surname> <given-names>C.</given-names></name> <name><surname>Trujillo-Barreto</surname> <given-names>N.</given-names></name> <etal/></person-group>. (<year>2008b</year>). <article-title>Multiple sparse priors for the M/EEG inverse problem</article-title>. <source>Neuroimage</source> <volume>39</volume>, <fpage>1104</fpage>&#x02013;<lpage>1120</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2007.09.048</pub-id><pub-id pub-id-type="pmid">17997111</pub-id></citation></ref>
<ref id="B31">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Friston</surname> <given-names>K.</given-names></name> <name><surname>Harrison</surname> <given-names>L.</given-names></name> <name><surname>Penny</surname> <given-names>W.</given-names></name></person-group> (<year>2003</year>). <article-title>Dynamic causal modelling</article-title>. <source>Neuroimage</source> <volume>19</volume>, <fpage>1273</fpage>&#x02013;<lpage>1302</lpage>. <pub-id pub-id-type="doi">10.1016/S1053-8119(03)00202-7</pub-id><pub-id pub-id-type="pmid">12948688</pub-id></citation></ref>
<ref id="B32">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Friston</surname> <given-names>K.</given-names></name> <name><surname>Mattout</surname> <given-names>J.</given-names></name> <name><surname>Trujillo-Barreto</surname> <given-names>N.</given-names></name> <name><surname>Ashburner</surname> <given-names>J.</given-names></name> <name><surname>Penny</surname> <given-names>W.</given-names></name></person-group> (<year>2007</year>). <article-title>Variational free energy and the laplace approximation</article-title>. <source>Neuroimage</source> <volume>34</volume>, <fpage>220</fpage>&#x02013;<lpage>234</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2006.08.035</pub-id><pub-id pub-id-type="pmid">17055746</pub-id></citation></ref>
<ref id="B33">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Friston</surname> <given-names>K.</given-names></name> <name><surname>Penny</surname> <given-names>W.</given-names></name> <name><surname>Phillips</surname> <given-names>C.</given-names></name> <name><surname>Kiebel</surname> <given-names>S.</given-names></name> <name><surname>Hinton</surname> <given-names>G.</given-names></name> <name><surname>Ashburner</surname> <given-names>J.</given-names></name></person-group> (<year>2002b</year>). <article-title>Classical and bayesian inference in neuroimaging: theory</article-title>. <source>Neuroimage</source> <volume>16</volume>, <fpage>465</fpage>&#x02013;<lpage>483</lpage>. <pub-id pub-id-type="doi">10.1006/nimg.2002.1090</pub-id><pub-id pub-id-type="pmid">12030832</pub-id></citation></ref>
<ref id="B34">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Friston</surname> <given-names>K. J.</given-names></name> <name><surname>Holmes</surname> <given-names>A. P.</given-names></name> <name><surname>Worsley</surname> <given-names>K. J.</given-names></name> <name><surname>Poline</surname> <given-names>J.-P.</given-names></name> <name><surname>Frith</surname> <given-names>C. D.</given-names></name> <name><surname>Frackowiak</surname> <given-names>R. S.</given-names></name></person-group> (<year>1994</year>). <article-title>Statistical parametric maps in functional imaging: a general linear approach</article-title>. <source>Hum. Brain Mapp.</source> <volume>2</volume>, <fpage>189</fpage>&#x02013;<lpage>210</lpage>. <pub-id pub-id-type="doi">10.1002/hbm.460020402</pub-id></citation></ref>
<ref id="B35">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Gal</surname> <given-names>Y.</given-names></name> <name><surname>Ghahramani</surname> <given-names>Z.</given-names></name></person-group> (<year>2017</year>). <article-title>On modern deep learning and variational inference</article-title>, in <source>Advances in Approximate Bayesian Inference: NIPS 2016 Workshop</source> (<publisher-loc>Cambridge</publisher-loc>).</citation></ref>
<ref id="B36">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Gelman</surname> <given-names>A.</given-names></name> <name><surname>Carlin</surname> <given-names>J. B.</given-names></name> <name><surname>Stern</surname> <given-names>H. S.</given-names></name> <name><surname>Rubin</surname> <given-names>D. B.</given-names></name></person-group> (<year>2014</year>). <source>Bayesian Data Analysis</source>, <volume>Vol. 2</volume>. <publisher-loc>Boca Raton, FL</publisher-loc>: <publisher-name>Chapman &#x00026; Hall/CRC</publisher-name>.</citation></ref>
<ref id="B37">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Ghahramani</surname> <given-names>Z.</given-names></name></person-group> (<year>2015</year>). <article-title>Probabilistic machine learning and artificial intelligence</article-title>. <source>Nature</source> <volume>521</volume>, <fpage>452</fpage>&#x02013;<lpage>459</lpage>. <pub-id pub-id-type="doi">10.1038/nature14541</pub-id><pub-id pub-id-type="pmid">26017444</pub-id></citation></ref>
<ref id="B38">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Gilmour</surname> <given-names>A. R.</given-names></name> <name><surname>Thompson</surname> <given-names>R.</given-names></name> <name><surname>Cullis</surname> <given-names>B. R.</given-names></name></person-group> (<year>1995</year>). <article-title>Average information REML: an efficient algorithm for variance parameter estimation in linear mixed models</article-title>. <source>Biometrics</source> <volume>51</volume>, <fpage>1440</fpage>&#x02013;<lpage>1450</lpage>. <pub-id pub-id-type="doi">10.2307/2533274</pub-id></citation></ref>
<ref id="B39">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Glover</surname> <given-names>G.</given-names></name> <name><surname>Li</surname> <given-names>T.</given-names></name> <name><surname>Ress</surname> <given-names>D.</given-names></name></person-group> (<year>2000</year>). <article-title>Image-based method for retrospective correction of physiological motion effects in fMRI: retroicor</article-title>. <source>Magn. Reson. Med.</source> <volume>44</volume>, <fpage>162</fpage>&#x02013;<lpage>167</lpage>. <pub-id pub-id-type="doi">10.1002/1522-2594(200007)44:1&#x0003C;162::AID-MRM23&#x0003E;3.0.CO;2-E</pub-id><pub-id pub-id-type="pmid">10893535</pub-id></citation></ref>
<ref id="B40">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Groeneveld</surname> <given-names>E.</given-names></name></person-group> (<year>1994</year>). <article-title>A reparameterization to improve numerical optimization in multivariate reml (co)variance component estimation</article-title>. <source>Genet. Select. Evol.</source> <volume>26</volume>, <fpage>1</fpage>&#x02013;<lpage>9</lpage>. <pub-id pub-id-type="doi">10.1186/1297-9686-26-6-537</pub-id></citation></ref>
<ref id="B41">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Groeneveld</surname> <given-names>E.</given-names></name> <name><surname>Kovac</surname> <given-names>M.</given-names></name></person-group> (<year>1990</year>). <article-title>A note on multiple solutions in multivariate restricted maximum likelihood covariance component estimation</article-title>. <source>J. Dairy Sci.</source> <volume>73</volume>, <fpage>2221</fpage>&#x02013;<lpage>2229</lpage>. <pub-id pub-id-type="doi">10.3168/jds.S0022-0302(90)78902-3</pub-id></citation></ref>
<ref id="B42">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Grubbs</surname> <given-names>F. E.</given-names></name></person-group> (<year>1969</year>). <article-title>Procedures for detecting outlying observations in samples</article-title>. <source>Technometrics</source> <volume>11</volume>, <fpage>1</fpage>&#x02013;<lpage>21</lpage>. <pub-id pub-id-type="doi">10.1080/00401706.1969.10490657</pub-id></citation></ref>
<ref id="B43">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Hall</surname> <given-names>P.</given-names></name> <name><surname>Pham</surname> <given-names>T.</given-names></name> <name><surname>Wand</surname> <given-names>M. P.</given-names></name> <name><surname>Wang</surname> <given-names>S. S.</given-names></name></person-group> (<year>2011</year>). <article-title>Asymptotic normality and valid inference for gaussian variational approximation</article-title>. <source>Ann. Stat.</source> <volume>39</volume>, <fpage>2502</fpage>&#x02013;<lpage>2532</lpage>. <pub-id pub-id-type="doi">10.1214/11-AOS908</pub-id></citation></ref>
<ref id="B44">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Harville</surname> <given-names>D. A.</given-names></name></person-group> (<year>1977</year>). <article-title>Maximum likelihood approaches to variance component estimation and to related problems</article-title>. <source>J. Am. Stat. Assoc.</source> <volume>72</volume>, <fpage>320</fpage>&#x02013;<lpage>338</lpage>. <pub-id pub-id-type="doi">10.1080/01621459.1977.10480998</pub-id></citation></ref>
<ref id="B45">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Henson</surname> <given-names>R.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2007</year>). <article-title>Convolution models for fMRI</article-title>. <source>Statistical Parametric Mapping: The Analysis of Functional Brain Images</source>, eds <person-group person-group-type="editor"><name><surname>Penny</surname> <given-names>W. D.</given-names></name> <name><surname>Friston</surname> <given-names>K. J.</given-names></name> <name><surname>Ashburner</surname> <given-names>J. T.</given-names></name> <name><surname>Kiebel</surname> <given-names>S. J.</given-names></name> <name><surname>Nichols</surname> <given-names>T. E.</given-names></name></person-group> (<publisher-loc>London</publisher-loc>: <publisher-name>Academic Press</publisher-name>), <fpage>178</fpage>&#x02013;<lpage>192</lpage>. <pub-id pub-id-type="doi">10.1016/B978-012372560-8/50014-0</pub-id></citation></ref>
<ref id="B46">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Hocking</surname> <given-names>R. R.</given-names></name></person-group> (<year>2013</year>). <source>Methods and Applications of Linear Models: Regression and the Analysis of Variance</source>. <publisher-loc>Hoboken, NJ</publisher-loc>: <publisher-name>John Wiley &#x00026; Sons</publisher-name>.</citation></ref>
<ref id="B47">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Jaynes</surname> <given-names>E. T.</given-names></name></person-group> (<year>2003</year>). <source>Probability Theory: The Logic of Science</source>. <publisher-name>Cambridge University Press</publisher-name>. <pub-id pub-id-type="doi">10.1017/CBO9780511790423</pub-id></citation></ref>
<ref id="B48">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Kiebel</surname> <given-names>S. J.</given-names></name> <name><surname>Daunizeau</surname> <given-names>J.</given-names></name> <name><surname>Phillips</surname> <given-names>C.</given-names></name> <name><surname>Friston</surname> <given-names>K. J.</given-names></name></person-group> (<year>2008</year>). <article-title>Variational bayesian inversion of the equivalent current dipole model in EEG/MEG</article-title>. <source>Neuroimage</source> <volume>39</volume>, <fpage>728</fpage>&#x02013;<lpage>741</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2007.09.005</pub-id><pub-id pub-id-type="pmid">17951076</pub-id></citation></ref>
<ref id="B49">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Kiebel</surname> <given-names>S. J.</given-names></name> <name><surname>Friston</surname> <given-names>K. J.</given-names></name></person-group> (<year>2004a</year>). <article-title>Statistical parametric mapping for event-related potentials: I. generic considerations</article-title>. <source>Neuroimage</source> <volume>22</volume>, <fpage>492</fpage>&#x02013;<lpage>502</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2004.02.012</pub-id><pub-id pub-id-type="pmid">15193578</pub-id></citation></ref>
<ref id="B50">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Kiebel</surname> <given-names>S. J.</given-names></name> <name><surname>Friston</surname> <given-names>K. J.</given-names></name></person-group> (<year>2004b</year>). <article-title>Statistical parametric mapping for event-related potentials (II): a hierarchical temporal model</article-title>. <source>Neuroimage</source> <volume>22</volume>, <fpage>503</fpage>&#x02013;<lpage>520</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2004.02.013</pub-id><pub-id pub-id-type="pmid">15193579</pub-id></citation></ref>
<ref id="B51">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>LaMotte</surname> <given-names>L. R.</given-names></name></person-group> (<year>2007</year>). <article-title>A direct derivation of the reml likelihood function</article-title>. <source>Stat. Papers</source> <volume>48</volume>, <fpage>321</fpage>&#x02013;<lpage>327</lpage>. <pub-id pub-id-type="doi">10.1007/s00362-006-0335-6</pub-id></citation></ref>
<ref id="B52">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Lehmann</surname> <given-names>E. L.</given-names></name> <name><surname>Casella</surname> <given-names>G.</given-names></name></person-group> (<year>2006</year>). <source>Theory of Point Estimation</source>. <publisher-loc>New York, NY</publisher-loc>: <publisher-name>Springer Science &#x00026; Business Media</publisher-name>.</citation></ref>
<ref id="B53">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Lindley</surname> <given-names>D. V.</given-names></name> <name><surname>Smith</surname> <given-names>A. F.</given-names></name></person-group> (<year>1972</year>). <article-title>Bayes estimates for the linear model</article-title>. <source>J. R. Stat. Soc. B (Methodol.)</source> <volume>34</volume>, <fpage>1</fpage>&#x02013;<lpage>41</lpage>. <pub-id pub-id-type="doi">10.2307/2985048</pub-id></citation></ref>
<ref id="B54">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Litvak</surname> <given-names>V.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2008</year>). <article-title>Electromagnetic source reconstruction for group studies</article-title>. <source>Neuroimage</source> <volume>42</volume>, <fpage>1490</fpage>&#x02013;<lpage>1498</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2008.06.022</pub-id><pub-id pub-id-type="pmid">18639641</pub-id></citation></ref>
<ref id="B55">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Lund</surname> <given-names>T. E.</given-names></name> <name><surname>Madsen</surname> <given-names>K. H.</given-names></name> <name><surname>Sidaros</surname> <given-names>K.</given-names></name> <name><surname>Luo</surname> <given-names>W.-L.</given-names></name> <name><surname>Nichols</surname> <given-names>T. E.</given-names></name></person-group> (<year>2006</year>). <article-title>Non-white noise in fMRI: does modelling have an impact?</article-title> <source>Neuroimage</source> <volume>29</volume>, <fpage>54</fpage>&#x02013;<lpage>66</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2005.07.005</pub-id><pub-id pub-id-type="pmid">16099175</pub-id></citation></ref>
<ref id="B56">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Marreiros</surname> <given-names>A.</given-names></name> <name><surname>Kiebel</surname> <given-names>S.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2008</year>). <article-title>Dynamic causal modelling for fMRI: a two-state model</article-title>. <source>Neuroimage</source> <volume>39</volume>, <fpage>269</fpage>&#x02013;<lpage>278</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2007.08.019</pub-id><pub-id pub-id-type="pmid">17936017</pub-id></citation></ref>
<ref id="B57">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>McLachlan</surname> <given-names>G.</given-names></name> <name><surname>Krishnan</surname> <given-names>T.</given-names></name></person-group> (<year>2007</year>). <source>The EM Algorithm and Extensions</source>, <volume>Vol. 382</volume>. <publisher-loc>Hoboken, NJ</publisher-loc>: <publisher-name>John Wiley &#x00026; Sons</publisher-name>.</citation></ref>
<ref id="B58">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Miller</surname> <given-names>G.</given-names></name></person-group> (<year>2016</year>). <article-title>Neuroscience. Brain scans are prone to false positives, study says</article-title>. <source>Science</source> <volume>353</volume>, <fpage>208</fpage>&#x02013;<lpage>209</lpage>. <pub-id pub-id-type="doi">10.1126/science.353.6296.208</pub-id><pub-id pub-id-type="pmid">27418484</pub-id></citation></ref>
<ref id="B59">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Misztal</surname> <given-names>I.</given-names></name></person-group> (<year>2008</year>). <article-title>Reliable computing in estimation of variance components</article-title>. <source>J. Anim. Breed. Genet.</source> <volume>125</volume>, <fpage>363</fpage>&#x02013;<lpage>370</lpage>. <pub-id pub-id-type="doi">10.1111/j.1439-0388.2008.00774.x</pub-id><pub-id pub-id-type="pmid">19134071</pub-id></citation></ref>
<ref id="B60">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Montague</surname> <given-names>P. R.</given-names></name> <name><surname>Dolan</surname> <given-names>R. J.</given-names></name> <name><surname>Friston</surname> <given-names>K. J.</given-names></name> <name><surname>Dayan</surname> <given-names>P.</given-names></name></person-group> (<year>2012</year>). <article-title>Computational psychiatry</article-title>. <source>Trends Cogn. Sci.</source> <volume>16</volume>, <fpage>72</fpage>&#x02013;<lpage>80</lpage>. <pub-id pub-id-type="doi">10.1016/j.tics.2011.11.018</pub-id><pub-id pub-id-type="pmid">22177032</pub-id></citation></ref>
<ref id="B61">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Monti</surname> <given-names>M. M.</given-names></name></person-group> (<year>2011</year>). <article-title>Statistical analysis of fmri time-series: a critical review of the glm approach</article-title>. <source>Front. Hum. Neurosci.</source> <volume>5</volume>:<fpage>28</fpage>. <pub-id pub-id-type="doi">10.3389/fnhum.2011.00028</pub-id><pub-id pub-id-type="pmid">21442013</pub-id></citation></ref>
<ref id="B62">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Moran</surname> <given-names>R.</given-names></name> <name><surname>Stephan</surname> <given-names>K.</given-names></name> <name><surname>Seidenbecher</surname> <given-names>T.</given-names></name> <name><surname>Pape</surname> <given-names>H.-C.</given-names></name> <name><surname>Dolan</surname> <given-names>R.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2009</year>). <article-title>Dynamic causal models of steady-state responses</article-title>. <source>Neuroimage</source> <volume>44</volume>, <fpage>796</fpage>&#x02013;<lpage>811</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2008.09.048</pub-id><pub-id pub-id-type="pmid">19000769</pub-id></citation></ref>
<ref id="B63">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Mumford</surname> <given-names>J. A.</given-names></name> <name><surname>Nichols</surname> <given-names>T.</given-names></name></person-group> (<year>2006</year>). <article-title>Modeling and inference of multisubject fMRI data</article-title>. <source>IEEE Eng. Med. Biol. Mag.</source> <volume>25</volume>, <fpage>42</fpage>&#x02013;<lpage>51</lpage>. <pub-id pub-id-type="doi">10.1109/MEMB.2006.1607668</pub-id><pub-id pub-id-type="pmid">16568936</pub-id></citation></ref>
<ref id="B64">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Mumford</surname> <given-names>J. A.</given-names></name> <name><surname>Nichols</surname> <given-names>T.</given-names></name></person-group> (<year>2009</year>). <article-title>Simple group fmri modeling and inference</article-title>. <source>Neuroimage</source> <volume>47</volume>, <fpage>1469</fpage>&#x02013;<lpage>1475</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2009.05.034</pub-id><pub-id pub-id-type="pmid">19463958</pub-id></citation></ref>
<ref id="B65">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Mumford</surname> <given-names>J. A.</given-names></name> <name><surname>Nichols</surname> <given-names>T. E.</given-names></name></person-group> (<year>2008</year>). <article-title>Power calculation for group fmri studies accounting for arbitrary design and temporal autocorrelation</article-title>. <source>Neuroimage</source> <volume>39</volume>, <fpage>261</fpage>&#x02013;<lpage>268</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2007.07.061</pub-id><pub-id pub-id-type="pmid">17919925</pub-id></citation></ref>
<ref id="B66">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Murphy</surname> <given-names>K. P.</given-names></name></person-group> (<year>2012</year>). <source>Machine Learning: A Probabilistic Perspective</source>. <publisher-loc>Cambridge</publisher-loc>: <publisher-name>MIT Press</publisher-name>.</citation></ref>
<ref id="B67">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Neal</surname> <given-names>R. M.</given-names></name> <name><surname>Hinton</surname> <given-names>G. E.</given-names></name></person-group> (<year>1998</year>). <source>A View of the Em Algorithm that Justifies Incremental, Sparse, and other Variants</source>. <publisher-loc>Dordrecht</publisher-loc>: <publisher-name>Springer</publisher-name>.</citation></ref>
<ref id="B68">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Nichols</surname> <given-names>T. E.</given-names></name> <name><surname>Poline</surname> <given-names>J.-B.</given-names></name></person-group> (<year>2009</year>). <article-title>Commentary on vul et al.&#x00027;s (2009) &#x0201C;puzzlingly high correlations in fmri studies of emotion, personality, and social cognition.&#x0201D;</article-title> <source>Perspect. Psychol. Sci.</source> <volume>4</volume>, <fpage>291</fpage>&#x02013;<lpage>293</lpage>. <pub-id pub-id-type="doi">10.1111/j.1745-6924.2009.01126.x</pub-id></citation></ref>
<ref id="B69">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Ostwald</surname> <given-names>D.</given-names></name> <name><surname>Kirilina</surname> <given-names>E.</given-names></name> <name><surname>Starke</surname> <given-names>L.</given-names></name> <name><surname>Blankenburg</surname> <given-names>F.</given-names></name></person-group> (<year>2014</year>). <article-title>A tutorial on variational bayes for latent linear stochastic time-series models</article-title>. <source>J. Math. Psychol.</source> <volume>60</volume>, <fpage>1</fpage>&#x02013;<lpage>19</lpage>. <pub-id pub-id-type="doi">10.1016/j.jmp.2014.04.003</pub-id></citation></ref>
<ref id="B70">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Ostwald</surname> <given-names>D.</given-names></name> <name><surname>Porcaro</surname> <given-names>C.</given-names></name> <name><surname>Bagshaw</surname> <given-names>A. P.</given-names></name></person-group> (<year>2010</year>). <article-title>An information theoretic approach to EEG-fMRI integration of visually evoked responses</article-title>. <source>Neuroimage</source> <volume>49</volume>, <fpage>498</fpage>&#x02013;<lpage>516</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2009.07.038</pub-id><pub-id pub-id-type="pmid">19632339</pub-id></citation></ref>
<ref id="B71">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Ostwald</surname> <given-names>D.</given-names></name> <name><surname>Starke</surname> <given-names>L.</given-names></name></person-group> (<year>2016</year>). <article-title>Probabilistic delay differential equation modeling of event-related potentials</article-title>. <source>Neuroimage</source> <volume>136</volume>, <fpage>227</fpage>&#x02013;<lpage>257</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2016.04.025</pub-id><pub-id pub-id-type="pmid">27114057</pub-id></citation></ref>
<ref id="B72">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Penny</surname> <given-names>W.</given-names></name> <name><surname>Kiebel</surname> <given-names>S.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2003</year>). <article-title>Variational bayesian inference for fMRI time series</article-title>. <source>Neuroimage</source> <volume>19</volume>, <fpage>727</fpage>&#x02013;<lpage>741</lpage>. <pub-id pub-id-type="doi">10.1016/S1053-8119(03)00071-5</pub-id><pub-id pub-id-type="pmid">12880802</pub-id></citation></ref>
<ref id="B73">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Penny</surname> <given-names>W. D.</given-names></name> <name><surname>Friston</surname> <given-names>K. J.</given-names></name> <name><surname>Ashburner</surname> <given-names>J. T.</given-names></name> <name><surname>Kiebel</surname> <given-names>S. J.</given-names></name> <name><surname>Nichols</surname> <given-names>T. E.</given-names></name></person-group> (<year>2011</year>). <source>Statistical Parametric Mapping: The Analysis of Functional Brain Images</source>. <publisher-loc>London</publisher-loc>: <publisher-name>Academic Press</publisher-name>.</citation></ref>
<ref id="B74">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Phillips</surname> <given-names>C.</given-names></name> <name><surname>Rugg</surname> <given-names>M. D.</given-names></name> <name><surname>Fristont</surname> <given-names>K. J.</given-names></name></person-group> (<year>2002</year>). <article-title>Systematic regularization of linear inverse solutions of the EEG source localization problem</article-title>. <source>Neuroimage</source> <volume>17</volume>, <fpage>287</fpage>&#x02013;<lpage>301</lpage>. <pub-id pub-id-type="doi">10.1006/nimg.2002.1175</pub-id><pub-id pub-id-type="pmid">12482084</pub-id></citation></ref>
<ref id="B75">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Pinotsis</surname> <given-names>D.</given-names></name> <name><surname>Moran</surname> <given-names>R.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2012</year>). <article-title>Dynamic causal modeling with neural fields</article-title>. <source>Neuroimage</source> <volume>59</volume>, <fpage>1261</fpage>&#x02013;<lpage>1274</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2011.08.020</pub-id><pub-id pub-id-type="pmid">21924363</pub-id></citation></ref>
<ref id="B76">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Poline</surname> <given-names>J.-B.</given-names></name> <name><surname>Brett</surname> <given-names>M.</given-names></name></person-group> (<year>2012</year>). <article-title>The general linear model and fMRI: does love last forever?</article-title> <source>Neuroimage</source> <volume>62</volume>, <fpage>871</fpage>&#x02013;<lpage>880</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2012.01.133</pub-id><pub-id pub-id-type="pmid">22343127</pub-id></citation></ref>
<ref id="B77">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Purdon</surname> <given-names>P.</given-names></name> <name><surname>Weisskoff</surname> <given-names>R.</given-names></name></person-group> (<year>1998</year>). <article-title>Effect of temporal autocorrelation due to physiological noise and stimulus paradigm on voxel-level false-positive rates in fMRI</article-title>. <source>Hum. Brain Mapp.</source> <volume>6</volume>, <fpage>239</fpage>&#x02013;<lpage>249</lpage>. <pub-id pub-id-type="doi">10.1002/(SICI)1097-0193(1998)6:4&#x0003C;239::AID-HBM4&#x0003E;3.0.CO;2-4</pub-id><pub-id pub-id-type="pmid">9704263</pub-id></citation></ref>
<ref id="B78">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Rutherford</surname> <given-names>A.</given-names></name></person-group> (<year>2001</year>). <source>Introducing ANOVA and ANCOVA: a GLM Approach</source>. <publisher-loc>London</publisher-loc>: <publisher-name>SAGE</publisher-name>.</citation></ref>
<ref id="B79">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Schwartenbeck</surname> <given-names>P.</given-names></name> <name><surname>Friston</surname> <given-names>K.</given-names></name></person-group> (<year>2016</year>). <article-title>Computational phenotyping in psychiatry: a worked example</article-title>. <source>eneuro</source> <volume>3</volume>:<fpage>ENEURO&#x02013;0049</fpage>. <pub-id pub-id-type="doi">10.1523/ENEURO.0049-16.2016</pub-id><pub-id pub-id-type="pmid">27517087</pub-id></citation></ref>
<ref id="B80">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Searle</surname> <given-names>S. R.</given-names></name> <name><surname>Casella</surname> <given-names>G.</given-names></name> <name><surname>McCulloch</surname> <given-names>C. E.</given-names></name></person-group> (<year>2009</year>). <source>Variance Components</source>, <volume>Vol. 391</volume>. <publisher-loc>Hoboken, NJ</publisher-loc>: <publisher-name>John Wiley &#x00026; Sons</publisher-name>.</citation></ref>
<ref id="B81">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Shao</surname> <given-names>J.</given-names></name></person-group> (<year>2003</year>). <source>Mathematical Statistics</source>. <publisher-loc>New York, NY</publisher-loc>: <publisher-name>Springer</publisher-name> Texts in Statistics. <publisher-name>Springer</publisher-name>.</citation></ref>
<ref id="B82">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Stephan</surname> <given-names>K. E.</given-names></name> <name><surname>Schlagenhauf</surname> <given-names>F.</given-names></name> <name><surname>Huys</surname> <given-names>Q. J. M.</given-names></name> <name><surname>Raman</surname> <given-names>S.</given-names></name> <name><surname>Aponte</surname> <given-names>E.</given-names></name> <name><surname>Brodersen</surname> <given-names>K.</given-names></name> <etal/></person-group>. (<year>2016a</year>). <article-title>Computational neuroimaging strategies for single patient predictions</article-title>. <source>Neuroimage</source>. <volume>145</volume>(<issue>Pt B</issue>), <fpage>180</fpage>&#x02013;<lpage>199</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2016.06.038</pub-id><pub-id pub-id-type="pmid">27346545</pub-id></citation></ref>
<ref id="B83">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Stephan</surname> <given-names>K. E.</given-names></name> <name><surname>Bach</surname> <given-names>D. R.</given-names></name> <name><surname>Fletcher</surname> <given-names>P. C.</given-names></name> <name><surname>Flint</surname> <given-names>J.</given-names></name> <name><surname>Frank</surname> <given-names>M. J.</given-names></name> <name><surname>Friston</surname> <given-names>K. J.</given-names></name> <etal/></person-group>. (<year>2016b</year>). <article-title>Charting the landscape of priority problems in psychiatry, part 1: classification and diagnosis</article-title>. <source>Lancet Psychiatry</source> <volume>3</volume>, <fpage>77</fpage>&#x02013;<lpage>83</lpage>. <pub-id pub-id-type="doi">10.1016/S2215-0366(15)00361-2</pub-id><pub-id pub-id-type="pmid">26573970</pub-id></citation></ref>
<ref id="B84">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Stephan</surname> <given-names>K. E.</given-names></name> <name><surname>Binder</surname> <given-names>E. B.</given-names></name> <name><surname>Breakspear</surname> <given-names>M.</given-names></name> <name><surname>Dayan</surname> <given-names>P.</given-names></name> <name><surname>Johnstone</surname> <given-names>E. C.</given-names></name> <name><surname>Meyer-Lindenberg</surname> <given-names>A.</given-names></name> <etal/></person-group>. (<year>2016c</year>). <article-title>Charting the landscape of priority problems in psychiatry, part 2: pathogenesis and aetiology</article-title>. <source>Lancet Psychiatry</source> <volume>3</volume>, <fpage>84</fpage>&#x02013;<lpage>90</lpage>. <pub-id pub-id-type="doi">10.1016/S2215-0366(15)00360-0</pub-id><pub-id pub-id-type="pmid">26573969</pub-id></citation></ref>
<ref id="B85">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Stephan</surname> <given-names>K. E.</given-names></name> <name><surname>Kasper</surname> <given-names>L.</given-names></name> <name><surname>Harrison</surname> <given-names>L. M.</given-names></name> <name><surname>Daunizeau</surname> <given-names>J.</given-names></name> <name><surname>den Ouden</surname> <given-names>H. E. M.</given-names></name> <name><surname>Breakspear</surname> <given-names>M.</given-names></name> <etal/></person-group>. (<year>2008</year>). <article-title>Nonlinear dynamic causal models for fMRI</article-title>. <source>Neuroimage</source> <volume>42</volume>, <fpage>649</fpage>&#x02013;<lpage>662</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2008.04.262</pub-id><pub-id pub-id-type="pmid">18565765</pub-id></citation></ref>
<ref id="B86">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Thompson</surname> <given-names>R.</given-names></name> <name><surname>M&#x000E4;ntysaari</surname> <given-names>E. A.</given-names></name></person-group> (<year>1999</year>). <article-title>Prospects for statistical methods in dairy cattle breeding</article-title>. <source>Interbull Bull.</source> <volume>71</volume>, <fpage>1</fpage>&#x02013;<lpage>8</lpage>.</citation></ref>
<ref id="B87">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Tzikas</surname> <given-names>D. G.</given-names></name> <name><surname>Likas</surname> <given-names>A. C.</given-names></name> <name><surname>Galatsanos</surname> <given-names>N. P.</given-names></name></person-group> (<year>2008</year>). <article-title>The variational approximation for bayesian inference</article-title>. <source>IEEE Signal Process. Mag.</source> <volume>25</volume>, <fpage>131</fpage>&#x02013;<lpage>146</lpage>. <pub-id pub-id-type="doi">10.1109/MSP.2008.929620</pub-id></citation></ref>
<ref id="B88">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Vul</surname> <given-names>E.</given-names></name> <name><surname>Harris</surname> <given-names>C.</given-names></name> <name><surname>Winkielman</surname> <given-names>P.</given-names></name> <name><surname>Pashler</surname> <given-names>H.</given-names></name></person-group> (<year>2009a</year>). <article-title>Puzzlingly high correlations in fmri studies of emotion, personality, and social cognition</article-title>. <source>Perspect. Psychol. Sci.</source> <volume>4</volume>, <fpage>274</fpage>&#x02013;<lpage>290</lpage>. <pub-id pub-id-type="doi">10.1111/j.1745-6924.2009.01125.x</pub-id><pub-id pub-id-type="pmid">26158964</pub-id></citation></ref>
<ref id="B89">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Vul</surname> <given-names>E.</given-names></name> <name><surname>Harris</surname> <given-names>C.</given-names></name> <name><surname>Winkielman</surname> <given-names>P.</given-names></name> <name><surname>Pashler</surname> <given-names>H.</given-names></name></person-group> (<year>2009b</year>). <article-title>Reply to comments on &#x0201C;puzzlingly high correlations in fMRI studies of emotion, personality, and social cognition.&#x0201D;</article-title> <source>Perspect. Psychol. Sci.</source> <volume>4</volume>, <fpage>319</fpage>&#x02013;<lpage>324</lpage>. <pub-id pub-id-type="doi">10.1111/j.1745-6924.2009.01132.x</pub-id><pub-id pub-id-type="pmid">26158970</pub-id></citation></ref>
<ref id="B90">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Wang</surname> <given-names>B.</given-names></name> <name><surname>Titterington</surname> <given-names>D. M.</given-names></name></person-group> (<year>2006</year>). <article-title>Convergence properties of a general algorithm for calculating variational bayesian estimates for a normal mixture model</article-title>. <source>Bayesian Anal.</source> <volume>1</volume>, <fpage>625</fpage>&#x02013;<lpage>650</lpage>. <pub-id pub-id-type="doi">10.1214/06-BA121</pub-id></citation></ref>
<ref id="B91">
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Wasserman</surname> <given-names>L.</given-names></name></person-group> (<year>2010</year>). <source>All of Statistics: A Concise Course in Statistical Inference</source>. <publisher-loc>New York, NY</publisher-loc>: <publisher-name>Springer</publisher-name> Publishing Company, Inc.</citation></ref>
<ref id="B92">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Westling</surname> <given-names>T. M. T.</given-names></name></person-group> (<year>2017</year>). <article-title>Consistency, calibration, and efficiency of variational inference</article-title>. <source>arXiv:1510.08151v3</source>.</citation></ref>
<ref id="B93">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Witkovsk&#x01EF3;</surname> <given-names>V.</given-names></name></person-group> (<year>1996</year>). <article-title>On variance&#x02013;covariance components estimation in linear models with ar (1) disturbances</article-title>. <source>Acta Math. Univ. Comenianae</source> <volume>65</volume>, <fpage>129</fpage>&#x02013;<lpage>139</lpage>.</citation></ref>
<ref id="B94">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Woolrich</surname> <given-names>M.</given-names></name> <name><surname>Ripley</surname> <given-names>B.</given-names></name> <name><surname>Brady</surname> <given-names>M.</given-names></name> <name><surname>Smith</surname> <given-names>S.</given-names></name></person-group> (<year>2001</year>). <article-title>Temporal autocorrelation in univariate linear modeling of fMRI data</article-title>. <source>Neuroimage</source> <volume>14</volume>, <fpage>1370</fpage>&#x02013;<lpage>1386</lpage>. <pub-id pub-id-type="doi">10.1006/nimg.2001.0931</pub-id><pub-id pub-id-type="pmid">11707093</pub-id></citation></ref>
<ref id="B95">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Woolrich</surname> <given-names>M. W.</given-names></name> <name><surname>Behrens</surname> <given-names>T. E. J.</given-names></name> <name><surname>Beckmann</surname> <given-names>C. F.</given-names></name> <name><surname>Jenkinson</surname> <given-names>M.</given-names></name> <name><surname>Smith</surname> <given-names>S. M.</given-names></name></person-group> (<year>2004</year>). <article-title>Multilevel linear modelling for fMRI group analysis using bayesian inference</article-title>. <source>Neuroimage</source> <volume>21</volume>, <fpage>1732</fpage>&#x02013;<lpage>1747</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2003.12.023</pub-id><pub-id pub-id-type="pmid">15050594</pub-id></citation></ref>
<ref id="B96">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Woolrich</surname> <given-names>M. W.</given-names></name> <name><surname>Jbabdi</surname> <given-names>S.</given-names></name> <name><surname>Patenaude</surname> <given-names>B.</given-names></name> <name><surname>Chappell</surname> <given-names>M.</given-names></name> <name><surname>Makni</surname> <given-names>S.</given-names></name> <name><surname>Behrens</surname> <given-names>T.</given-names></name> <etal/></person-group>. (<year>2009</year>). <article-title>Bayesian analysis of neuroimaging data in FSL</article-title>. <source>Neuroimage</source> <volume>45</volume>(<supplement>1 Suppl.</supplement>), <fpage>S173</fpage>&#x02013;<lpage>S186</lpage>. <pub-id pub-id-type="doi">10.1016/j.neuroimage.2008.10.055</pub-id><pub-id pub-id-type="pmid">19059349</pub-id></citation></ref>
<ref id="B97">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>You</surname> <given-names>C.</given-names></name> <name><surname>Ormerod</surname> <given-names>J. T.</given-names></name> <name><surname>M&#x000FC;ller</surname> <given-names>S.</given-names></name></person-group> (<year>2014</year>). <article-title>On variational bayes estimation and variational information criteria for linear regression models</article-title>. <source>Aust. New Zealand J. Stat.</source> <volume>56</volume>, <fpage>73</fpage>&#x02013;<lpage>87</lpage>. <pub-id pub-id-type="doi">10.1111/anzs.12063</pub-id></citation></ref>
<ref id="B98">
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Zarahn</surname> <given-names>E.</given-names></name> <name><surname>Aguirre</surname> <given-names>G.</given-names></name> <name><surname>D&#x00027;Esposito</surname> <given-names>M.</given-names></name></person-group> (<year>1997</year>). <article-title>Empirical analyses of bold fmri statistics. I. Spatially unsmoothed data collected under null-hypothesis conditions</article-title>. <source>Neuroimage</source> <volume>5</volume>, <fpage>179</fpage>&#x02013;<lpage>197</lpage>. <pub-id pub-id-type="doi">10.1006/nimg.1997.0263</pub-id><pub-id pub-id-type="pmid">9345548</pub-id></citation></ref>
</ref-list>
</back>
</article>