Code for force calculations. More...

#include <matrices.h>

Include dependency graph for force.c:

Functions
int	Gauge_force (double dSdpi, Complex_f ut[2], unsigned int iu, unsigned int id, float beta)
	Calculates the gauge force due to the Wilson Action at each intermediate time.

int	Force (double dSdpi, int iflag, double res1, Complex X0, Complex X1, Complex Phi, Complex ut[2], Complex_f ut_f[2], unsigned int iu, unsigned int id, Complex gamval, Complex_f gamval_f, int gamin, double dk[2], float dk_f[2], Complex_f jqq, float akappa, float beta, double ancg)
	Calculates the force \(\frac{dS}{d\pi}\) at each intermediate time.

Detailed Description

Code for force calculations.

Definition in file force.c.

Function Documentation

◆ Force()

int Force	(	double *	dSdpi,
		int	iflag,
		double	res1,
		Complex *	X0,
		Complex *	X1,
		Complex *	Phi,
		Complex *	ut[2],
		Complex_f *	ut_f[2],
		unsigned int *	iu,
		unsigned int *	id,
		Complex *	gamval,
		Complex_f *	gamval_f,
		int *	gamin,
		double *	dk[2],
		float *	dk_f[2],
		Complex_f	jqq,
		float	akappa,
		float	beta,
		double *	ancg )

Calculates the force \(\frac{dS}{d\pi}\) at each intermediate time.

Parameters

dSdpi	The force
iflag	Invert before evaluating the force. 0 to invert, one not to. Blame FORTRAN...
res1	Conjugate gradient residule
X0	Up/down partitioned pseudofermion field
X1	Holder for the partitioned fermion field, then the conjugate gradient output
Phi	Pseudofermion field
ut	Double precision colour fields
u2t_f	Single precision colour fields
iu,id	Lattice indices
gamin	Gamma indices
gamval	Double precision gamma matrices rescaled by kappa
gamval_f	Single precision gamma matrices rescaled by kappa
dk	\(e^{-\mu}\) and \(e^\mu\)
dk_f	\(e^{-\mu}\) and \(e^\mu\) float
jqq	Diquark source
akappa	Hopping parameter
beta	Inverse gauge coupling
ancg	Counter for conjugate gradient iterations

Returns: Zero on success, integer error code otherwise

Definition at line 94 of file force.c.

                                                                                                  {
   /*
    * @brief Calculates the force @f$\frac{dS}{d\pi}@f$ at each intermediate time
    * 
    * @param   dSdpi:         The force
    * @param   iflag:         Invert before evaluating the force? 
    * @param   res1:          Conjugate gradient residule
    * @param   X0:            Up/down partitioned pseudofermion field
    * @param   X1:            Holder for the partitioned fermion field, then the conjugate gradient output
    * @param   Phi:           Pseudofermion field
    * @param   ut[0],ut[1]    Double precision colour fields
    * @param   ut_f[0],ut_f[1]:  Single precision colour fields
    * @param   iu,id:         Lattice indices
    * @param   gamin:         Gamma indices
    * @param   gamval:        Double precision gamma matrices
    * @param   gamval_f:      Single precision gamma matrices
    * @param   dk[0]:            @f$\left(1+\gamma_0\right)e^{-\mu}@f$
    * @param   dk[1]:            @f$\left(1-\gamma_0\right)e^\mu@f$
    * @param   dk_f[0]:       @f$\left(1+\gamma_0\right)e^{-\mu}@f$ float
    * @param   dk_f[1]:       @f$\left(1-\gamma_0\right)e^\mu@f$ float
    * @param   jqq:           Diquark source
    * @param   akappa:        Hopping parameter
    * @param   beta:          Inverse gauge coupling
    * @param   ancg:          Counter for conjugate gradient iterations
    *
    * @return Zero on success, integer error code otherwise
    */
   const char *funcname = "Force";
#ifdef __NVCC__
   int device=-1;
   cudaGetDevice(&device);
#endif
#ifndef NO_GAUGE
   Gauge_force(dSdpi,ut_f,iu,id,beta);
#endif
   if(!akappa)
      return 0;
   //X1=(M†M)^{1} Phi
   int itercg=1;
#ifdef __NVCC__
   Complex_f *X1_f, *X2_f;
   cudaMallocAsync((void **)&X2_f,kferm2*sizeof(Complex_f),streams[0]);
   cudaMallocAsync((void **)&X1_f,kferm2*sizeof(Complex_f),NULL);
   cuComplex_convert(X1_f,X1,kferm2,true,dimBlock,dimGrid);
#else
   Complex *X2= (Complex *)aligned_alloc(AVX,kferm2Halo*sizeof(Complex));
#endif
   for(int na = 0; na<nf; na++){
#ifdef __NVCC__
      cudaMemcpyAsync(X1,X0+na*kferm2,kferm2*sizeof(Complex),cudaMemcpyDeviceToDevice,NULL);
#else
      memcpy(X1,X0+na*kferm2,kferm2*sizeof(Complex));
#endif
      if(!iflag){
#ifdef __NVCC__
         Complex *smallPhi;
         cudaMallocAsync((void **)&smallPhi,kferm2*sizeof(Complex),streams[0]);
#else
         Complex *smallPhi = (Complex *)aligned_alloc(AVX,kferm2*sizeof(Complex)); 
#endif
         Fill_Small_Phi(na, smallPhi, Phi);
         // Congradq(na, res1,smallPhi, &itercg );
         Congradq(na,res1,X1,smallPhi,ut_f,iu,id,gamval_f,gamin,dk_f,jqq,akappa,&itercg);
#ifdef __NVCC__
         cudaFreeAsync(smallPhi,streams[0]);
#else
         free(smallPhi);
#endif
         *ancg+=itercg;
#ifdef __NVCC__
         Complex blasa=2.0; double blasb=-1.0;
         cublasZdscal(cublas_handle,kferm2,&blasb,(cuDoubleComplex *)(X0+na*kferm2),1);
         cublasZaxpy(cublas_handle,kferm2,(cuDoubleComplex *)&blasa,(cuDoubleComplex *)X1,1,(cuDoubleComplex *)(X0+na*kferm2),1);
         cuComplex_convert(X1_f,X1,kferm2,true,dimBlock,dimGrid);
         //HDslash launches a different stream so we need a barrieer
         cudaDeviceSynchronise();
#elif (defined __INTEL_MKL__)
         Complex blasa=2.0; Complex blasb=-1.0;
         //This is not a general BLAS Routine. BLIS and MKl support it
         //CUDA and GSL does not support it
         cblas_zaxpby(kferm2, &blasa, X1, 1, &blasb, X0+na*kferm2, 1); 
#elif defined USE_BLAS
         Complex blasa=2.0; double blasb=-1.0;
         cblas_zdscal(kferm2,blasb,X0+na*kferm2,1);
         cblas_zaxpy(kferm2,&blasa,X1,1,X0+na*kferm2,1);
#else
#pragma omp parallel for simd collapse(2)
         for(int i=0;i<kvol;i++)
            for(int idirac=0;idirac<ndirac;idirac++){
               X0[((na*kvol+i)*ndirac+idirac)*nc]=
                  2*X1[(i*ndirac+idirac)*nc]-X0[((na*kvol+i)*ndirac+idirac)*nc];
               X0[((na*kvol+i)*ndirac+idirac)*nc+1]=
                  2*X1[(i*ndirac+idirac)*nc+1]-X0[((na*kvol+i)*ndirac+idirac)*nc+1];
            }
#endif
      }
      #ifdef __NVCC__
      Hdslash_f(X2_f,X1_f,ut_f,iu,id,gamval_f,gamin,dk_f,akappa);
      #else
      Hdslash(X2,X1,ut,iu,id,gamval,gamin,dk,akappa);
      #endif
#ifdef __NVCC__
      float blasd=2.0;
      cudaDeviceSynchronise();
      cublasCsscal(cublas_handle,kferm2, &blasd, (cuComplex *)X2_f, 1);
#elif defined USE_BLAS
      double blasd=2.0;
      cblas_zdscal(kferm2, blasd, X2, 1);
#else
#pragma unroll
      for(int i=0;i<kferm2;i++)
         X2[i]*=2;
#endif
#if(npx>1)
      ZHalo_swap_dir(X1,8,0,DOWN);
      ZHalo_swap_dir(X2,8,0,DOWN);
#endif
#if(npy>1)
      ZHalo_swap_dir(X1,8,1,DOWN);
      ZHalo_swap_dir(X2,8,1,DOWN);
#endif
#if(npz>1)
      ZHalo_swap_dir(X1,8,2,DOWN);
      ZHalo_swap_dir(X2,8,2,DOWN);
#endif
#if(npt>1)
      ZHalo_swap_dir(X1,8,3,DOWN);
      ZHalo_swap_dir(X2,8,3,DOWN);
#endif
 
      // The original FORTRAN Comment:
      //    dSdpi=dSdpi-Re(X1*(d(Mdagger)dp)*X2) -- Yikes!
      //   we're gonna need drugs for this one......
      //
      //  Makes references to X1(.,.,iu(i,mu)) AND X2(.,.,iu(i,mu))
      //  as a result, need to swap the DOWN halos in all dirs for
      //  both these arrays, each of which has 8 cpts
      //
#ifdef __NVCC__
      cuForce(dSdpi,ut_f,X1_f,X2_f,gamval_f,dk_f,iu,gamin,akappa,dimGrid,dimBlock);
      cudaDeviceSynchronise();
#else
#pragma omp parallel for
      for(int i=0;i<kvol;i++)
         for(int idirac=0;idirac<ndirac;idirac++){
            int mu, uid, igork1;
#ifndef NO_SPACE
#pragma omp simd //aligned(dSdpi,X1,X2,ut[0],ut[1],iu:AVX)
            for(mu=0; mu<3; mu++){
               //Long term ambition. I used the diff command on the different
               //spacial components of dSdpi and saw a lot of the values required
               //for them are duplicates (u11(i,mu)*X2(1,idirac,i) is used again with
               //a minus in front for example. Why not evaluate them first /and then plug 
               //them into the equation? Reduce the number of evaluations needed and look
               //a bit neater (although harder to follow as a consequence).
 
               //Up indices
               uid = iu[mu+ndim*i];
               igork1 = gamin[mu*ndirac+idirac];   
 
               //REMINDER. Gamma is already scaled by kappa when we defined them. So if yer trying to rederive this from
               //Montvay and Munster and notice a missing kappa in the code, that is why.
               dSdpi[(i*nadj)*ndim+mu]+=akappa*creal(I*
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (-conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc]
                       +conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      ( ut[1][i*ndim+mu] *X2[(i*ndirac+idirac)*nc]
                        -conj(ut[0][i*ndim+mu])*X2[(i*ndirac+idirac)*nc+1])
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (ut[0][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc]
                       +ut[1][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (-ut[0][i*ndim+mu] *X2[(i*ndirac+idirac)*nc]
                       -conj(ut[1][i*ndim+mu])*X2[(i*ndirac+idirac)*nc+1])));
               dSdpi[(i*nadj)*ndim+mu]+=creal(I*gamval[mu*ndirac+idirac]*
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (-conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc]
                       +conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      (-ut[1][i*ndim+mu] *X2[(i*ndirac+igork1)*nc]
                       +conj(ut[0][i*ndim+mu])*X2[(i*ndirac+igork1)*nc+1])
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (ut[0][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc]
                       +ut[1][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (ut[0][i*ndim+mu] *X2[(i*ndirac+igork1)*nc]
                       +conj(ut[1][i*ndim+mu])*X2[(i*ndirac+igork1)*nc+1])));
 
               dSdpi[(i*nadj+1)*ndim+mu]+=akappa*creal(
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (-conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc]
                       +conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      (-ut[1][i*ndim+mu] *X2[(i*ndirac+idirac)*nc]
                       -conj(ut[0][i*ndim+mu])*X2[(i*ndirac+idirac)*nc+1])
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (-ut[0][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc]
                       -ut[1][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (ut[0][i*ndim+mu] *X2[(i*ndirac+idirac)*nc]
                       -conj(ut[1][i*ndim+mu])*X2[(i*ndirac+idirac)*nc+1])));
               dSdpi[(i*nadj+1)*ndim+mu]+=creal(gamval[mu*ndirac+idirac]*
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (-conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc]
                       +conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      (ut[1][i*ndim+mu] *X2[(i*ndirac+igork1)*nc]
                       +conj(ut[0][i*ndim+mu])*X2[(i*ndirac+igork1)*nc+1])
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (-ut[0][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc]
                       -ut[1][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (-ut[0][i*ndim+mu] *X2[(i*ndirac+igork1)*nc]
                       +conj(ut[1][i*ndim+mu])*X2[(i*ndirac+igork1)*nc+1])));
 
               dSdpi[(i*nadj+2)*ndim+mu]+=akappa*creal(I*
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (ut[0][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc]
                       +ut[1][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      (-conj(ut[0][i*ndim+mu])*X2[(i*ndirac+idirac)*nc]
                       -ut[1][i*ndim+mu] *X2[(i*ndirac+idirac)*nc+1])
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc]
                       -conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (-conj(ut[1][i*ndim+mu])*X2[(i*ndirac+idirac)*nc]
                       +ut[0][i*ndim+mu] *X2[(i*ndirac+idirac)*nc+1])));
               dSdpi[(i*nadj+2)*ndim+mu]+=creal(I*gamval[mu*ndirac+idirac]*
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (ut[0][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc]
                       +ut[1][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      (conj(ut[0][i*ndim+mu])*X2[(i*ndirac+igork1)*nc]
                       +ut[1][i*ndim+mu] *X2[(i*ndirac+igork1)*nc+1])
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc]
                       -conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc+1])
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (conj(ut[1][i*ndim+mu])*X2[(i*ndirac+igork1)*nc]
                       -ut[0][i*ndim+mu] *X2[(i*ndirac+igork1)*nc+1])));
 
            }
#endif
            //We're not done tripping yet!! Time like term is different. dk4? shows up
            //For consistency we'll leave mu in instead of hard coding.
            mu=3;
            uid = iu[mu+ndim*i];
            igork1 = gamin[mu*ndirac+idirac];   
#ifndef NO_TIME
            dSdpi[(i*nadj)*ndim+mu]+=creal(I*
                  (conj(X1[(i*ndirac+idirac)*nc])*
                   (dk[0][i]*(-conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc]
                              +conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc+1]))
                   +conj(X1[(uid*ndirac+idirac)*nc])*
                   (dk[1][i]*      (+ut[1][i*ndim+mu] *X2[(i*ndirac+idirac)*nc]
                                    -conj(ut[0][i*ndim+mu])*X2[(i*ndirac+idirac)*nc+1]))
                   +conj(X1[(i*ndirac+idirac)*nc+1])*
                   (dk[0][i]*       (ut[0][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc]
                                     +ut[1][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc+1]))
                   +conj(X1[(uid*ndirac+idirac)*nc+1])*
                   (dk[1][i]*      (-ut[0][i*ndim+mu] *X2[(i*ndirac+idirac)*nc]
                                    -conj(ut[1][i*ndim+mu])*X2[(i*ndirac+idirac)*nc+1]))))
               +creal(I*
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (dk[0][i]*(-conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc]
                                 +conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc+1]))
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      (-dk[1][i]*       (ut[1][i*ndim+mu] *X2[(i*ndirac+igork1)*nc]
                                         -conj(ut[0][i*ndim+mu])*X2[(i*ndirac+igork1)*nc+1]))
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (dk[0][i]*       (ut[0][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc]
                                        +ut[1][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc+1]))
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (-dk[1][i]*      (-ut[0][i*ndim+mu] *X2[(i*ndirac+igork1)*nc]
                                        -conj(ut[1][i*ndim+mu])*X2[(i*ndirac+igork1)*nc+1]))));
 
            dSdpi[(i*nadj+1)*ndim+mu]+=creal(
                  conj(X1[(i*ndirac+idirac)*nc])*
                  (dk[0][i]*(-conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc]
                             +conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc+1]))
                  +conj(X1[(uid*ndirac+idirac)*nc])*
                  (dk[1][i]*      (-ut[1][i*ndim+mu] *X2[(i*ndirac+idirac)*nc]
                                   -conj(ut[0][i*ndim+mu])*X2[(i*ndirac+idirac)*nc+1]))
                  +conj(X1[(i*ndirac+idirac)*nc+1])*
                  (dk[0][i]*      (-ut[0][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc]
                                   -ut[1][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc+1]))
                  +conj(X1[(uid*ndirac+idirac)*nc+1])*
                  (dk[1][i]*      ( ut[0][i*ndim+mu] *X2[(i*ndirac+idirac)*nc]
                                    -conj(ut[1][i*ndim+mu])*X2[(i*ndirac+idirac)*nc+1])))
               +creal(
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (dk[0][i]*(-conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc]
                                 +conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc+1]))
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      (-dk[1][i]*      (-ut[1][i*ndim+mu] *X2[(i*ndirac+igork1)*nc]
                                        -conj(ut[0][i*ndim+mu])*X2[(i*ndirac+igork1)*nc+1]))
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (dk[0][i]*      (-ut[0][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc]
                                       -ut[1][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc+1]))
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (-dk[1][i]*       (ut[0][i*ndim+mu] *X2[(i*ndirac+igork1)*nc]
                                         -conj(ut[1][i*ndim+mu])*X2[(i*ndirac+igork1)*nc+1]))));
 
            dSdpi[(i*nadj+2)*ndim+mu]+=creal(I*
                  (conj(X1[(i*ndirac+idirac)*nc])*
                   (dk[0][i]*       (ut[0][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc]
                                     +ut[1][i*ndim+mu] *X2[(uid*ndirac+idirac)*nc+1]))
                   +conj(X1[(uid*ndirac+idirac)*nc])*
                   (dk[1][i]*(-conj(ut[0][i*ndim+mu])*X2[(i*ndirac+idirac)*nc]
                              -ut[1][i*ndim+mu] *X2[(i*ndirac+idirac)*nc+1]))
                   +conj(X1[(i*ndirac+idirac)*nc+1])*
                   (dk[0][i]* (conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc]
                               -conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+idirac)*nc+1]))
                   +conj(X1[(uid*ndirac+idirac)*nc+1])*
                   (dk[1][i]*(-conj(ut[1][i*ndim+mu])*X2[(i*ndirac+idirac)*nc]
                              +ut[0][i*ndim+mu] *X2[(i*ndirac+idirac)*nc+1]))))
               +creal(I*
                     (conj(X1[(i*ndirac+idirac)*nc])*
                      (dk[0][i]*       (ut[0][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc]
                                        +ut[1][i*ndim+mu] *X2[(uid*ndirac+igork1)*nc+1]))
                      +conj(X1[(uid*ndirac+idirac)*nc])*
                      (-dk[1][i]*(-conj(ut[0][i*ndim+mu])*X2[(i*ndirac+igork1)*nc]
                                  -ut[1][i*ndim+mu] *X2[(i*ndirac+igork1)*nc+1]))
                      +conj(X1[(i*ndirac+idirac)*nc+1])*
                      (dk[0][i]* (conj(ut[1][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc]
                                  -conj(ut[0][i*ndim+mu])*X2[(uid*ndirac+igork1)*nc+1]))
                      +conj(X1[(uid*ndirac+idirac)*nc+1])*
                      (-dk[1][i]*(-conj(ut[1][i*ndim+mu])*X2[(i*ndirac+igork1)*nc]
                                  +ut[0][i*ndim+mu] *X2[(i*ndirac+igork1)*nc+1]))));
 
#endif
         }
#endif
   }
#ifdef __NVCC__
   cudaFreeAsync(X1_f,streams[0]); cudaFreeAsync(X2_f,streams[1]);
#else
   free(X2); 
#endif
   return 0;
}

References AVX, Complex, Complex_f, Congradq(), DOWN, Fill_Small_Phi(), Gauge_force(), Hdslash(), Hdslash_f(), kferm2, kferm2Halo, kvol, nadj, nc, ndim, ndirac, nf, and ZHalo_swap_dir().

Here is the call graph for this function:

Here is the caller graph for this function:

◆ Gauge_force()

int Gauge_force	(	double *	dSdpi,
		Complex_f *	ut[2],
		unsigned int *	iu,
		unsigned int *	id,
		float	beta )

Calculates the gauge force due to the Wilson Action at each intermediate time.