develop/wavefront_8cc_source.html

/*

 * Copyright (c) 2011-2017 Advanced Micro Devices, Inc.

 * All rights reserved.

 *

 * Redistribution and use in source and binary forms, with or without

 * modification, are permitted provided that the following conditions are met:

 *

 * 1. Redistributions of source code must retain the above copyright notice,

 * this list of conditions and the following disclaimer.

 *

 * 2. Redistributions in binary form must reproduce the above copyright notice,

 * this list of conditions and the following disclaimer in the documentation

 * and/or other materials provided with the distribution.

 *

 * 3. Neither the name of the copyright holder nor the names of its

 * contributors may be used to endorse or promote products derived from this

 * software without specific prior written permission.

 *

 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"

 * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE

 * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE

 * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE

 * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR

 * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF

 * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS

 * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN

 * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)

 * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE

 * POSSIBILITY OF SUCH DAMAGE.

 */


#include "gpu-compute/wavefront.hh"


#include "base/bitfield.hh"

#include "debug/GPUExec.hh"

#include "debug/GPUInitAbi.hh"

#include "debug/GPUTrace.hh"

#include "debug/WavefrontStack.hh"

#include "gpu-compute/compute_unit.hh"

#include "gpu-compute/gpu_dyn_inst.hh"

#include "gpu-compute/register_file_cache.hh"

#include "gpu-compute/scalar_register_file.hh"

#include "gpu-compute/shader.hh"

#include "gpu-compute/simple_pool_manager.hh"

#include "gpu-compute/vector_register_file.hh"


namespace gem5

{


Wavefront::Wavefront(const Params &p)

  : SimObject(p), wfSlotId(p.wf_slot_id), simdId(p.simdId),

    maxIbSize(p.max_ib_size), _gpuISA(*this),

    vmWaitCnt(-1), expWaitCnt(-1), lgkmWaitCnt(-1),

    vmemInstsIssued(0), expInstsIssued(0), lgkmInstsIssued(0),

    sleepCnt(0), barId(WFBarrier::InvalidID), stats(this)

{

    lastTrace = 0;

    execUnitId = -1;

    status = S_STOPPED;

    reservedVectorRegs = 0;

    reservedScalarRegs = 0;

    startVgprIndex = 0;

    startSgprIndex = 0;

    outstandingReqs = 0;

    outstandingReqsWrGm = 0;

    outstandingReqsWrLm = 0;

    outstandingReqsRdGm = 0;

    outstandingReqsRdLm = 0;

    rdLmReqsInPipe = 0;

    rdGmReqsInPipe = 0;

    wrLmReqsInPipe = 0;

    wrGmReqsInPipe = 0;

    scalarRdGmReqsInPipe = 0;

    scalarWrGmReqsInPipe = 0;

    scalarOutstandingReqsRdGm = 0;

    scalarOutstandingReqsWrGm = 0;

    lastNonIdleTick = 0;

    ldsChunk = nullptr;


    memTraceBusy = 0;

    oldVgprTcnt = 0xffffffffffffffffll;

    oldDgprTcnt = 0xffffffffffffffffll;

    oldVgpr.resize(p.wf_size);


    pendingFetch = false;

    dropFetch = false;

    maxVgprs = 0;

    maxSgprs = 0;


    lastAddr.resize(p.wf_size);

    workItemFlatId.resize(p.wf_size);

    oldDgpr.resize(p.wf_size);

    for (int i = 0; i < 3; ++i) {

        workItemId[i].resize(p.wf_size);

    }


    _execMask.set();

    rawDist.clear();

    lastInstExec = 0;

    vecReads.clear();


    lastInstSeqNum = 0;

    lastInstDisasm = "none";

}


void


Wavefront::init()

{

    reservedVectorRegs = 0;

    reservedScalarRegs = 0;

    startVgprIndex = 0;

    startSgprIndex = 0;


    scalarAlu = computeUnit->mapWaveToScalarAlu(this);

    scalarAluGlobalIdx = computeUnit->mapWaveToScalarAluGlobalIdx(this);

    globalMem = computeUnit->mapWaveToGlobalMem(this);

    localMem = computeUnit->mapWaveToLocalMem(this);

    scalarMem = computeUnit->mapWaveToScalarMem(this);

}


void


Wavefront::initRegState(HSAQueueEntry *task, int wgSizeInWorkItems)

{

    int regInitIdx = 0;

    gfxVersion = task->gfxVersion();


    // Iterate over all the init fields and check which

    // bits are enabled. Useful information can be found here:

    // https://github.com/ROCm-Developer-Tools/ROCm-ComputeABI-Doc/

    //                    blob/master/AMDGPU-ABI.md

    for (int en_bit = 0; en_bit < NumScalarInitFields; ++en_bit) {


        if (task->sgprBitEnabled(en_bit)) {

            int physSgprIdx = 0;

            uint32_t firstWave = 0;

            int orderedAppendTerm = 0;

            int numWfsInWg = 0;

            uint32_t finalValue = 0;

            Addr host_disp_pkt_addr = task->hostDispPktAddr();

            Addr kernarg_addr = task->kernargAddr();

            Addr hidden_priv_base(0);


            switch (en_bit) {

              case PrivateSegBuf:

                    physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        task->amdQueue.scratch_resource_descriptor[0]);

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting PrivateSegBuffer: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        task->amdQueue.scratch_resource_descriptor[0]);


                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        task->amdQueue.scratch_resource_descriptor[1]);

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting PrivateSegBuffer: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        task->amdQueue.scratch_resource_descriptor[1]);


                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        task->amdQueue.scratch_resource_descriptor[2]);

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting PrivateSegBuffer: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        task->amdQueue.scratch_resource_descriptor[2]);


                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        task->amdQueue.scratch_resource_descriptor[3]);


                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting PrivateSegBuffer: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        task->amdQueue.scratch_resource_descriptor[3]);

                break;

              case DispatchPtr:

                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        bits(host_disp_pkt_addr, 31, 0));

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting DispatchPtr: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        bits(host_disp_pkt_addr, 31, 0));


                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        bits(host_disp_pkt_addr, 63, 32));

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting DispatchPtr: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        bits(host_disp_pkt_addr, 63, 32));


                ++regInitIdx;

                break;

              case QueuePtr:

                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        bits(task->hostAMDQueueAddr, 31, 0));

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting QueuePtr: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        bits(task->hostAMDQueueAddr, 31, 0));


                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        bits(task->hostAMDQueueAddr, 63, 32));

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting QueuePtr: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        bits(task->hostAMDQueueAddr, 63, 32));


                ++regInitIdx;

                break;

              case KernargSegPtr:

                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        bits(kernarg_addr, 31, 0));

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting KernargSegPtr: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        bits(kernarg_addr, 31, 0));


                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        bits(kernarg_addr, 63, 32));

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting KernargSegPtr: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        bits(kernarg_addr, 63, 32));


                ++regInitIdx;

                break;

              case DispatchId:

                physSgprIdx

                    = computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        task->dispatchId());

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting DispatchId: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        task->dispatchId());


                // Dispatch ID in gem5 is an int. Set upper 32-bits to zero.

                physSgprIdx

                    = computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx, 0);

                ++regInitIdx;

                break;

              case FlatScratchInit:

                physSgprIdx

                    = computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                    (TheGpuISA::ScalarRegU32)(task->amdQueue

                        .scratch_backing_memory_location & 0xffffffff));

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting FlatScratch Addr: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        (TheGpuISA::ScalarRegU32)(task->amdQueue

                        .scratch_backing_memory_location & 0xffffffff));


                physSgprIdx =

                       computeUnit->registerManager->mapSgpr(this, regInitIdx);

                // This vallue should be sizeof(DWORD) aligned, that is

                // 4 byte aligned

                computeUnit->srf[simdId]->write(physSgprIdx,

                    task->amdQueue.scratch_workitem_byte_size);

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting FlatScratch size: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        task->amdQueue.scratch_workitem_byte_size);

                hidden_priv_base =

                    (uint64_t)task->amdQueue.scratch_resource_descriptor[0] |

                    (((uint64_t)task->amdQueue.scratch_resource_descriptor[1]

                    & 0x000000000000ffff) << 32);

                computeUnit->shader->initShHiddenPrivateBase(

                       hidden_priv_base,

                       task->amdQueue.scratch_backing_memory_location);

                break;

              case PrivateSegSize:

                physSgprIdx

                    = computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                        task->privMemPerItem());

                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting private segment size: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        task->privMemPerItem());

                break;

              case KernargPreload:

                DPRINTF(GPUInitAbi, "Preload %d user SGPRs starting at virtual"

                        " SGPR s[%d]\n", task->preloadLength(), regInitIdx);


                for (int idx = 0; idx < task->preloadLength(); ++idx) {

                    uint32_t finalValue = task->preloadArgs()[idx];

                    physSgprIdx =

                        computeUnit->registerManager->mapSgpr(this,

                                                              regInitIdx);


                    DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] Setting "

                            "s[%d] = %x\n", computeUnit->cu_id, simdId,

                            wfSlotId, wfDynId, physSgprIdx, finalValue);


                    computeUnit->srf[simdId]->write(physSgprIdx, finalValue);

                    ++regInitIdx;

                }

                break;

              case WorkgroupIdX:

                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                                                     workGroupId[0]);


                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting WG ID X: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx, workGroupId[0]);

                break;

              case WorkgroupIdY:

                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                                                     workGroupId[1]);


                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting WG ID Y: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx, workGroupId[1]);

                break;

              case WorkgroupIdZ:

                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->write(physSgprIdx,

                                                     workGroupId[2]);


                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting WG ID Z: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx, workGroupId[2]);

                break;

              case PrivSegWaveByteOffset:


                // For architected flat scratch, this enable is reused to set

                // the FLAT_SCRATCH register pair to the scratch backing

                // memory: https://llvm.org/docs/AMDGPUUsage.html#flat-scratch

                if (task->gfxVersion() == GfxVersion::gfx942 ||

                    task->gfxVersion() == GfxVersion::gfx950) {

                    uint32_t scratchPerWI =

                        task->amdQueue.scratch_workitem_byte_size;


                    archFlatScratchAddr =

                        task->amdQueue.scratch_backing_memory_location

                        + (scratchPerWI * 64 * wfId);


                    DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                            "Setting architected flat scratch = %x\n",

                            computeUnit->cu_id, simdId, wfSlotId, wfDynId,

                            archFlatScratchAddr);


                    break;

                }


                // Not architected flat scratch. Write the scratch wavefront

                // offset: https://llvm.org/docs/AMDGPUUsage.html

                //              #amdgpu-amdhsa-initial-kernel-execution-state

                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);


                computeUnit->srf[simdId]->write(physSgprIdx, 1024 *

                    (wgId * (wgSz / 64) + wfId) *

                    task->amdQueue.compute_tmpring_size_wavesize);


                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting Private Seg Offset: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx,

                        1024 * (wgId * (wgSz / 64) + wfId) *

                        task->amdQueue.compute_tmpring_size_wavesize);

                break;

              case WorkgroupInfo:

                firstWave = (wfId == 0) ? 1 : 0;

                numWfsInWg = divCeil(wgSizeInWorkItems,

                                         computeUnit->wfSize());

                finalValue = firstWave << ((sizeof(uint32_t) * 8) - 1);

                finalValue |= (orderedAppendTerm << 6);

                finalValue |= numWfsInWg;

                physSgprIdx =

                    computeUnit->registerManager->mapSgpr(this, regInitIdx);

                computeUnit->srf[simdId]->

                    write(physSgprIdx, finalValue);


                ++regInitIdx;

                DPRINTF(GPUInitAbi, "CU%d: WF[%d][%d]: wave[%d] "

                        "Setting WG Info: s[%d] = %x\n",

                        computeUnit->cu_id, simdId,

                        wfSlotId, wfDynId, physSgprIdx, finalValue);

                break;

              default:

                fatal("SGPR enable bit %i not supported\n", en_bit);

                break;

            }

        }

    }


    // Save the offset to the first accumulation VGPR number from HSA task.

    accumOffset = task->accumOffset();


    regInitIdx = 0;


    // VGPRs are initialized to the work item IDs for a given thread. There

    // are two ways to initialize the IDs based on number of dimensions. ISAs

    // will either have packed work-item IDs or not. LLVM lists them here:

    // https://llvm.org/docs/AMDGPUUsage.html#amdgpu-processor-table

    // Default to false and set to true for gem5 supported ISAs.

    bool packed_work_item_id = false;


    if (task->gfxVersion() == GfxVersion::gfx90a ||

        task->gfxVersion() == GfxVersion::gfx942 ||

        task->gfxVersion() == GfxVersion::gfx950) {

        packed_work_item_id = true;

    }


    // For ISAs with packed work item IDs, only one VGPR is used and the

    // (X,Y,Z) dimensions are packed into a single 32-bit VGPR with 10-bits

    // for each dimension

    if (packed_work_item_id) {

        TheGpuISA::VecRegContainerU32 raw_vgpr;

        TheGpuISA::VecElemU32 *packed_vgpr

            = raw_vgpr.as<TheGpuISA::VecElemU32>();


        uint32_t physVgprIdx = computeUnit->registerManager

            ->mapVgpr(this, regInitIdx);

        for (int lane = 0; lane < workItemId[0].size(); ++lane) {

            packed_vgpr[lane] = workItemId[0][lane] & 0x3ff;

        }

        if (task->vgprBitEnabled(1)) {

            for (int lane = 0; lane < workItemId[1].size(); ++lane) {

                packed_vgpr[lane] |= ((workItemId[1][lane] & 0x3ff) << 10);

            }

        }

        if (task->vgprBitEnabled(2)) {

            for (int lane = 0; lane < workItemId[2].size(); ++lane) {

                packed_vgpr[lane] |= ((workItemId[2][lane] & 0x3ff) << 20);

            }

        }

        computeUnit->vrf[simdId]->write(physVgprIdx, raw_vgpr);


        return;

    }


    // For ISAs with non-packed work item IDs, map and initialize one VGPR

    // per dimensions. Do this by iterating over all the init fields and

    // checking which bits are enabled.

    for (int en_bit = 0; en_bit < NumVectorInitFields; ++en_bit) {

        if (task->vgprBitEnabled(en_bit)) {

            uint32_t physVgprIdx = 0;

            TheGpuISA::VecRegContainerU32 raw_vgpr;


            switch (en_bit) {

              case WorkitemIdX:

                {

                    physVgprIdx = computeUnit->registerManager

                        ->mapVgpr(this, regInitIdx);

                    TheGpuISA::VecElemU32 *vgpr_x

                        = raw_vgpr.as<TheGpuISA::VecElemU32>();


                    for (int lane = 0; lane < workItemId[0].size(); ++lane) {

                        vgpr_x[lane] = workItemId[0][lane];

                    }


                    computeUnit->vrf[simdId]->write(physVgprIdx, raw_vgpr);

                    rawDist[regInitIdx] = 0;

                    ++regInitIdx;

                }

                break;

              case WorkitemIdY:

                {

                    physVgprIdx = computeUnit->registerManager

                        ->mapVgpr(this, regInitIdx);

                    TheGpuISA::VecElemU32 *vgpr_y

                        = raw_vgpr.as<TheGpuISA::VecElemU32>();


                    for (int lane = 0; lane < workItemId[1].size(); ++lane) {

                        vgpr_y[lane] = workItemId[1][lane];

                    }


                    computeUnit->vrf[simdId]->write(physVgprIdx, raw_vgpr);

                    rawDist[regInitIdx] = 0;

                    ++regInitIdx;

                }

                break;

              case WorkitemIdZ:

                {

                    physVgprIdx = computeUnit->registerManager->

                        mapVgpr(this, regInitIdx);

                    TheGpuISA::VecElemU32 *vgpr_z

                        = raw_vgpr.as<TheGpuISA::VecElemU32>();


                    for (int lane = 0; lane < workItemId[2].size(); ++lane) {

                        vgpr_z[lane] = workItemId[2][lane];

                    }


                    computeUnit->vrf[simdId]->write(physVgprIdx, raw_vgpr);

                    rawDist[regInitIdx] = 0;

                    ++regInitIdx;

                }

                break;

            }

        }

    }

}


void


Wavefront::resizeRegFiles(int num_vregs, int num_sregs)

{

    maxVgprs = num_vregs;

    maxSgprs = num_sregs;

}


Wavefront::~Wavefront()

{

}


void


Wavefront::setStatus(status_e newStatus)

{

    if (computeUnit->idleCUTimeout > 0) {

        // Wavefront's status transitions to stalled or stopped

        if ((newStatus == S_STOPPED || newStatus == S_STALLED ||

             newStatus == S_WAITCNT || newStatus == S_BARRIER) &&

            (status != newStatus)) {

            computeUnit->idleWfs++;

            assert(computeUnit->idleWfs <=

                   (computeUnit->shader->n_wf * computeUnit->numVectorALUs));

            if (computeUnit->idleWfs ==

                (computeUnit->shader->n_wf * computeUnit->numVectorALUs)) {

                lastNonIdleTick = curTick();

            }

            // Wavefront's status transitions to an active state (from

            // a stopped or stalled state)

        } else if ((status == S_STOPPED || status == S_STALLED ||

                    status == S_WAITCNT || status == S_BARRIER) &&

                   (status != newStatus)) {

            // if all WFs in the CU were idle then check if the idleness

            // period exceeded the timeout threshold

            if (computeUnit->idleWfs ==

                (computeUnit->shader->n_wf * computeUnit->numVectorALUs)) {

                panic_if((curTick() - lastNonIdleTick) >=

                         computeUnit->idleCUTimeout,

                         "CU%d has been idle for %d ticks at tick %d",

                         computeUnit->cu_id, computeUnit->idleCUTimeout,

                         curTick());

            }

            computeUnit->idleWfs--;

            assert(computeUnit->idleWfs >= 0);

        }

    }

    status = newStatus;

}


void


Wavefront::start(uint64_t _wf_dyn_id, Addr init_pc)

{

    wfDynId = _wf_dyn_id;

    _pc = init_pc;


    status = S_RUNNING;


    vecReads.resize(maxVgprs, 0);

}


bool


Wavefront::isGmInstruction(GPUDynInstPtr ii)

{

    if (ii->isGlobalMem() ||

        (ii->isFlat() && ii->executedAs() == enums::SC_GLOBAL)) {

        return true;

    }


    return false;

}


bool


Wavefront::isLmInstruction(GPUDynInstPtr ii)

{

    if (ii->isLocalMem() ||

        (ii->isFlat() && ii->executedAs() == enums::SC_GROUP)) {

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstSleep()

{

    if (instructionBuffer.empty())

        return false;


    GPUDynInstPtr ii = instructionBuffer.front();


    if (ii->isSleep()) {

        return true;

    }

    return false;

}


bool


Wavefront::isOldestInstWaitcnt()

{

    if (instructionBuffer.empty())

        return false;


    GPUDynInstPtr ii = instructionBuffer.front();


    if (ii->isWaitcnt()) {

        // waitcnt is a scalar

        assert(ii->isScalar());

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstScalarALU()

{

    assert(!instructionBuffer.empty());

    GPUDynInstPtr ii = instructionBuffer.front();


    if (status != S_STOPPED && ii->isScalar() && (ii->isNop() || ii->isReturn()

        || ii->isEndOfKernel() || ii->isBranch() || ii->isALU() ||

        (ii->isKernArgSeg() && ii->isLoad()))) {

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstVectorALU()

{

    assert(!instructionBuffer.empty());

    GPUDynInstPtr ii = instructionBuffer.front();


    if (status != S_STOPPED && !ii->isScalar() && (ii->isNop() ||

        ii->isReturn() || ii->isBranch() || ii->isALU() || ii->isEndOfKernel()

        || (ii->isKernArgSeg() && ii->isLoad()))) {

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstBarrier()

{

    assert(!instructionBuffer.empty());

    GPUDynInstPtr ii = instructionBuffer.front();


    if (status != S_STOPPED && ii->isBarrier()) {

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstGMem()

{

    assert(!instructionBuffer.empty());

    GPUDynInstPtr ii = instructionBuffer.front();


    if (status != S_STOPPED && !ii->isScalar() && ii->isGlobalMem()) {

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstScalarMem()

{

    assert(!instructionBuffer.empty());

    GPUDynInstPtr ii = instructionBuffer.front();


    if (status != S_STOPPED && ii->isScalar() && ii->isGlobalMem()) {

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstLMem()

{

    assert(!instructionBuffer.empty());

    GPUDynInstPtr ii = instructionBuffer.front();


    if (status != S_STOPPED && ii->isLocalMem()) {

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstPrivMem()

{

    assert(!instructionBuffer.empty());

    GPUDynInstPtr ii = instructionBuffer.front();


    if (status != S_STOPPED && ii->isPrivateSeg()) {

        return true;

    }


    return false;

}


bool


Wavefront::isOldestInstFlatMem()

{

    assert(!instructionBuffer.empty());

    GPUDynInstPtr ii = instructionBuffer.front();


    if (status != S_STOPPED && ii->isFlat()) {

        return true;

    }


    return false;

}


bool


Wavefront::stopFetch()

{

    for (auto it : instructionBuffer) {

        GPUDynInstPtr ii = it;

        if (ii->isReturn() || ii->isBranch() ||

            ii->isEndOfKernel()) {

            return true;

        }

    }


    return false;

}


void


Wavefront::freeResources()

{

    execUnitId = -1;

}


void Wavefront::validateRequestCounters()

{

    panic_if(wrGmReqsInPipe < 0 || rdGmReqsInPipe < 0 ||

             wrLmReqsInPipe < 0 || rdLmReqsInPipe < 0 ||

             outstandingReqs < 0,

             "Negative requests in pipe for WF%d for slot%d"

             " and SIMD%d: Rd GlobalMem Reqs=%d, Wr GlobalMem Reqs=%d,"

             " Rd LocalMem Reqs=%d, Wr LocalMem Reqs=%d,"

             " Outstanding Reqs=%d\n",

             wfDynId, wfSlotId, simdId, rdGmReqsInPipe, wrGmReqsInPipe,

             rdLmReqsInPipe, wrLmReqsInPipe, outstandingReqs);

}


void


Wavefront::reserveGmResource(GPUDynInstPtr ii)

{

    if (!ii->isScalar()) {

        if (ii->isLoad()) {

            rdGmReqsInPipe++;

        } else if (ii->isStore()) {

            wrGmReqsInPipe++;

        } else if (ii->isAtomic() || ii->isMemSync()) {

            rdGmReqsInPipe++;

            wrGmReqsInPipe++;

        } else {

            panic("Invalid memory operation!\n");

        }

        execUnitId = globalMem;

    } else {

        if (ii->isLoad()) {

            scalarRdGmReqsInPipe++;

        } else if (ii->isStore()) {

            scalarWrGmReqsInPipe++;

        } else if (ii->isAtomic() || ii->isMemSync()) {

            scalarWrGmReqsInPipe++;

            scalarRdGmReqsInPipe++;

        } else {

            panic("Invalid memory operation!\n");

        }

        execUnitId = scalarMem;

    }

}


void


Wavefront::reserveLmResource(GPUDynInstPtr ii)

{

    fatal_if(ii->isScalar(),

             "Scalar instructions can not access Shared memory!!!");

    if (ii->isLoad()) {

        rdLmReqsInPipe++;

    } else if (ii->isStore()) {

        wrLmReqsInPipe++;

    } else if (ii->isAtomic() || ii->isMemSync()) {

        wrLmReqsInPipe++;

        rdLmReqsInPipe++;

    } else {

        panic("Invalid memory operation!\n");

    }

    execUnitId = localMem;

}


std::vector<int>


Wavefront::reserveResources()

{

    // vector of execution unit IDs to return to schedule stage

    // this return is only used for debugging and an assertion...

    std::vector<int> execUnitIds;


    // Get current instruction

    GPUDynInstPtr ii = instructionBuffer.front();

    assert(ii);


    // Single precision ALU or Branch or Return or Special instruction

    if (ii->isALU() || ii->isSpecialOp() ||

        ii->isBranch() || ii->isNop() ||

        (ii->isKernArgSeg() && ii->isLoad()) || ii->isArgSeg() ||

        ii->isReturn() || ii->isEndOfKernel()) {

        if (!ii->isScalar()) {

            execUnitId = simdId;

        } else {

            execUnitId = scalarAluGlobalIdx;

        }

        // this is to enforce a fixed number of cycles per issue slot per SIMD

    } else if (ii->isBarrier()) {

        execUnitId = ii->isScalar() ? scalarAluGlobalIdx : simdId;

    } else if (ii->isFlat()) {

        assert(!ii->isScalar());

        reserveLmResource(ii);

        // add execUnitId, reserved by reserveLmResource, list before it is

        // overwriten by reserveGmResource

        execUnitIds.push_back(execUnitId);

        flatLmUnitId = execUnitId;

        reserveGmResource(ii);

        flatGmUnitId = execUnitId;

        execUnitIds.push_back(flatGmUnitId);

        execUnitId = -1;

    } else if (ii->isGlobalMem()) {

        reserveGmResource(ii);

    } else if (ii->isLocalMem()) {

        reserveLmResource(ii);

    } else if (ii->isPrivateSeg()) {

        fatal_if(ii->isScalar(),

                 "Scalar instructions can not access Private memory!!!");

        reserveGmResource(ii);

    } else {

        panic("reserveResources -> Couldn't process op!\n");

    }


    if (execUnitId != -1) {

        execUnitIds.push_back(execUnitId);

    }

    assert(execUnitIds.size());

    return execUnitIds;

}


void


Wavefront::exec()

{

    // ---- Exit if wavefront is inactive ----------------------------- //


    if (status == S_STOPPED || status == S_RETURNING ||

        status==S_STALLED || instructionBuffer.empty()) {

        return;

    }


    if (status == S_WAITCNT) {

        assert(isOldestInstWaitcnt());

    }


    // Get current instruction


    GPUDynInstPtr ii = instructionBuffer.front();


    const Addr old_pc = pc();

    DPRINTF(GPUExec, "CU%d: WF[%d][%d]: wave[%d] Executing inst: %s "

            "(pc: %#x; seqNum: %d)\n", computeUnit->cu_id, simdId, wfSlotId,

            wfDynId, ii->disassemble(), old_pc, ii->seqNum());

    DPRINTF(GPUTrace, "CU%d: WF[%d][%d]: wave[%d] Executing inst: %s "

            "(pc: %#x; seqNum: %d)\n", computeUnit->cu_id, simdId, wfSlotId,

            wfDynId, ii->disassemble(), old_pc, ii->seqNum());


    ii->execute(ii);

    // delete the dynamic instruction from the pipeline map

    computeUnit->deleteFromPipeMap(this);

    // update the instruction stats in the CU

    computeUnit->updateInstStats(ii);


    // inform VRF of instruction execution to schedule write-back

    // and scoreboard ready for registers

    if (!ii->isScalar()) {

        computeUnit->rfc[simdId]->waveExecuteInst(this, ii);

        computeUnit->vrf[simdId]->waveExecuteInst(this, ii);

    }

    computeUnit->srf[simdId]->waveExecuteInst(this, ii);


    computeUnit->shader->incVectorInstSrcOperand(ii->numSrcVecRegOperands());

    computeUnit->shader->incVectorInstDstOperand(ii->numDstVecRegOperands());

    computeUnit->stats.numInstrExecuted++;

    stats.numInstrExecuted++;

    computeUnit->instExecPerSimd[simdId]++;

    computeUnit->stats.execRateDist.sample(

                                    computeUnit->stats.totalCycles.value() -

                                    computeUnit->lastExecCycle[simdId]);

    computeUnit->lastExecCycle[simdId] =

        computeUnit->stats.totalCycles.value();


    if (lastInstExec) {

        computeUnit->stats.instInterleave[simdId].

            sample(computeUnit->instExecPerSimd[simdId] - lastInstExec);

    }

    lastInstExec = computeUnit->instExecPerSimd[simdId];


    // want to track:

    // number of reads that occur per value written


    // vector RAW dependency tracking

    for (const auto& srcVecOp : ii->srcVecRegOperands()) {

        for (const auto& virtIdx : srcVecOp.virtIndices()) {

            // This check should never fail, but to be safe we check

            if (rawDist.find(virtIdx) != rawDist.end()) {

                stats.vecRawDistance.sample(stats.numInstrExecuted.value() -

                                      rawDist[virtIdx]);

            }

            // increment number of reads to this register

            vecReads[virtIdx]++;

        }

    }


    for (const auto& dstVecOp : ii->dstVecRegOperands()) {

        for (const auto& virtIdx : dstVecOp.virtIndices()) {

            // rawDist is set on writes, but will not be set for the first

            // write to each physical register

            if (rawDist.find(virtIdx) != rawDist.end()) {

                // Sample the number of reads that were performed

                stats.readsPerWrite.sample(vecReads[virtIdx]);

            }

            // on a write, reset count of reads to 0

            vecReads[virtIdx] = 0;


            rawDist[virtIdx] = stats.numInstrExecuted.value();

        }

    }


    if (pc() == old_pc) {

        // PC not modified by instruction, proceed to next

        _gpuISA.advancePC(ii);

        instructionBuffer.pop_front();

    } else {

        DPRINTF(GPUExec, "CU%d: WF[%d][%d]: wave%d %s taken branch\n",

                computeUnit->cu_id, simdId, wfSlotId, wfDynId,

                ii->disassemble());

        discardFetch();

    }

    DPRINTF(GPUExec, "CU%d: WF[%d][%d]: wave[%d] (pc: %#x)\n",

            computeUnit->cu_id, simdId, wfSlotId, wfDynId, pc());


    if (computeUnit->shader->hsail_mode==Shader::SIMT) {

        const int num_active_lanes = execMask().count();

        computeUnit->stats.controlFlowDivergenceDist.sample(num_active_lanes);

        computeUnit->stats.numVecOpsExecuted += num_active_lanes;


        if (ii->isMFMA()) {

            computeUnit->stats.numVecOpsExecutedMFMA += num_active_lanes;

            if (ii->isI8()) {

                computeUnit->stats.numVecOpsExecutedMFMAI8

                    += num_active_lanes;

            }

        }


        if (ii->isF16() && ii->isALU()) {

            if (ii->isF32() || ii->isF64()) {

                fatal("Instruction is tagged as both (1) F16, and (2)"

                       "either F32 or F64.");

            }

            computeUnit->stats.numVecOpsExecutedF16 += num_active_lanes;

            if (ii->isFMA()) {

                computeUnit->stats.numVecOpsExecutedFMA16 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMAC()) {

                computeUnit->stats.numVecOpsExecutedMAC16 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMAD()) {

                computeUnit->stats.numVecOpsExecutedMAD16 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMFMA()) {

                computeUnit->stats.numVecOpsExecutedMFMAF16

                    += num_active_lanes;

            }

        }

        if (ii->isF32() && ii->isALU()) {

            if (ii->isF16() || ii->isF64()) {

                fatal("Instruction is tagged as both (1) F32, and (2)"

                       "either F16 or F64.");

            }

            computeUnit->stats.numVecOpsExecutedF32 += num_active_lanes;

            if (ii->isFMA()) {

                computeUnit->stats.numVecOpsExecutedFMA32 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMAC()) {

                computeUnit->stats.numVecOpsExecutedMAC32 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMAD()) {

                computeUnit->stats.numVecOpsExecutedMAD32 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMFMA()) {

                computeUnit->stats.numVecOpsExecutedMFMAF32

                    += num_active_lanes;

            }

        }

        if (ii->isF64() && ii->isALU()) {

            if (ii->isF16() || ii->isF32()) {

                fatal("Instruction is tagged as both (1) F64, and (2)"

                       "either F16 or F32.");

            }

            computeUnit->stats.numVecOpsExecutedF64 += num_active_lanes;

            if (ii->isFMA()) {

                computeUnit->stats.numVecOpsExecutedFMA64 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMAC()) {

                computeUnit->stats.numVecOpsExecutedMAC64 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMAD()) {

                computeUnit->stats.numVecOpsExecutedMAD64 += num_active_lanes;

                computeUnit->stats.numVecOpsExecutedTwoOpFP

                    += num_active_lanes;

            }

            else if (ii->isMFMA()) {

                computeUnit->stats.numVecOpsExecutedMFMAF64

                    += num_active_lanes;

            }

        }

        if (isGmInstruction(ii)) {

            computeUnit->stats.activeLanesPerGMemInstrDist.sample(

                                                            num_active_lanes);

        } else if (isLmInstruction(ii)) {

            computeUnit->stats.activeLanesPerLMemInstrDist.sample(

                                                            num_active_lanes);

        }

    }


    if (execMask().none() && ii->needsToken()) {

        computeUnit->getTokenManager()->recvTokens(1);

        return;

    }


    // Update Vector ALU pipeline and other resources

    bool flat_as_gm = false;

    bool flat_as_lm = false;

    if (ii->isFlat()) {

        flat_as_gm = (ii->executedAs() == enums::SC_GLOBAL) ||

                     (ii->executedAs() == enums::SC_PRIVATE);

        flat_as_lm = (ii->executedAs() == enums::SC_GROUP);

    }


    // Single precision ALU or Branch or Return or Special instruction

    // Note, we use the same timing regardless of SP or DP ALU operation.

    if (ii->isALU() || ii->isSpecialOp() ||

        ii->isBranch() || ii->isNop() ||

        (ii->isKernArgSeg() && ii->isLoad()) ||

        ii->isArgSeg() || ii->isEndOfKernel() || ii->isReturn()) {

        // this is to enforce a fixed number of cycles per issue slot per SIMD

        if (!ii->isScalar()) {

            computeUnit->vectorALUs[simdId].set(computeUnit->

                cyclesToTicks(computeUnit->issuePeriod));

        } else {

            computeUnit->scalarALUs[scalarAlu].set(computeUnit->

                cyclesToTicks(computeUnit->issuePeriod));

        }

    // Barrier on Scalar ALU

    } else if (ii->isBarrier()) {

        computeUnit->scalarALUs[scalarAlu].set(computeUnit->

            cyclesToTicks(computeUnit->issuePeriod));

    // GM or Flat as GM Load

    } else if (ii->isLoad() && (ii->isGlobalMem() || flat_as_gm)) {

        if (!ii->isScalar()) {

            computeUnit->vrfToGlobalMemPipeBus.set(

                computeUnit->cyclesToTicks(computeUnit->vrf_gm_bus_latency));

            computeUnit->vectorGlobalMemUnit.

                set(computeUnit->cyclesToTicks(computeUnit->issuePeriod));

            computeUnit->stats.instCyclesVMemPerSimd[simdId] +=

                computeUnit->vrf_gm_bus_latency;

        } else {

            computeUnit->srfToScalarMemPipeBus.set(computeUnit->

                cyclesToTicks(computeUnit->srf_scm_bus_latency));

            computeUnit->scalarMemUnit.

                set(computeUnit->cyclesToTicks(computeUnit->issuePeriod));

            computeUnit->stats.instCyclesScMemPerSimd[simdId] +=

                computeUnit->srf_scm_bus_latency;

        }

    // GM or Flat as GM Store

    } else if (ii->isStore() && (ii->isGlobalMem() || flat_as_gm)) {

        if (!ii->isScalar()) {

            computeUnit->vrfToGlobalMemPipeBus.set(computeUnit->

                cyclesToTicks(Cycles(2 * computeUnit->vrf_gm_bus_latency)));

            computeUnit->vectorGlobalMemUnit.

                set(computeUnit->cyclesToTicks(computeUnit->issuePeriod));

            computeUnit->stats.instCyclesVMemPerSimd[simdId] +=

                (2 * computeUnit->vrf_gm_bus_latency);

        } else {

            computeUnit->srfToScalarMemPipeBus.set(computeUnit->

                cyclesToTicks(Cycles(2 * computeUnit->srf_scm_bus_latency)));

            computeUnit->scalarMemUnit.

                set(computeUnit->cyclesToTicks(computeUnit->issuePeriod));

            computeUnit->stats.instCyclesScMemPerSimd[simdId] +=

                (2 * computeUnit->srf_scm_bus_latency);

        }

    } else if ((ii->isAtomic() || ii->isMemSync()) &&

               (ii->isGlobalMem() || flat_as_gm)) {

        if (!ii->isScalar()) {

            computeUnit->vrfToGlobalMemPipeBus.set(computeUnit->

                cyclesToTicks(Cycles(2 * computeUnit->vrf_gm_bus_latency)));

            computeUnit->vectorGlobalMemUnit.

                set(computeUnit->cyclesToTicks(computeUnit->issuePeriod));

            computeUnit->stats.instCyclesVMemPerSimd[simdId] +=

                (2 * computeUnit->vrf_gm_bus_latency);

        } else {

            computeUnit->srfToScalarMemPipeBus.set(computeUnit->

                cyclesToTicks(Cycles(2 * computeUnit->srf_scm_bus_latency)));

            computeUnit->scalarMemUnit.

                set(computeUnit->cyclesToTicks(computeUnit->issuePeriod));

            computeUnit->stats.instCyclesScMemPerSimd[simdId] +=

                (2 * computeUnit->srf_scm_bus_latency);

        }

    // LM or Flat as LM Load

    } else if (ii->isLoad() && (ii->isLocalMem() || flat_as_lm)) {

        computeUnit->vrfToLocalMemPipeBus.set(computeUnit->

            cyclesToTicks(computeUnit->vrf_lm_bus_latency));

        computeUnit->vectorSharedMemUnit.

            set(computeUnit->shader->cyclesToTicks(computeUnit->issuePeriod));

        computeUnit->stats.instCyclesLdsPerSimd[simdId] +=

            computeUnit->vrf_lm_bus_latency;

    // LM or Flat as LM Store

    } else if (ii->isStore() && (ii->isLocalMem() || flat_as_lm)) {

        computeUnit->vrfToLocalMemPipeBus.set(computeUnit->

            cyclesToTicks(Cycles(2 * computeUnit->vrf_lm_bus_latency)));

        computeUnit->vectorSharedMemUnit.

            set(computeUnit->cyclesToTicks(computeUnit->issuePeriod));

        computeUnit->stats.instCyclesLdsPerSimd[simdId] +=

            (2 * computeUnit->vrf_lm_bus_latency);

    // LM or Flat as LM, Atomic or MemFence

    } else if ((ii->isAtomic() || ii->isMemSync()) &&

               (ii->isLocalMem() || flat_as_lm)) {

        computeUnit->vrfToLocalMemPipeBus.set(computeUnit->

            cyclesToTicks(Cycles(2 * computeUnit->vrf_lm_bus_latency)));

        computeUnit->vectorSharedMemUnit.

            set(computeUnit->cyclesToTicks(computeUnit->issuePeriod));

        computeUnit->stats.instCyclesLdsPerSimd[simdId] +=

            (2 * computeUnit->vrf_lm_bus_latency);

    } else {

        panic("Bad instruction type!\n");

    }

}


GPUDynInstPtr


Wavefront::nextInstr()

{

    // Read next instruction from instruction buffer

    GPUDynInstPtr ii = instructionBuffer.front();

    // if the WF has been dispatched in the schedule stage then

    // check the next oldest instruction for readiness

    if (computeUnit->pipeMap.find(ii->seqNum()) !=

        computeUnit->pipeMap.end()) {

        if (instructionBuffer.size() > 1) {

            auto it = instructionBuffer.begin() + 1;

            return *it;

        } else { // No new instructions to check

            return nullptr;

        }

    }

    return ii;

}


void


Wavefront::discardFetch()

{

    instructionBuffer.clear();

    dropFetch |= pendingFetch;


    computeUnit->fetchStage.fetchUnit(simdId).flushBuf(wfSlotId);

}


bool


Wavefront::waitCntsSatisfied()

{

    // Both vmWaitCnt && lgkmWaitCnt uninitialized means

    // waitCnt instruction has been dispatched but not executed yet: next

    // instruction should be blocked until waitCnt is executed.

    if (vmWaitCnt == -1 && expWaitCnt == -1 && lgkmWaitCnt == -1) {

        return false;

    }


    if (vmWaitCnt != -1) {

        if (vmemInstsIssued > vmWaitCnt) {

            // vmWaitCnt not satisfied

            return false;

        }

    }


    if (expWaitCnt != -1) {

        if (expInstsIssued > expWaitCnt) {

            // expWaitCnt not satisfied

            return false;

        }

    }


    if (lgkmWaitCnt != -1) {

        if (lgkmInstsIssued > lgkmWaitCnt) {

            // lgkmWaitCnt not satisfied

            return false;

        }

    }


    // if we get here all outstanding waitcnts must

    // be satisfied, so we resume normal operation

    clearWaitCnts();


    return true;

}


bool


Wavefront::sleepDone()

{

    assert(status == S_STALLED_SLEEP);


    // if the sleep count has not been set, then the sleep instruction has not

    // been executed yet, so we will return true without setting the wavefront

    // status

    if (sleepCnt == 0)

        return false;


    sleepCnt--;

    if (sleepCnt != 0)

        return false;


    status = S_RUNNING;

    return true;

}


void


Wavefront::setSleepTime(int sleep_time)

{

    assert(sleepCnt == 0);

    sleepCnt = sleep_time;

}


void


Wavefront::setWaitCnts(int vm_wait_cnt, int exp_wait_cnt, int lgkm_wait_cnt)

{

    // the scoreboard should have set the status

    // to S_WAITCNT once a waitcnt instruction

    // was marked as ready

    assert(status == S_WAITCNT);


    // waitcnt instruction shouldn't be sending

    // negative counts

    assert(vm_wait_cnt >= 0);

    assert(exp_wait_cnt >= 0);

    assert(lgkm_wait_cnt >= 0);

    // waitcnts are a max of 15 because we have

    // only 1 nibble (4 bits) to set the counts

    assert(vm_wait_cnt <= 0xf);

    assert(exp_wait_cnt <= 0x7);

    assert(lgkm_wait_cnt <= 0x1f);


    assert(vmWaitCnt == -1);

    assert(expWaitCnt == -1);

    assert(lgkmWaitCnt == -1);


    if (vm_wait_cnt != 0xf)

        vmWaitCnt = vm_wait_cnt;


    if (exp_wait_cnt != 0x7)

        expWaitCnt = exp_wait_cnt;


    if (lgkm_wait_cnt != 0x1f)

        lgkmWaitCnt = lgkm_wait_cnt;

}


void


Wavefront::clearWaitCnts()

{

    // reset the waitcnts back to

    // -1, indicating they are no

    // longer valid

    vmWaitCnt = -1;

    expWaitCnt = -1;

    lgkmWaitCnt = -1;


    // resume running normally

    status = S_RUNNING;

}


void


Wavefront::incVMemInstsIssued()

{

    ++vmemInstsIssued;

}


void


Wavefront::incExpInstsIssued()

{

    ++expInstsIssued;

}


void


Wavefront::incLGKMInstsIssued()

{

    ++lgkmInstsIssued;

}


void


Wavefront::decVMemInstsIssued()

{

    --vmemInstsIssued;

}


void


Wavefront::decExpInstsIssued()

{

    --expInstsIssued;

}


void


Wavefront::decLGKMInstsIssued()

{

    --lgkmInstsIssued;

}


void


Wavefront::trackVMemInst(GPUDynInstPtr gpu_dyn_inst)

{

    if (!computeUnit->shader->getProgressInterval()) {

        return;

    }


    assert(!vmemIssued.count(gpu_dyn_inst->seqNum()));

    vmemIssued.insert(gpu_dyn_inst->seqNum());

    trackInst(gpu_dyn_inst);

}


void


Wavefront::trackLGKMInst(GPUDynInstPtr gpu_dyn_inst)

{

    if (!computeUnit->shader->getProgressInterval()) {

        return;

    }


    assert(!lgkmIssued.count(gpu_dyn_inst->seqNum()));

    lgkmIssued.insert(gpu_dyn_inst->seqNum());

    trackInst(gpu_dyn_inst);

}


void


Wavefront::trackExpInst(GPUDynInstPtr gpu_dyn_inst)

{

    if (!computeUnit->shader->getProgressInterval()) {

        return;

    }


    assert(!expIssued.count(gpu_dyn_inst->seqNum()));

    expIssued.insert(gpu_dyn_inst->seqNum());

    trackInst(gpu_dyn_inst);

}


void


Wavefront::trackInst(GPUDynInstPtr gpu_dyn_inst)

{

    if (!computeUnit->shader->getProgressInterval()) {

        return;

    }


    cntInsts.insert({gpu_dyn_inst->seqNum(), gpu_dyn_inst->disassemble()});

}


void


Wavefront::untrackVMemInst(GPUDynInstPtr gpu_dyn_inst)

{

    if (!computeUnit->shader->getProgressInterval()) {

        return;

    }


    warn_if(!vmemIssued.count(gpu_dyn_inst->seqNum()),

            "%d not in VMEM issued!\n", gpu_dyn_inst->seqNum());

    vmemIssued.erase(gpu_dyn_inst->seqNum());

    untrackInst(gpu_dyn_inst->seqNum());

}


void


Wavefront::untrackLGKMInst(GPUDynInstPtr gpu_dyn_inst)

{

    if (!computeUnit->shader->getProgressInterval()) {

        return;

    }


    warn_if(!lgkmIssued.count(gpu_dyn_inst->seqNum()),

            "%d not in LGKM issued!\n", gpu_dyn_inst->seqNum());

    lgkmIssued.erase(gpu_dyn_inst->seqNum());

    untrackInst(gpu_dyn_inst->seqNum());

}


void


Wavefront::untrackExpInst(GPUDynInstPtr gpu_dyn_inst)

{

    if (!computeUnit->shader->getProgressInterval()) {

        return;

    }


    warn_if(!expIssued.count(gpu_dyn_inst->seqNum()),

            "%d not in EXP issued!\n", gpu_dyn_inst->seqNum());

    expIssued.erase(gpu_dyn_inst->seqNum());

    untrackInst(gpu_dyn_inst->seqNum());

}


void


Wavefront::untrackInst(InstSeqNum seqNum)

{

    if (!computeUnit->shader->getProgressInterval()) {

        return;

    }


    if (!vmemIssued.count(seqNum) &&

        !lgkmIssued.count(seqNum) &&

        !expIssued.count(seqNum)) {

        cntInsts.erase(seqNum);

    }

}


Addr


Wavefront::pc() const

{

    return _pc;

}


void


Wavefront::pc(Addr new_pc)

{

    _pc = new_pc;

}


VectorMask&


Wavefront::execMask()

{

    return _execMask;

}


bool


Wavefront::execMask(int lane) const

{

    return _execMask[lane];

}


void


Wavefront::freeRegisterFile()

{

    /* clear busy registers */

    for (int i=0; i < maxVgprs; i++) {

        int vgprIdx = computeUnit->registerManager->mapVgpr(this, i);

        computeUnit->vrf[simdId]->markReg(vgprIdx, false);

    }


    /* Free registers used by this wavefront */

    uint32_t endIndex = (startVgprIndex + reservedVectorRegs - 1) %

                         computeUnit->vrf[simdId]->numRegs();

    computeUnit->registerManager->vrfPoolMgrs[simdId]->

        freeRegion(startVgprIndex, endIndex);

}


void


Wavefront::computeActualWgSz(HSAQueueEntry *task)

{

    actualWgSzTotal = 1;

    for (int d = 0; d < HSAQueueEntry::MAX_DIM; ++d) {

        actualWgSz[d] = std::min(workGroupSz[d], gridSz[d]

                                 - task->wgId(d) * workGroupSz[d]);

        actualWgSzTotal *= actualWgSz[d];

    }

}


void


Wavefront::barrierId(int bar_id)

{

    assert(bar_id >= WFBarrier::InvalidID);

    assert(bar_id < computeUnit->numBarrierSlots());

    barId = bar_id;

}


int


Wavefront::barrierId() const

{

    return barId;

}


bool


Wavefront::hasBarrier() const

{

    return barId > WFBarrier::InvalidID;

}


void


Wavefront::releaseBarrier()

{

    barId = WFBarrier::InvalidID;

}


std::string


Wavefront::statusToString(status_e status)

{

    switch (status) {

        case S_STOPPED: return "S_STOPPED";

        case S_RETURNING: return "S_RETURNING";

        case S_RUNNING: return "S_RUNNING";

        case S_STALLED: return "S_STALLED";

        case S_STALLED_SLEEP: return "S_STALLED_SLEEP";

        case S_WAITCNT: return "S_WAITCNT";

        case S_BARRIER: return "S_BARRIER";

        default: break;

    }


    return "Unknown";

}


void


Wavefront::printProgress()

{

    std::cout << "wave[" << wfDynId << "] status: "

              << statusToString(getStatus()) << " last inst: "

              << lastInstDisasm << " waitcnts: vmem: " << vmemInstsIssued

              << "/" << vmWaitCnt << "(";

    for (auto &elem : vmemIssued) {

        std::cout << elem << ' ';

    }

    std::cout << ") exp: " << expInstsIssued << "/"

              << expWaitCnt << "(";

    for (auto &elem : expIssued) {

        std::cout << elem << ' ';

    }


    std::cout << ") lgkm: " << lgkmInstsIssued << " / "

              << lgkmWaitCnt << "(";

    for (auto &elem : lgkmIssued) {

        std::cout << elem << ' ';

    }

    std::cout << ") last ready status: " << lastInstRdyStatus

              << " status VRF/SRF: " << lastVrfStatus << "/" << lastSrfStatus

              << " wait insts:\n";


    for (auto &elem : vmemIssued) {

        std::cout << "\t" << cntInsts[elem] << "\n";

    }

    for (auto &elem : lgkmIssued) {

        std::cout << "\t" << cntInsts[elem] << "\n";

    }

    for (auto &elem : expIssued) {

        std::cout << "\t" << cntInsts[elem] << "\n";

    }

}


void


Wavefront::setMfmaAScale(int idx, uint8_t value)

{

    assert(idx < VegaISA::NumVecElemPerVecReg);

    mfmaAScale[idx] = value;

}


void


Wavefront::setMfmaBScale(int idx, uint8_t value)

{

    assert(idx < VegaISA::NumVecElemPerVecReg);

    mfmaBScale[idx] = value;

}


uint8_t


Wavefront::getMfmaAScale(int idx)

{

    assert(idx < VegaISA::NumVecElemPerVecReg);

    uint8_t rv = mfmaAScale[idx];

    mfmaAScale[idx] = 0;


    return rv;

}


uint8_t


Wavefront::getMfmaBScale(int idx)

{

    assert(idx < VegaISA::NumVecElemPerVecReg);

    uint8_t rv = mfmaBScale[idx];

    mfmaBScale[idx] = 0;


    return rv;

}


Wavefront::WavefrontStats::WavefrontStats(statistics::Group *parent)

    : statistics::Group(parent),

      ADD_STAT(numInstrExecuted,

               "number of instructions executed by this WF slot"),

      ADD_STAT(schCycles, "number of cycles spent in schedule stage"),

      ADD_STAT(schStalls, "number of cycles WF is stalled in SCH stage"),

      ADD_STAT(schRfAccessStalls, "number of cycles wave selected in SCH but "

               "RF denied adding instruction"),

      ADD_STAT(schResourceStalls, "number of cycles stalled in sch by resource"

               " not available"),

      ADD_STAT(schOpdNrdyStalls, "number of cycles stalled in sch waiting for "

               "RF reads to complete"),

      ADD_STAT(schLdsArbStalls,

               "number of cycles wave stalled due to LDS-VRF arbitration"),

      // FIXME: the name of the WF needs to be unique

      ADD_STAT(numTimesBlockedDueWAXDependencies, "number of times the wf's "

               "instructions are blocked due to WAW or WAR dependencies"),

      // FIXME: the name of the WF needs to be unique

      ADD_STAT(numTimesBlockedDueRAWDependencies, "number of times the wf's "

               "instructions are blocked due to RAW dependencies"),

      ADD_STAT(vecRawDistance,

               "Count of RAW distance in dynamic instructions for this WF"),

      ADD_STAT(readsPerWrite, "Count of Vector reads per write for this WF")

{

    vecRawDistance.init(0, 20, 1);

    readsPerWrite.init(0, 4, 1);

}


} // namespace gem5

DPRINTF
#define DPRINTF(x,...)
Definition trace.hh:209

bitfield.hh

gem5::Cycles
Cycles is a wrapper class for representing cycle counts, i.e.
Definition types.hh:79

gem5::HSAQueueEntry
Definition hsa_queue_entry.hh:61

gem5::HSAQueueEntry::amdQueue
_amd_queue_t amdQueue
Keep a copy of the AMD HSA queue because we need info from some of its fields to initialize register ...
Definition hsa_queue_entry.hh:335

gem5::HSAQueueEntry::kernargAddr
Addr kernargAddr() const
Definition hsa_queue_entry.hh:211

gem5::HSAQueueEntry::sgprBitEnabled
bool sgprBitEnabled(int bit) const
Definition hsa_queue_entry.hh:319

gem5::HSAQueueEntry::wgId
int wgId(int dim) const
Definition hsa_queue_entry.hh:237

gem5::HSAQueueEntry::gfxVersion
const GfxVersion & gfxVersion() const
Definition hsa_queue_entry.hh:137

gem5::HSAQueueEntry::preloadLength
void preloadLength(unsigned val)
Definition hsa_queue_entry.hh:413

gem5::HSAQueueEntry::hostDispPktAddr
Addr hostDispPktAddr() const
Definition hsa_queue_entry.hh:193

gem5::HSAQueueEntry::MAX_DIM
static const int MAX_DIM
Definition hsa_queue_entry.hh:338

gem5::HSAQueueEntry::hostAMDQueueAddr
Addr hostAMDQueueAddr
Host-side addr of the amd_queue_t on which this task was queued.
Definition hsa_queue_entry.hh:328

gem5::HSAQueueEntry::vgprBitEnabled
bool vgprBitEnabled(int bit) const
Definition hsa_queue_entry.hh:314

gem5::HSAQueueEntry::dispatchId
int dispatchId() const
Definition hsa_queue_entry.hh:181

gem5::HSAQueueEntry::privMemPerItem
int privMemPerItem() const
Definition hsa_queue_entry.hh:222

gem5::HSAQueueEntry::preloadArgs
uint32_t * preloadArgs()
Definition hsa_queue_entry.hh:433

gem5::HSAQueueEntry::accumOffset
unsigned accumOffset() const
Definition hsa_queue_entry.hh:407

gem5::Shader::SIMT
@ SIMT
Definition shader.hh:114

gem5::WFBarrier
WF barrier slots.
Definition compute_unit.hh:93

gem5::WFBarrier::InvalidID
static const int InvalidID
Definition compute_unit.hh:99

gem5::Wavefront::maxSgprs
uint32_t maxSgprs
Definition wavefront.hh:136

gem5::Wavefront::flatGmUnitId
int flatGmUnitId
Definition wavefront.hh:107

gem5::Wavefront::flatLmUnitId
int flatLmUnitId
Definition wavefront.hh:106

gem5::Wavefront::status
status_e status
Definition wavefront.hh:369

gem5::Wavefront::scalarAluGlobalIdx
int scalarAluGlobalIdx
Definition wavefront.hh:128

gem5::Wavefront::isOldestInstWaitcnt
bool isOldestInstWaitcnt()
Definition wavefront.cc:685

gem5::Wavefront::pc
Addr pc() const
Definition wavefront.cc:1569

gem5::Wavefront::vmemInstsIssued
int vmemInstsIssued
Definition wavefront.hh:365

gem5::Wavefront::hasBarrier
bool hasBarrier() const
Definition wavefront.cc:1634

gem5::Wavefront::_execMask
VectorMask _execMask
Definition wavefront.hh:371

gem5::Wavefront::maxIbSize
int maxIbSize
Definition wavefront.hh:110

gem5::Wavefront::actualWgSzTotal
uint32_t actualWgSzTotal
Definition wavefront.hh:170

gem5::Wavefront::lastInstSeqNum
InstSeqNum lastInstSeqNum
Definition wavefront.hh:327

gem5::Wavefront::reserveGmResource
void reserveGmResource(GPUDynInstPtr ii)
Definition wavefront.cc:843

gem5::Wavefront::oldVgprTcnt
uint64_t oldVgprTcnt
Definition wavefront.hh:218

gem5::Wavefront::lastAddr
std::vector< Addr > lastAddr
Definition wavefront.hh:159

gem5::Wavefront::rdLmReqsInPipe
int rdLmReqsInPipe
Definition wavefront.hh:190

gem5::Wavefront::expIssued
std::set< InstSeqNum > expIssued
Definition wavefront.hh:293

gem5::Wavefront::discardFetch
void discardFetch()
Definition wavefront.cc:1293

gem5::Wavefront::wfId
uint32_t wfId
Definition wavefront.hh:173

gem5::Wavefront::setStatus
void setStatus(status_e newStatus)
Definition wavefront.cc:601

gem5::Wavefront::untrackInst
void untrackInst(InstSeqNum seqNum)
Definition wavefront.cc:1555

gem5::Wavefront::waitCntsSatisfied
bool waitCntsSatisfied()
Definition wavefront.cc:1306

gem5::Wavefront::memTraceBusy
int memTraceBusy
Definition wavefront.hh:197

gem5::Wavefront::mfmaAScale
std::array< uint8_t, VegaISA::NumVecElemPerVecReg > mfmaAScale
Definition wavefront.hh:377

gem5::Wavefront::wgId
uint32_t wgId
Definition wavefront.hh:166

gem5::Wavefront::validateRequestCounters
void validateRequestCounters()
Definition wavefront.cc:829

gem5::Wavefront::reservedScalarRegs
int reservedScalarRegs
Definition wavefront.hh:202

gem5::Wavefront::getMfmaAScale
uint8_t getMfmaAScale(int idx)
Definition wavefront.cc:1713

gem5::Wavefront::trackInst
void trackInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1506

gem5::Wavefront::trackVMemInst
void trackVMemInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1470

gem5::Wavefront::simdId
const int simdId
Definition wavefront.hh:102

gem5::Wavefront::outstandingReqsWrGm
int outstandingReqsWrGm
Definition wavefront.hh:179

gem5::Wavefront::isOldestInstLMem
bool isOldestInstLMem()
Definition wavefront.cc:771

gem5::Wavefront::isOldestInstPrivMem
bool isOldestInstPrivMem()
Definition wavefront.cc:784

gem5::Wavefront::isOldestInstScalarMem
bool isOldestInstScalarMem()
Definition wavefront.cc:758

gem5::Wavefront::oldDgprTcnt
uint64_t oldDgprTcnt
Definition wavefront.hh:225

gem5::Wavefront::scalarWrGmReqsInPipe
int scalarWrGmReqsInPipe
Definition wavefront.hh:195

gem5::Wavefront::Wavefront
Wavefront(const Params &p)
Definition wavefront.cc:50

gem5::Wavefront::getMfmaBScale
uint8_t getMfmaBScale(int idx)
Definition wavefront.cc:1723

gem5::Wavefront::isOldestInstBarrier
bool isOldestInstBarrier()
Definition wavefront.cc:732

gem5::Wavefront::lastNonIdleTick
Tick lastNonIdleTick
Definition wavefront.hh:117

gem5::Wavefront::lgkmWaitCnt
int lgkmWaitCnt
Definition wavefront.hh:364

gem5::Wavefront::resizeRegFiles
void resizeRegFiles(int num_vregs, int num_sregs)
Definition wavefront.cc:590

gem5::Wavefront::dropFetch
bool dropFetch
Definition wavefront.hh:115

gem5::Wavefront::scalarOutstandingReqsWrGm
int scalarOutstandingReqsWrGm
Definition wavefront.hh:189

gem5::Wavefront::gridSz
uint32_t gridSz[3]
Definition wavefront.hh:165

gem5::Wavefront::_pc
Addr _pc
Definition wavefront.hh:370

gem5::Wavefront::pendingFetch
bool pendingFetch
Definition wavefront.hh:114

gem5::Wavefront::decExpInstsIssued
void decExpInstsIssued()
Definition wavefront.cc:1458

gem5::Wavefront::mfmaBScale
std::array< uint8_t, VegaISA::NumVecElemPerVecReg > mfmaBScale
Definition wavefront.hh:378

gem5::Wavefront::lgkmIssued
std::set< InstSeqNum > lgkmIssued
Definition wavefront.hh:292

gem5::Wavefront::oldVgpr
std::vector< uint32_t > oldVgpr
Definition wavefront.hh:214

gem5::Wavefront::initRegState
void initRegState(HSAQueueEntry *task, int wgSizeInWorkItems)
Definition wavefront.cc:122

gem5::Wavefront::setSleepTime
void setSleepTime(int sleep_time)
Definition wavefront.cc:1368

gem5::Wavefront::computeUnit
ComputeUnit * computeUnit
Definition wavefront.hh:109

gem5::Wavefront::workItemFlatId
std::vector< uint32_t > workItemFlatId
Definition wavefront.hh:161

gem5::Wavefront::lastVrfStatus
bool lastVrfStatus
Definition wavefront.hh:330

gem5::Wavefront::vmWaitCnt
int vmWaitCnt
the following are used for waitcnt instructions vmWaitCnt: once set, we wait for the oustanding numbe...
Definition wavefront.hh:362

gem5::Wavefront::vecReads
std::vector< int > vecReads
Definition wavefront.hh:246

gem5::Wavefront::instructionBuffer
std::deque< GPUDynInstPtr > instructionBuffer
Definition wavefront.hh:112

gem5::Wavefront::isOldestInstSleep
bool isOldestInstSleep()
Definition wavefront.cc:671

gem5::Wavefront::accumOffset
uint32_t accumOffset
Definition wavefront.hh:138

gem5::Wavefront::outstandingReqsRdLm
int outstandingReqsRdLm
Definition wavefront.hh:185

gem5::Wavefront::isLmInstruction
bool isLmInstruction(GPUDynInstPtr ii)
Definition wavefront.cc:660

gem5::Wavefront::expWaitCnt
int expWaitCnt
Definition wavefront.hh:363

gem5::Wavefront::nextInstr
GPUDynInstPtr nextInstr()
Definition wavefront.cc:1274

gem5::Wavefront::lastTrace
uint64_t lastTrace
Definition wavefront.hh:198

gem5::Wavefront::workItemId
std::vector< uint32_t > workItemId[3]
Definition wavefront.hh:160

gem5::Wavefront::execUnitId
int execUnitId
Definition wavefront.hh:105

gem5::Wavefront::oldDgpr
std::vector< uint64_t > oldDgpr
Definition wavefront.hh:221

gem5::Wavefront::scalarMem
int scalarMem
Definition wavefront.hh:131

gem5::Wavefront::isOldestInstScalarALU
bool isOldestInstScalarALU()
Definition wavefront.cc:702

gem5::Wavefront::exec
void exec()
Definition wavefront.cc:945

gem5::Wavefront::untrackExpInst
void untrackExpInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1542

gem5::Wavefront::reservedVectorRegs
int reservedVectorRegs
Definition wavefront.hh:200

gem5::Wavefront::localMem
int localMem
Definition wavefront.hh:130

gem5::Wavefront::sleepCnt
int sleepCnt
Definition wavefront.hh:368

gem5::Wavefront::releaseBarrier
void releaseBarrier()
Definition wavefront.cc:1640

gem5::Wavefront::isOldestInstFlatMem
bool isOldestInstFlatMem()
Definition wavefront.cc:797

gem5::Wavefront::getStatus
status_e getStatus()
Definition wavefront.hh:142

gem5::Wavefront::Params
WavefrontParams Params
Definition wavefront.hh:253

gem5::Wavefront::maxVgprs
uint32_t maxVgprs
Definition wavefront.hh:134

gem5::Wavefront::decVMemInstsIssued
void decVMemInstsIssued()
Definition wavefront.cc:1452

gem5::Wavefront::computeActualWgSz
void computeActualWgSz(HSAQueueEntry *task)
Definition wavefront.cc:1609

gem5::Wavefront::lastInstDisasm
std::string lastInstDisasm
Definition wavefront.hh:328

gem5::Wavefront::stopFetch
bool stopFetch()
Definition wavefront.cc:810

gem5::Wavefront::workGroupId
uint32_t workGroupId[3]
Definition wavefront.hh:163

gem5::Wavefront::printProgress
void printProgress()
Definition wavefront.cc:1663

gem5::Wavefront::setWaitCnts
void setWaitCnts(int vm_wait_cnt, int exp_wait_cnt, int lgkm_wait_cnt)
Definition wavefront.cc:1375

gem5::Wavefront::wfSlotId
const int wfSlotId
Definition wavefront.hh:99

gem5::Wavefront::rawDist
std::unordered_map< int, uint64_t > rawDist
Definition wavefront.hh:242

gem5::Wavefront::~Wavefront
~Wavefront()
Definition wavefront.cc:596

gem5::Wavefront::incExpInstsIssued
void incExpInstsIssued()
Definition wavefront.cc:1440

gem5::Wavefront::untrackLGKMInst
void untrackLGKMInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1529

gem5::Wavefront::reserveResources
std::vector< int > reserveResources()
Definition wavefront.cc:891

gem5::Wavefront::startSgprIndex
uint32_t startSgprIndex
Definition wavefront.hh:208

gem5::Wavefront::gfxVersion
GfxVersion gfxVersion
Definition wavefront.hh:97

gem5::Wavefront::decLGKMInstsIssued
void decLGKMInstsIssued()
Definition wavefront.cc:1464

gem5::Wavefront::outstandingReqsWrLm
int outstandingReqsWrLm
Definition wavefront.hh:181

gem5::Wavefront::incLGKMInstsIssued
void incLGKMInstsIssued()
Definition wavefront.cc:1446

gem5::Wavefront::barrierId
int barrierId() const
Definition wavefront.cc:1628

gem5::Wavefront::init
virtual void init()
init() is called after all C++ SimObjects have been created and all ports are connected.
Definition wavefront.cc:107

gem5::Wavefront::workGroupSz
uint32_t workGroupSz[3]
Definition wavefront.hh:164

gem5::Wavefront::expInstsIssued
int expInstsIssued
Definition wavefront.hh:366

gem5::Wavefront::scalarAlu
int scalarAlu
Definition wavefront.hh:124

gem5::Wavefront::untrackVMemInst
void untrackVMemInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1516

gem5::Wavefront::wgSz
uint32_t wgSz
Definition wavefront.hh:167

gem5::Wavefront::wrLmReqsInPipe
int wrLmReqsInPipe
Definition wavefront.hh:192

gem5::Wavefront::trackExpInst
void trackExpInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1494

gem5::Wavefront::isOldestInstVectorALU
bool isOldestInstVectorALU()
Definition wavefront.cc:717

gem5::Wavefront::lastInstExec
uint64_t lastInstExec
Definition wavefront.hh:238

gem5::Wavefront::ldsChunk
LdsChunk * ldsChunk
Definition wavefront.hh:232

gem5::Wavefront::cntInsts
std::unordered_map< InstSeqNum, std::string > cntInsts
Definition wavefront.hh:294

gem5::Wavefront::actualWgSz
uint32_t actualWgSz[3]
Definition wavefront.hh:169

gem5::Wavefront::archFlatScratchAddr
Addr archFlatScratchAddr
Definition wavefront.hh:211

gem5::Wavefront::vmemIssued
std::set< InstSeqNum > vmemIssued
Definition wavefront.hh:291

gem5::Wavefront::setMfmaBScale
void setMfmaBScale(int idx, uint8_t value)
Definition wavefront.cc:1706

gem5::Wavefront::trackLGKMInst
void trackLGKMInst(GPUDynInstPtr gpu_dyn_inst)
Definition wavefront.cc:1482

gem5::Wavefront::scalarOutstandingReqsRdGm
int scalarOutstandingReqsRdGm
Definition wavefront.hh:187

gem5::Wavefront::scalarRdGmReqsInPipe
int scalarRdGmReqsInPipe
Definition wavefront.hh:194

gem5::Wavefront::freeResources
void freeResources()
Definition wavefront.cc:824

gem5::Wavefront::barId
int barId
Definition wavefront.hh:372

gem5::Wavefront::incVMemInstsIssued
void incVMemInstsIssued()
Definition wavefront.cc:1434

gem5::Wavefront::statusToString
std::string statusToString(status_e status)
Definition wavefront.cc:1646

gem5::Wavefront::reserveLmResource
void reserveLmResource(GPUDynInstPtr ii)
Definition wavefront.cc:873

gem5::Wavefront::wrGmReqsInPipe
int wrGmReqsInPipe
Definition wavefront.hh:193

gem5::Wavefront::rdGmReqsInPipe
int rdGmReqsInPipe
Definition wavefront.hh:191

gem5::Wavefront::lastInstRdyStatus
std::string lastInstRdyStatus
Definition wavefront.hh:329

gem5::Wavefront::status_e
status_e
Definition wavefront.hh:65

gem5::Wavefront::S_BARRIER
@ S_BARRIER
WF is stalled at a barrier.
Definition wavefront.hh:93

gem5::Wavefront::S_STALLED_SLEEP
@ S_STALLED_SLEEP
Definition wavefront.hh:75

gem5::Wavefront::S_WAITCNT
@ S_WAITCNT
wavefront has unsatisfied wait counts
Definition wavefront.hh:89

gem5::Wavefront::S_RETURNING
@ S_RETURNING
Definition wavefront.hh:69

gem5::Wavefront::S_RUNNING
@ S_RUNNING
Definition wavefront.hh:71

gem5::Wavefront::S_STALLED
@ S_STALLED
Definition wavefront.hh:73

gem5::Wavefront::S_STOPPED
@ S_STOPPED
Definition wavefront.hh:67

gem5::Wavefront::outstandingReqsRdGm
int outstandingReqsRdGm
Definition wavefront.hh:183

gem5::Wavefront::isOldestInstGMem
bool isOldestInstGMem()
Definition wavefront.cc:745

gem5::Wavefront::stats
gem5::Wavefront::WavefrontStats stats

gem5::Wavefront::execMask
VectorMask & execMask()
Definition wavefront.cc:1581

gem5::Wavefront::globalMem
int globalMem
Definition wavefront.hh:129

gem5::Wavefront::setMfmaAScale
void setMfmaAScale(int idx, uint8_t value)
Definition wavefront.cc:1699

gem5::Wavefront::outstandingReqs
int outstandingReqs
Definition wavefront.hh:177

gem5::Wavefront::wfDynId
uint64_t wfDynId
Definition wavefront.hh:235

gem5::Wavefront::freeRegisterFile
void freeRegisterFile()
Freeing VRF space.
Definition wavefront.cc:1593

gem5::Wavefront::isGmInstruction
bool isGmInstruction(GPUDynInstPtr ii)
Definition wavefront.cc:649

gem5::Wavefront::lgkmInstsIssued
int lgkmInstsIssued
Definition wavefront.hh:367

gem5::Wavefront::lastSrfStatus
bool lastSrfStatus
Definition wavefront.hh:330

gem5::Wavefront::sleepDone
bool sleepDone()
Definition wavefront.cc:1349

gem5::Wavefront::clearWaitCnts
void clearWaitCnts()
Definition wavefront.cc:1420

gem5::Wavefront::startVgprIndex
uint32_t startVgprIndex
Definition wavefront.hh:205

gem5::Wavefront::start
void start(uint64_t _wfDynId, uint64_t _base_ptr)
Definition wavefront.cc:638

gem5::Wavefront::_gpuISA
TheGpuISA::GPUISA _gpuISA
Definition wavefront.hh:341

gem5::statistics::Group
Statistics container.
Definition group.hh:93

std::vector
STL vector class.
Definition stl.hh:37

compute_unit.hh

gpu_dyn_inst.hh

ADD_STAT
#define ADD_STAT(n,...)
Convenience macro to add a stat to a statistics group.
Definition group.hh:75

gem5::divCeil
static constexpr T divCeil(const T &a, const U &b)
Definition intmath.hh:110

gem5::bits
constexpr T bits(T val, unsigned first, unsigned last)
Extract the bitfield from position 'first' to 'last' (inclusive) from 'val' and right justify it.
Definition bitfield.hh:79

panic
#define panic(...)
This implements a cprintf based panic() function.
Definition logging.hh:220

fatal_if
#define fatal_if(cond,...)
Conditional fatal macro that checks the supplied condition and only causes a fatal error if the condi...
Definition logging.hh:268

fatal
#define fatal(...)
This implements a cprintf based fatal() function.
Definition logging.hh:232

panic_if
#define panic_if(cond,...)
Conditional panic macro that checks the supplied condition and only panics if the condition is true a...
Definition logging.hh:246

gem5::SimObject::SimObject
SimObject(const Params &p)
Definition sim_object.cc:58

gem5::statistics::Group::Group
Group()=delete

warn_if
#define warn_if(cond,...)
Conditional warning macro that checks the supplied condition and only prints a warning if the conditi...
Definition logging.hh:315

gem5::ArmISA::i
Bitfield< 7 > i
Definition misc_types.hh:67

gem5::ArmISA::set
Bitfield< 12, 11 > set
Definition misc_types.hh:827

gem5::ArmISA::d
Bitfield< 9 > d
Definition misc_types.hh:64

gem5::MipsISA::p
Bitfield< 0 > p
Definition pra_constants.hh:326

gem5::VegaISA::NumVecElemPerVecReg
const int NumVecElemPerVecReg(64)

gem5::statistics
Definition statistics.cc:57

gem5::statistics::none
const FlagsType none
Nothing extra to print.
Definition info.hh:53

gem5
Copyright (c) 2024 Arm Limited All rights reserved.
Definition binary32.hh:36

gem5::init_pc
static void init_pc(py::module_ &m_native)
Definition core.cc:168

gem5::GPUDynInstPtr
std::shared_ptr< GPUDynInst > GPUDynInstPtr
Definition misc.hh:49

gem5::curTick
Tick curTick()
The universal simulation clock.
Definition cur_tick.hh:46

gem5::Addr
uint64_t Addr
Address type This will probably be moved somewhere else in the near future.
Definition types.hh:147

gem5::VectorMask
std::bitset< std::numeric_limits< unsigned long long >::digits > VectorMask
Definition misc.hh:48

gem5::WorkgroupIdX
@ WorkgroupIdX
Definition kernel_code.hh:64

gem5::DispatchId
@ DispatchId
Definition kernel_code.hh:60

gem5::NumScalarInitFields
@ NumScalarInitFields
Definition kernel_code.hh:69

gem5::DispatchPtr
@ DispatchPtr
Definition kernel_code.hh:57

gem5::QueuePtr
@ QueuePtr
Definition kernel_code.hh:58

gem5::PrivSegWaveByteOffset
@ PrivSegWaveByteOffset
Definition kernel_code.hh:68

gem5::PrivateSegBuf
@ PrivateSegBuf
Definition kernel_code.hh:56

gem5::WorkgroupIdY
@ WorkgroupIdY
Definition kernel_code.hh:65

gem5::PrivateSegSize
@ PrivateSegSize
Definition kernel_code.hh:62

gem5::WorkgroupInfo
@ WorkgroupInfo
Definition kernel_code.hh:67

gem5::WorkgroupIdZ
@ WorkgroupIdZ
Definition kernel_code.hh:66

gem5::FlatScratchInit
@ FlatScratchInit
Definition kernel_code.hh:61

gem5::KernargPreload
@ KernargPreload
Definition kernel_code.hh:63

gem5::KernargSegPtr
@ KernargSegPtr
Definition kernel_code.hh:59

gem5::WorkitemIdX
@ WorkitemIdX
Definition kernel_code.hh:74

gem5::WorkitemIdZ
@ WorkitemIdZ
Definition kernel_code.hh:76

gem5::NumVectorInitFields
@ NumVectorInitFields
Definition kernel_code.hh:77

gem5::WorkitemIdY
@ WorkitemIdY
Definition kernel_code.hh:75

gem5::InstSeqNum
uint64_t InstSeqNum
Definition inst_seq.hh:40

register_file_cache.hh

scalar_register_file.hh

shader.hh

simple_pool_manager.hh

gem5::Wavefront::WavefrontStats::numTimesBlockedDueRAWDependencies
statistics::Scalar numTimesBlockedDueRAWDependencies
Definition wavefront.hh:415

gem5::Wavefront::WavefrontStats::schResourceStalls
statistics::Scalar schResourceStalls
Definition wavefront.hh:402

gem5::Wavefront::WavefrontStats::WavefrontStats
WavefrontStats(statistics::Group *parent)
Definition wavefront.cc:1732

gem5::Wavefront::WavefrontStats::vecRawDistance
statistics::Distribution vecRawDistance
Definition wavefront.hh:419

gem5::Wavefront::WavefrontStats::readsPerWrite
statistics::Distribution readsPerWrite
Definition wavefront.hh:423

gem5::Wavefront::WavefrontStats::schCycles
statistics::Scalar schCycles
Definition wavefront.hh:390

gem5::Wavefront::WavefrontStats::numTimesBlockedDueWAXDependencies
statistics::Scalar numTimesBlockedDueWAXDependencies
Definition wavefront.hh:412

gem5::Wavefront::WavefrontStats::schRfAccessStalls
statistics::Scalar schRfAccessStalls
Definition wavefront.hh:400

gem5::Wavefront::WavefrontStats::schOpdNrdyStalls
statistics::Scalar schOpdNrdyStalls
Definition wavefront.hh:404

gem5::Wavefront::WavefrontStats::numInstrExecuted
statistics::Scalar numInstrExecuted
Definition wavefront.hh:387

gem5::Wavefront::WavefrontStats::schStalls
statistics::Scalar schStalls
Definition wavefront.hh:393

gem5::Wavefront::WavefrontStats::schLdsArbStalls
statistics::Scalar schLdsArbStalls
Definition wavefront.hh:408

gem5::_amd_queue_t::scratch_workitem_byte_size
uint32_t scratch_workitem_byte_size
Definition hsa_queue.hh:84

gem5::_amd_queue_t::compute_tmpring_size_wavesize
uint32_t compute_tmpring_size_wavesize
Definition hsa_queue.hh:79

gem5::_amd_queue_t::scratch_backing_memory_location
uint64_t scratch_backing_memory_location
Definition hsa_queue.hh:82

gem5::_amd_queue_t::scratch_resource_descriptor
uint32_t scratch_resource_descriptor[4]
Definition hsa_queue.hh:81

vector_register_file.hh

wavefront.hh