release/current/pm4__packet__processor_8cc_source.html

/*

 * Copyright (c) 2021 Advanced Micro Devices, Inc.

 * All rights reserved.

 *

 * Redistribution and use in source and binary forms, with or without

 * modification, are permitted provided that the following conditions are met:

 *

 * 1. Redistributions of source code must retain the above copyright notice,

 * this list of conditions and the following disclaimer.

 *

 * 2. Redistributions in binary form must reproduce the above copyright notice,

 * this list of conditions and the following disclaimer in the documentation

 * and/or other materials provided with the distribution.

 *

 * 3. Neither the name of the copyright holder nor the names of its

 * contributors may be used to endorse or promote products derived from this

 * software without specific prior written permission.

 *

 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"

 * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE

 * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE

 * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE

 * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR

 * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF

 * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS

 * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN

 * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)

 * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE

 * POSSIBILITY OF SUCH DAMAGE.

 *

 */


#include "dev/amdgpu/pm4_packet_processor.hh"


#include "debug/PM4PacketProcessor.hh"

#include "dev/amdgpu/amdgpu_device.hh"

#include "dev/amdgpu/hwreg_defines.hh"

#include "dev/amdgpu/interrupt_handler.hh"

#include "dev/amdgpu/pm4_mmio.hh"

#include "dev/amdgpu/sdma_engine.hh"

#include "dev/hsa/hw_scheduler.hh"

#include "enums/GfxVersion.hh"

#include "gpu-compute/gpu_command_processor.hh"

#include "gpu-compute/shader.hh"

#include "mem/packet.hh"

#include "mem/packet_access.hh"


namespace gem5

{


PM4PacketProcessor::PM4PacketProcessor(const PM4PacketProcessorParams &p)

    : DmaVirtDevice(p), _ipId(p.ip_id), _mmioRange(p.mmio_range)

{

    memset(&kiq, 0, sizeof(QueueDesc));

    memset(&pq, 0, sizeof(QueueDesc));

}

PM4PacketProcessor::PM4PacketProcessor(const PM4PacketProcessorParams &p) {…}


TranslationGenPtr


PM4PacketProcessor::translate(Addr vaddr, Addr size)

{

    if (gpuDevice->getVM().inAGP(vaddr)) {

        // Use AGP translation gen

        return TranslationGenPtr(

            new AMDGPUVM::AGPTranslationGen(&gpuDevice->getVM(), vaddr, size));

    }


    // Assume GART otherwise as this is the only other translation aperture

    // available to the PM4 packet processor.

    return TranslationGenPtr(

        new AMDGPUVM::GARTTranslationGen(&gpuDevice->getVM(), vaddr, size));

}

PM4PacketProcessor::translate(Addr vaddr, Addr size) {…}


AddrRangeList


PM4PacketProcessor::getAddrRanges() const

{

    AddrRangeList ranges;

    return ranges;

}

PM4PacketProcessor::getAddrRanges() const {…}


void


PM4PacketProcessor::setGPUDevice(AMDGPUDevice *gpu_device)

{

    gpuDevice = gpu_device;

}

PM4PacketProcessor::setGPUDevice(AMDGPUDevice *gpu_device) {…}


Addr


PM4PacketProcessor::getGARTAddr(Addr addr) const

{

    if (!gpuDevice->getVM().inAGP(addr)) {

        Addr low_bits = bits(addr, 11, 0);

        addr = (((addr >> 12) << 3) << 12) | low_bits;

    }

    return addr;

}

PM4PacketProcessor::getGARTAddr(Addr addr) const {…}


PM4Queue *


PM4PacketProcessor::getQueue(Addr offset, bool gfx)

{

    auto result = queuesMap.find(offset);

    if (result == queuesMap.end()) {

        if (gfx)

            mapPq(offset);

        else

            mapKiq(offset);

        return queuesMap[offset];

    }

    return result->second;

}

PM4PacketProcessor::getQueue(Addr offset, bool gfx) {…}


void


PM4PacketProcessor::mapKiq(Addr offset)

{

    DPRINTF(PM4PacketProcessor, "Mapping KIQ\n");

    newQueue((QueueDesc *)&kiq, offset, &kiq_pkt);

}

PM4PacketProcessor::mapKiq(Addr offset) {…}


void


PM4PacketProcessor::mapPq(Addr offset)

{

    DPRINTF(PM4PacketProcessor, "Mapping PQ\n");

    newQueue((QueueDesc *)&pq, offset, &pq_pkt);

}

PM4PacketProcessor::mapPq(Addr offset) {…}


void


PM4PacketProcessor::newQueue(QueueDesc *mqd, Addr offset,

                             PM4MapQueues *pkt, int id)

{

    if (id == -1)

        id = queues.size();


    /* 256 bytes aligned address */

    mqd->base <<= 8;

    PM4Queue *q = new PM4Queue(id, mqd, offset, pkt);


    queuesMap[offset] = q;

    queues[id] = q;


    /* we are assumming only compute queues can be map from MQDs */

    QueueType qt;

    qt = mqd->aql ? QueueType::ComputeAQL

                  : QueueType::Compute;

    gpuDevice->setDoorbellType(offset, qt, getIpId());


    DPRINTF(PM4PacketProcessor, "New PM4 queue %d, base: %p offset: %p, me: "

            "%d, pipe %d queue: %d size: %d\n", id, q->base(), q->offset(),

            q->me(), q->pipe(), q->queue(), q->size());

}

PM4PacketProcessor::newQueue(QueueDesc *mqd, Addr offset, {…}


void


PM4PacketProcessor::process(PM4Queue *q, Addr wptrOffset)

{

    q->wptr(wptrOffset * sizeof(uint32_t));


    if (!q->processing()) {

        q->processing(true);

        decodeNext(q);

    }

}

PM4PacketProcessor::process(PM4Queue *q, Addr wptrOffset) {…}


void


PM4PacketProcessor::decodeNext(PM4Queue *q)

{

    DPRINTF(PM4PacketProcessor, "PM4 decode queue %d rptr %p, wptr %p\n",

            q->id(), q->rptr(), q->wptr());


    if (q->rptr() != q->wptr()) {

        /* Additional braces here are needed due to a clang compilation bug

           falsely throwing a "suggest braces around initialization of

           subject" error. More info on this bug is available here:

           https://stackoverflow.com/questions/31555584

         */

        PM4Header h{{{0, 0, 0, 0, 0, 0}}};

        auto cb = new DmaVirtCallback<PM4Header>(

            [ = ] (PM4Header header)

                { decodeHeader(q, header); }, h);

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(uint32_t), cb,

                    &cb->dmaBuffer);

    } else {

        // Reached the end of processable data in the queue. Switch out of IB

        // if this is an indirect buffer.

        assert(q->rptr() == q->wptr());

        q->processing(false);

        if (q->ib()) {

            q->ib(false);

            decodeNext(q);

        }


        // Write back rptr when the queue is empty. For static queues which

        // are not unmapped, this is how the driver knows there is enough

        // space in the queue to continue writing packets to the ring buffer.

        if (q->getMQD()->aqlRptr) {

            Addr addr = getGARTAddr(q->getMQD()->aqlRptr);

            uint32_t *data = new uint32_t;

            // gem5 stores rptr as a bytes offset while the driver expects

            // a dword offset. Convert the offset to dword count.

            *data = q->getRptr() >> 2;

            auto cb = new DmaVirtCallback<uint32_t>(

                [data](const uint32_t &) { delete data; });

            dmaWriteVirt(addr, sizeof(uint32_t), cb, data);

        }

    }

}

PM4PacketProcessor::decodeNext(PM4Queue *q) {…}


void


PM4PacketProcessor::decodeHeader(PM4Queue *q, PM4Header header)

{

    DPRINTF(PM4PacketProcessor, "PM4 packet %p\n", header.opcode);


    q->incRptr(sizeof(PM4Header));


    DmaVirtCallback<uint64_t> *cb = nullptr;

    void *dmaBuffer = nullptr;


    switch(header.opcode) {

      case IT_NOP: {

        DPRINTF(PM4PacketProcessor, "PM4 nop, count %p\n", header.count);

        DPRINTF(PM4PacketProcessor, "rptr %p wptr %p\n", q->rptr(), q->wptr());

        if (header.count != 0x3fff) {

            q->incRptr((header.count + 1) * sizeof(uint32_t));

        }

        decodeNext(q);

        } break;

      case IT_WRITE_DATA: {

        dmaBuffer = new PM4WriteData();

        DPRINTF(PM4PacketProcessor, "PM4 writeData header: %x, count: %d\n",

                header.ordinal, header.count);

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { writeData(q, (PM4WriteData *)dmaBuffer, header); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4WriteData), cb,

                    dmaBuffer);

        } break;


      case IT_MAP_QUEUES: {

        dmaBuffer = new PM4MapQueues();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { mapQueues(q, (PM4MapQueues *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4MapQueues), cb,

                    dmaBuffer);

        } break;


      case IT_RELEASE_MEM: {

        dmaBuffer = new PM4ReleaseMem();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { releaseMem(q, (PM4ReleaseMem *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4ReleaseMem), cb,

                    dmaBuffer);

        } break;


      case IT_INDIRECT_BUFFER: {

        dmaBuffer = new PM4IndirectBuf();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { indirectBuffer(q, (PM4IndirectBuf *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4IndirectBuf), cb,

                    dmaBuffer);

        } break;


      case IT_SWITCH_BUFFER: {

        dmaBuffer = new PM4SwitchBuf();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { switchBuffer(q, (PM4SwitchBuf *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4SwitchBuf), cb,

                    dmaBuffer);

        } break;


      case IT_SET_UCONFIG_REG: {

        dmaBuffer = new PM4SetUconfigReg();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { setUconfigReg(q, (PM4SetUconfigReg *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4SetUconfigReg), cb,

                    dmaBuffer);

        } break;


      case IT_WAIT_REG_MEM: {

        dmaBuffer = new PM4WaitRegMem();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { waitRegMem(q, (PM4WaitRegMem *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4WaitRegMem), cb,

                    dmaBuffer);

        } break;

      case IT_MAP_PROCESS: {

        if (gpuDevice->getGfxVersion() == GfxVersion::gfx90a ||

            gpuDevice->getGfxVersion() == GfxVersion::gfx942) {

            dmaBuffer = new PM4MapProcessV2();

            cb = new DmaVirtCallback<uint64_t>(

                [ = ] (const uint64_t &)

                    { mapProcessV2(q, (PM4MapProcessV2 *)dmaBuffer); });

            dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4MapProcessV2),

                        cb, dmaBuffer);

        } else {

            dmaBuffer = new PM4MapProcess();

            cb = new DmaVirtCallback<uint64_t>(

                [ = ] (const uint64_t &)

                    { mapProcessV1(q, (PM4MapProcess *)dmaBuffer); });

            dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4MapProcess), cb,

                        dmaBuffer);

        }

        } break;


      case IT_UNMAP_QUEUES: {

        dmaBuffer = new PM4UnmapQueues();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { unmapQueues(q, (PM4UnmapQueues *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4UnmapQueues), cb,

                    dmaBuffer);

        } break;


      case IT_RUN_LIST: {

        dmaBuffer = new PM4RunList();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { runList(q, (PM4RunList *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4RunList), cb,

                    dmaBuffer);

        } break;


      case IT_QUERY_STATUS: {

        dmaBuffer = new PM4QueryStatus();

        cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &)

                { queryStatus(q, (PM4QueryStatus *)dmaBuffer); });

        dmaReadVirt(getGARTAddr(q->rptr()), sizeof(PM4QueryStatus), cb,

                    dmaBuffer);

        } break;


      case IT_INVALIDATE_TLBS: {

        DPRINTF(PM4PacketProcessor, "Functionaly invalidating all TLBs\n");

        gpuDevice->getVM().invalidateTLBs();

        q->incRptr((header.count + 1) * sizeof(uint32_t));

        decodeNext(q);

        } break;


      default: {

        warn("PM4 packet opcode 0x%x not supported.\n", header.opcode);

        DPRINTF(PM4PacketProcessor, "PM4 packet opcode 0x%x not supported.\n",

                header.opcode);

        q->incRptr((header.count + 1) * sizeof(uint32_t));

        decodeNext(q);

        } break;

    }

}

PM4PacketProcessor::decodeHeader(PM4Queue *q, PM4Header header) {…}


void


PM4PacketProcessor::writeData(PM4Queue *q, PM4WriteData *pkt, PM4Header header)

{

    q->incRptr(sizeof(PM4WriteData));


    DPRINTF(PM4PacketProcessor, "PM4 write addr: %p data: %p destSel: %d "

            "addrIncr: %d resume: %d writeConfirm: %d cachePolicy: %d\n",

            pkt->destAddr, pkt->data, pkt->destSel, pkt->addrIncr,

            pkt->resume, pkt->writeConfirm, pkt->cachePolicy);


    if (pkt->destSel == 5) {

        // Memory address destination

        Addr addr = getGARTAddr(pkt->destAddr);


        // This is a variable length packet. The size of the packet is in

        // the header.count field and is set as Number Of Dwords - 1. This

        // packet is 4 bytes minuimum meaning the count is minimum 3. To

        // get the number of dwords of data subtract two from the count.

        unsigned size = (header.count - 2) * sizeof(uint32_t);


        DPRINTF(PM4PacketProcessor, "Writing %d bytes to %p\n", size, addr);

        auto cb = new DmaVirtCallback<uint32_t>(

            [ = ](const uint32_t &) { writeDataDone(q, pkt, addr); });

        dmaWriteVirt(addr, size, cb, &pkt->data);


        if (!pkt->writeConfirm) {

            decodeNext(q);

        }

    } else if (pkt->destSel == 0) {

        // Register dword address destination

        Addr byte_addr = pkt->destAddr << 2;


        gpuDevice->setRegVal(byte_addr, pkt->data);


        // setRegVal is instant on the simulated device so we ignore write

        // confirm.

        delete pkt;

        decodeNext(q);

    } else {

        fatal("Unknown PM4 writeData destination %d\n", pkt->destSel);

    }

}

PM4PacketProcessor::writeData(PM4Queue *q, PM4WriteData *pkt, PM4Header header) {…}


void


PM4PacketProcessor::writeDataDone(PM4Queue *q, PM4WriteData *pkt, Addr addr)

{

    DPRINTF(PM4PacketProcessor, "PM4 write completed to %p, %p.\n", addr,

            pkt->data);


    if (pkt->writeConfirm) {

        decodeNext(q);

    }


    delete pkt;

}

PM4PacketProcessor::writeDataDone(PM4Queue *q, PM4WriteData *pkt, Addr addr) {…}


void


PM4PacketProcessor::mapQueues(PM4Queue *q, PM4MapQueues *pkt)

{

    q->incRptr(sizeof(PM4MapQueues));


    DPRINTF(PM4PacketProcessor, "MAPQueues queueSel: %d, vmid: %d, me: %d, "

            "pipe: %d, queueSlot: %d, queueType: %d, allocFormat: %d, "

            "engineSel: %d, numQueues: %d, checkDisable: %d, doorbellOffset:"

            " %d, mqdAddr: %lx, wptrAddr: %lx\n", pkt->queueSel, pkt->vmid,

            pkt->me, pkt->pipe, pkt->queueSlot, pkt->queueType,

            pkt->allocFormat, pkt->engineSel, pkt->numQueues,

            pkt->checkDisable, pkt->doorbellOffset, pkt->mqdAddr,

            pkt->wptrAddr);


    // Partially reading the mqd with an offset of 96 dwords

    if (pkt->engineSel == 0 || pkt->engineSel == 1 || pkt->engineSel == 4) {

        Addr addr = getGARTAddr(pkt->mqdAddr + 96 * sizeof(uint32_t));


        DPRINTF(PM4PacketProcessor,

                "Mapping mqd from %p %p (vmid %d - last vmid %d).\n",

                addr, pkt->mqdAddr, pkt->vmid, gpuDevice->lastVMID());


        // The doorbellOffset is a dword address. We shift by two / multiply

        // by four to get the byte address to match doorbell addresses in

        // the GPU device.

        gpuDevice->mapDoorbellToVMID(pkt->doorbellOffset << 2,

                                     gpuDevice->lastVMID());


        QueueDesc *mqd = new QueueDesc();

        memset(mqd, 0, sizeof(QueueDesc));

        auto cb = new DmaVirtCallback<uint32_t>(

            [ = ] (const uint32_t &) {

                processMQD(pkt, q, addr, mqd, gpuDevice->lastVMID()); });

        dmaReadVirt(addr, sizeof(QueueDesc), cb, mqd);

    } else if (pkt->engineSel == 2 || pkt->engineSel == 3) {

        SDMAQueueDesc *sdmaMQD = new SDMAQueueDesc();

        memset(sdmaMQD, 0, sizeof(SDMAQueueDesc));


        // For SDMA we read the full MQD, so there is no offset calculation.

        Addr addr = getGARTAddr(pkt->mqdAddr);


        auto cb = new DmaVirtCallback<uint32_t>(

            [ = ] (const uint32_t &) {

                processSDMAMQD(pkt, q, addr, sdmaMQD,

                               gpuDevice->lastVMID()); });

        dmaReadVirt(addr, sizeof(SDMAQueueDesc), cb, sdmaMQD);

    } else {

        panic("Unknown engine for MQD: %d\n", pkt->engineSel);

    }

}

PM4PacketProcessor::mapQueues(PM4Queue *q, PM4MapQueues *pkt) {…}


void


PM4PacketProcessor::processMQD(PM4MapQueues *pkt, PM4Queue *q, Addr addr,

    QueueDesc *mqd, uint16_t vmid)

{

    DPRINTF(PM4PacketProcessor, "MQDbase: %lx, active: %d, vmid: %d, base: "

            "%lx, rptr: %x aqlPtr: %lx\n", mqd->mqdBase, mqd->hqd_active,

            mqd->hqd_vmid, mqd->base, mqd->rptr, mqd->aqlRptr);


    Addr offset = mqd->doorbell & 0x1ffffffc;

    newQueue(mqd, offset, pkt);

    PM4Queue *new_q = queuesMap[offset];

    gpuDevice->insertQId(vmid, new_q->id());


    if (mqd->aql) {

        // The queue size is encoded in the cp_hqd_pq_control field in the

        // kernel driver in the 6 lowest bits as log2(queue_size / 4) - 1

        // number of dwords.

        //

        //      https://github.com/RadeonOpenCompute/ROCK-Kernel-Driver/blob/

        //          roc-4.3.x/drivers/gpu/drm/amd/amdgpu/gfx_v9_0.c#L3561

        //

        // Queue size is then 2^(cp_hqd_pq_control[5:0] + 1) dword. Multiply

        // by 4 to get the number of bytes as HSAPP expects.

        int mqd_size = (1 << ((mqd->hqd_pq_control & 0x3f) + 1)) * 4;

        auto &hsa_pp = gpuDevice->CP()->hsaPacketProc();

        hsa_pp.setDeviceQueueDesc(mqd->aqlRptr, mqd->base, new_q->id(),

                                  mqd_size, 8, GfxVersion::gfx900, offset,

                                  mqd->mqdReadIndex);

    }


    DPRINTF(PM4PacketProcessor, "PM4 mqd read completed, base %p, mqd %p, "

            "hqdAQL %d.\n", mqd->base, mqd->mqdBase, mqd->aql);


    gpuDevice->processPendingDoorbells(offset);


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::processMQD(PM4MapQueues *pkt, PM4Queue *q, Addr addr, {…}


void


PM4PacketProcessor::processSDMAMQD(PM4MapQueues *pkt, PM4Queue *q, Addr addr,

    SDMAQueueDesc *mqd, uint16_t vmid)

{

    uint32_t rlc_size = 4UL << bits(mqd->sdmax_rlcx_rb_cntl, 6, 1);

    Addr rptr_wb_addr = mqd->sdmax_rlcx_rb_rptr_addr_hi;

    rptr_wb_addr <<= 32;

    rptr_wb_addr |= mqd->sdmax_rlcx_rb_rptr_addr_lo;


    DPRINTF(PM4PacketProcessor, "SDMAMQD: rb base: %#lx rptr: %#x/%#x wptr: "

            "%#x/%#x ib: %#x/%#x size: %d ctrl: %#x rptr wb addr: %#lx\n",

            mqd->rb_base, mqd->sdmax_rlcx_rb_rptr, mqd->sdmax_rlcx_rb_rptr_hi,

            mqd->sdmax_rlcx_rb_wptr, mqd->sdmax_rlcx_rb_wptr_hi,

            mqd->sdmax_rlcx_ib_base_lo, mqd->sdmax_rlcx_ib_base_hi,

            rlc_size, mqd->sdmax_rlcx_rb_cntl, rptr_wb_addr);


    // Engine 2 points to SDMA0 while engine 3 points to SDMA1

    assert(pkt->engineSel == 2 || pkt->engineSel == 3);

    SDMAEngine *sdma_eng = gpuDevice->getSDMAById(pkt->engineSel - 2);


    // Queue type 1 and 2 are "static" queues

    bool is_static = (pkt->queueType == 2) || (pkt->queueType == 3);


    // Register RLC queue with SDMA

    sdma_eng->registerRLCQueue(pkt->doorbellOffset << 2, addr, mqd, is_static);


    // Register doorbell with GPU device

    gpuDevice->setSDMAEngine(pkt->doorbellOffset << 2, sdma_eng);

    gpuDevice->setDoorbellType(pkt->doorbellOffset << 2, RLC, getIpId());


    gpuDevice->processPendingDoorbells(pkt->doorbellOffset << 2);


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::processSDMAMQD(PM4MapQueues *pkt, PM4Queue *q, Addr addr, {…}


void


PM4PacketProcessor::releaseMem(PM4Queue *q, PM4ReleaseMem *pkt)

{

    q->incRptr(sizeof(PM4ReleaseMem));


    Addr addr = getGARTAddr(pkt->addr);

    DPRINTF(PM4PacketProcessor, "PM4 release_mem event %d eventIdx %d intSel "

            "%d destSel %d dataSel %d, address %p data %p, intCtx %p\n",

            pkt->event, pkt->eventIdx, pkt->intSelect, pkt->destSelect,

            pkt->dataSelect, addr, pkt->dataLo, pkt->intCtxId);


    DPRINTF(PM4PacketProcessor,

            "PM4 release_mem destSel 0 bypasses caches to MC.\n");


    if (pkt->dataSelect == 1) {

        auto cb = new DmaVirtCallback<uint32_t>(

            [ = ](const uint32_t &) { releaseMemDone(q, pkt, addr); },

            pkt->dataLo);

        dmaWriteVirt(addr, sizeof(uint32_t), cb, &cb->dmaBuffer);

    } else {

        panic("Unimplemented PM4ReleaseMem.dataSelect");

    }

}

PM4PacketProcessor::releaseMem(PM4Queue *q, PM4ReleaseMem *pkt) {…}


void


PM4PacketProcessor::releaseMemDone(PM4Queue *q, PM4ReleaseMem *pkt, Addr addr)

{

    DPRINTF(PM4PacketProcessor, "PM4 release_mem wrote %d to %p\n",

            pkt->dataLo, addr);

    if (pkt->intSelect == 2) {

        DPRINTF(PM4PacketProcessor, "PM4 interrupt, id: %d ctx: %d, me: %d, "

                "pipe: %d, queueSlot:%d\n", q->id(), pkt->intCtxId, q->me(),

                q->pipe(), q->queue());


        uint8_t ringId = 0;

        if (q->id() != 0) {

            ringId = (q->queue() << 4) | (q->me() << 2) | q->pipe();

        }

        gpuDevice->getIH()->prepareInterruptCookie(pkt->intCtxId, ringId,

                                            SOC15_IH_CLIENTID_GRBM_CP, CP_EOP,

                                            0);

        gpuDevice->getIH()->submitInterruptCookie();

    }


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::releaseMemDone(PM4Queue *q, PM4ReleaseMem *pkt, Addr addr) {…}


void


PM4PacketProcessor::updateReadIndex(Addr offset, uint64_t rd_idx)

{

    assert(queuesMap.count(offset));

    queuesMap[offset]->getMQD()->mqdReadIndex = rd_idx;

}

PM4PacketProcessor::updateReadIndex(Addr offset, uint64_t rd_idx) {…}


void


PM4PacketProcessor::unmapAllQueues(bool unmap_static)

{

    auto &hsa_pp = gpuDevice->CP()->hsaPacketProc();

    for (auto iter : gpuDevice->getUsedVMIDs()) {

        for (auto id : iter.second) {

            assert(queues.count(id));


            // Do not unmap KMD queues.

            if (queues[id]->privileged()) {

                continue;

            }


            // Do not unmap static queues if requested.

            if (!unmap_static && queues[id]->isStatic()) {

                continue;

            }


            QueueDesc *mqd = queues[id]->getMQD();

            DPRINTF(PM4PacketProcessor, "Unmapping queue %d with read "

                    "index %ld\n", id, mqd->mqdReadIndex);


            // Partially writing the mqd with an offset of 96 dwords as gem5

            // does not use the full MQD and begins 96 dwords from the start

            // of the full MQD structure. See src/dev/amdgpu/pm4_queues.hh.

            Addr addr = getGARTAddr(queues[id]->mqdBase() +

                                    96 * sizeof(uint32_t));

            Addr mqd_base = queues[id]->mqdBase();

            auto cb = new DmaVirtCallback<uint32_t>(

                [ = ] (const uint32_t &) {

                    doneMQDWrite(mqd_base, addr);

                });

            mqd->base >>= 8;

            dmaWriteVirt(addr, sizeof(QueueDesc), cb, mqd);

            queues.erase(id);

            hsa_pp.unsetDeviceQueueDesc(id, 8);

            delete mqd;

        }

    }

}

PM4PacketProcessor::unmapAllQueues(bool unmap_static) {…}


void


PM4PacketProcessor::unmapQueues(PM4Queue *q, PM4UnmapQueues *pkt)

{

    q->incRptr(sizeof(PM4UnmapQueues));


    DPRINTF(PM4PacketProcessor, "PM4 unmap_queues queueSel: %d numQueues: %d "

            "pasid: %p doorbellOffset0 %p \n",

            pkt->queueSel, pkt->numQueues, pkt->pasid, pkt->doorbellOffset0);


    switch (pkt->queueSel) {

      case 0:

        switch (pkt->numQueues) {

          case 1:

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset0));

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset1));

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset2));

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset3));

            break;

          case 2:

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset1));

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset2));

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset3));

            break;

          case 3:

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset2));

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset3));

            break;

          case 4:

            gpuDevice->deallocateVmid(

                    gpuDevice->getVMID(pkt->doorbellOffset3));

            break;

          default:

            panic("Unrecognized number of queues %d\n", pkt->numQueues);

        }

        break;

      case 1:

        gpuDevice->deallocatePasid(pkt->pasid);

        break;

      case 2:

        unmapAllQueues(true);

        gpuDevice->deallocateAllQueues(true);

        break;

      case 3:

        unmapAllQueues(false);

        gpuDevice->deallocateAllQueues(false);

      break;

      default:

        panic("Unrecognized options\n");

        break;

    }


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::unmapQueues(PM4Queue *q, PM4UnmapQueues *pkt) {…}


void


PM4PacketProcessor::doneMQDWrite(Addr mqdAddr, Addr addr) {

    DPRINTF(PM4PacketProcessor, "PM4 unmap_queues MQD %p wrote to addr %p\n",

            mqdAddr, addr);

}

PM4PacketProcessor::doneMQDWrite(Addr mqdAddr, Addr addr) {…}


void


PM4PacketProcessor::mapProcess(uint32_t pasid, uint64_t ptBase,

                               uint32_t shMemBases)

{

    uint16_t vmid = gpuDevice->allocateVMID(pasid);


    gpuDevice->getVM().setPageTableBase(vmid, ptBase);

    gpuDevice->CP()->shader()->setHwReg(HW_REG_SH_MEM_BASES, shMemBases);


    // Setup the apertures that gem5 uses. These values are bits [63:48].

    Addr lds_base = (Addr)bits(shMemBases, 31, 16) << 48;

    Addr scratch_base = (Addr)bits(shMemBases, 15, 0) << 48;


    // There does not seem to be any register for the limit, but the driver

    // assumes scratch and LDS have a 4GB aperture, so use that.

    gpuDevice->CP()->shader()->setLdsApe(lds_base, lds_base + 0xFFFFFFFF);

    gpuDevice->CP()->shader()->setScratchApe(scratch_base,

                                             scratch_base + 0xFFFFFFFF);

}

PM4PacketProcessor::mapProcess(uint32_t pasid, uint64_t ptBase, {…}


void


PM4PacketProcessor::mapProcessV1(PM4Queue *q, PM4MapProcess *pkt)

{

    q->incRptr(sizeof(PM4MapProcess));


    DPRINTF(PM4PacketProcessor, "PM4 map_process pasid: %p quantum: "

            "%d pt: %p signal: %p\n", pkt->pasid, pkt->processQuantum,

            pkt->ptBase, pkt->completionSignal);


    mapProcess(pkt->pasid, pkt->ptBase, pkt->shMemBases);


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::mapProcessV1(PM4Queue *q, PM4MapProcess *pkt) {…}


void


PM4PacketProcessor::mapProcessV2(PM4Queue *q, PM4MapProcessV2 *pkt)

{

    q->incRptr(sizeof(PM4MapProcessV2));


    DPRINTF(PM4PacketProcessor, "PM4 map_process pasid: %p quantum: "

            "%d pt: %p signal: %p\n", pkt->pasid, pkt->processQuantum,

            pkt->ptBase, pkt->completionSignal);


    mapProcess(pkt->pasid, pkt->ptBase, pkt->shMemBases);


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::mapProcessV2(PM4Queue *q, PM4MapProcessV2 *pkt) {…}


void


PM4PacketProcessor::runList(PM4Queue *q, PM4RunList *pkt)

{

    DPRINTF(PM4PacketProcessor, "PM4 run_list base: %p size: %d\n",

            pkt->ibBase, pkt->ibSize);


    q->incRptr(sizeof(PM4RunList));


    q->ib(true);

    q->ibBase(pkt->ibBase);

    q->rptr(0);

    q->wptr(pkt->ibSize * sizeof(uint32_t));


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::runList(PM4Queue *q, PM4RunList *pkt) {…}


void


PM4PacketProcessor::indirectBuffer(PM4Queue *q, PM4IndirectBuf *pkt)

{

    DPRINTF(PM4PacketProcessor, "PM4 indirect buffer, base: %p.\n",

            pkt->ibBase);


    q->incRptr(sizeof(PM4IndirectBuf));


    q->ib(true);

    q->ibBase(pkt->ibBase);

    q->wptr(pkt->ibSize * sizeof(uint32_t));


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::indirectBuffer(PM4Queue *q, PM4IndirectBuf *pkt) {…}


void


PM4PacketProcessor::switchBuffer(PM4Queue *q, PM4SwitchBuf *pkt)

{

    q->incRptr(sizeof(PM4SwitchBuf));


    q->ib(true);

    DPRINTF(PM4PacketProcessor, "PM4 switching buffer, rptr: %p.\n",

            q->wptr());


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::switchBuffer(PM4Queue *q, PM4SwitchBuf *pkt) {…}


void


PM4PacketProcessor::setUconfigReg(PM4Queue *q, PM4SetUconfigReg *pkt)

{

    q->incRptr(sizeof(PM4SetUconfigReg));


    DPRINTF(PM4PacketProcessor, "SetUconfig offset %x data %x\n",

            pkt->offset, pkt->data);


    // SET_UCONFIG_REG_START and pkt->offset are dword addresses

    uint32_t reg_addr = (PACKET3_SET_UCONFIG_REG_START + pkt->offset) * 4;


    // Additional CPs respond to addresses 0x40000 apart.

    reg_addr += 0x40000 * getIpId();

    gpuDevice->setRegVal(reg_addr, pkt->data);


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::setUconfigReg(PM4Queue *q, PM4SetUconfigReg *pkt) {…}


void


PM4PacketProcessor::waitRegMem(PM4Queue *q, PM4WaitRegMem *pkt)

{

    q->incRptr(sizeof(PM4WaitRegMem));


    DPRINTF(PM4PacketProcessor, "PM4 WAIT_REG_MEM\nfunc: %d memSpace: %d op: "

            "%d\n", pkt->function, pkt->memSpace, pkt->operation);

    DPRINTF(PM4PacketProcessor, "    AddrLo/Reg1: %lx\n", pkt->memAddrLo);

    DPRINTF(PM4PacketProcessor, "    AddrHi/Reg2: %lx\n", pkt->memAddrHi);

    DPRINTF(PM4PacketProcessor, "    Reference: %lx\n", pkt->reference);

    DPRINTF(PM4PacketProcessor, "    Mask: %lx\n", pkt->mask);

    DPRINTF(PM4PacketProcessor, "    Poll Interval: %lx\n", pkt->pollInterval);


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::waitRegMem(PM4Queue *q, PM4WaitRegMem *pkt) {…}


void


PM4PacketProcessor::queryStatus(PM4Queue *q, PM4QueryStatus *pkt)

{

    q->incRptr(sizeof(PM4QueryStatus));


    DPRINTF(PM4PacketProcessor, "PM4 query status contextId: %d, interruptSel:"

            " %d command: %d, pasid: %d, doorbellOffset: %d, engineSel: %d "

            "addr: %lx, data: %lx\n", pkt->contextId, pkt->interruptSel,

            pkt->command, pkt->pasid, pkt->doorbellOffset, pkt->engineSel,

            pkt->addr, pkt->data);


    if (pkt->interruptSel == 0 && pkt->command == 2) {

        // Write data value to fence address

        Addr addr = getGARTAddr(pkt->addr);

        DPRINTF(PM4PacketProcessor, "Using GART addr %lx\n", addr);

        auto cb = new DmaVirtCallback<uint64_t>(

            [ = ] (const uint64_t &) { queryStatusDone(q, pkt); }, pkt->data);

        dmaWriteVirt(addr, sizeof(uint64_t), cb, &cb->dmaBuffer);

    } else {

        // No other combinations used in amdkfd v9

        panic("query_status with interruptSel %d command %d not supported",

              pkt->interruptSel, pkt->command);

    }

}

PM4PacketProcessor::queryStatus(PM4Queue *q, PM4QueryStatus *pkt) {…}


void


PM4PacketProcessor::queryStatusDone(PM4Queue *q, PM4QueryStatus *pkt)

{

    DPRINTF(PM4PacketProcessor, "PM4 query status complete\n");


    delete pkt;

    decodeNext(q);

}

PM4PacketProcessor::queryStatusDone(PM4Queue *q, PM4QueryStatus *pkt) {…}


void


PM4PacketProcessor::writeMMIO(PacketPtr pkt, Addr mmio_offset)

{

    switch (mmio_offset) {

      /* Hardware queue descriptor (HQD) registers */

      case mmCP_HQD_VMID:

        setHqdVmid(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_ACTIVE:

        setHqdActive(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_BASE:

        setHqdPqBase(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_BASE_HI:

        setHqdPqBaseHi(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_DOORBELL_CONTROL:

        setHqdPqDoorbellCtrl(pkt->getLE<uint32_t>());

        gpuDevice->setDoorbellType(getKiqDoorbellOffset(), Compute, getIpId());

        break;

      case mmCP_HQD_PQ_RPTR:

        setHqdPqPtr(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_WPTR_LO:

        setHqdPqWptrLo(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_WPTR_HI:

        setHqdPqWptrHi(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_RPTR_REPORT_ADDR:

        setHqdPqRptrReportAddr(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_RPTR_REPORT_ADDR_HI:

        setHqdPqRptrReportAddrHi(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_WPTR_POLL_ADDR:

        setHqdPqWptrPollAddr(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_WPTR_POLL_ADDR_HI:

        setHqdPqWptrPollAddrHi(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_PQ_CONTROL:

        setHqdPqControl(pkt->getLE<uint32_t>());

        break;

      case mmCP_HQD_IB_CONTROL:

        setHqdIbCtrl(pkt->getLE<uint32_t>());

        break;

      /* Ring buffer registers */

      case mmCP_RB_VMID:

        setRbVmid(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB0_CNTL:

        setRbCntl(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB0_WPTR:

        setRbWptrLo(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB0_WPTR_HI:

        setRbWptrHi(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB0_RPTR_ADDR:

        setRbRptrAddrLo(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB0_RPTR_ADDR_HI:

        setRbRptrAddrHi(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB_WPTR_POLL_ADDR_LO:

        setRbWptrPollAddrLo(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB_WPTR_POLL_ADDR_HI:

        setRbWptrPollAddrHi(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB0_BASE:

        setRbBaseLo(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB0_BASE_HI:

        setRbBaseHi(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB_DOORBELL_CONTROL:

        setRbDoorbellCntrl(pkt->getLE<uint32_t>());

        gpuDevice->setDoorbellType(getPqDoorbellOffset(), Gfx, getIpId());

        break;

      case mmCP_RB_DOORBELL_RANGE_LOWER:

        setRbDoorbellRangeLo(pkt->getLE<uint32_t>());

        break;

      case mmCP_RB_DOORBELL_RANGE_UPPER:

        setRbDoorbellRangeHi(pkt->getLE<uint32_t>());

        break;

      default:

        break;

    }

}

PM4PacketProcessor::writeMMIO(PacketPtr pkt, Addr mmio_offset) {…}


void


PM4PacketProcessor::setHqdVmid(uint32_t data)

{

    kiq.hqd_vmid = data;

}

PM4PacketProcessor::setHqdVmid(uint32_t data) {…}


void


PM4PacketProcessor::setHqdActive(uint32_t data)

{

    kiq.hqd_active = data;

}

PM4PacketProcessor::setHqdActive(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqBase(uint32_t data)

{

    kiq.hqd_pq_base_lo = data;

}

PM4PacketProcessor::setHqdPqBase(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqBaseHi(uint32_t data)

{

    kiq.hqd_pq_base_hi = data;

}

PM4PacketProcessor::setHqdPqBaseHi(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqDoorbellCtrl(uint32_t data)

{

    kiq.hqd_pq_doorbell_control = data;

}

PM4PacketProcessor::setHqdPqDoorbellCtrl(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqPtr(uint32_t data)

{

    kiq.rptr = data;

}

PM4PacketProcessor::setHqdPqPtr(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqWptrLo(uint32_t data)

{

    /* Write pointer communicated through doorbell value. */

}

PM4PacketProcessor::setHqdPqWptrLo(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqWptrHi(uint32_t data)

{

    /* Write pointer communicated through doorbell value. */

}

PM4PacketProcessor::setHqdPqWptrHi(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqRptrReportAddr(uint32_t data)

{

    kiq.hqd_pq_rptr_report_addr_lo = data;

}

PM4PacketProcessor::setHqdPqRptrReportAddr(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqRptrReportAddrHi(uint32_t data)

{

    kiq.hqd_pq_rptr_report_addr_hi = data;

}

PM4PacketProcessor::setHqdPqRptrReportAddrHi(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqWptrPollAddr(uint32_t data)

{

    kiq.hqd_pq_wptr_poll_addr_lo = data;

}

PM4PacketProcessor::setHqdPqWptrPollAddr(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqWptrPollAddrHi(uint32_t data)

{

    kiq.hqd_pq_wptr_poll_addr_hi = data;

}

PM4PacketProcessor::setHqdPqWptrPollAddrHi(uint32_t data) {…}


void


PM4PacketProcessor::setHqdPqControl(uint32_t data)

{

    kiq.hqd_pq_control = data;

}

PM4PacketProcessor::setHqdPqControl(uint32_t data) {…}


void


PM4PacketProcessor::setHqdIbCtrl(uint32_t data)

{

    kiq.hqd_ib_control = data;

}

PM4PacketProcessor::setHqdIbCtrl(uint32_t data) {…}


void


PM4PacketProcessor::setRbVmid(uint32_t data)

{

    pq.hqd_vmid = data;

}

PM4PacketProcessor::setRbVmid(uint32_t data) {…}


void


PM4PacketProcessor::setRbCntl(uint32_t data)

{

    pq.hqd_pq_control = data;

}

PM4PacketProcessor::setRbCntl(uint32_t data) {…}


void


PM4PacketProcessor::setRbWptrLo(uint32_t data)

{

    pq.queueWptrLo = data;

}

PM4PacketProcessor::setRbWptrLo(uint32_t data) {…}


void


PM4PacketProcessor::setRbWptrHi(uint32_t data)

{

    pq.queueWptrHi = data;

}

PM4PacketProcessor::setRbWptrHi(uint32_t data) {…}


void


PM4PacketProcessor::setRbRptrAddrLo(uint32_t data)

{

    pq.queueRptrAddrLo = data;

}

PM4PacketProcessor::setRbRptrAddrLo(uint32_t data) {…}


void


PM4PacketProcessor::setRbRptrAddrHi(uint32_t data)

{

    pq.queueRptrAddrHi = data;

}

PM4PacketProcessor::setRbRptrAddrHi(uint32_t data) {…}


void


PM4PacketProcessor::setRbWptrPollAddrLo(uint32_t data)

{

    pq.hqd_pq_wptr_poll_addr_lo = data;

}

PM4PacketProcessor::setRbWptrPollAddrLo(uint32_t data) {…}


void


PM4PacketProcessor::setRbWptrPollAddrHi(uint32_t data)

{

    pq.hqd_pq_wptr_poll_addr_hi = data;

}

PM4PacketProcessor::setRbWptrPollAddrHi(uint32_t data) {…}


void


PM4PacketProcessor::setRbBaseLo(uint32_t data)

{

    pq.hqd_pq_base_lo = data;

}

PM4PacketProcessor::setRbBaseLo(uint32_t data) {…}


void


PM4PacketProcessor::setRbBaseHi(uint32_t data)

{

    pq.hqd_pq_base_hi = data;

}

PM4PacketProcessor::setRbBaseHi(uint32_t data) {…}


void


PM4PacketProcessor::setRbDoorbellCntrl(uint32_t data)

{

    pq.hqd_pq_doorbell_control = data;

    pq.doorbellOffset = data & 0x1ffffffc;

}

PM4PacketProcessor::setRbDoorbellCntrl(uint32_t data) {…}


void


PM4PacketProcessor::setRbDoorbellRangeLo(uint32_t data)

{

    pq.doorbellRangeLo = data;

}

PM4PacketProcessor::setRbDoorbellRangeLo(uint32_t data) {…}


void


PM4PacketProcessor::setRbDoorbellRangeHi(uint32_t data)

{

    pq.doorbellRangeHi = data;

}

PM4PacketProcessor::setRbDoorbellRangeHi(uint32_t data) {…}


void


PM4PacketProcessor::serialize(CheckpointOut &cp) const

{

    // Serialize the DmaVirtDevice base class

    DmaVirtDevice::serialize(cp);


    int num_queues = queues.size();

    Addr id[num_queues];

    Addr mqd_base[num_queues];

    uint64_t mqd_read_index[num_queues];

    Addr base[num_queues];

    Addr rptr[num_queues];

    Addr wptr[num_queues];

    Addr ib_base[num_queues];

    Addr ib_rptr[num_queues];

    Addr ib_wptr[num_queues];

    Addr offset[num_queues];

    bool processing[num_queues];

    bool ib[num_queues];

    uint32_t me[num_queues];

    uint32_t pipe[num_queues];

    uint32_t queue[num_queues];

    bool privileged[num_queues];

    uint32_t queue_type[num_queues];

    uint32_t hqd_active[num_queues];

    uint32_t hqd_vmid[num_queues];

    Addr aql_rptr[num_queues];

    uint32_t aql[num_queues];

    uint32_t doorbell[num_queues];

    uint32_t hqd_pq_control[num_queues];


    int i = 0;

    for (auto iter : queues) {

        PM4Queue *q = iter.second;

        id[i] = q->id();

        mqd_base[i] = q->mqdBase();

        mqd_read_index[i] = q->getMQD()->mqdReadIndex;

        bool cur_state = q->ib();

        q->ib(false);

        base[i] = q->base();

        rptr[i] = q->getRptr();

        wptr[i] = q->getWptr();

        q->ib(true);

        ib_base[i] = q->ibBase();

        ib_rptr[i] = q->getRptr();

        ib_wptr[i] = q->getWptr();

        q->ib(cur_state);

        offset[i] = q->offset();

        processing[i] = q->processing();

        ib[i] = q->ib();

        me[i] = q->me();

        pipe[i] = q->pipe();

        queue[i] = q->queue();

        privileged[i] = q->privileged();

        queue_type[i] = q->queueType();

        hqd_active[i] = q->getMQD()->hqd_active;

        hqd_vmid[i] = q->getMQD()->hqd_vmid;

        aql_rptr[i] = q->getMQD()->aqlRptr;

        aql[i] = q->getMQD()->aql;

        doorbell[i] = q->getMQD()->doorbell;

        hqd_pq_control[i] = q->getMQD()->hqd_pq_control;

        i++;

    }


    SERIALIZE_SCALAR(num_queues);

    SERIALIZE_ARRAY(id, num_queues);

    SERIALIZE_ARRAY(mqd_base, num_queues);

    SERIALIZE_ARRAY(mqd_read_index, num_queues);

    SERIALIZE_ARRAY(base, num_queues);

    SERIALIZE_ARRAY(rptr, num_queues);

    SERIALIZE_ARRAY(wptr, num_queues);

    SERIALIZE_ARRAY(ib_base, num_queues);

    SERIALIZE_ARRAY(ib_rptr, num_queues);

    SERIALIZE_ARRAY(ib_wptr, num_queues);

    SERIALIZE_ARRAY(offset, num_queues);

    SERIALIZE_ARRAY(processing, num_queues);

    SERIALIZE_ARRAY(ib, num_queues);

    SERIALIZE_ARRAY(me, num_queues);

    SERIALIZE_ARRAY(pipe, num_queues);

    SERIALIZE_ARRAY(queue, num_queues);

    SERIALIZE_ARRAY(privileged, num_queues);

    SERIALIZE_ARRAY(queue_type, num_queues);

    SERIALIZE_ARRAY(hqd_active, num_queues);

    SERIALIZE_ARRAY(hqd_vmid, num_queues);

    SERIALIZE_ARRAY(aql_rptr, num_queues);

    SERIALIZE_ARRAY(aql, num_queues);

    SERIALIZE_ARRAY(doorbell, num_queues);

    SERIALIZE_ARRAY(hqd_pq_control, num_queues);

}

PM4PacketProcessor::serialize(CheckpointOut &cp) const {…}


void


PM4PacketProcessor::unserialize(CheckpointIn &cp)

{

    // Serialize the DmaVirtDevice base class

    DmaVirtDevice::unserialize(cp);


    int num_queues = 0;

    UNSERIALIZE_SCALAR(num_queues);


    Addr id[num_queues];

    Addr mqd_base[num_queues];

    uint64_t mqd_read_index[num_queues];

    Addr base[num_queues];

    Addr rptr[num_queues];

    Addr wptr[num_queues];

    Addr ib_base[num_queues];

    Addr ib_rptr[num_queues];

    Addr ib_wptr[num_queues];

    Addr offset[num_queues];

    bool processing[num_queues];

    bool ib[num_queues];

    uint32_t me[num_queues];

    uint32_t pipe[num_queues];

    uint32_t queue[num_queues];

    bool privileged[num_queues];

    uint32_t queue_type[num_queues];

    uint32_t hqd_active[num_queues];

    uint32_t hqd_vmid[num_queues];

    Addr aql_rptr[num_queues];

    uint32_t aql[num_queues];

    uint32_t doorbell[num_queues];

    uint32_t hqd_pq_control[num_queues];


    UNSERIALIZE_ARRAY(id, num_queues);

    UNSERIALIZE_ARRAY(mqd_base, num_queues);

    UNSERIALIZE_ARRAY(mqd_read_index, num_queues);

    UNSERIALIZE_ARRAY(base, num_queues);

    UNSERIALIZE_ARRAY(rptr, num_queues);

    UNSERIALIZE_ARRAY(wptr, num_queues);

    UNSERIALIZE_ARRAY(ib_base, num_queues);

    UNSERIALIZE_ARRAY(ib_rptr, num_queues);

    UNSERIALIZE_ARRAY(ib_wptr, num_queues);

    UNSERIALIZE_ARRAY(offset, num_queues);

    UNSERIALIZE_ARRAY(processing, num_queues);

    UNSERIALIZE_ARRAY(ib, num_queues);

    UNSERIALIZE_ARRAY(me, num_queues);

    UNSERIALIZE_ARRAY(pipe, num_queues);

    UNSERIALIZE_ARRAY(queue, num_queues);

    UNSERIALIZE_ARRAY(privileged, num_queues);

    UNSERIALIZE_ARRAY(queue_type, num_queues);

    UNSERIALIZE_ARRAY(hqd_active, num_queues);

    UNSERIALIZE_ARRAY(hqd_vmid, num_queues);

    UNSERIALIZE_ARRAY(aql_rptr, num_queues);

    UNSERIALIZE_ARRAY(aql, num_queues);

    UNSERIALIZE_ARRAY(doorbell, num_queues);

    UNSERIALIZE_ARRAY(hqd_pq_control, num_queues);


    for (int i = 0; i < num_queues; i++) {

        QueueDesc *mqd = new QueueDesc();

        memset(mqd, 0, sizeof(QueueDesc));


        mqd->mqdBase = mqd_base[i] >> 8;

        mqd->mqdReadIndex = mqd_read_index[i];

        mqd->base = base[i] >> 8;

        mqd->aql = aql[i];


        PM4MapQueues* pkt = new PM4MapQueues;

        memset(pkt, 0, sizeof(PM4MapQueues));

        newQueue(mqd, offset[i], pkt, id[i]);


        if (ib[i]) {

            queues[id[i]]->wptr(ib_wptr[i]);

            queues[id[i]]->rptr(ib_rptr[i]);

        } else {

            queues[id[i]]->rptr(rptr[i]);

            queues[id[i]]->wptr(wptr[i]);

        }

        queues[id[i]]->ib(ib[i]);

        queues[id[i]]->offset(offset[i]);

        queues[id[i]]->processing(processing[i]);

        queues[id[i]]->setPkt(me[i], pipe[i], queue[i], privileged[i],

                              queue_type[i]);

        queues[id[i]]->getMQD()->hqd_active = hqd_active[i];

        queues[id[i]]->getMQD()->hqd_vmid = hqd_vmid[i];

        queues[id[i]]->getMQD()->aqlRptr = aql_rptr[i];

        queues[id[i]]->getMQD()->doorbell = doorbell[i];

        queues[id[i]]->getMQD()->hqd_pq_control = hqd_pq_control[i];


        if (mqd->aql) {

            int mqd_size = (1 << ((hqd_pq_control[i] & 0x3f) + 1)) * 4;

            auto &hsa_pp = gpuDevice->CP()->hsaPacketProc();

            hsa_pp.setDeviceQueueDesc(aql_rptr[i], base[i], id[i],

                                  mqd_size, 8, GfxVersion::gfx900, offset[i],

                                  mqd_read_index[i]);

        }


        DPRINTF(PM4PacketProcessor, "PM4 queue %d, rptr: %p wptr: %p\n",

                queues[id[i]]->id(), queues[id[i]]->rptr(),

                queues[id[i]]->wptr());

    }

}

PM4PacketProcessor::unserialize(CheckpointIn &cp) {…}


} // namespace gem5

amdgpu_device.hh

DPRINTF
#define DPRINTF(x,...)
Definition trace.hh:209

data
const char data[]
Definition circlebuf.test.cc:48

gem5::AMDGPUDevice
Device model for an AMD GPU.
Definition amdgpu_device.hh:64

gem5::AMDGPUDevice::insertQId
void insertQId(uint16_t vmid, int id)
Definition amdgpu_device.cc:979

gem5::AMDGPUDevice::deallocateAllQueues
void deallocateAllQueues(bool unmap_static)
Definition amdgpu_device.cc:948

gem5::AMDGPUDevice::processPendingDoorbells
void processPendingDoorbells(uint32_t offset)
Definition amdgpu_device.cc:660

gem5::AMDGPUDevice::getGfxVersion
GfxVersion getGfxVersion() const
Definition amdgpu_device.hh:227

gem5::AMDGPUDevice::setDoorbellType
void setDoorbellType(uint32_t offset, QueueType qt, int ip_id=0)
Set handles to GPU blocks.
Definition amdgpu_device.cc:710

gem5::AMDGPUDevice::getUsedVMIDs
std::unordered_map< uint16_t, std::set< int > > & getUsedVMIDs()
Definition amdgpu_device.cc:973

gem5::AMDGPUDevice::setRegVal
void setRegVal(uint64_t addr, uint32_t value)
Definition amdgpu_device.cc:695

gem5::AMDGPUDevice::getVMID
uint16_t getVMID(Addr doorbell)
Definition amdgpu_device.hh:222

gem5::AMDGPUDevice::getIH
AMDGPUInterruptHandler * getIH()
Get handles to GPU blocks.
Definition amdgpu_device.hh:188

gem5::AMDGPUDevice::deallocateVmid
void deallocateVmid(uint16_t vmid)
Definition amdgpu_device.cc:930

gem5::AMDGPUDevice::mapDoorbellToVMID
void mapDoorbellToVMID(Addr doorbell, uint16_t vmid)
Definition amdgpu_device.cc:967

gem5::AMDGPUDevice::lastVMID
uint16_t lastVMID()
Definition amdgpu_device.hh:216

gem5::AMDGPUDevice::allocateVMID
uint16_t allocateVMID(uint16_t pasid)
Definition amdgpu_device.cc:915

gem5::AMDGPUDevice::getVM
AMDGPUVM & getVM()
Definition amdgpu_device.hh:191

gem5::AMDGPUDevice::deallocatePasid
void deallocatePasid(uint16_t pasid)
Definition amdgpu_device.cc:936

gem5::AMDGPUDevice::getSDMAById
SDMAEngine * getSDMAById(int id)
Definition amdgpu_device.cc:730

gem5::AMDGPUDevice::setSDMAEngine
void setSDMAEngine(Addr offset, SDMAEngine *eng)
Definition amdgpu_device.cc:724

gem5::AMDGPUDevice::CP
GPUCommandProcessor * CP()
Definition amdgpu_device.hh:193

gem5::AMDGPUInterruptHandler::submitInterruptCookie
void submitInterruptCookie()
Definition interrupt_handler.cc:152

gem5::AMDGPUInterruptHandler::prepareInterruptCookie
void prepareInterruptCookie(ContextID cntxtId, uint32_t ring_id, uint32_t client_id, uint32_t source_id, unsigned node_id)
Definition interrupt_handler.cc:75

gem5::AMDGPUVM::AGPTranslationGen
Translation range generators.
Definition amdgpu_vm.hh:314

gem5::AMDGPUVM::GARTTranslationGen
Definition amdgpu_vm.hh:327

gem5::AMDGPUVM::invalidateTLBs
void invalidateTLBs()
Definition amdgpu_vm.cc:204

gem5::AMDGPUVM::inAGP
bool inAGP(Addr vaddr)
Methods for resolving apertures.
Definition amdgpu_vm.hh:212

gem5::AMDGPUVM::setPageTableBase
void setPageTableBase(uint16_t vmid, Addr ptBase)
Page table base/start accessors for user VMIDs.
Definition amdgpu_vm.hh:277

gem5::CheckpointIn
Definition serialize.hh:69

gem5::ClockedObject::serialize
void serialize(CheckpointOut &cp) const override
Serialize an object.
Definition clocked_object.cc:59

gem5::ClockedObject::unserialize
void unserialize(CheckpointIn &cp) override
Unserialize an object.
Definition clocked_object.cc:64

gem5::DmaVirtDevice::DmaVirtCallback
Wraps a std::function object in a DmaCallback.
Definition dma_virt_device.hh:52

gem5::DmaVirtDevice
Definition dma_virt_device.hh:42

gem5::DmaVirtDevice::dmaReadVirt
void dmaReadVirt(Addr host_addr, unsigned size, DmaCallback *cb, void *data, Tick delay=0)
Initiate a DMA read from virtual address host_addr.
Definition dma_virt_device.cc:38

gem5::DmaVirtDevice::dmaWriteVirt
void dmaWriteVirt(Addr host_addr, unsigned size, DmaCallback *b, void *data, Tick delay=0)
Initiate a DMA write from virtual address host_addr.
Definition dma_virt_device.cc:45

gem5::GPUCommandProcessor::hsaPacketProc
HSAPacketProcessor & hsaPacketProc()
Definition gpu_command_processor.cc:71

gem5::GPUCommandProcessor::shader
Shader * shader()
Definition gpu_command_processor.cc:849

gem5::HSAPacketProcessor::setDeviceQueueDesc
void setDeviceQueueDesc(uint64_t hostReadIndexPointer, uint64_t basePointer, uint64_t queue_id, uint32_t size, int doorbellSize, GfxVersion gfxVersion, Addr offset=0, uint64_t rd_idx=0)
Definition hsa_packet_processor.cc:112

gem5::PM4PacketProcessor
Definition pm4_packet_processor.hh:53

gem5::PM4PacketProcessor::writeMMIO
void writeMMIO(PacketPtr pkt, Addr mmio_offset)
Definition pm4_packet_processor.cc:870

gem5::PM4PacketProcessor::setRbWptrPollAddrLo
void setRbWptrPollAddrLo(uint32_t data)
Definition pm4_packet_processor.cc:1084

gem5::PM4PacketProcessor::kiq
QueueDesc kiq
Definition pm4_packet_processor.hh:59

gem5::PM4PacketProcessor::decodeHeader
void decodeHeader(PM4Queue *q, PM4Header header)
This method calls other PM4 packet processing methods based on the header of a PM4 packet.
Definition pm4_packet_processor.cc:210

gem5::PM4PacketProcessor::unserialize
void unserialize(CheckpointIn &cp) override
Unserialize an object.
Definition pm4_packet_processor.cc:1217

gem5::PM4PacketProcessor::setRbWptrHi
void setRbWptrHi(uint32_t data)
Definition pm4_packet_processor.cc:1066

gem5::PM4PacketProcessor::mapKiq
void mapKiq(Addr offset)
The first compute queue, the Kernel Interface Queueu a.k.a.
Definition pm4_packet_processor.cc:116

gem5::PM4PacketProcessor::getGARTAddr
Addr getGARTAddr(Addr addr) const
Definition pm4_packet_processor.cc:92

gem5::PM4PacketProcessor::writeDataDone
void writeDataDone(PM4Queue *q, PM4WriteData *pkt, Addr addr)
Definition pm4_packet_processor.cc:399

gem5::PM4PacketProcessor::setRbWptrLo
void setRbWptrLo(uint32_t data)
Definition pm4_packet_processor.cc:1060

gem5::PM4PacketProcessor::switchBuffer
void switchBuffer(PM4Queue *q, PM4SwitchBuf *pkt)
Definition pm4_packet_processor.cc:787

gem5::PM4PacketProcessor::setGPUDevice
void setGPUDevice(AMDGPUDevice *gpu_device)
Definition pm4_packet_processor.cc:86

gem5::PM4PacketProcessor::serialize
void serialize(CheckpointOut &cp) const override
Serialize an object.
Definition pm4_packet_processor.cc:1127

gem5::PM4PacketProcessor::setRbCntl
void setRbCntl(uint32_t data)
Definition pm4_packet_processor.cc:1054

gem5::PM4PacketProcessor::getKiqDoorbellOffset
uint32_t getKiqDoorbellOffset()
Definition pm4_packet_processor.hh:91

gem5::PM4PacketProcessor::setHqdPqWptrLo
void setHqdPqWptrLo(uint32_t data)
Definition pm4_packet_processor.cc:1000

gem5::PM4PacketProcessor::gpuDevice
AMDGPUDevice * gpuDevice
Definition pm4_packet_processor.hh:54

gem5::PM4PacketProcessor::queuesMap
std::unordered_map< uint32_t, PM4Queue * > queuesMap
Definition pm4_packet_processor.hh:65

gem5::PM4PacketProcessor::setUconfigReg
void setUconfigReg(PM4Queue *q, PM4SetUconfigReg *pkt)
Definition pm4_packet_processor.cc:800

gem5::PM4PacketProcessor::getIpId
int getIpId() const
Definition pm4_packet_processor.hh:198

gem5::PM4PacketProcessor::queryStatus
void queryStatus(PM4Queue *q, PM4QueryStatus *pkt)
Definition pm4_packet_processor.cc:836

gem5::PM4PacketProcessor::releaseMem
void releaseMem(PM4Queue *q, PM4ReleaseMem *pkt)
Definition pm4_packet_processor.cc:538

gem5::PM4PacketProcessor::releaseMemDone
void releaseMemDone(PM4Queue *q, PM4ReleaseMem *pkt, Addr addr)
Definition pm4_packet_processor.cc:562

gem5::PM4PacketProcessor::setHqdPqRptrReportAddr
void setHqdPqRptrReportAddr(uint32_t data)
Definition pm4_packet_processor.cc:1012

gem5::PM4PacketProcessor::updateReadIndex
void updateReadIndex(Addr offset, uint64_t rd_idx)
Update read index on doorbell rings.
Definition pm4_packet_processor.cc:586

gem5::PM4PacketProcessor::setRbBaseHi
void setRbBaseHi(uint32_t data)
Definition pm4_packet_processor.cc:1102

gem5::PM4PacketProcessor::mapProcessV1
void mapProcessV1(PM4Queue *q, PM4MapProcess *pkt)
Definition pm4_packet_processor.cc:724

gem5::PM4PacketProcessor::setRbVmid
void setRbVmid(uint32_t data)
Definition pm4_packet_processor.cc:1048

gem5::PM4PacketProcessor::setHqdActive
void setHqdActive(uint32_t data)
Definition pm4_packet_processor.cc:970

gem5::PM4PacketProcessor::processSDMAMQD
void processSDMAMQD(PM4MapQueues *pkt, PM4Queue *q, Addr addr, SDMAQueueDesc *mqd, uint16_t vmid)
Definition pm4_packet_processor.cc:502

gem5::PM4PacketProcessor::process
void process(PM4Queue *q, Addr wptrOffset)
This method start processing a PM4Queue from the current read pointer to the newly communicated write...
Definition pm4_packet_processor.cc:155

gem5::PM4PacketProcessor::setHqdPqControl
void setHqdPqControl(uint32_t data)
Definition pm4_packet_processor.cc:1036

gem5::PM4PacketProcessor::setRbBaseLo
void setRbBaseLo(uint32_t data)
Definition pm4_packet_processor.cc:1096

gem5::PM4PacketProcessor::mapProcessV2
void mapProcessV2(PM4Queue *q, PM4MapProcessV2 *pkt)
Definition pm4_packet_processor.cc:739

gem5::PM4PacketProcessor::setHqdIbCtrl
void setHqdIbCtrl(uint32_t data)
Definition pm4_packet_processor.cc:1042

gem5::PM4PacketProcessor::kiq_pkt
PM4MapQueues kiq_pkt
Definition pm4_packet_processor.hh:60

gem5::PM4PacketProcessor::setRbRptrAddrHi
void setRbRptrAddrHi(uint32_t data)
Definition pm4_packet_processor.cc:1078

gem5::PM4PacketProcessor::setHqdPqWptrPollAddr
void setHqdPqWptrPollAddr(uint32_t data)
Definition pm4_packet_processor.cc:1024

gem5::PM4PacketProcessor::newQueue
void newQueue(QueueDesc *q, Addr offset, PM4MapQueues *pkt=nullptr, int id=-1)
This method creates a new PM4Queue based on a queue descriptor and an offset.
Definition pm4_packet_processor.cc:130

gem5::PM4PacketProcessor::unmapQueues
void unmapQueues(PM4Queue *q, PM4UnmapQueues *pkt)
Definition pm4_packet_processor.cc:634

gem5::PM4PacketProcessor::queryStatusDone
void queryStatusDone(PM4Queue *q, PM4QueryStatus *pkt)
Definition pm4_packet_processor.cc:861

gem5::PM4PacketProcessor::mapProcess
void mapProcess(uint32_t pasid, uint64_t ptBase, uint32_t shMemBases)
Definition pm4_packet_processor.cc:704

gem5::PM4PacketProcessor::setRbDoorbellRangeLo
void setRbDoorbellRangeLo(uint32_t data)
Definition pm4_packet_processor.cc:1115

gem5::PM4PacketProcessor::waitRegMem
void waitRegMem(PM4Queue *q, PM4WaitRegMem *pkt)
Definition pm4_packet_processor.cc:819

gem5::PM4PacketProcessor::setHqdPqBaseHi
void setHqdPqBaseHi(uint32_t data)
Definition pm4_packet_processor.cc:982

gem5::PM4PacketProcessor::runList
void runList(PM4Queue *q, PM4RunList *pkt)
Definition pm4_packet_processor.cc:754

gem5::PM4PacketProcessor::decodeNext
void decodeNext(PM4Queue *q)
This method decodes the next packet in a PM4Queue.
Definition pm4_packet_processor.cc:166

gem5::PM4PacketProcessor::mapPq
void mapPq(Addr offset)
The first graphics queue, the Primary Queueu a.k.a.
Definition pm4_packet_processor.cc:123

gem5::PM4PacketProcessor::setHqdVmid
void setHqdVmid(uint32_t data)
Definition pm4_packet_processor.cc:964

gem5::PM4PacketProcessor::pq
PrimaryQueue pq
Definition pm4_packet_processor.hh:56

gem5::PM4PacketProcessor::writeData
void writeData(PM4Queue *q, PM4WriteData *pkt, PM4Header header)
Definition pm4_packet_processor.cc:356

gem5::PM4PacketProcessor::setHqdPqDoorbellCtrl
void setHqdPqDoorbellCtrl(uint32_t data)
Definition pm4_packet_processor.cc:988

gem5::PM4PacketProcessor::setHqdPqBase
void setHqdPqBase(uint32_t data)
Definition pm4_packet_processor.cc:976

gem5::PM4PacketProcessor::setRbDoorbellRangeHi
void setRbDoorbellRangeHi(uint32_t data)
Definition pm4_packet_processor.cc:1121

gem5::PM4PacketProcessor::getPqDoorbellOffset
uint32_t getPqDoorbellOffset()
Definition pm4_packet_processor.hh:92

gem5::PM4PacketProcessor::doneMQDWrite
void doneMQDWrite(Addr mqdAddr, Addr addr)
Definition pm4_packet_processor.cc:698

gem5::PM4PacketProcessor::queues
std::unordered_map< uint16_t, PM4Queue * > queues
Definition pm4_packet_processor.hh:63

gem5::PM4PacketProcessor::indirectBuffer
void indirectBuffer(PM4Queue *q, PM4IndirectBuf *pkt)
Definition pm4_packet_processor.cc:771

gem5::PM4PacketProcessor::PM4PacketProcessor
PM4PacketProcessor(const PM4PacketProcessorParams &p)
Definition pm4_packet_processor.cc:51

gem5::PM4PacketProcessor::unmapAllQueues
void unmapAllQueues(bool unmap_static)
Definition pm4_packet_processor.cc:593

gem5::PM4PacketProcessor::setHqdPqPtr
void setHqdPqPtr(uint32_t data)
Definition pm4_packet_processor.cc:994

gem5::PM4PacketProcessor::setHqdPqRptrReportAddrHi
void setHqdPqRptrReportAddrHi(uint32_t data)
Definition pm4_packet_processor.cc:1018

gem5::PM4PacketProcessor::mapQueues
void mapQueues(PM4Queue *q, PM4MapQueues *pkt)
Definition pm4_packet_processor.cc:412

gem5::PM4PacketProcessor::translate
TranslationGenPtr translate(Addr vaddr, Addr size) override
Method for functional translation.
Definition pm4_packet_processor.cc:64

gem5::PM4PacketProcessor::processMQD
void processMQD(PM4MapQueues *pkt, PM4Queue *q, Addr addr, QueueDesc *mqd, uint16_t vmid)
Definition pm4_packet_processor.cc:463

gem5::PM4PacketProcessor::setRbRptrAddrLo
void setRbRptrAddrLo(uint32_t data)
Definition pm4_packet_processor.cc:1072

gem5::PM4PacketProcessor::setRbDoorbellCntrl
void setRbDoorbellCntrl(uint32_t data)
Definition pm4_packet_processor.cc:1108

gem5::PM4PacketProcessor::getQueue
PM4Queue * getQueue(Addr offset, bool gfx=false)
Based on an offset communicated through doorbell write, the PM4PacketProcessor identifies which queue...
Definition pm4_packet_processor.cc:102

gem5::PM4PacketProcessor::getAddrRanges
AddrRangeList getAddrRanges() const override
Every PIO device is obliged to provide an implementation that returns the address ranges the device r...
Definition pm4_packet_processor.cc:79

gem5::PM4PacketProcessor::setHqdPqWptrPollAddrHi
void setHqdPqWptrPollAddrHi(uint32_t data)
Definition pm4_packet_processor.cc:1030

gem5::PM4PacketProcessor::setHqdPqWptrHi
void setHqdPqWptrHi(uint32_t data)
Definition pm4_packet_processor.cc:1006

gem5::PM4PacketProcessor::setRbWptrPollAddrHi
void setRbWptrPollAddrHi(uint32_t data)
Definition pm4_packet_processor.cc:1090

gem5::PM4PacketProcessor::pq_pkt
PM4MapQueues pq_pkt
Definition pm4_packet_processor.hh:57

gem5::PM4Queue
Class defining a PM4 queue.
Definition pm4_queues.hh:378

gem5::PM4Queue::id
int id()
Definition pm4_queues.hh:406

gem5::Packet
A Packet is used to encapsulate a transfer between two objects in the memory system (e....
Definition packet.hh:295

gem5::Packet::getLE
T getLE() const
Get the data in the packet byte swapped from little endian to host endian.
Definition packet_access.hh:78

gem5::SDMAEngine
System DMA Engine class for AMD dGPU.
Definition sdma_engine.hh:49

gem5::SDMAEngine::registerRLCQueue
void registerRLCQueue(Addr doorbell, Addr mqdAddr, SDMAQueueDesc *mqd, bool isStatic)
Methods for RLC queues.
Definition sdma_engine.cc:182

gem5::Shader::setLdsApe
void setLdsApe(Addr base, Addr limit)
Definition shader.hh:152

gem5::Shader::setScratchApe
void setScratchApe(Addr base, Addr limit)
Definition shader.hh:165

gem5::Shader::setHwReg
void setHwReg(int regIdx, uint32_t val)
Definition shader.hh:128

std::list< AddrRange >

gpu_command_processor.hh
The GPUCommandProcessor (CP) is responsible for accepting commands, in the form of HSA AQL packets,...

gem5::bits
constexpr T bits(T val, unsigned first, unsigned last)
Extract the bitfield from position 'first' to 'last' (inclusive) from 'val' and right justify it.
Definition bitfield.hh:79

panic
#define panic(...)
This implements a cprintf based panic() function.
Definition logging.hh:188

fatal
#define fatal(...)
This implements a cprintf based fatal() function.
Definition logging.hh:200

UNSERIALIZE_ARRAY
#define UNSERIALIZE_ARRAY(member, size)
Definition serialize.hh:618

SERIALIZE_ARRAY
#define SERIALIZE_ARRAY(member, size)
Definition serialize.hh:610

hw_scheduler.hh

hwreg_defines.hh

interrupt_handler.hh

warn
#define warn(...)
Definition logging.hh:256

gem5::ArmISA::q
Bitfield< 27 > q
Definition misc_types.hh:55

gem5::ArmISA::i
Bitfield< 7 > i
Definition misc_types.hh:67

gem5::ArmISA::offset
Bitfield< 23, 0 > offset
Definition types.hh:144

gem5::ArmISA::id
Bitfield< 33 > id
Definition misc_types.hh:332

gem5::MipsISA::vaddr
vaddr
Definition pra_constants.hh:278

gem5::MipsISA::p
Bitfield< 0 > p
Definition pra_constants.hh:326

gem5::PowerISA::me
Bitfield< 12 > me
Definition misc.hh:118

gem5::X86ISA::base
Bitfield< 51, 12 > base
Definition pagetable.hh:141

gem5::X86ISA::addr
Bitfield< 3 > addr
Definition types.hh:84

gem5
Copyright (c) 2024 Arm Limited All rights reserved.
Definition binary32.hh:36

gem5::CP_EOP
@ CP_EOP
Definition interrupt_handler.hh:72

gem5::PM4WriteData
struct gem5::GEM5_PACKED PM4WriteData

gem5::PM4WaitRegMem
struct gem5::GEM5_PACKED PM4WaitRegMem

gem5::CheckpointOut
std::ostream CheckpointOut
Definition serialize.hh:66

gem5::QueueType
QueueType
Definition amdgpu_defines.hh:42

gem5::Compute
@ Compute
Definition amdgpu_defines.hh:43

gem5::RLC
@ RLC
Definition amdgpu_defines.hh:49

gem5::Gfx
@ Gfx
Definition amdgpu_defines.hh:44

gem5::ComputeAQL
@ ComputeAQL
Definition amdgpu_defines.hh:47

gem5::PM4RunList
struct gem5::GEM5_PACKED PM4RunList

gem5::Addr
uint64_t Addr
Address type This will probably be moved somewhere else in the near future.
Definition types.hh:147

gem5::SOC15_IH_CLIENTID_GRBM_CP
@ SOC15_IH_CLIENTID_GRBM_CP
Definition interrupt_handler.hh:67

gem5::PM4ReleaseMem
struct gem5::GEM5_PACKED PM4ReleaseMem

gem5::PM4SwitchBuf
struct gem5::GEM5_PACKED PM4SwitchBuf

gem5::pasid
Bitfield< 10 > pasid
Definition x86_cpu.cc:129

gem5::PM4MapQueues
struct gem5::GEM5_PACKED PM4MapQueues

gem5::PM4MapProcess
struct gem5::GEM5_PACKED PM4MapProcess

gem5::PM4MapProcessV2
struct gem5::GEM5_PACKED PM4MapProcessV2

gem5::SDMAQueueDesc
struct gem5::GEM5_PACKED SDMAQueueDesc
Queue descriptor for SDMA-based user queues (RLC queues).

gem5::PM4UnmapQueues
struct gem5::GEM5_PACKED PM4UnmapQueues

gem5::PM4SetUconfigReg
struct gem5::GEM5_PACKED PM4SetUconfigReg

gem5::IT_RELEASE_MEM
@ IT_RELEASE_MEM
Definition pm4_defines.hh:58

gem5::IT_WRITE_DATA
@ IT_WRITE_DATA
Definition pm4_defines.hh:55

gem5::IT_RUN_LIST
@ IT_RUN_LIST
Definition pm4_defines.hh:66

gem5::IT_MAP_QUEUES
@ IT_MAP_QUEUES
Definition pm4_defines.hh:63

gem5::IT_NOP
@ IT_NOP
Definition pm4_defines.hh:54

gem5::IT_SET_UCONFIG_REG
@ IT_SET_UCONFIG_REG
Definition pm4_defines.hh:59

gem5::IT_MAP_PROCESS
@ IT_MAP_PROCESS
Definition pm4_defines.hh:62

gem5::IT_INVALIDATE_TLBS
@ IT_INVALIDATE_TLBS
Definition pm4_defines.hh:61

gem5::IT_QUERY_STATUS
@ IT_QUERY_STATUS
Definition pm4_defines.hh:65

gem5::IT_WAIT_REG_MEM
@ IT_WAIT_REG_MEM
Definition pm4_defines.hh:56

gem5::IT_UNMAP_QUEUES
@ IT_UNMAP_QUEUES
Definition pm4_defines.hh:64

gem5::IT_INDIRECT_BUFFER
@ IT_INDIRECT_BUFFER
Definition pm4_defines.hh:57

gem5::IT_SWITCH_BUFFER
@ IT_SWITCH_BUFFER
Definition pm4_defines.hh:60

gem5::PM4QueryStatus
struct gem5::GEM5_PACKED PM4QueryStatus

gem5::QueueDesc
struct gem5::GEM5_PACKED QueueDesc
Queue descriptor with relevant MQD attributes.

gem5::TranslationGenPtr
std::unique_ptr< TranslationGen > TranslationGenPtr
Definition translation_gen.hh:131

gem5::PM4IndirectBuf
struct gem5::GEM5_PACKED PM4IndirectBuf

gem5::HW_REG_SH_MEM_BASES
@ HW_REG_SH_MEM_BASES
Definition hwreg_defines.hh:58

header
output header
Definition nop.cc:36

packet.hh
Declaration of the Packet class.

packet_access.hh

PACKET3_SET_UCONFIG_REG_START
#define PACKET3_SET_UCONFIG_REG_START
Value from vega10/pm4_header.h.
Definition pm4_defines.hh:72

pm4_mmio.hh

mmCP_RB_DOORBELL_CONTROL
#define mmCP_RB_DOORBELL_CONTROL
Definition pm4_mmio.hh:48

mmCP_RB0_RPTR_ADDR_HI
#define mmCP_RB0_RPTR_ADDR_HI
Definition pm4_mmio.hh:45

mmCP_HQD_PQ_RPTR_REPORT_ADDR
#define mmCP_HQD_PQ_RPTR_REPORT_ADDR
Definition pm4_mmio.hh:59

mmCP_RB0_BASE_HI
#define mmCP_RB0_BASE_HI
Definition pm4_mmio.hh:51

mmCP_HQD_PQ_DOORBELL_CONTROL
#define mmCP_HQD_PQ_DOORBELL_CONTROL
Definition pm4_mmio.hh:57

mmCP_HQD_PQ_WPTR_POLL_ADDR
#define mmCP_HQD_PQ_WPTR_POLL_ADDR
Definition pm4_mmio.hh:61

mmCP_HQD_PQ_RPTR_REPORT_ADDR_HI
#define mmCP_HQD_PQ_RPTR_REPORT_ADDR_HI
Definition pm4_mmio.hh:60

mmCP_HQD_PQ_BASE
#define mmCP_HQD_PQ_BASE
Definition pm4_mmio.hh:55

mmCP_RB_DOORBELL_RANGE_UPPER
#define mmCP_RB_DOORBELL_RANGE_UPPER
Definition pm4_mmio.hh:50

mmCP_HQD_IB_CONTROL
#define mmCP_HQD_IB_CONTROL
Definition pm4_mmio.hh:64

mmCP_RB0_BASE
#define mmCP_RB0_BASE
Definition pm4_mmio.hh:39

mmCP_HQD_VMID
#define mmCP_HQD_VMID
Definition pm4_mmio.hh:54

mmCP_RB_WPTR_POLL_ADDR_LO
#define mmCP_RB_WPTR_POLL_ADDR_LO
Definition pm4_mmio.hh:41

mmCP_HQD_PQ_RPTR
#define mmCP_HQD_PQ_RPTR
Definition pm4_mmio.hh:58

mmCP_HQD_ACTIVE
#define mmCP_HQD_ACTIVE
Definition pm4_mmio.hh:53

mmCP_RB_VMID
#define mmCP_RB_VMID
Definition pm4_mmio.hh:43

mmCP_HQD_PQ_BASE_HI
#define mmCP_HQD_PQ_BASE_HI
Definition pm4_mmio.hh:56

mmCP_RB0_WPTR_HI
#define mmCP_RB0_WPTR_HI
Definition pm4_mmio.hh:47

mmCP_HQD_PQ_WPTR_HI
#define mmCP_HQD_PQ_WPTR_HI
Definition pm4_mmio.hh:66

mmCP_HQD_PQ_CONTROL
#define mmCP_HQD_PQ_CONTROL
Definition pm4_mmio.hh:63

mmCP_RB_DOORBELL_RANGE_LOWER
#define mmCP_RB_DOORBELL_RANGE_LOWER
Definition pm4_mmio.hh:49

mmCP_RB_WPTR_POLL_ADDR_HI
#define mmCP_RB_WPTR_POLL_ADDR_HI
Definition pm4_mmio.hh:42

mmCP_RB0_CNTL
#define mmCP_RB0_CNTL
Definition pm4_mmio.hh:40

mmCP_RB0_RPTR_ADDR
#define mmCP_RB0_RPTR_ADDR
Definition pm4_mmio.hh:44

mmCP_HQD_PQ_WPTR_POLL_ADDR_HI
#define mmCP_HQD_PQ_WPTR_POLL_ADDR_HI
Definition pm4_mmio.hh:62

mmCP_RB0_WPTR
#define mmCP_RB0_WPTR
Definition pm4_mmio.hh:46

mmCP_HQD_PQ_WPTR_LO
#define mmCP_HQD_PQ_WPTR_LO
Definition pm4_mmio.hh:65

pm4_packet_processor.hh

sdma_engine.hh

UNSERIALIZE_SCALAR
#define UNSERIALIZE_SCALAR(scalar)
Definition serialize.hh:575

SERIALIZE_SCALAR
#define SERIALIZE_SCALAR(scalar)
Definition serialize.hh:568

shader.hh

gem5::GEM5_PACKED
PM4 packets.
Definition pm4_defines.hh:78

gem5::GEM5_PACKED::aqlRptr
uint64_t aqlRptr
Definition pm4_queues.hh:123

gem5::GEM5_PACKED::intCtxId
uint32_t intCtxId
Definition pm4_defines.hh:491

gem5::GEM5_PACKED::sdmax_rlcx_ib_base_lo
uint32_t sdmax_rlcx_ib_base_lo
Definition pm4_queues.hh:230

gem5::GEM5_PACKED::sdmax_rlcx_rb_rptr
uint32_t sdmax_rlcx_rb_rptr
Definition pm4_queues.hh:210

gem5::GEM5_PACKED::hqd_pq_base_lo
uint32_t hqd_pq_base_lo
Definition pm4_queues.hh:106

gem5::GEM5_PACKED::resume
uint32_t resume
Definition pm4_defines.hh:102

gem5::GEM5_PACKED::memAddrLo
uint32_t memAddrLo
Definition pm4_defines.hh:347

gem5::GEM5_PACKED::rb_base
uint64_t rb_base
Definition pm4_queues.hh:204

gem5::GEM5_PACKED::wptrAddr
uint64_t wptrAddr
Definition pm4_defines.hh:155

gem5::GEM5_PACKED::intSelect
uint32_t intSelect
Definition pm4_defines.hh:462

gem5::GEM5_PACKED::eventIdx
uint32_t eventIdx
Definition pm4_defines.hh:443

gem5::GEM5_PACKED::doorbellOffset0
uint32_t doorbellOffset0
Definition pm4_defines.hh:178

gem5::GEM5_PACKED::reference
uint32_t reference
Definition pm4_defines.hh:358

gem5::GEM5_PACKED::sdmax_rlcx_rb_rptr_addr_hi
uint32_t sdmax_rlcx_rb_rptr_addr_hi
Definition pm4_queues.hh:225

gem5::GEM5_PACKED::cachePolicy
uint32_t cachePolicy
Definition pm4_defines.hh:105

gem5::GEM5_PACKED::me
uint32_t me
Definition pm4_defines.hh:129

gem5::GEM5_PACKED::sdmax_rlcx_rb_cntl
uint32_t sdmax_rlcx_rb_cntl
Definition pm4_queues.hh:196

gem5::GEM5_PACKED::queueSlot
uint32_t queueSlot
Definition pm4_defines.hh:127

gem5::GEM5_PACKED::hqd_pq_wptr_poll_addr_hi
uint32_t hqd_pq_wptr_poll_addr_hi
Definition pm4_queues.hh:126

gem5::GEM5_PACKED::doorbell
uint32_t doorbell
Definition pm4_queues.hh:130

gem5::GEM5_PACKED::hqd_pq_base_hi
uint32_t hqd_pq_base_hi
Definition pm4_queues.hh:107

gem5::GEM5_PACKED::queueSel
uint32_t queueSel
Definition pm4_defines.hh:123

gem5::GEM5_PACKED::doorbellOffset3
uint32_t doorbellOffset3
Definition pm4_defines.hh:189

gem5::GEM5_PACKED::destSel
uint32_t destSel
Definition pm4_defines.hh:98

gem5::GEM5_PACKED::memSpace
uint32_t memSpace
Definition pm4_defines.hh:337

gem5::GEM5_PACKED::mqdAddr
uint64_t mqdAddr
Definition pm4_defines.hh:146

gem5::GEM5_PACKED::sdmax_rlcx_rb_wptr_hi
uint32_t sdmax_rlcx_rb_wptr_hi
Definition pm4_queues.hh:220

gem5::GEM5_PACKED::doorbellOffset2
uint32_t doorbellOffset2
Definition pm4_defines.hh:186

gem5::GEM5_PACKED::sdmax_rlcx_ib_base_hi
uint32_t sdmax_rlcx_ib_base_hi
Definition pm4_queues.hh:231

gem5::GEM5_PACKED::ptBase
uint64_t ptBase
Definition pm4_defines.hh:240

gem5::GEM5_PACKED::hqd_pq_wptr_poll_addr_lo
uint32_t hqd_pq_wptr_poll_addr_lo
Definition pm4_queues.hh:125

gem5::GEM5_PACKED::pasid
uint32_t pasid
Definition pm4_defines.hh:172

gem5::GEM5_PACKED::shMemBases
uint32_t shMemBases
Definition pm4_defines.hh:242

gem5::GEM5_PACKED::addr
uint64_t addr
Definition pm4_defines.hh:472

gem5::GEM5_PACKED::engineSel
uint32_t engineSel
Definition pm4_defines.hh:133

gem5::GEM5_PACKED::allocFormat
uint32_t allocFormat
Definition pm4_defines.hh:132

gem5::GEM5_PACKED::pollInterval
uint32_t pollInterval
Definition pm4_defines.hh:360

gem5::GEM5_PACKED::numQueues
uint32_t numQueues
Definition pm4_defines.hh:134

gem5::GEM5_PACKED::ibBase
uint64_t ibBase
Definition pm4_defines.hh:381

gem5::GEM5_PACKED::doorbellOffset
uint32_t doorbellOffset
Definition pm4_defines.hh:137

gem5::GEM5_PACKED::hqd_pq_rptr_report_addr_hi
uint32_t hqd_pq_rptr_report_addr_hi
Definition pm4_queues.hh:121

gem5::GEM5_PACKED::dataLo
uint32_t dataLo
Definition pm4_defines.hh:485

gem5::GEM5_PACKED::contextId
uint32_t contextId
Definition pm4_defines.hh:526

gem5::GEM5_PACKED::hqd_vmid
uint32_t hqd_vmid
Definition pm4_queues.hh:97

gem5::GEM5_PACKED::queueType
uint32_t queueType
Definition pm4_defines.hh:131

gem5::GEM5_PACKED::writeConfirm
uint32_t writeConfirm
Definition pm4_defines.hh:103

gem5::GEM5_PACKED::processQuantum
uint32_t processQuantum
Definition pm4_defines.hh:232

gem5::GEM5_PACKED::hqd_pq_control
uint32_t hqd_pq_control
Definition pm4_queues.hh:133

gem5::GEM5_PACKED::hqd_pq_rptr_report_addr_lo
uint32_t hqd_pq_rptr_report_addr_lo
Definition pm4_queues.hh:120

gem5::GEM5_PACKED::hqd_active
uint32_t hqd_active
Definition pm4_queues.hh:96

gem5::GEM5_PACKED::hqd_pq_doorbell_control
uint32_t hqd_pq_doorbell_control
Definition pm4_queues.hh:129

gem5::GEM5_PACKED::sdmax_rlcx_rb_rptr_addr_lo
uint32_t sdmax_rlcx_rb_rptr_addr_lo
Definition pm4_queues.hh:226

gem5::GEM5_PACKED::memAddrHi
uint32_t memAddrHi
Definition pm4_defines.hh:356

gem5::GEM5_PACKED::sdmax_rlcx_rb_wptr
uint32_t sdmax_rlcx_rb_wptr
Definition pm4_queues.hh:219

gem5::GEM5_PACKED::sdmax_rlcx_rb_rptr_hi
uint32_t sdmax_rlcx_rb_rptr_hi
Definition pm4_queues.hh:211

gem5::GEM5_PACKED::ibSize
uint32_t ibSize
Definition pm4_defines.hh:383

gem5::GEM5_PACKED::mqdBase
uint64_t mqdBase
Definition pm4_queues.hh:94

gem5::GEM5_PACKED::checkDisable
uint32_t checkDisable
Definition pm4_defines.hh:136

gem5::GEM5_PACKED::operation
uint32_t operation
Definition pm4_defines.hh:338

gem5::GEM5_PACKED::mask
uint32_t mask
Definition pm4_defines.hh:359

gem5::GEM5_PACKED::mqdReadIndex
uint64_t mqdReadIndex
Definition pm4_queues.hh:55

gem5::GEM5_PACKED::offset
uint32_t offset
Definition pm4_defines.hh:497

gem5::GEM5_PACKED::vmid
uint32_t vmid
Definition pm4_defines.hh:125

gem5::GEM5_PACKED::doorbellOffset1
uint32_t doorbellOffset1
Definition pm4_defines.hh:183

gem5::GEM5_PACKED::dataSelect
uint32_t dataSelect
Definition pm4_defines.hh:464

gem5::GEM5_PACKED::hqd_ib_control
uint32_t hqd_ib_control
Definition pm4_queues.hh:148

gem5::GEM5_PACKED::function
uint32_t function
Definition pm4_defines.hh:336

gem5::GEM5_PACKED::rptr
uint32_t rptr
Definition pm4_queues.hh:114

gem5::GEM5_PACKED::completionSignal
uint64_t completionSignal
Definition pm4_defines.hh:271

gem5::GEM5_PACKED::interruptSel
uint32_t interruptSel
Definition pm4_defines.hh:527

gem5::GEM5_PACKED::destSelect
uint32_t destSelect
Definition pm4_defines.hh:460

gem5::GEM5_PACKED::data
uint32_t data
Definition pm4_defines.hh:116

gem5::GEM5_PACKED::destAddr
uint64_t destAddr
Definition pm4_defines.hh:114

gem5::GEM5_PACKED::command
uint32_t command
Definition pm4_defines.hh:435

gem5::GEM5_PACKED::aql
uint32_t aql
Definition pm4_queues.hh:183

gem5::GEM5_PACKED::event
uint32_t event
Definition pm4_defines.hh:441

gem5::GEM5_PACKED::pipe
uint32_t pipe
Definition pm4_defines.hh:128

gem5::GEM5_PACKED::base
uint64_t base
Definition pm4_queues.hh:109

gem5::GEM5_PACKED::addrIncr
uint32_t addrIncr
Definition pm4_defines.hh:100

gem5::PrimaryQueue::queueWptrLo
uint32_t queueWptrLo
Definition pm4_queues.hh:364

gem5::PrimaryQueue::queueRptrAddrLo
uint32_t queueRptrAddrLo
Definition pm4_queues.hh:355

gem5::PrimaryQueue::queueWptrHi
uint32_t queueWptrHi
Definition pm4_queues.hh:365

gem5::PrimaryQueue::doorbellRangeHi
uint32_t doorbellRangeHi
Definition pm4_queues.hh:371

gem5::PrimaryQueue::queueRptrAddrHi
uint32_t queueRptrAddrHi
Definition pm4_queues.hh:356

gem5::PrimaryQueue::doorbellRangeLo
uint32_t doorbellRangeLo
Definition pm4_queues.hh:370

gem5::PrimaryQueue::doorbellOffset
uint32_t doorbellOffset
Definition pm4_queues.hh:369