#include "../../../include/lammp/impl/signed.h"
#include "../../../include/lammp/impl/tmp_alloc.h"
#include "../../../include/lammp/lmmpn.h"
#include "../../../include/lammp/impl/mparam.h"
#include "../../../include/lammp/matrix.h"

mat22_mul.c 的引用(Include)关系图:

宏定义
#define	A11 (matA->a00)

#define	A11 (mat->a00)

#define	A11n (matA->n00)

#define	A11n (mat->n00)

#define	A12 (matA->a01)

#define	A12 (mat->a01)

#define	A12n (matA->n01)

#define	A12n (mat->n01)

#define	A21 (matA->a10)

#define	A21 (mat->a10)

#define	A21n (matA->n10)

#define	A21n (mat->n10)

#define	A22 (matA->a11)

#define	A22 (mat->a11)

#define	A22n (matA->n11)

#define	A22n (mat->n11)

#define	B11 (matB->a00)

#define	B11n (matB->n00)

#define	B12 (matB->a01)

#define	B12n (matB->n01)

#define	B21 (matB->a10)

#define	B21n (matB->n10)

#define	B22 (matB->a11)

#define	B22n (matB->n11)

#define	C11 (dst->a00)

#define	C11 (dst->a00)

#define	C11n (dst->n00)

#define	C11n (dst->n00)

#define	C12 (dst->a01)

#define	C12 (dst->a01)

#define	C12n (dst->n01)

#define	C12n (dst->n01)

#define	C21 (dst->a10)

#define	C21 (dst->a10)

#define	C21n (dst->n10)

#define	C21n (dst->n10)

#define	C22 (dst->a11)

#define	C22 (dst->a11)

#define	C22n (dst->n11)

#define	C22n (dst->n11)

#define	p1 tp

#define	p1 tp

#define	p1 (tp)

#define	p1 (tp)

#define	p1n n1

#define	p1n n1

#define	p2 tp + tn

#define	p2 tp + tn

#define	p2 (tp + tn)

#define	p2 (tp + tn)

#define	p2n n5

#define	p2n n5

#define	p3 (tp + 2 * tn)

#define	p3 (tp + 2 * tn)

#define	p3n n2

#define	p3n n2

#define	p4 (tp + 3 * tn)

#define	p4 (tp + 3 * tn)

#define	p4n n7

#define	p4n n7

#define	p5 (tp + 4 * tn)

#define	p5 (tp + 4 * tn)

#define	p5n n6

#define	p5n n6

#define	p6 (tp + 5 * tn)

#define	p6 (tp + 5 * tn)

#define	p6n n3

#define	p6n n3

#define	p7 (tp + 6 * tn)

#define	p7 (tp + 6 * tn)

#define	p7n n4

#define	p7n n4

#define	s1 (dst->a00)

#define	s1 (dst->a00)

#define	s2 (dst->a01)

#define	s2 (dst->a01)

#define	s3 (dst->a10)

#define	s3 (dst->a10)

#define	s4 (dst->a11)

#define	s4 (dst->a11)

#define	t1 (dst->a00 + maxa)

#define	t2 (dst->a01 + maxa)

#define	t3 (dst->a10 + maxa)

#define	t4 (dst->a11 + maxa)

#define	U1 p5

#define	U1 p5

#define	U1n p5n

#define	U1n p5n

#define	U2 p1

#define	U2 p1

#define	U2n p1n

#define	U2n p1n

#define	U3 U1

#define	U3 U1

#define	U3n n8

#define	U3n n8

函数
void	lmmp_mat22_mul_basecase_ (lmmp_mat22_t dst, const lmmp_mat22_t matA, const lmmp_mat22_t *matB, mp_ptr tp, mp_size_t tn)
	计算2x2矩阵和2x2矩阵的乘积

int	lmmp_mat22_mul_size_ (lmmp_mat22_t dst, const lmmp_mat22_t matA, const lmmp_mat22_t matB, mp_size_t tn, mp_size_t *maxa)
	计算2x2矩阵和2x2矩阵的乘积需要分配的内存

void	lmmp_mat22_mul_strassen_ (lmmp_mat22_t dst, const lmmp_mat22_t matA, const lmmp_mat22_t *matB, mp_ptr tp, mp_size_t tn, mp_size_t maxa)
	计算（稠密）2x2矩阵和（稠密）2x2矩阵的乘积（STRASSEN算法）

void	lmmp_mat22_sqr_basecase_ (lmmp_mat22_t dst, const lmmp_mat22_t matA, mp_ptr tp, mp_size_t tn)
	计算2x2矩阵平方

void	lmmp_mat22_sqr_strassen_ (lmmp_mat22_t dst, const lmmp_mat22_t mat, mp_ptr tp, mp_size_t tn)
	计算（稠密）2x2矩阵平方（STRASSEN算法）

宏定义说明

◆ A11 [1/2]

#define A11 (matA->a00)

◆ A11 [2/2]

#define A11 (mat->a00)

◆ A11n [1/2]

#define A11n (matA->n00)

◆ A11n [2/2]

#define A11n (mat->n00)

◆ A12 [1/2]

#define A12 (matA->a01)

◆ A12 [2/2]

#define A12 (mat->a01)

◆ A12n [1/2]

#define A12n (matA->n01)

◆ A12n [2/2]

#define A12n (mat->n01)

◆ A21 [1/2]

#define A21 (matA->a10)

◆ A21 [2/2]

#define A21 (mat->a10)

◆ A21n [1/2]

#define A21n (matA->n10)

◆ A21n [2/2]

#define A21n (mat->n10)

◆ A22 [1/2]

#define A22 (matA->a11)

◆ A22 [2/2]

#define A22 (mat->a11)

◆ A22n [1/2]

#define A22n (matA->n11)

◆ A22n [2/2]

#define A22n (mat->n11)

◆ B11

#define B11 (matB->a00)

◆ B11n

#define B11n (matB->n00)

◆ B12

#define B12 (matB->a01)

◆ B12n

#define B12n (matB->n01)

◆ B21

#define B21 (matB->a10)

◆ B21n

#define B21n (matB->n10)

◆ B22

#define B22 (matB->a11)

◆ B22n

#define B22n (matB->n11)

◆ C11 [1/2]

#define C11 (dst->a00)

◆ C11 [2/2]

#define C11 (dst->a00)

◆ C11n [1/2]

#define C11n (dst->n00)

◆ C11n [2/2]

#define C11n (dst->n00)

◆ C12 [1/2]

#define C12 (dst->a01)

◆ C12 [2/2]

#define C12 (dst->a01)

◆ C12n [1/2]

#define C12n (dst->n01)

◆ C12n [2/2]

#define C12n (dst->n01)

◆ C21 [1/2]

#define C21 (dst->a10)

◆ C21 [2/2]

#define C21 (dst->a10)

◆ C21n [1/2]

#define C21n (dst->n10)

◆ C21n [2/2]

#define C21n (dst->n10)

◆ C22 [1/2]

#define C22 (dst->a11)

◆ C22 [2/2]

#define C22 (dst->a11)

◆ C22n [1/2]

#define C22n (dst->n11)

◆ C22n [2/2]

#define C22n (dst->n11)

◆ p1 [1/4]

#define p1 tp

◆ p1 [2/4]

#define p1 tp

◆ p1 [3/4]

#define p1 (tp)

◆ p1 [4/4]

#define p1 (tp)

◆ p1n [1/2]

#define p1n n1

◆ p1n [2/2]

#define p1n n1

◆ p2 [1/4]

#define p2 tp + tn

◆ p2 [2/4]

#define p2 tp + tn

◆ p2 [3/4]

#define p2 (tp + tn)

◆ p2 [4/4]

#define p2 (tp + tn)

◆ p2n [1/2]

#define p2n n5

◆ p2n [2/2]

#define p2n n5

◆ p3 [1/2]

#define p3 (tp + 2 * tn)

◆ p3 [2/2]

#define p3 (tp + 2 * tn)

◆ p3n [1/2]

#define p3n n2

◆ p3n [2/2]

#define p3n n2

◆ p4 [1/2]

#define p4 (tp + 3 * tn)

◆ p4 [2/2]

#define p4 (tp + 3 * tn)

◆ p4n [1/2]

#define p4n n7

◆ p4n [2/2]

#define p4n n7

◆ p5 [1/2]

#define p5 (tp + 4 * tn)

◆ p5 [2/2]

#define p5 (tp + 4 * tn)

◆ p5n [1/2]

#define p5n n6

◆ p5n [2/2]

#define p5n n6

◆ p6 [1/2]

#define p6 (tp + 5 * tn)

◆ p6 [2/2]

#define p6 (tp + 5 * tn)

◆ p6n [1/2]

#define p6n n3

◆ p6n [2/2]

#define p6n n3

◆ p7 [1/2]

#define p7 (tp + 6 * tn)

◆ p7 [2/2]

#define p7 (tp + 6 * tn)

◆ p7n [1/2]

#define p7n n4

◆ p7n [2/2]

#define p7n n4

◆ s1 [1/2]

#define s1 (dst->a00)

◆ s1 [2/2]

#define s1 (dst->a00)

◆ s2 [1/2]

#define s2 (dst->a01)

◆ s2 [2/2]

#define s2 (dst->a01)

◆ s3 [1/2]

#define s3 (dst->a10)

◆ s3 [2/2]

#define s3 (dst->a10)

◆ s4 [1/2]

#define s4 (dst->a11)

◆ s4 [2/2]

#define s4 (dst->a11)

◆ t1

#define t1 (dst->a00 + maxa)

◆ t2

#define t2 (dst->a01 + maxa)

◆ t3

#define t3 (dst->a10 + maxa)

◆ t4

#define t4 (dst->a11 + maxa)

◆ U1 [1/2]

#define U1 p5

◆ U1 [2/2]

#define U1 p5

◆ U1n [1/2]

#define U1n p5n

◆ U1n [2/2]

#define U1n p5n

◆ U2 [1/2]

#define U2 p1

◆ U2 [2/2]

#define U2 p1

◆ U2n [1/2]

#define U2n p1n

◆ U2n [2/2]

#define U2n p1n

◆ U3 [1/2]

#define U3 U1

◆ U3 [2/2]

#define U3 U1

◆ U3n [1/2]

#define U3n n8

◆ U3n [2/2]

#define U3n n8

函数说明

◆ lmmp_mat22_mul_basecase_()

void lmmp_mat22_mul_basecase_	(	lmmp_mat22_t *	dst,
		const lmmp_mat22_t *	matA,
		const lmmp_mat22_t *	matB,
		mp_ptr	tp,
		mp_size_t	tn
	)

计算2x2矩阵和2x2矩阵的乘积

参数

dst	结果矩阵。
matA	矩阵A
matB	矩阵B
tp	临时缓冲区，用于存储中间结果，需要分配2*tn个limb，若为NULL，则会自动分配。
tn	缓冲区的limb长度

警告: dst!=NULL, nonull(dst), [matA|matB]!=NULL, nonull([matA|matB]), sep(dst,[matA|matB]), tn>0

在文件 mat22_mul.c 第 83 行定义.

  {
    lmmp_param_assert(matA != NULL && matB != NULL && dst != NULL);
    lmmp_param_assert(tn > 0);
    if (matA == matB) {
        lmmp_mat22_sqr_basecase_(dst, matA, tp, tn);
        return;
    }
    TEMP_DECL;
    if (tp == NULL)
        tp = TALLOC_TYPE(tn * 2, mp_limb_t);
#define p1 tp
#define p2 tp + tn
    mp_ssize_t pn1, pn2;
    pn1 = lmmp_mul_signed_(p1, matA->a00, matA->n00, matB->a00, matB->n00);
    pn2 = lmmp_mul_signed_(p2, matA->a01, matA->n01, matB->a10, matB->n10);
    dst->n00 = lmmp_add_signed_(dst->a00, p1, pn1, p2, pn2);
    pn1 = lmmp_mul_signed_(p1, matA->a00, matA->n00, matB->a01, matB->n01);
    pn2 = lmmp_mul_signed_(p2, matA->a01, matA->n01, matB->a11, matB->n11);
    dst->n01 = lmmp_add_signed_(dst->a01, p1, pn1, p2, pn2);
    pn1 = lmmp_mul_signed_(p1, matA->a10, matA->n10, matB->a00, matB->n00);
    pn2 = lmmp_mul_signed_(p2, matA->a11, matA->n11, matB->a10, matB->n10);
    dst->n10 = lmmp_add_signed_(dst->a10, p1, pn1, p2, pn2);
    pn1 = lmmp_mul_signed_(p1, matA->a10, matA->n10, matB->a01, matB->n01);
    pn2 = lmmp_mul_signed_(p2, matA->a11, matA->n11, matB->a11, matB->n11);
    dst->n11 = lmmp_add_signed_(dst->a11, p1, pn1, p2, pn2);
#undef p1
#undef p2
    TEMP_FREE;
}

引用了 lmmp_mat22_t::a00, lmmp_mat22_t::a01, lmmp_mat22_t::a10, lmmp_mat22_t::a11, lmmp_add_signed_(), lmmp_mat22_sqr_basecase_(), lmmp_mul_signed_(), lmmp_param_assert, lmmp_mat22_t::n00, lmmp_mat22_t::n01, lmmp_mat22_t::n10, lmmp_mat22_t::n11, p1, p2, TALLOC_TYPE, TEMP_DECL, TEMP_FREE , 以及 tp.

被这些函数引用 lmmp_mat22_mul_().

函数调用图:

这是这个函数的调用关系图:

◆ lmmp_mat22_mul_size_()

int lmmp_mat22_mul_size_	(	lmmp_mat22_t *	dst,
		const lmmp_mat22_t *	matA,
		const lmmp_mat22_t *	matB,
		mp_size_t *	tn,
		mp_size_t *	maxa
	)

计算2x2矩阵和2x2矩阵的乘积需要分配的内存

参数

dst	结果矩阵，dst中的n将会被覆盖为对应位置需要的limb长度，此函数不分配内存。
matA	矩阵A
matB	矩阵B
tn	输出参数，将会被覆盖为缓冲区需要的limb长度，正数
maxa	如果被覆盖，即matA中最大的元素的limb长度+1，此参数只有当确认使用STRASSEN算法时才需要

警告: dst!=NULL, [matA|matB]!=NULL, nonull([matA|matB]), sep(dst,[matA|matB]), tn!=NULL, maxa!=NULL

注解: 如果你可以确认一定不使用STRASSEN算法，则不需要maxa参数，其可以为NULL。

返回: 0表示选择basecase算法，1表示选择STRASSEN算法。

在文件 mat22_mul.c 第 13 行定义.

  {
    lmmp_param_assert(matA!= NULL && matB!= NULL && dst!= NULL);
    lmmp_param_assert(tn != NULL);
    if (matA == matB) {
        mp_ssize_t A00 = LMMP_ABS(matA->n00);
        mp_ssize_t A01 = LMMP_ABS(matA->n01);
        mp_ssize_t A10 = LMMP_ABS(matA->n10);
        mp_ssize_t A11 = LMMP_ABS(matA->n11);
        if (A00 < MAT22_SQR_STRASSEN_THRESHOLD || A01 < MAT22_SQR_STRASSEN_THRESHOLD ||
            A10 < MAT22_SQR_STRASSEN_THRESHOLD || A11 < MAT22_SQR_STRASSEN_THRESHOLD ) {
            dst->n00 = LMMP_MAX((A00 + A00), (A01 + A10));
            dst->n01 = LMMP_MAX((A00 + A01), (A01 + A11));
            dst->n10 = LMMP_MAX((A10 + A00), (A11 + A10));
            dst->n11 = LMMP_MAX((A10 + A01), (A11 + A11));
            *tn = LMMP_MAX(LMMP_MAX(LMMP_MAX(dst->n00, dst->n01), dst->n10), dst->n11) + 1;
            ++(dst->n00);
            ++(dst->n01);
            ++(dst->n10);
            ++(dst->n11);
            return 0;
        } else {
            *maxa = LMMP_MAX(LMMP_MAX(LMMP_MAX(A00, A01), A10), A11) + 1;
            *tn = (*maxa << 1) + 1;
            dst->n00 = *tn;
            dst->n01 = *tn;
            dst->n10 = *tn;
            dst->n11 = *tn;
            return 1;
        }
    } else {
        mp_ssize_t A00 = LMMP_ABS(matA->n00);
        mp_ssize_t A01 = LMMP_ABS(matA->n01);
        mp_ssize_t A10 = LMMP_ABS(matA->n10);
        mp_ssize_t A11 = LMMP_ABS(matA->n11);
        mp_ssize_t B00 = LMMP_ABS(matB->n00);
        mp_ssize_t B01 = LMMP_ABS(matB->n01);
        mp_ssize_t B10 = LMMP_ABS(matB->n10);
        mp_ssize_t B11 = LMMP_ABS(matB->n11);
        if (A00 < MAT22_MUL_STRASSEN_THRESHOLD || A01 < MAT22_MUL_STRASSEN_THRESHOLD ||
            A10 < MAT22_MUL_STRASSEN_THRESHOLD || A11 < MAT22_MUL_STRASSEN_THRESHOLD ||
            B00 < MAT22_MUL_STRASSEN_THRESHOLD || B01 < MAT22_MUL_STRASSEN_THRESHOLD ||
            B10 < MAT22_MUL_STRASSEN_THRESHOLD || B11 < MAT22_MUL_STRASSEN_THRESHOLD) {
            dst->n00 = LMMP_MAX((A00 + B00), (A01 + B10));
            dst->n01 = LMMP_MAX((A00 + B01), (A01 + B11));
            dst->n10 = LMMP_MAX((A10 + B00), (A11 + B10));
            dst->n11 = LMMP_MAX((A10 + B01), (A11 + B11));
            *tn = LMMP_MAX(LMMP_MAX(LMMP_MAX(dst->n00, dst->n01), dst->n10), dst->n11);
            ++(dst->n00);
            ++(dst->n01);
            ++(dst->n10);
            ++(dst->n11);
            return 0;
        } else {
            *maxa = LMMP_MAX(LMMP_MAX(LMMP_MAX(A00, A01), A10), A11) + 1;
            *tn = *maxa + LMMP_MAX(LMMP_MAX(LMMP_MAX(B00, B01), B10), B11) + 1;
            dst->n00 = *tn;
            dst->n01 = *tn;
            dst->n10 = *tn;
            dst->n11 = *tn;
            return 1;
        }
    }
}

引用了 A11, B11, LMMP_ABS, LMMP_MAX, lmmp_param_assert, MAT22_MUL_STRASSEN_THRESHOLD, MAT22_SQR_STRASSEN_THRESHOLD, lmmp_mat22_t::n00, lmmp_mat22_t::n01, lmmp_mat22_t::n10 , 以及 lmmp_mat22_t::n11.

◆ lmmp_mat22_mul_strassen_()

void lmmp_mat22_mul_strassen_	(	lmmp_mat22_t *	dst,
		const lmmp_mat22_t *	matA,
		const lmmp_mat22_t *	matB,
		mp_ptr	tp,
		mp_size_t	tn,
		mp_size_t	maxa
	)

计算（稠密）2x2矩阵和（稠密）2x2矩阵的乘积（STRASSEN算法）

参数

dst	结果矩阵。
matA	矩阵A
matB	矩阵B
tp	临时缓冲区，用于存储中间结果，需要分配7*(tn+1)个limb，若为NULL，则会自动分配。
tn	缓冲区的limb长度
maxa	matA中最大的元素的limb长度+1，建议由lmmp_mat22_mul_size_确定

警告: dst!=NULL, nonull(dst), [matA|matB]!=NULL, nonull([matA|matB]), sep(dst,[matA|matB]), tn>0

在文件 mat22_mul.c 第 194 行定义.

  {
    lmmp_param_assert(matA != NULL && matB != NULL && dst != NULL);
    lmmp_param_assert(tn > 0 && maxa > 0);
    if (matA == matB) {
        lmmp_mat22_sqr_strassen_(dst, matA, tp, tn);
        return;
    }
    TEMP_B_DECL;
    ++tn;
    if (tp == NULL)
        tp = BALLOC_TYPE(tn * 7, mp_limb_t);
 
#define A11 (matA->a00) 
#define A12 (matA->a01)
#define A21 (matA->a10)
#define A22 (matA->a11)
#define B11 (matB->a00)
#define B12 (matB->a01)
#define B21 (matB->a10)
#define B22 (matB->a11)
#define A11n (matA->n00)
#define A12n (matA->n01)
#define A21n (matA->n10)
#define A22n (matA->n11)
#define B11n (matB->n00)
#define B12n (matB->n01)
#define B21n (matB->n10)
#define B22n (matB->n11)
 
#define s1 (dst->a00)
#define s2 (dst->a01)
#define s3 (dst->a10)
#define s4 (dst->a11)
#define t1 (dst->a00 + maxa)
#define t2 (dst->a01 + maxa)
#define t3 (dst->a10 + maxa)
#define t4 (dst->a11 + maxa)
#define p1 (tp)
#define p2 (tp + tn)
#define p3 (tp + 2 * tn)
#define p4 (tp + 3 * tn)
#define p5 (tp + 4 * tn)
#define p6 (tp + 5 * tn)
#define p7 (tp + 6 * tn)
    mp_ssize_t n1, n2, n3, n4, n5, n6, n7, n8;
    n1 = lmmp_add_signed_(s1, A22, A22n, A12, A12n);
    n2 = lmmp_add_signed_(s2, A22, A22n, A21, -A21n);
    n3 = lmmp_add_signed_(s3, s2, n2, A12, A12n);
    n4 = lmmp_add_signed_(s4, s3, n3, A11, -A11n);
    n5 = lmmp_add_signed_(t1, B22, B22n, B12, B12n);
    n6 = lmmp_add_signed_(t2, B22, B22n, B21, -B21n);
    n7 = lmmp_add_signed_(t3, t2, n6, B12, B12n);
    n8 = lmmp_add_signed_(t4, t3, n7, B11, -B11n);
 
    n1 = lmmp_mul_signed_(p1, s1, n1, t1, n5);
    n5 = lmmp_mul_signed_(p2, s2, n2, t2, n6);
    n2 = lmmp_mul_signed_(p3, s3, n3, t3, n7);
    n7 = lmmp_mul_signed_(p4, A11, A11n, B11, B11n);
    n6 = lmmp_mul_signed_(p5, A12, A12n, B21, B21n);
    n3 = lmmp_mul_signed_(p6, s4, n4, B12, B12n);
    n4 = lmmp_mul_signed_(p7, A21, A21n, t4, n8);
 
#undef s1
#undef s2
#undef s3
#undef s4
#undef t1
#undef t2
#undef t3
#undef t4
 
#define p1n n1
#define p2n n5
#define p3n n2
#define p4n n7
#define p5n n6
#define p6n n3
#define p7n n4
 
#undef A11
#undef A12
#undef A21
#undef A22
#undef B11
#undef B12
#undef B21
#undef B22
#undef A11n
#undef A12n
#undef A21n
#undef A22n
#undef B11n
#undef B12n
#undef B21n
#undef B22n
 
#define C11 (dst->a00)
#define C12 (dst->a01)
#define C21 (dst->a10)
#define C22 (dst->a11)
#define C11n (dst->n00)
#define C12n (dst->n01)
#define C21n (dst->n10)
#define C22n (dst->n11)
 
    C11n = lmmp_add_signed_(C11, p4, p4n, p5, p5n);
#define U1 p5 // U1 = p3 + p5
#define U2 p1 // U2 = p1 - U1
#define U3 U1 // U3 = U1 - p2
#define U1n p5n
#define U2n p1n
#define U3n n8
    U1n = lmmp_add_signed_(U1, p3, p3n, p5, p5n);
    U2n = lmmp_add_signed_(U2, p1, p1n, U1, -U1n);
    U3n = lmmp_add_signed_(U3, U1, U1n, p2, -p2n);
 
    C12n = lmmp_add_signed_(C12, U3, U3n, p6, -p6n);
    C21n = lmmp_add_signed_(C21, U2, U2n, p7, -p7n);
    C22n = lmmp_add_signed_(C22, p2, p2n, U2, U2n);
    TEMP_B_FREE;
 
#undef C11
#undef C12
#undef C21
#undef C22
#undef C11n
#undef C12n
#undef C21n
#undef C22n
#undef U1
#undef U2
#undef U3
#undef U1n
#undef U2n
#undef U3n
  
#undef p1    
#undef p2    
#undef p3    
#undef p4    
#undef p5    
#undef p6    
#undef p7    
}

引用了 A11, A11n, A12, A12n, A21, A21n, A22, A22n, B11, B11n, B12, B12n, B21, B21n, B22, B22n, BALLOC_TYPE, C11, C11n, C12, C12n, C21, C21n, C22, C22n, lmmp_add_signed_(), lmmp_mat22_sqr_strassen_(), lmmp_mul_signed_(), lmmp_param_assert, p1, p1n, p2, p2n, p3, p3n, p4, p4n, p5, p5n, p6, p6n, p7, p7n, s1, s2, s3, s4, t1, t2, t3, t4, TEMP_B_DECL, TEMP_B_FREE, tp, U1, U1n, U2, U2n, U3 , 以及 U3n.

被这些函数引用 lmmp_mat22_mul_().

函数调用图:

这是这个函数的调用关系图:

◆ lmmp_mat22_sqr_basecase_()

void lmmp_mat22_sqr_basecase_	(	lmmp_mat22_t *	dst,
		const lmmp_mat22_t *	matA,
		mp_ptr	tp,
		mp_size_t	tn
	)

计算2x2矩阵平方

参数

dst	结果矩阵。
matA	矩阵A
tp	临时缓冲区，用于存储中间结果，需要分配2*tn个limb，若为NULL，则会自动分配。
tn	缓冲区的limb长度
maxa	matA中最大的元素的limb长度+1，建议由lmmp_mat22_mul_size_确定

警告: dst!=NULL, nonull(dst), matA!=NULL, nonull(matA), sep(dst,matA), tn>0

在文件 mat22_mul.c 第 119 行定义.

  {
    TEMP_DECL;
    if (tp == NULL)
        tp = TALLOC_TYPE(tn * 2, mp_limb_t);
#define p1 tp
#define p2 tp + tn
    mp_ssize_t pn1, pn2;
    pn1 = lmmp_sqr_signed_(p1, matA->a00, matA->n00);
    pn2 = lmmp_mul_signed_(p2, matA->a01, matA->n01, matA->a10, matA->n10);
    dst->n00 = lmmp_add_signed_(dst->a00, p1, pn1, p2, pn2);
    pn1 = lmmp_mul_signed_(p1, matA->a00, matA->n00, matA->a01, matA->n01);
    pn2 = lmmp_mul_signed_(p2, matA->a01, matA->n01, matA->a11, matA->n11);
    dst->n01 = lmmp_add_signed_(dst->a01, p1, pn1, p2, pn2);
    pn1 = lmmp_mul_signed_(p1, matA->a10, matA->n10, matA->a00, matA->n00);
    pn2 = lmmp_mul_signed_(p2, matA->a11, matA->n11, matA->a10, matA->n10);
    dst->n10 = lmmp_add_signed_(dst->a10, p1, pn1, p2, pn2);
    pn1 = lmmp_mul_signed_(p1, matA->a10, matA->n10, matA->a01, matA->n01);
    pn2 = lmmp_sqr_signed_(p2, matA->a11, matA->n11);
    dst->n11 = lmmp_add_signed_(dst->a11, p1, pn1, p2, pn2);
#undef p1
#undef p2
    TEMP_FREE;
}

引用了 lmmp_mat22_t::a00, lmmp_mat22_t::a01, lmmp_mat22_t::a10, lmmp_mat22_t::a11, lmmp_add_signed_(), lmmp_mul_signed_(), lmmp_sqr_signed_(), lmmp_mat22_t::n00, lmmp_mat22_t::n01, lmmp_mat22_t::n10, lmmp_mat22_t::n11, p1, p2, TALLOC_TYPE, TEMP_DECL, TEMP_FREE , 以及 tp.

被这些函数引用 lmmp_mat22_mul_basecase_() , 以及 lmmp_mat22_sqr_().

函数调用图:

这是这个函数的调用关系图:

◆ lmmp_mat22_sqr_strassen_()

void lmmp_mat22_sqr_strassen_	(	lmmp_mat22_t *	dst,
		const lmmp_mat22_t *	matA,
		mp_ptr	tp,
		mp_size_t	tn
	)

计算（稠密）2x2矩阵平方（STRASSEN算法）

参数

dst	结果矩阵。
matA	矩阵A
tp	临时缓冲区，用于存储中间结果，需要分配7*(tn+1)个limb，若为NULL，则会自动分配。
tn	缓冲区的limb长度

警告: dst!=NULL, nonull(dst), matA!=NULL, nonull(matA), sep(dst,matA), tn>0

在文件 mat22_mul.c 第 346 行定义.

                                                                                                   {
    lmmp_param_assert(mat != NULL && dst != NULL);
    TEMP_B_DECL;
    ++tn;
    if (tp == NULL)
        tp = BALLOC_TYPE(tn * 7, mp_limb_t);
 
#define A11 (mat->a00)
#define A12 (mat->a01)
#define A21 (mat->a10)
#define A22 (mat->a11)
#define A11n (mat->n00)
#define A12n (mat->n01)
#define A21n (mat->n10)
#define A22n (mat->n11)
 
#define s1 (dst->a00)
#define s2 (dst->a01)
#define s3 (dst->a10)
#define s4 (dst->a11)
#define p1 (tp)
#define p2 (tp + tn)
#define p3 (tp + 2 * tn)
#define p4 (tp + 3 * tn)
#define p5 (tp + 4 * tn)
#define p6 (tp + 5 * tn)
#define p7 (tp + 6 * tn)
    mp_ssize_t n1, n2, n3, n4, n5, n6, n7, n8;
    n1 = lmmp_add_signed_(s1, A22, A22n, A12, A12n);
    n2 = lmmp_add_signed_(s2, A22, A22n, A21, -A21n);
    n3 = lmmp_add_signed_(s3, s2, n2, A12, A12n);
    n4 = lmmp_add_signed_(s4, s3, n3, A11, -A11n);
 
    n1 = lmmp_sqr_signed_(p1, s1, n1);
    n5 = lmmp_sqr_signed_(p2, s2, n2);
    n2 = lmmp_sqr_signed_(p3, s3, n3);
    n7 = lmmp_sqr_signed_(p4, A11, A11n);
    n6 = lmmp_mul_signed_(p5, A12, A12n, A21, A21n);
    n3 = lmmp_mul_signed_(p6, s4, n4, A12, A12n);
    n4 = lmmp_mul_signed_(p7, A21, A21n, s4, n4);
 
#undef s1
#undef s2
#undef s3
#undef s4
 
#define p1n n1
#define p2n n5
#define p3n n2
#define p4n n7
#define p5n n6
#define p6n n3
#define p7n n4
 
#undef A11
#undef A12
#undef A21
#undef A22
#undef A11n
#undef A12n
#undef A21n
#undef A22n
 
#define C11 (dst->a00)
#define C12 (dst->a01)
#define C21 (dst->a10)
#define C22 (dst->a11)
#define C11n (dst->n00)
#define C12n (dst->n01)
#define C21n (dst->n10)
#define C22n (dst->n11)
 
    C11n = lmmp_add_signed_(C11, p4, p4n, p5, p5n);
#define U1 p5  // U1 = p3 + p5
#define U2 p1  // U2 = p1 - U1
#define U3 U1  // U3 = U1 - p2
#define U1n p5n
#define U2n p1n
#define U3n n8
    U1n = lmmp_add_signed_(U1, p3, p3n, p5, p5n);
    U2n = lmmp_add_signed_(U2, p1, p1n, U1, -U1n);
    U3n = lmmp_add_signed_(U3, U1, U1n, p2, -p2n);
 
    C12n = lmmp_add_signed_(C12, U3, U3n, p6, -p6n);
    C21n = lmmp_add_signed_(C21, U2, U2n, p7, -p7n);
    C22n = lmmp_add_signed_(C22, p2, p2n, U2, U2n);
    TEMP_B_FREE;
 
#undef C11
#undef C12
#undef C21
#undef C22
#undef C11n
#undef C12n
#undef C21n
#undef C22n
#undef U1
#undef U2
#undef U3
#undef U1n
#undef U2n
#undef U3n
 
#undef p1
#undef p2
#undef p3
#undef p4
#undef p5
#undef p6
#undef p7
}

引用了 A11, A11n, A12, A12n, A21, A21n, A22, A22n, BALLOC_TYPE, C11, C11n, C12, C12n, C21, C21n, C22, C22n, lmmp_add_signed_(), lmmp_mul_signed_(), lmmp_param_assert, lmmp_sqr_signed_(), p1, p1n, p2, p2n, p3, p3n, p4, p4n, p5, p5n, p6, p6n, p7, p7n, s1, s2, s3, s4, TEMP_B_DECL, TEMP_B_FREE, tp, U1, U1n, U2, U2n, U3 , 以及 U3n.

被这些函数引用 lmmp_mat22_mul_strassen_() , 以及 lmmp_mat22_sqr_().

函数调用图:

这是这个函数的调用关系图: