批内/截面命名空间 / batch.py
batch.residual
批算子,无状态保留,计算线性回归残差。
可执行示例returns: Exprbatch
输入 / 输出
输入
y, x1, x2
| 输入项 | 类型 | 示例 |
|---|---|---|
y | Float64 | 1.5 |
x1 | Float64 | 0.5 |
x2 | Float64 | 2.0 |
输出
| 项目 | 说明 |
|---|---|
| 返回类型 | Expr |
| 输出对象 | Expr;执行后得到 Polars DataFrame |
| 输出语义 | 输出列由算子、alias 或底层实现决定;需要稳定列名时显式使用 alias。 |
| 执行方式 | 用 col(...).runtime() 或 col.with_cols(...).runtime() 创建执行计划后 calc_data。 |
| 核心调用 | col('y', 'x1', 'x2').batch.residual(False) |
打印输入 / 打印输出
下面内容来自本页示例代码真实执行后的 stdout,不是手写占位。
打印输入
shape: (20, 3) ┌─────┬─────┬──────┐ │ y ┆ x1 ┆ x2 │ │ --- ┆ --- ┆ --- │ │ f64 ┆ f64 ┆ f64 │ ╞═════╪═════╪══════╡ │ 1.5 ┆ 0.5 ┆ 2.0 │ │ 2.1 ┆ 0.7 ┆ 1.88 │ │ 2.7 ┆ 0.9 ┆ 1.76 │ │ 2.7 ┆ 1.1 ┆ 1.64 │ │ 3.3 ┆ 1.3 ┆ 1.52 │ │ … ┆ … ┆ … │ │ 7.5 ┆ 3.5 ┆ 2.45 │ │ 8.1 ┆ 3.7 ┆ 2.33 │ │ 8.7 ┆ 3.9 ┆ 2.21 │ │ 8.7 ┆ 4.1 ┆ 2.09 │ │ 9.3 ┆ 4.3 ┆ 1.97 │ └─────┴─────┴──────┘
打印输出
shape: (20, 1) ┌───────────┐ │ y │ │ --- │ │ f64 │ ╞═══════════╡ │ -0.215382 │ │ 0.031108 │ │ 0.277597 │ │ -0.075913 │ │ 0.170577 │ │ … │ │ -0.331565 │ │ -0.085075 │ │ 0.161414 │ │ -0.192096 │ │ 0.054393 │ └───────────┘
调用
col('y', 'x1', 'x2').batch.residual(False)| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
intercept | bool | False | 位置参数 |
完整代码
本页完整例子会执行真实的
calc_data 或对象调用。展开可复制完整代码
import datetime as dt
import polars as pl
import qust as qs
from qust import col, pms
data = pl.DataFrame(
{
"y": [1.5, 2.1, 2.7, 2.7, 3.3, 3.9, 3.9, 4.5, 5.1, 5.1, 5.7, 6.3, 6.3, 6.9, 7.5, 7.5, 8.1, 8.7, 8.7, 9.3],
"x1": [0.5, 0.7, 0.9, 1.1, 1.3, 1.5, 1.7, 1.9, 2.1, 2.3, 2.5, 2.7, 2.9, 3.1, 3.3, 3.5, 3.7, 3.9, 4.1, 4.3],
"x2": [2.0, 1.88, 1.76, 1.64, 1.52, 2.15, 2.03, 1.91, 1.79, 1.67, 2.3, 2.18, 2.06, 1.94, 1.82, 2.45, 2.33, 2.21, 2.09, 1.97],
}
)
print("算子:")
print('batch.residual')
print("场景:")
print('批内/截面:在同一 batch 或同一截面里排序、排名、标准化。')
print("模式:")
print('可执行示例:构造表达式并运行 calc_data。')
print("输入列:")
print('y, x1, x2')
print("调用:")
print("col('y', 'x1', 'x2').batch.residual(False)")
print("输入数据:")
print(data)
expr = col('y', 'x1', 'x2').batch.residual(False)
df = col(expr).runtime()
out = df.calc_data(data)
print("输出:")
print(out)改成业务代码
| 改哪里 | 怎么改 |
|---|---|
| 列名 | 把示例 DataFrame 里的列名换成你的真实列名,列顺序保持和用法一致。 |
| 参数 | 只改函数括号里的参数;不要随意改变 rolling/over/batch/select 的链式层级。 |
| 输出名 | 需要稳定输出列名时,在表达式尾部加 .alias("name")。 |
| 调试 | 先打印输入数据和调用字符串,再执行 calc_data;报 schema 错时先检查列数和 dtype。 |
注意事项
- 先确认输入列名、顺序、类型和本页一致。
- 输出列名不符合业务语义时,显式追加
.alias(...)。 - 窗口和分组类算子要确认
rolling/expanding/over/batch的链式层级。
来源
| 项目 | 位置 |
|---|---|
| 源码文件 | batch.py |
| 类/对象 | Batch |