首先是对上一篇博文中所提到论文中的一些方法进行补充。
重参数化(re-parameterization)
在机器学习和深度学习中,re-parameterization(重新参数化)是一种技术,旨在使模型训练更加高效和稳定。re-parameterization 技术将一个随机变量(如一个潜在向量)表示为另一个随机变量的函数,从而使其可以用标准的优化算法进行处理。
在深度学习中,re-parameterization 主要用于优化变分自编码器(VAE)和生成对抗网络(GAN)等模型。这些模型通常涉及对随机噪声的操作,而re-parameterization 可以使这些操作变得更加简单和有效。
具体来说,re-parameterization 技术可以将一个随机变量 z 表示为 μ + σε 的形式,其中 μ 和 σ 是模型的可学参数,ε 是从标准正态分布中采样得到的随机噪声。这个表示方法允许我们使用梯度下降等标准优化算法来优化模型,而不需要使用随机梯度估计等计算复杂的方法。
例如,在变分自编码器中,我们希望学习生成数据的潜在变量表示。我们可以将潜在变量 z 表示为 μ + σε 的形式,其中 μ 和 σ 是变分自编码器的编码器输出,ε 是从标准正态分布中采样得到的随机噪声。通过将 z 表示为这种形式,我们可以使用反向传播算法对 μ 和 σ 进行优化,从而学习到更好的潜在变量表示。
总之,re-parameterization 技术允许我们将随机变量表示为可学参数的函数,从而使模型训练更加高效和稳定。它在深度学习中得到了广泛应用,尤其是在涉及随机噪声的模型中。
参考自:ChatGPT
一些新知识:
gamma校正:
Gamma校正是一种在数字图像处理中使用的技术,用于改善显示器显示的图像质量。它是一种针对电视、电影和计算机显示器的技术,它的主要目的是纠正显示器中存在的非线性亮度响应。
Gamma值是用来描述显示器响应的非线性度量。Gamma值越高,显示器的响应曲线就越弯曲,显示的图像就越暗。Gamma值越低,显示器的响应曲线就越直,显示的图像就越亮。
Gamma校正通过应用一个Gamma值来调整图像的亮度级别。Gamma校正的目标是将输入亮度范围内的值映射到输出亮度范围内的值,使得显示器显示的图像具有更好的对比度和色彩鲜艳度。
Gamma校正在数字摄影、电影和计算机图形中广泛使用,可以通过图像处理软件或硬件来实现。
gamma校正具体操作:
-
确定所需的Gamma值。Gamma值通常在0.5-2.5范围内取值,通常默认值为1.0。
-
将图像中每个像素的RGB值取出,对其进行以下转换: 新像素值 = 255 * (原像素值 / 255)^(1 / gamma值)
-
将计算得到的新像素值重新赋给原来的像素位置。
-
对整个图像重复以上操作直至所有像素完成Gamma校正。
注意:需要确保在处理多通道图像时,对于每个通道都进行相同的Gamma校正操作。
代码如下:
import cv2 import numpy as np # 加载图像 img = cv2.imread('input_image.jpg', 0) # 设置 gamma 值 gamma = 1/2.2 # 创建查找表 inv_gamma = 1.0 / gamma table = np.array([((i / 255.0) ** inv_gamma) * 255 for i in np.arange(0, 256)]).astype("uint8") # 应用查找表 result = cv2.LUT(img, table) # 显示结果 cv2.imshow('Input Image', img) cv2.imshow('Gamma Corrected Image', result) cv2.waitKey(0) cv2.destroyAllWindows()
gamma=1/2.2
左图为原始图像,右图为gamma校正后的图像
gamma=2.2
左图为原始图像,右图为gamma校正后的图像
gamma校正的好处在于:能够有效地降低图像局部的阴影和光照变化
函数释义:
1、cv2.imread('1.jpg', 0):将图像1.jpg的灰度图像读入,并返回numpy数组形式
类似的操作还有,PIL库中的Image.open('1.jpg'),不同的是Image.open()函数返回的是PIL库中的Image对象,其中包含了图像的像素信息以及一些相关的元数据,可以进行后续的各种图像操作。
此时需要另外一个函数convert()将图像转换为灰度图像,具体操作为:
from PIL import Image image = Image.open('1.jpg') image_gray = image.convert('L')
2、cv2.LUT()函数用于执行查找表操作。它接受两个参数,第一个参数是输入图像,第二个参数是颜色映射表或灰度级映射表。
该函数返回与输入图像相同大小的输出图像,其中每个像素的像素值通过查找表进行映射。查找表可以由numpy数组表示,其中每个元素表示输入像素值的索引,对应的输出像素值为该元素的值。
通过使用查找表,我们可以对图像进行多种变换,例如图像增强、颜色转换等。
其中LUT是"Look-Up Table"的缩写,也称为表查找或色彩映射表。
3、cv2.waitKey(0)函数的作用是允许程序等待用户按下一个按键,在这里的作用是使窗口等待,直到用户按下任意键才能关闭窗口。
4、cv2.destroyWindows()函数来销毁所有创建的窗口,以避免内存泄漏。
(tips:如果使用的OpenCV版本较老,可能会出现以下报错:
建议将函数改为 cv2.destroyAllWindows()
请注意,如果您的 OpenCV 版本较老,也可能会出现此错误,因为 'destroyAllWindows' 函数是在 OpenCV 2.4.11 版本中引入的。如果您的版本较老,请尝试升级到最新版本或使用其他相应的函数。)