一个精确的数学概念,像素是图片的基本粒子,基于无限的微妙解包
我的手机中有数十亿像素,你可能也有。但什么是像素?为什么这么多人认为像素是相邻的小方块?现在我们在 zettapixels(21 个零)的海洋中游泳,是时候了解它们是什么了。潜在的想法 — — 对无限的重新包装 — — 是微妙而美丽的。像素远不是“某种”近似于平滑视觉场景的正方形或点,而是我们周围所有图像的核心 — — 现代图片的基本粒子 — — 的深刻而精确的概念。
像素的简短历史始于法国大革命中的约瑟夫·傅立叶,结束于 2000 年,也就是最近的千年。我去掉了通常的数学包袱,将像素从普通视图中隐藏起来,然后提出一种看待它所做的事情的方法。
千禧年是一个合适的终点,因为它标志着所谓的数字大融合,这是一个巨大但不为人知的事件,当时所有旧的模拟媒体类型都合并为一个数字媒体。数字光的时代 — — 所有图片,无论出于何种目的,都是由像素构成的 — — 就这样悄然开始了。这是一个广阔的领域:书籍、电影、电视、电子游戏、手机显示屏、应用程序界面、虚拟现实、气象卫星图像、火星探测器图片 — — 仅举几类 — — 甚至是停车计时器和仪表板。当今世界上几乎所有的图片都是数码灯,包括几乎所有的印刷文字。事实上,由于数字爆炸,这几乎包括了曾经制作的所有照片。艺术博物馆和幼儿园是为数不多的模拟堡垒。
几乎所有科学技术领域的人都知道傅立叶。我们每天都在使用他的理念。但大多数人对这个人本人知之甚少。很少有人知道他几乎因为在 1790 年代法国大革命中的角色而被送上断头台。或者说他和拿破仑·波拿巴一起去埃及参加了揭开罗塞塔石碑的探险。或者拿破仑将他流放到格勒诺布尔是为了让他 — — 或者,更重要的是,他对拿破仑在埃及的军事尴尬的了解 — — 远离巴黎。在流放期间,他掌握了自己伟大的音乐理念。只有当拿破仑本人最终被流放到圣赫勒拿岛时,傅立叶才能返回巴黎。
众所周知,音乐是不同频率(音高)和幅度(响度)的声波的总和。是傅立叶告诉我们所有的音频也是由波组成的。他告诉我们,一维 (1D) 信号,例如一系列声音,是美丽规则波的总和,如下图所示:
对于像素而言,重要的是,傅立叶告诉我们,二维 (2D) 信号(例如图片)也是规则波的总和,如下图所示。它们是从页面中挤出并从涟漪上方观察的一维波浪。傅立叶告诉我们,您可以将这些波纹加在一起以获得任何照片 — — 例如您孩子的照片。都是音乐。
也许这个故事中最出人意料的人 — — 至少对于美国的读者来说 — — 是弗拉基米尔·科捷利尼科夫(Vladimir Kotelnikov),他将傅里叶的想法变成了像素。科捷利尼科夫出生于喀山,是一个有着数百年历史的数学家家族,他经历了整个苏联时代 — — 第一次世界大战、俄罗斯革命、第二次世界大战和冷战。苏联安全机构克格勃的前身 NKVD 在斯大林时代曾两次试图监禁他,但保护者瓦莱里娅·戈卢布佐娃(Valeriya Golubtsova)两次都救了他。她可以,因为她的母亲是俄罗斯革命家弗拉基米尔·列宁的私人朋友,而她本人是斯大林的直接继任者格奥尔基·马林科夫的妻子,成为苏联领导人。
在他职业生涯的早期,科捷利尼科夫展示了如何用我们现在所说的像素来表示图片。他于 1933 年发表的美丽而惊人的采样定理(下图 )是现代图片世界的基础。我们故事中俄语片段中的摆动形状。
美国人通常被教导克劳德香农首先证明了采样定理,但他甚至从未声称过它。他说,这是“常识”。有几个国家声称拥有这一称号,但 科捷利尼科夫是第一个证明整个定理的人,因为它今天使用。俄罗斯人当然相信。2003 年在克里姆林宫,在科捷尔尼科夫证明 70 周年之际,俄罗斯总统弗拉基米尔·普京授予他祖国功勋勋章。
科捷利尼科夫伟大的采样思想是建立在傅立叶伟大思想的肩膀上的。考虑下面图中的1D 信号 — — 例如,音频信号或通过视觉场景的一条线。同样的想法适用于声音和图片。水平线代表0 响度(对于声音)或0 亮度(对于图片):
从傅里叶,我们知道任何这样的平滑信号都可以表示为不同频率和幅度的波的总和。下面的图 显示了一种这样的傅里叶波。它具有最高频率,因为给定信号中没有任何东西摆动得更快。科捷利尼科夫让我们找到最高的傅立叶频率,然后以两倍的频率沿着信号均匀分布点。
科捷利尼科夫的惊人发现是我们可以丢弃点之间的信号,但不会丢失任何东西。我们可以简单地省略每对点之间的无穷大点。平滑原始信号的规则间隔样本(在点处(下图 ))携带原始信号中的所有信息。我希望你对这个革命性的声明感到惊讶。它启用了现代媒体世界。在图片的情况下,我们称每个这样的样本为一个像素。一个像素只存在于一个点上。它是零维 (0D),没有范围。你看不到一个像素。
科捷利尼科夫还展示了如何从样本中恢复原始信号 — — 如何使不可见的像素可见。下面的图 重复了 科捷利尼科夫1933 年论文中的摆动形状。我称之为spreader。你很快就会明白为什么:
但是这个理想的spreader有一个严重的缺陷:它永远在两个方向上摆动到无穷大。这在数学中很好,但在现实世界中,我们不能使用无限宽泛的东西。因此,我们替换了一个有限宽度的spreader,如下图 所示的流行且有效的spreader:
采样定理让我们在每个样本处放置一个扩展器(下图 )。我们将每个的高度调整为样本的高度:
然后将结果相加(下图),得到顶部的粗线。它是从样本中重建的原始信号。我们所要做的就是用散布器散布每个样品,然后将结果相加。这就是 科捷利尼科夫的惊人定理。
但是图片是二维的。像素的散布器看起来像一个小丘(下图)。横截面显示的边缘正是我们刚刚在示例中使用的一维扩展器:
因此,一张数码图片就像一张钉子床,每个钉子都有一个像素。为了恢复原始图片的可见性,我们用小丘分布器散布每个像素,并将结果相加。那个小丘 — — 那个小小的“无限团” — — 提供了像素之间缺失的无限。这就是无限的重新包装。这是一个非常巧妙的技巧。这个方案是否可行并不明显,但采样定理的数学证明了这一点。它再次展示了数学的非凡力量,可以将我们带到不直观且极其有用的地方。
是您在手机中携带像素,例如,存储在图片文件中。你看不到像素。要查看它们,您需要显示一个图片文件。通常,您“单击它”。由于当今计算机的惊人速度,这似乎是瞬间发生的。数字像素被发送到显示设备,显示设备将它们与显示器屏幕上的小发光点一起传播。展示的行为是我刚刚描述和图解的过程。这些发光点是实际工作中的像素散布器。
许多人称这些点为像素 — — 一个非常常见的错误。像素是数字的、分离的、尖锐的东西,而且是不可见的。小发光点是类似的、重叠的、光滑的东西,并且是可见的。我建议我们将每个元素称为“显示元素”,以将其与“图片元素”(这是“像素”一词的缩写)区分开来。显示元素和像素是根本不同的东西。显示元素因制造商而异,因显示器而异,并且随着时间的推移随着显示技术的发展而变化。但是像素是普遍的,在任何地方都是一样的 — — 甚至在火星上 — — 以及几十年来。
在这次讨论中,我甚至没有提到一个小方块。一个像素 — — 一个不可见的0D 点 — — 不可能是正方形,而来自显示设备的小发光点通常也不是。可以,但前提是spreader是一个硬边盒子 — — 一个不自然的形状,一个方形的台面。方形台面是采样定理支持的平缓小丘扩张器的粗略近似。
那么为什么这么多人认为像素是小方块呢?答案很简单:应用程序和显示器几十年来一直在用一种廉价而肮脏的伎俩愚弄我们。例如,要“放大” 20倍,他们将每个像素替换为该像素副本的20×20 方形阵列,并显示结果。这是一张由400 个(散布)相同颜色的像素排列成正方形的图片。它看起来像一个小正方形 — — 真是一个惊喜。这绝对不是原始像素放大20 倍的图片。
小广场的神话还有另一个原因。像素化是一种微不足道的误传,但它与数字光早期历史中的普遍趋势一致。假设是计算机生成的图片必须是刚性的、线性的、“机械的”和不优雅的,因为计算机是刚性的、线性的等等。我们现在知道这是完全错误的。计算机是人类有史以来建造的最具延展性的工具。它没有施加这样的限制。令人信服的情感特写人类化身开始在计算机上比比皆是。但要消除这种错误的偏见需要几十年的时间。一些残余物仍然存在 — — 例如方形像素的概念。
用手机拍照可能是当今世界上最普遍的数码活动,为数码照片的广阔空间做出了贡献。拍照是对现实世界的直接二维采样。像素存储在图片文件中,它们所代表的图片在许多不同的设备上以各种技术显示。
但是显示器不知道像素来自哪里。采样定理并不关心它们是否真的对现实世界进行了采样。因此,制作像素是当今图片的另一个主要来源,我们使用计算机来完成这项工作。如果像素按照与从现实世界中提取的像素相同的规则播放,我们可以制作似乎采样不真实世界的像素,例如皮克斯电影的想象世界。
拍摄与制作 — — 或拍摄与计算 — — 的区别将数字光分为通常称为图像处理和计算机图形学的两个领域。这是分析与综合之间的经典区别。像素是两者的关键,一个理论足以统一整个领域。
计算是这两个领域的另一个关键。任何图片中涉及的像素数量都是巨大的——通常,只制作一张图片就需要数百万像素。即使是最简单的像素计算,无论是拍摄还是制作,一个独立的人类大脑都无法跟踪。只考虑采样定理的“扩展和加法”操作中最简单的部分 ——加法。你能添加一百万个数字吗?“瞬间”怎么样?我们必须使用电脑。
计算和存储程序计算机概念是由艾伦·图灵于 1936 年发明的。然后,人们开始竞相制造一台机器来快速实现他的想法。图灵自己尝试过但未能制造出第一台“计算机” — — 它是“电子存储程序计算机”的缩写,正是我们今天所说的这个词的意思。英国工程师 Tom Kilburn、Geoff Tootill 和(Sir)Freddie Williams 通过创造第一台计算机赢得了这场比赛,1948 年绰号(信不信由你)Manchester Baby。
Baby有像素!需要重复一遍:第一台计算机拥有第一个像素!它显示了第一个扩展像素。2013 年,当我在曼彻斯特访问 Baby(实际上是复制品)进行研究时,等待着我的还有一个更大的惊喜。Baby 显示向右滚动的单词“PIXAR”。第一台计算机不仅有像素,而且可以动画。
在 Baby 的显示屏上实际上有第一张和第二张数码照片的照片(只是第一张照片中那些非常平淡无奇的字母 CRT STORE)。但似乎没有人再次在上面拍过照片。使用独特的昂贵机器来拍照而不是原子弹计算似乎太轻浮了。1998 年,当 Baby 复制品为庆祝50 周年而制造时,这种对照片的蔑视已经不复存在。今天,想到没有图片的计算机是不自然的。事实上,我们给它们起了一个特殊的名字 — — 服务器。
一旦计算机出现,数字图片、游戏和动画很快就出现了 — — 在一些最早的新野兽身上。第一个互动电子游戏出现在 1951 年,也是在曼彻斯特。第二和第三个互动游戏分别于 1952 年和 1953 年在英国剑桥问世。第一部数字动画于 1951 年在美国剑桥录制,并在 Edward R Murrow 的电视节目See It Now中播放。
但这是恐龙计算机的时代,庞大、缓慢且愚蠢。要从原始状态推进到数字光时代,需要一种强大的能源。
1965 年,摩尔定律革命开始了 — — 一个尚未完全掌握的奇迹。我怎么强调它的重要性都不为过。超新星发电机为现代世界,尤其是数码灯提供动力。我的定律是这样的:计算机的所有优点每五年会提高一个数量级 (下图)。这是通常以这种不直观的方式表述的定律的直观表达:集成电路芯片上的组件密度每 18 个月翻一番。但它们是等价的。
我使用“数量级”而不是仅仅算术上的“10 倍”,因为它暗示了精神上的限制。一个数量级的变化大约与人类可以处理的一样大。更大意味着概念上的飞跃。摩尔定律要求每五年一次。如今,摩尔定律因子已超过1000 亿:现在的计算机比 1965 年要好1000 亿倍。短短几年内,该因子将达到1 万亿。这是12 个数量级 — — 远远超出任何人类的预测能力。我们必须乘风破浪,看看它会把我们带到哪里。
摩尔定律的第一个成果是彩色像素。我在 1967 年初为 NASA 的工程师 Rodney Rougelot 和 Robert Schumacker 建造的阿波罗登月计划模拟器(下图)上找到了第一个模拟器。这也是3D 阴影彩色图形的第一个示例。他们使用了摩尔定律所描述的新器件、集成电路芯片。
其基本思想是对一个虚幻世界进行建模,将该模型存储在计算机内存中,然后将其渲染为像素以散布在显示器上。事实上,这可以看作是计算机图形学的定义。Rougelot 和 Schumacker 创建了一个当时还不存在的阿波罗登月舱模型,使用3D 欧几里得几何和牛顿物理学对其进行了描述,然后将其扁平化为具有文艺复兴时期视角的2D 图片。他们的计算机将这个视觉场景采样成像素并显示它们,如上图所示。
再说一遍:计算机是有史以来发明的最具延展性的工具。它们并没有将数码照片限制在第一个颜色模型中使用的欧几里德-牛顿-文艺复兴时期的紧身衣上。但值得注意的是,当今世界上大多数3D 计算机图形图像仍然以这种方式工作。最夸张的是,我们基本上使用这种技术来创造数字电影的想象世界。我称之为计算机图形学的中心法则,一种自我强加的“交响形式”。
我们对世界的日常体验是一幅随时间变化的画面。它是 3D 的 — — 空间的二维和时间的一维 — — 但傅立叶和科捷利尼科夫理论仍然适用。数字电影使用采样来重现这种体验。我们称时间样本为一帧,每一帧由像素组成。
我专注于电影,但电子游戏、虚拟现实、飞行模拟器和其他形式的数字灯并没有本质上的不同。它们与电影的区别在于,它们的计算是“实时”进行的——也就是说,速度如此之快,以至于人类相信模拟世界与现实世界的时钟同步变化。电影计算机可能需要一个小时来计算单个帧(计算原始的《玩具总动员》需要一年多的时间),而游戏必须在 30 分之一秒内完成。但技术本质上是相同的,摩尔定律已经逐渐蚕食了速度差距。
摩尔定律终于使数字电影成为可能。早在 1986 年,计算机科学家 Ed Catmull 和我创建了 Pixar,希望制作第一部完全数字化的电影,同时知道我们距离必要的马力还差五年。仿佛受到摩尔定律的启发,迪斯尼在 1991 年获得了资金,皮克斯用它制作了《玩具总动员》(1995)。再加上梦工厂的数字电影《Antz》 (1998)和蓝天工作室的《冰河世纪》 (2002),是千禧年自豪地挥舞的明亮旗帜。数字电影以耀眼的光彩宣告了数字大融合的发生,数字光时代的开始。
其他发展趋于一致。数字视频光盘于 1996 年首次亮相。新的高清电视信号的首次播出发生在 1998 年。1999 年,专业品质的数码相机威胁到胶卷相机。曾经的墨水和纸张、照片、电影和电视,变成了——一眨眼的历史—— 只是像素。变化如此之快,以至于今天的年轻人可能从未体验过非数字媒体,当然,除了那些博物馆和幼儿园。
我们进入新时代只有 20 年 — — 但距离千年已经有四个数量级了。基于深刻而简单的像素的媒体革命有增无减。我们仍在顺势而为。
本文基于Alvy Ray Smith的 A Biography of the Pixel ,由麻省理工学院出版社于 2021 年8 月 3 日出版。