当前位置：首页 > news >正文

A Logical Calculus of the Ideas Immanent in Nervous Activity（神经网络早期的M-P模型）

news 2025/8/8 10:49:33

哈喽，各位朋友大家上午好！今天我们要一起啃下这篇神经科学与逻辑学交叉领域的奠基之作——McCulloch和Pitts的《A Logical Calculus of the Ideas Immanent in Nervous Activity》。
在这里插入图片描述

这篇论文篇幅不长，但每一个定理、每一个假设都像精密齿轮，共同构成了“神经活动可被逻辑描述”的核心框架。从最基础的假设讲起，逐个解析所有定理，对于大家关注的定理部分，会做深入拆解。

基本信息

论文标题: A LOGICAL CALCULUS OF THE IDEAS IMMANENT IN NERVOUS ACTIVITY*
作者与合著者: WARREN S. MCCULLOCH（美国伊利诺伊大学医学院、伊利诺伊神经精神病学研究所精神病学系）、WALTER PITTS（美国芝加哥大学）
发表期刊 / 会议：最初发表于《Bulletin of Mathematical Biophysics》第 5 卷，第 115-133 页，后重印于《Bulletin of Mathematical Biology》第 52 卷第 1/2 期，第 99-115 页
发表时间: 1943 年（最初发表），1990 年（重印）
DOI/URL: https://doi.org/10.1007/BF02478259

一、引言：神经活动与逻辑的“相遇”

论文开篇就点明了核心洞察：神经元的“全或无”特性（要么兴奋，要么不兴奋），使得神经事件及其关系可以用命题逻辑处理，好比开关的“通”与“断”对应逻辑的“真”与“假”，为整个理论埋下了伏笔。

同时，简单网络可用基础逻辑描述，含循环的复杂网络则需要更复杂的逻辑工具；反之，满足特定条件的逻辑表达式，总能找到对应的神经网络。

二、神经生理学的核心假设：理论的“地基”

要建立逻辑模型，必须先明确神经元的“行为规则”。作者提出了5个物理假设，这些是所有定理的前提：

全或无特性：神经元活动是“非此即彼”的过程，没有中间状态，对应命题的二值性（真/假）。
固定阈值：激发神经元需要“潜伏叠加期”（<0.25ms）内达到一定数量的兴奋性突触激活，这个数量不随历史或位置变化。比如，神经元A的阈值是3，就必须在0.25ms内有3个兴奋性突触同时被激活才能兴奋。
突触延迟是唯一显著延迟：神经元内部的传导延迟可忽略，只有突触处有>0.5ms的延迟。这让时间可以被离散化为“突触延迟的整数倍”（t=0,1,2,…），方便用逻辑符号描述时间关系。
抑制性突触的绝对作用：只要有抑制性突触被激活，神经元就绝对不会兴奋，对应逻辑中的“否定”（¬）——抑制信号直接让命题为假。
网络结构不变：短期内不考虑学习导致的突触变化，后续会用“循环网络”模拟学习。

这些假设看似简化了真实神经生理（比如实际神经元的阈值可能变化），但正是这种抽象让逻辑建模成为可能。比如“突触延迟”的设定，使得时间可以被量化为离散的“步长”，为后续的“时间命题表达式”奠定了基础。

三、符号系统：神经活动的“逻辑语言”

要将神经活动转化为逻辑，必须定义一套符号系统。作者借鉴了Carnap、罗素和怀特海的符号，构建了专属语言：

神经元动作符号： $N_i(t)$ 表示“神经元 $c_i$ 在时间t（t为突触延迟的整数倍）被激发”。比如 $N_1(2)$ 意为“神经元1在第2个突触延迟时刻兴奋”。
时间算子S： $S (P) (t)$ 等价于 $P (t - 1)$ ，表示“前一个时间步的P状态”。比如 $S(N_2)(t)$ 即 $N_2(t-1)$ ，描述了“神经元2在前一时刻的兴奋状态”。
逻辑连接符：使用∨（析取，“或”）、∧（合取，“与”）、¬（否定，“非”）表示命题关系，与传统逻辑一致。

该符号系统是“神经活动→逻辑表达式”的翻译工具。比如，“神经元3在t时刻兴奋，当且仅当神经元1在t-1时刻兴奋，或神经元2在t-3时刻兴奋且t-2时刻未兴奋”，可写成：
$N3(t)≡N1(t−1)∨(N2(t−3)∧¬N2(t−2))N_3(t) \equiv N_1(t-1) \lor (N_2(t-3) \land \neg N_2(t-2))$ 。
在论文中对应于冷热感知错觉的例子，直观展示了符号系统的用法。

四、时间命题表达式（TPE）：可被神经网络实现的逻辑

并非所有逻辑表达式都能对应神经活动，作者定义了“时间命题表达式（TPE）”来框定范围，其递归定义如下：

基础形式：单个谓词变量的时间函数 $p(z_1)$ （如 $N_i(t)$ ）是TPE。
复合形式：若 $S_1$ 和 $S_2$ 是含相同自由变量的TPE，则 $S(S_1)$ （前一时间的 $S_1$ ）、 $S_1∨S_2$ 、 $S_1∧S_2$ 、 $S_1∧¬S_2$ 也是TPE。

即TPE是“能被神经网络实现的逻辑表达式”，其核心是只能涉及过去或现在的状态，不能预测未来，这与神经活动的因果性一致。

五、零阶网络（无循环）的定理：简单逻辑与网络的等价性

零阶网络是指没有“循环路径”（如A→B→C→A）的网络，其行为最容易用TPE描述，在论文用3个定理建立了两者的双向关系。
在这里插入图片描述

定理1：零阶网络的行为可用TPE描述

含义：任何无循环的神经网络，其每个神经元的兴奋规则都能写成TPE。
证明思路：

对零阶网络中的神经元 $c_i$ ，设其阈值为 $βi\beta_i$ ，有 $p$ 个兴奋性突触来自 $c_{i1},...,c_{ip}$ ， $q$ 个抑制性突触来自 $c_{j1},...,c_{jq}$ 。
其兴奋条件为：
- ① 所有抑制性神经元在t-1时刻未兴奋（ $∏m=1q¬Njm(t−1)\prod_{m=1}^q \neg N_{jm}(t-1)$ ）；
- ② 兴奋性神经元的某个子集的突触数量之和超过阈值（ $∑α∈κi∏s∈αNis(t−1)\sum_{\alpha \in \kappa_i} \prod_{s \in \alpha} N_{is}(t-1)$ ，其中 $κi\kappa_i$ 是满足条件的子集集合）。
结合时间算子S，可写成： $Ni(t)≡S{∏m=1q¬Njm(t)∧∑α∈κi∏s∈αNis(t)}N_i(t) \equiv S\left\{ \prod_{m=1}^q \neg N_{jm}(t) \land \sum_{\alpha \in \kappa_i} \prod_{s \in \alpha} N_{is}(t) \right\}$
由于网络无循环，可通过“替换法”逐步消除非外周神经元（将其表达式代入其他神经元的规则），最终所有神经元的活动都能用外周神经元的TPE表示。

例：一个简单的“与门”网络（神经元C的阈值为2，接收A和B的兴奋性突触），其规则为 $NC(t)≡S(NA(t)∧NB(t))N_C(t) \equiv S(N_A(t) ∧ N_B(t))$ ，显然是TPE。

定理2：任何TPE都能被零阶网络实现

含义：只要是TPE，就一定能设计出对应的无循环网络。
证明思路：

基础case：单个 $p(z_1)$ 可由单个神经元实现（外周神经元）。
复合case：
- $S(p_1)$ ：用一个神经元接收 $p_1$ 的突触，延迟一个时间步输出（图1a）。
- $p_1∨p_2$ ：设计神经元，阈值为1，接收 $p_1$ 和 $p_2$ 的兴奋性突触（图1b）。
- $p_1∧p_2$ ：设计神经元，阈值为2，接收 $p_1$ 和 $p_2$ 的兴奋性突触（图1c）。
- $p_1∧¬p_2$ ：设计神经元，阈值为1，接收 $p_1$ 的兴奋性突触和 $p_2$ 的抑制性突触（图1d）。
通过归纳法，所有TPE都可由这些基础结构组合实现。

例：TPE“ $S(p_1) ∨ (p_2 ∧ ¬p_3)$ ”可由“ $S(p_1)$ 的网络”与“ $p_2 ∧ ¬p_3$ 的网络”通过“或门”组合而成。

定理3：TPE的判定条件

含义：一个逻辑表达式是TPE，当且仅当它满足三个等价条件之一：

当所有 constituent $p(z_1-zz)$ 为假时，表达式为假；
其真值表最后一行（所有输入为假）为“假”；
其希尔伯特析取范式中，没有仅由否定项组成的项。

证明思路：

必要性：TPE由基础形式通过∨、∧、¬和S组合而成，当所有输入为假时，复合表达式必为假（如 $S_1∨S_2$ 在 $S_1$ 和 $S_2$ 都假时为假）。
充分性：若表达式满足条件3，可写成 $S_1∧...∧S_m) ∧ ¬(S_{m+1}∨...∨S_n)$ ，显然是TPE。

例：“ $p \lor \neg q$ ”不是TPE（当p和q都假时，表达式为真，违反条件1）；“ $p \land q$ ”是TPE（p和q都假时为假）。

六、等价性定理：不同神经机制的“逻辑等效”

神经生理存在多种可能机制（如抑制的方式、学习的实现），作者证明了它们在“扩展意义上等价”——即一种机制能实现的功能，另一种也能实现（可能时间不同）。

定理4：相对抑制与绝对抑制等价

相对抑制：抑制性突触提高神经元阈值（如原本需3个兴奋，1个抑制后需4个）。
绝对抑制：抑制性突触直接阻止神经元兴奋（只要有1个抑制，无论多少兴奋都无效）。
等价性证明：
- 相对抑制的规则可写成TPE（如“兴奋数-抑制数>阈值”），而TPE可由零阶网络实现（定理2），其中绝对抑制可模拟相对抑制的效果（如用多个抑制性突触抵消兴奋性输入）。
- 反之，绝对抑制也可通过相对抑制模拟（如设置足够高的阈值，让抑制后永远无法达到）。

定理5：消退与绝对抑制等价

消退：神经元兴奋后，阈值在一段时间内升高（如兴奋后j个时间步，阈值+ $b_j$ ）。
等价性证明：
- 用M个循环网络 $T1,...,TM\mathscr{T}_1,...,\mathscr{T}_M$ （分别含1,…,M个神经元）模拟消退：神经元 $c_i$ 兴奋后，激活这些循环，每个循环在j个时间步后通过 $b_j$ 个抑制性突触作用于 $c_i$ ，等效于阈值升高。
- 反之，绝对抑制也可通过消退模拟（如设置足够大的 $b_j$ ）。

定理6：易化与时间总和可被空间总和替代

易化/时间总和：神经元对时间上分散的兴奋（如t-2和t-1时刻的兴奋）进行叠加。
等价性证明：
- 引入延迟链（含不同数量突触的路径），将时间上的兴奋转化为空间上的同步兴奋（如t-2的兴奋通过2个突触延迟，t-1的兴奋通过1个突触延迟，最终在t时刻同步到达），从而用空间总和模拟时间总和。

定理7：可改变的突触（学习）可被循环替代

可改变的突触：原本无效的突触，在“神经元兴奋且突触同时激活”后变为有效。
等价性证明：
- 用循环网络模拟突触变化：当神经元 $c_i$ 兴奋且突触前神经元 $c_j$ 激活时，激活一个循环路径，使 $c_j$ 的信号持续作用于 $c_i$ ，等效于突触变为有效。

七、高阶网络（含循环）的定理：处理“记忆”与递归

当网络存在循环（如A→B→A），神经元活动会依赖“历史状态”（记忆），其行为需用递归函数描述。

定理8：循环网络的解可通过递归表达式描述

含义：含循环的网络（阶数p）的行为，可通过含递归的表达式描述，其中神经元活动依赖于自身或其他神经元的过去状态（可能是任意早的过去）。
证明思路：

设循环集为 $c_1,...,c_p$ ，其活动满足 $Ni(t)≡Pri[Sni1N1(t),...,SnipNp(t)]N_i(t) \equiv Pr_i[S^{n_{i1}}N_1(t),...,S^{n_{ip}}N_p(t)]$ （ $Pr_i$ 为含外周输入的表达式）。
通过反复代入，可将表达式转化为依赖 $S^nN_j(t)$ （n为 $n_{ij}$ 的最小公倍数）的形式，再转化为希尔伯特析取范式，最终用递归函数表示为：
$Ni(t)≡(Eϕ)(x)t−1⋅ϕ(x)≤2p⋅ϕ(t)=i⋅P[ϕ(x+1),ϕ(x),Nϕ(0)(0)]N_i(t) \equiv (E\phi)(x)_{t-1} \cdot \phi(x) \le 2^p \cdot \phi(t)=i \cdot P[\phi(x+1), \phi(x), N_{\phi(0)}(0)]$ 。
其中 $ϕ\phi$ 是描述历史状态序列的函数，体现了“记忆”的作用。

定理9：可实现类（prehensible classes）的判定条件

含义：一个类的函数能被神经网络实现，当且仅当它满足特定的递归条件（涉及逻辑运算和时间算子的封闭性）。
证明思路：

基于前面的符号和定理，可实现类需对逻辑运算（¬、∧、∨）和时间算子S封闭，且能通过有限步骤递归定义。

定理10：集合K的所有成员均可实现

集合K的定义：
1. 任何TPE，以及用K中成员替换TPE的变元后仍属于K；
2. 若 $Pr1(z1)∈KPr_1(z_1)\in K$ ，则 $z_2)_{z_1}Pr_1(z_2)$ （全称量词）、 $Ez_2)_{z_1}Pr_1(z_2)$ （存在量词）、 $C_{mn}(z_1)$ （模n同余m）也属于K。
证明：通过归纳法，K中的成员均可通过循环网络实现（如用循环网络实现量词和模运算）。

八、神经网络与图灵机的等价性

论文最后指出：神经网络的计算能力与图灵机等价。

任何图灵机能计算的数，配备“纸带、扫描仪、效应器”的神经网络都能计算；
神经网络能计算的数，图灵机也能计算；
含循环的神经网络可在无纸带时计算部分数，但范围不超过图灵机。

这一结论将神经活动与“可计算性”理论绑定，为“认知即计算”的思想提供了早期依据。

九、研究思路总结

该论文的研究思路堪称“从现象到理论”的典范，可拆解为四步：

现象抽象：从神经元“全或无”“突触延迟”等特性中，提炼出与二值逻辑的相似性，将神经活动映射为命题。
符号建模：定义 $N_i(t)$ 、S算子等符号，构建“神经活动→逻辑表达式”的翻译系统，明确TPE的范围。
双向验证：
- 正向：证明零阶网络的行为能被TPE描述（定理1），高阶网络的行为能被递归表达式描述（定理8）；
- 反向：证明TPE和更复杂的表达式（集合K）能被对应网络实现（定理2、10）。
等价扩展：证明不同神经机制（抑制、消退、学习等）在逻辑功能上等价，拓宽理论的适用范围（定理4-7）。

该“观察→抽象→建模→验证→扩展”的框架体现了跨学科研究的核心方法论。其核心观点在于：面对复杂的生物系统，研究者无需在初始阶段过度关注细节，而应通过合理的抽象化过程提取关键规律，进而运用逻辑与数学工具构建具有普适性的理论模型。本研究的学术价值不仅体现在为神经网络奠定了理论基础，更在于通过严谨的逻辑推演揭示了生命现象的内在机制——此类研究范式可为多领域学术探索提供方法论借鉴。

查看全文

http://www.lryc.cn/news/613241.html