语前婴儿与成人相似的语音统计学习模式：来自神经夹带的证据

引言

婴儿在语言习得过程中面临的首要挑战之一是在连续语音中发现单词的边界。由于语音信号并不包含有关词边界的可靠语音提示，这使得切分词的过程并不简单。尽管分词存在计算上的挑战，6个月大婴儿已经学会了母语的某些单词结构。统计学习是对环境中的统计规律变得敏感的过程，被认为是一种支持分词初始过程的学习机制。在一种特定的语言中，两个音节同时出现的概率要比跨单词边界的概率高。跟踪这种概率信息可能是婴儿从自然语音中分词的一种机制。

婴儿可以通过跟踪语音之间的统计模式来提取词单位。比如，在接触一种由四个三音节无意义单词（如babupu、padoti）连接起来且没有任何词边界提示的人工语言的伪随机序列2分钟后，婴儿会从假词中识别出真词，这是因为他们对假词的偏好时间更长。后来的工作表明，婴儿不仅对音节顺序敏感，而且对非语言的听觉和视觉刺激也很敏感。还有证据表明，统计分词有助于其他的语言习得，如词汇学习。神经影像学研究证明，新生儿在出生时就已经存在语音分割的统计学习能力。综上所述，这些结果表明婴儿可以通过跟踪音节之间的统计概率从连续语音中提取其中的单词。

到目前为止，大多数关于婴儿统计学习的证据来自于学习后的行为测试，即婴儿在熟悉大量词汇后对已熟悉单词和新单词的反应进行测量。本研究通过使用统计学习的EEG神经夹带指数来跟踪学习者在熟悉过程中对隐藏的嵌入词的敏感度。神经夹带是指在处理有节奏或可预测的视觉和听觉刺激（包括语音）时，神经振荡和外部刺激之间的同步性。神经夹带不仅反映了信号的声学特征，而且对更高层次的认知过程非常敏感。在统计学习的背景下，本研究的中心假设是，随着学习者逐渐发现连续语音中的单词，相对于低水平的音节频率(syllable frequency)，单词频率率（word frequency）的神经元放电应逐渐增强，代表着从音节到单词的感知转变。

最近关于成人统计学习EEG研究结果证实，神经夹带可以揭示出词单位的信息，并预测随后行为测试中的单词识别。这些结果表明，一个基于EEG神经夹带的测量方法可以跟踪统计学习的发生。这种方法也被用于研究非相邻结构的统计学习，尽管在这些后面的研究中，单词之间插入的短暂停顿提供了切分的低级提示。

本研究应用EEG频率标记法研究6个月语前婴儿的统计学习。婴儿接触一种没有声音提示的三音节无意义单词拼接的人工语言。为了研究统计学习的时间动态，测量婴儿在熟悉过程中的EEG，并使用滑动时间窗在精细刻度上分析神经夹带轨迹。本研究假设：统计学习和神经夹带之间存在关系。进而预测，虽然婴儿会从一开始就对单个音节进行夹带，但在熟悉过程中，婴儿单词水平的夹带相对增加，反映了通过统计学习逐步获得单词知识。在熟悉之后，使用一个既定的行为范式来评估婴儿区分熟悉单词和新的假词的能力，并预测单词水平的夹带与婴儿对假词的偏好程度相关。且该现象与成人发现一致，观察到的熟悉期神经夹带预测以后的统计学习行为。最后，将婴儿数据与先前成人数据进行了比较，以测试婴儿和成人在统计学习的速度或效率方面是否存在差异。

方法

被试

25名6个月大的英语单语婴儿（年龄：M=175.4天，SD=10.4天）纳入熟悉阶段分析。

刺激

熟悉阶段:刺激包括由12个遵循英语音位惯例的辅音-元音音节（持续时间：185-228ms）组成的四个三音节单词。为了控制潜在的特殊刺激效应，用12个音节构建了两个独立的人工语言。每个婴儿被随机分配听两种人工语言中的一种（见表S1）。

表S1熟悉阶段和测试阶段单词

音节用人工语音合成器生成，采样率44100Hz。在熟悉过程中，婴儿听到一个由四个三音节单词按伪随机顺序没有停顿连接而成的连续声音流（最小120秒，最大400秒）。音节到音节的时间间隔为300毫秒（3.3Hz）；单词到单词的时间间隔为900毫秒（1.1Hz）。

测试阶段:在测试阶段，婴儿听到间隔1100ms的两个真单词和两个假词。与熟悉阶段一样，每个单词的音节到音节的时间间隔为300毫秒。

程序

实验方案包括两个阶段：初始熟悉阶段和测试阶段。

熟悉阶段

婴儿接触并熟悉人工语言。最小120秒最大360秒（相当于1200个音节）的熟悉时间来最大限度地增加EEG分析的数据量，该过程中通过电脑显示器上动态的抽象形状来吸引婴儿的注意力。如果婴儿出声或移动过度导致严重的EEG伪影或者如果护理者发出停止语言流的信号，则暂停熟悉阶段；如果问题可以快速解决则继续熟悉；否则，熟悉阶段终止。如果婴儿完成了至少2分钟的熟悉过程，并且足够平静，则继续进行测试阶段。

测试阶段

使用中心注视时间范式来测试婴儿辨别真词（人工语言中嵌入的三音节结构）和假词（婴儿在人工语言中没有遇到的新的三音节结构；见表S1）的能力。重复测试项目的序列（真词和假词）与屏幕上显示的旋转螺旋线相配对。婴儿通过观看行为来控制重复听觉刺激的持续时间：视觉注意力从屏幕上持续转移终止trial。婴儿在每个trial中的观察时间代表了统计学习的关键指标。注视假词时间更长则反映一种新颖偏好。通过一个黄色球在每个trial前引导婴儿注意屏幕。当婴儿看着屏幕时，trial开始，婴儿都会重复的听到一个真词或一个假词。实验者在线监测婴儿视线是否从屏幕上移开或回到屏幕。一个block内采取伪随机顺序以便每四个trial中有两个真词和两个假词。婴儿不断进行测试直到无法继续或者已经完成16个trial。至少完成一个block测试的婴儿计入数据分析。实验流程见图1。

图1实验流程总结。

实验由熟悉阶段和测试阶段组成。熟悉阶段（a）包括由三音节无意义词组成的人工语言。在整个熟悉过程中，通过头皮电极测量听觉语的神经夹带。

测试阶段（b），每个trial都由一个不断重复的项目（真词或假词）组成，通过婴儿将眼睛注视旋转螺旋来控制trial持续时间，并记录婴儿对真词和假词的观察时间。

EEG记录与分析

在熟悉和测试阶段，使用64导EEG以1000Hz采样率采集数据。参考电极Cz，最大阻抗保持在40kΩ以下。

熟悉阶段的神经夹带量化

首先，进行60Hz凹陷滤波和0.5～20Hz带通滤波。接着通过MATLAB中的artifact-block算法进行伪影校正。artifact-block算法改善了婴儿数据中的信噪比，并且可以应用于连续和分段的EEG数据。artifact-block算法阈值θ设置为±50µV，伪影校正后数据进行全脑平均重设参考，每9.0s为一个数据周期。以每个单词的开始时间为刺激零点进行分段，分段时长为10个三音节单词或30个音节的持续时间。

通过测量试次间相干性（ITC，intertrial coherence）来量化神经夹带，ITC是一种与事件相关的锁相的测量方法。ITC值的范围从0（表示完全非锁相活动）到1（表示严格锁相活动）。一个显著ITC表明，单个trial中EEG活动在给定的时间和频率下是锁相的，而不是与锁时事件有关的随机相位。通过EEGLAB的newtimef函数，用Morlet小波变换从0.555到5.0Hz计算ITC。小波变换以0.11Hz为步长进行计算，在最低频率（0.555Hz）下有两个周期增加了0.5的比例因子，在最高频率（5.0Hz）达到9个周期。该方法可以优化低频时间分辨率和高频的频率分辨率。

首先计算每个婴儿所有时期的ITC，并绘制成频率函数（图2a；地形图表示artifact-block校正后保留的所有头皮电极的ITC）。使用额-中央电极数据进行所有后续ITC计算。这是基于：

（a）样本夹带效应的地形分布的目视检查；

（b）普遍发现听觉事件相关电位主要分布在额中央；

（c）成人研究发现额中央夹带效应最大。

注意，尽管听觉EEG信号通常表现为额-中央分布，在脑后部电极上也观察到了强烈的夹带（图2a）；但这些通道不包括在后续ITC计算中。ITC分布不同可能是由于不同的参考电极，即平均参考还是乳突参考，这导致了后部区域相对较弱的信号减去更高振幅EEG信号。这种平均参考值的使用是必要的，因为包括乳突在内的外周通道在婴儿数据中经常是嘈杂的，因此不适合作为参考。

图2熟悉阶段的神经夹带和统计学习。

（a）各频率试次间相干性（ITC），地形图显示了所有电极ITC值。重点标注了音节和单词频率率上神经夹带的峰值。单词和音节频率地形图单位不同，地形图中的点表明23个额-中央电极位置。婴儿和成人单词学习指数（WLI）评估的统计学习在（b）中以单词数量函数呈现。每条线代表组平均数据的最佳对数拟合。阴影区域代表标准差。

如果您对脑电数据处理及机器学习感兴趣，欢迎浏览思影科技课程及服务

（可添加微信号siyingyxf或18983979082详细了解）：

第二十二届脑电数据处理中级班（南京，11.12-17）

第七届脑电信号数据处理提高班（南京，11.18-23）

第十届脑电数据处理入门班（南京，12.1-6）

第一届MNE-Python脑电数据处理班（南京，12.7-12）

第二十三届脑电数据处理中级班（重庆，12.16-21）

第十一届脑电数据处理入门班（重庆，1.7-12）

神经夹带时程分析（熟悉阶段）

本研究假设，熟悉过程中词水平的神经夹带会相对增加，反映出对语音流中单词结构的敏感程度有所提高。为了验证这一假设，使用滑动时间窗来检验学习轨迹。每10个连续数据段分为一组，除了熟悉期开始和结束阶段是9个单词之外，每个单词在数据中出现次数都是平等。通过将词频率（1.1 Hz）ITC除以音节频率ITC（3.3 Hz）计算WLI（单词学习指数，word-learning index）——利用三音节单词结构敏感度测量神经夹带的指标。较高的WLI值表明相对于原始音节频率，词频率诱发更大神经夹带，进而表明统计学习的存在。滑动时间窗分析提供了熟悉过程中，单词水平神经夹带的精细测量。

使用每个数据集的WLI值绘制熟悉期的学习曲线。使用对数函数能够更好获取群体水平的学习曲线（图2b）。为了估计个体水平上的统计学习，用对数函数对每个婴儿的学习曲线进行建模：

y=a+b×log（x）

其中y代表WLI值，x代表每个被试在熟悉过程中接触到的累计单词数。正值b表示WLI随熟悉量呈对数增长；b值越大，学习速度越快（越陡）。

为了检验婴儿在熟悉过程中是否表现出单词水平神经夹带相对增加，用单样本t检验来确定b是否大于0，大于0表明暴露于语音流中WLI（单词学习指数）增加。作为对照，使用重复随机抽样方法评估数据的分布，即对每个被试，每个数据集的WLI值进行随机打乱，然后使用与原始分析中相同的参数和约束进行平滑处理。根据这些被打乱的数据集计算每个被试的b值，然后计算被试的平均b值。这个过程总共重复了1000次，然后检验观察到的b值（对于真实数据）是否落在这个经过打乱的代理分布的上5%之内。

最后，每个婴儿，使用适合其个人时间进程数据的对数函数，根据在熟悉过程中听到的总词数计算起始和最终WLI值。理论上，最终WLI值代表每个人学习的终点（即，熟悉期结束时所达到的知识水平）。计算出的最终WLI值用于与行为测试测量的相关性分析。

行为数据分析

对婴儿注视人工语言中的真词和假词时间进行比较。对于每个婴儿，每个trial都计算一个累积的注视时间分数，不包括婴儿在trial结束前视线从屏幕上移开的时间段。只包括前两个block的行为数据。采用线性混合效应模型分析注视时间，条件（真词与假词）和block作为自变量，block*被试作为随机变量。为了确定条件影响的显著性，从完整模型与零假设模型比较中获得p值。

神经夹带（熟悉阶段）与注视偏好时间（测试阶段）相关性

为了验证WLI可以预测婴儿从假词中辨别出真词的假设，本研究计算了：

（a）真词和假词的时间偏好之间的差异

（b）个体对数拟合的最终WLI值（代表每个婴儿在熟悉单词结构后的最终敏感性，基于个体的对数学习曲线）。

对注视时间分数进行转换以反映在考虑每个人的基线注视时间情况下婴儿假词优先于单词的情况：

比例偏好得分=平均LT假词/（平均 LT_假词+平均LT_真词）

其中LT代表注视时间。大于0.5的比例分数表示对假词的关注时间更长（新颖性偏好），低于0.5的分数表示对单词的关注时间更长（熟悉度偏好）。

婴儿和成人神经夹带的比较（熟悉阶段）

为了比较婴儿和成人的统计学习轨迹，分析了先前在类似条件下的成人数据。简单地说，记录成人被动接触由四个三音节单词组成的人工语言12分钟中的EEG数据。熟悉之后，成人完成一个明确的评分任务和一个目标检测任务。对于每个成人，使用与婴儿数据相同的数据分析方法，只分析持续时间与婴儿相匹配的12分钟熟悉期最初部分的数据。可能是由于头骨大小的不同，成人在单词和音节层面的夹带中都比婴儿表现出更为集中的分布。因此，对于成人ITC和WLI计算，使用了九个额中央电极（F1、Fz、F2、FC1、C1、FCz、Cz、FC2和C2）（见图S3）。采用独立样本t检验来确定两组之间b值是否存在差异，显著不同的b值表明婴儿和成人在统计学习率上存在差异。

评分任务

评分任务旨在评估无意义单词的外显记忆。在每个trial中，被试都会听被试到三种听觉刺激中的一种：一个来自先前在熟悉过程中出现的单词，一个由部分音节：由熟悉阶段中的音节和一个附加音节组成，或者是一个由在单词中从来没有成对出现过的三个音节组成的假词。要求根据他们刚刚听到的熟悉程度，用1到4个等级来评价刺激听起来有多熟悉，1个表示“非常不熟悉”，4个表示“非常熟悉”。共有12个trial，包括4个真词、4个部分真词和4个假词。

目标检测任务

目标检测任务是一种间接的、基于反应时的统计学习方法，与评分任务相比，它对内隐记忆表征更为敏感。在每个实验中，被试被呈现一个语音流，其中包含来自结构化语言熟悉流中的四个单词，每个单词重复四次，虽然更短，但在其他方面与暴露任务中呈现的语音流相似。对于每个流，被试被要求检测一个特定的目标音节。同时强调反应时（RT）和准确度。12个结构化音节中的每一个音节三次作为目标音节共产生36个语音流。随机分配36个语音流给每个被试。每个语音流包含4个目标音节，在三个音节条件（单词首字母、单词中间词和单词结尾）中构成总共48个测试。RT（反应时）效应由音节位置决定。由于统计学习的索引机制，单词结尾位置的音节应引起更快的RT。

图 S3 成人与婴儿熟悉期神经夹带

地形图显示了成人ITC头皮分布。阴影区域表示平均值的标准差。注意单词和音节结果单位不同。地形图上九个较暗的点表示用于ITC和WLI计算的中心-额叶电极的大致位置。

分析程序验证

在成人数据中验证数据分析方法的有效可信性。验证检查包括确认：

（1）WLI随着对结构化语音流的熟悉程度增加而增加；

（2）熟悉阶段WLI增加是特定于结构化语音的；

（3）个体曲线拟合的最终WLI值预测了被试学习行为表现。

结果

熟悉阶段

整体神经夹带：

研究结果显示，与成人相似，婴儿在整个熟悉期内出现显著单词和音节频率上的神经夹带峰值，而双音节频率（对应于1.67 Hz）没有明显峰值。单词和音节频率ITC在头皮上分布相对广泛（图2a）。

神经夹带时间过程：

结果与预测一致：WLI（单词学习指数）随着暴露量的增加而显著增加，证明了单词的在线统计学习。由于对数曲线比线性曲线更符合群体平均水平数据，因此对个体时间过程数据进行对数建模。显著正值b表明WLI在熟悉阶段增加，且WLI增加不是偶然发生的。这一结果证明，词水平神经夹带是统计学习的标志。图2b显示了根据婴儿组平均数据建模的对数学习曲线（红色）。大约前10个数据集中WLI增加最明显，对应于大约前100个单词约90秒的熟悉时间（图2b）。音节水平的神经夹带在熟悉过程中会降低，目前的结果显示，在组水平数据中，音节ITC(试次间相干性)呈对数下降。

测试阶段

测试阶段发现，与真词相比，婴儿对假词的注视时间明显更长，反映了一种新颖的偏好。

神经夹带（熟悉阶段）与优先注视时间（测试阶段）的相关性

婴儿比例偏好得分与最终WLI值显著正相关，WLI值反映了每个婴儿的最终学习成就。在标准诊断后，对影响点进行了一个留一交叉验证分析，发现即使重新分析数据也没有一个影响结果的数据，因此总体结论不变，但效应变得更强（图3b）。又进一步评估了最终WLI值与比例偏好得分之间的关系，包括两个可能影响模型中婴儿注视时间偏好的额外变量（熟悉的时间长度和完成的测试trial的数量）。在这个模型中，最终WLI显著预测了测试时的比例偏好得分而非熟悉时长和完成的测试trial次数。

图3婴儿注视时间结果

真词和假词的平均注视时间（a），点表示单个数据点，水平条表示组平均值，平均值周围矩形的高度表示标准误，阴影区域的宽度表示数据密度。星号表示真词和假词的显著差异。散点图（b；最佳拟合回归线）显示了模型最终WLI值（代表熟悉阶段单词的相对神经夹带）与测试时比例注视时间测量值之间的相关性。

婴幼儿与成人神经夹带的比较

与婴儿结果类似，对数曲线比线性曲线更符合成人数据。婴儿和成人的个体学习曲线没有显示出明显不同的WLI斜率，表明婴儿和成人对语音流的统计结构的敏感程度相似，但是仍然发现整个熟悉期内成人WLI值在数字上高于婴儿（图2b，图S3）。学习效应之外，解剖学差异和EEG频谱功率的相关变化可能会影响组间的神经夹带效应，因此直接比较各组之间的总体夹带值并不可取。总之，没有证据表明婴儿和成人之间的学习轨迹存在统计学差异（见表S5）。图2b显示了根据婴儿和成人的组平均数据建模的对数学习曲线，两组之间大致相似的估计参数且成人WLI值在数字上高于婴儿。最后，作为比较，以ITC音节为因变量对成人数据进行了相同的分析。尽管没有遵循清晰的对数函数，但平均组级别数据中的ITC音节在数字上随熟悉程度的降低而下降。线性和对数建模时，各个学习曲线上的ITC音节显示略有下降。

表S5 婴儿和成人个体学习曲线对数模型（y=a+b*log（x））的学习曲线参数

总结：

统计学习被认为是第一语言和第二语言习得的重要机制，且成人和婴儿相似的统计学习模式证明了统计学习是整个生命周期中都存在的一种早期认知机制。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。