当前位置: 首页 > news >正文

Python:Python进阶:Python字符串驻留技术

Python字符串驻留技术

  • 1.什么是字符串驻留
  • 2. 为什么要驻留字符串
  • 3. Python的字符串驻留
  • 4. Python 字符驻留原理
    • 4.1 如何驻留字符串
    • 4.2 如何清理驻留的字符串
  • 5. 字符串驻留的实现
    • 5.1. 变量、常量与函数名
    • 5.2 字典的键
    • 5.3 任何对象的属性
    • 5.4 显式地驻留
  • 6 字符串驻留的其他发现

由于字符串是任何编程语言中不可或缺的一个部分,因此,如果有快速操作字符串的能力,就有可以迅速的提高整体的性能。
本文,我们将深入研究Python 的内部实现,并了解 Python如何使用一种名为字符串驻留 (string Interning)的技术,实现解释器的高性能。以下是本文的提纲

在这里插入图片描述

1.什么是字符串驻留

  1. 字符串驻留是编译器/解释器的优化方法,它通过 缓存一般性的字符串,从而节省字符串处理任务的空间和时间。
    事实上这种优化方法不会每次都创建一个新的 字符串副本,而是仅为每个适当的不可变值保留一个字符串副本,并使用指针引用之。
  2. string interning 一般译为 “ 字符串驻留或字符串留用” 在某些 语言中可能习惯使用 string pool (字符串常量池)的概念,其实这是对同一种机制的不同表述。
    在这里插入图片描述

2. 为什么要驻留字符串

  1. 首先字符串驻留提升了字符串比较的速度。 如果没有驻留,当我们要比较两个字符串是否相等时,它的时间复杂度将会上升到 o(n) ,即需要检查两个字符串中的每个字符,才能判断他们是否相等。
  2. 但是,如果两个字符串使用的是同一个对象的引用,那么我们只需要判断检查指针是否相同,就足以判断出两个字符串是否相同,不需要逐一检查每个字符串。
  3. 字符串驻留技术减少了内存占用,Python避免内存中 充斥多余的字符串对象,通过享元设计模式共享和重用已经定义的对象,从而优化内存占用。

3. Python的字符串驻留

在Python中使用 is 运算符 ,检查两个对象是否引用同一个内存对象。注意在 Python3.8 版本之后,需要使用 == 来判断两个对象是否相等。

"python" == 'python'  # true
1==2 # false
"Python" == 'python'  # false

4. Python 字符驻留原理

在 CPython 中,字符串的引用被一个名为 interned 的 python字典所存储,访问和管理。该字典在第一调用字符串驻留时,被延迟的初始化,并持有全部已驻留字符串对象的引用。

4.1 如何驻留字符串

在 CPython 中,负责驻留字符串的核心函数是 PyUnicode_InternInplace 它定义在 unicodeobject.c 中,当调用时,它会创建一个准备容纳所有驻留字符串的字典 Interned , 然后登记入参中的对象,然后另其键和值都使用相同的对象引用

void PyUnicode_InternInplace(PyObject **p)
{PyObject *s = p;........// Lazing build the dicrionary to hold interned stringsif (interned ==NULL) {interned  = PyDict_New();if (interned ==NULL){PyErr_Clear();return;}}PyObject *t;// make an entry to the interned dictionary for the given objectt = PyDict_SetDefault(interned, s, s);......// set the state of the string to be INTERNED_PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}

4.2 如何清理驻留的字符串

清理函数从 interned 字典中遍历所有的字符串,调整这些对象的引用计数,并把它们标记为 NOT_INTERNED, 使其被垃圾回收,一旦所有的字符串被标记为 NOT_INTERNED,则 interned 字典会被清空并删除。

这个清理函数就是 _PyUnicode_ClearInterned ,在 unicodeobject.c 中定义

void _PyUnicode_ClearInterned(PyThreadState *tstate)
{// Get all the keys to the interned dictionaryPyObject *keys = PyDict_Keys(interned);.......// Interned Unicode strings are not forcibly deallocated// rather ,we give them their stolen references back// and then clear and DECREF the interned dictfor(Py_ssize_t i = 0; i< n; i++){PyObject *s = PyList_GET_ITEM(keys,i);.....switch (PyUnicode_CHECK_INTERNED(s)){case SSTATE_INTERNED_IMMORTAL:Py_SET_REFCNT(s,Py_REFCNT(s)+1);break;case SSTATE_INTERNED_MORTAL:// Restore the two references(key and balue) ignored// by PyUnicode_InterInPlace()Py_SET_REFCNT(s,Py_REFCNT(s) +2);break;case SSTATE_NOTINTERNED:default:Py_UNREACHABLE();}// making the string to be  NOT_INTERNED_PyUnicode_STATE(s).interned = SSTATE_NOT_INTERNED;}// decreasing the refernece to the initialized and// access可以是objectPy_DECREF(keys);// clearing the dictionaryPyDict_Clear(interned);// clearing the object internedPy_CLEAR(interned);
}

5. 字符串驻留的实现

这一小节主要讲:Python会驻留哪些字符串

5.1. 变量、常量与函数名

CPython 对常量(例如函数名,变量名,字符串字面量等)执行字符串驻留。

5.2 字典的键

CPthon 还会驻留任何字典对象的字符串键

5.3 任何对象的属性

CPython中对象的属性可以通过 setattr 函数显式地设置,也可以作为类成员的一部分隐式的设置,或者在其数据类型中定义。
CPython会驻留所有这些属性名,以便实现快速的查找。

5.4 显式地驻留

Python还支持通过 sys模块中的 intern 函数进行显示地字符串驻留。

6 字符串驻留的其他发现

只有在编译期的字符串会被驻留,咋解释时或编译时指定的字符串会被驻留,而动态创建的字符串则不会

http://www.lryc.cn/news/65379.html

相关文章:

  • 2022年 全国职业院校技能大赛(中职组)网络安全赛项 正式赛卷 A模块 做题记录
  • 华为OD机试 - 优选核酸检测点(Python)
  • windows怎么把包含某个关键词的文件移动到一个文件夹中
  • Unity 后处理(Post-Processing) -- (2)创建后处理配置文件
  • BI 商业智能和报表,傻傻分不清楚?一文给你讲透
  • CSS布局基础(传统布局小结)
  • 【五一创作】Qt quick基础1(包含基本元素Text Image Rectangle的使用)
  • LVS+Keepalived 高可用群集部署
  • 小黑子—Java从入门到入土过程:第八章
  • innodb_flush_log_at_trx_commit 和 sync_binlog 参数解析
  • hd debug - DAPLink的资料
  • Android adb常用50条命令
  • 【无人车】无人驾驶地面车辆避障研究(Matlab代码实现)
  • Visual Studio高效调试手段与调试技巧总结
  • Day37 Map集合
  • 是人就能学会的Spring源码教学-Spring的简单使用
  • NOC大赛·核桃编程马拉松赛道知识点大纲(高年级及初中组)
  • 第二十六章 Unity碰撞体Collision(上)
  • Qt Installer Framework使用教程:
  • nodejs+vue+java农村信息化服务平台
  • 代码随想录补打卡 62不同路径 63 不同路径2
  • 树的存储和遍历
  • MySQL的ID用完了,怎么办?
  • JSP基于Iptables图形管理工具的设计与实现(源代码+论文)
  • 什么是数据库分片?
  • 软件工程知识点
  • 华为OD机试 - 投篮大赛(Python)
  • 《花雕学AI》讯飞星火认知大模型的特点和优势,与ChatGPT的对比分析
  • 【Python入门】Python的判断语句(if else 语句)
  • (4.28-5.4)【大数据新闻速递】数字中国峰会成功举办;“浙江数据知识产权登记平台”上线;贵州大数据活跃;AI教父从谷歌离职