python相近函数 Python类和函数

一文秒懂python正则表达式常用函数

01 Re概览

创新互联公司主营丰泽网站建设的网络公司,主营网站建设方案,APP应用开发,丰泽h5重庆小程序开发公司搭建,丰泽网站营销推广欢迎丰泽等地区企业咨询

Re模块是python的内置模块，提供了正则表达式在python中的所有用法，默认安装位置在python根目录下的Lib文件夹（如 ..\Python\Python37\Lib）。主要提供了3大类字符串操作方法：

字符查找/匹配

字符替换

字符分割

由于是面向字符串类型的模块，就不得不提到字符串编码类型。re模块中，模式串和搜索串既可以是 Unicode 字符串 (常用str类型) ，也可以是8位字节串 (bytes，2位16进制数字，例如\xe5) ，但要求二者必须是同类型字符串。

02 字符串查找/匹配

预编译：compile

在介绍查找和匹配函数前，首先需要知道re的compile函数，该函数可以将一个模式串编译成正则表达式类型，以便后续快速匹配和复用

import re pattern = re.compile(r'[a-z]{2,5}') type(pattern) #re.Pattern

此例创建了一个正则表达式式对象 (re.pattern) ，命名为pattern，用于匹配2-5位小写字母的模式串。后续在使用其他正则表达式函数时，即可使用pattern进行方法调用。

匹配：match

match函数用于从文本串的起始位置开始匹配，若匹配成功，则返回相应的匹配对象，此时可调用group()方法返回匹配结果，也可用span()方法返回匹配起止下标区间；否则返回None

import re pattern = re.compile(r'[a-z]{2,5}') text1 = 'this is a re test' res = pattern.match(text1) print(res) # if res: print(res.group()) #this print(res.span()) #(0, 4) text2 = '是的, this is a re test' print(pattern.match(text2))#None

match函数还有一个变形函数fullmatch，当且仅当模式串与文本串刚好全部匹配时，返回一个匹配对象，否则返回None

搜索：search

match只提供了从文本串起始位置匹配的结果，如果想从任意位置匹配，则可调用search方法，与match方法类似，当任意位置匹配成功，则立即返回一个匹配对象，也可调用span()方法获取起止区间、调用group方法获得匹配文本串

import re pattern = re.compile(r'\s[a-z]{2}') text1 = 'this is a re test' res = pattern.search(text1) print(res) # if res: print(res.group()) #is print(res.span()) #(4, 7) pattern2 = re.compile(r'\s[a-z]{5}') text2 = '是的,this is a re test' print(pattern2.search(text2))#None

match和search均用于匹配单个结果，唯一区别在于前者是从起始位置开始匹配，而后者从任意位置匹配，匹配成功则返回一个match对象。

全搜索：findall/finditer

几乎是最常用的正则表达式函数，用于寻找所有匹配的结果，例如在爬虫信息提取中，可非常方便地提取所有匹配字段

import re pattern = re.compile(r'\s[a-z]{2,5}') text1 = 'this is a re test' res = pattern.findall(text1) print(res) #[' is', ' re', ' test']

findall返回的是一个列表对象类型，当无匹配对象时，返回一个空列表。为了避免因同时返回大量匹配结果占用过多内存，可以调用finditer函数返回一个迭代器类型，其中每个迭代元素是一个match对象，可继续调用group和span方法获取相应结果

import re pattern = re.compile(r'\s[a-z]{2,5}') text1 = 'this is a re test' res = pattern.finditer(text1) for r in res: print(r.group()) """ is re test """

当匹配模式串较为简单或者仅需单词调用时，上述所有方法也可直接调用re类函数，而无需事先编译。此时各方法的第一个参数为模式串。

import re pattern = re.compile(r'\d{2,5}') text = 'this is re test' re.findall('[a-z]+', text) #['this', 'is', 're', 'test'] 03 字符串替换/分割

替换:sub/subn

当需要对文本串进行条件替换时，可调用re.sub实现 (当然也可先编译后再用调用实例方法) ，相应参数分别为模式串、替换格式、文本串，还可以通过增加缺省参数限定替换次数和匹配模式。通过在模式串进行分组，可实现字符串的格式化替换（类似字符串的format方法），以实现特定任务。

import re text = 'today is 2020-03-05' print(re.sub('-', '', text)) #'today is 20200305' print(re.sub('-', '', text, 1)) #'today is 202003-05' print(re.sub('(\d{4})-(\d{2})-(\d{2})', r'\2/\3/\1', text)) #'today is 03/05/2020'

re.sub的一个变形方法是re.subn，区别是返回一个2元素的元组，其中第一个元素为替换结果，第二个为替换次数

import re text = 'today is 2020-03-05' print(re.subn('-', '', text)) #('today is 20200305', 2)

分割：split

还可以调用正则表达式实现字符串的特定分割，相当于.split()方法的一个加强版，实现特定模式的分割，返回一个切割后的结果列表

import re text = 'today is a re test, what do you mind?' print(re.split(',', text)) #['today is a re test', ' what do you mind?'] 04 总结

python中的re模块提供了正则表达式的常用方法，每种方法都包括类方法调用(如re.match)或模式串的实例调用(pattern.match)2种形式

常用的匹配函数：match/fullmatch

常用的搜索函数：search/findall/finditer

常用的替换函数：sub/subn

常用的切割函数：split

还有其他很多方法，但不是很常用，具体可参考官方文档

另外，python还有第三方正则表达式库regex可供选择

到此这篇关于一文秒懂python正则表达式常用函数的文章就介绍到这了，希望大家以后多多支持！

python里面有哪些自带函数？

python系统提供了下面常用的函数：

1. 数学库模块（math）提供了很多数学运算函数；

2.复数模块（cmath）提供了用于复数运算的函数；

3.随机数模块（random）提供了用来生成随机数的函数；

4.时间（time）和日历（calendar）模块提供了能处理日期和时间的函数。

注意：在调用系统函数之前，先要使用import 语句导入相应的模块

该语句将模块中定义的函数代码复制到自己的程序中，然后就可以访问模块中的任何函数，其方法是在函数名前面加上“模块名.”。

希望能帮到你。

python中是否有用于计算两个字符串相似度的函数

linux环境下，没有首先安装python_Levenshtein，用法如下：

重点介绍几个该包中的几个计算字串相似度的几个函数实现。

1. Levenshtein.hamming(str1, str2)

计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。如

2. Levenshtein.distance(str1, str2)

计算编辑距离（也成Levenshtein距离）。是描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换。如

算法实现参考动态规划整理：。

3. Levenshtein.ratio(str1, str2)

计算莱文斯坦比。计算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和，ldist是类编辑距离

注意：这里的类编辑距离不是2中所说的编辑距离，2中三种操作中每个操作+1，而在此处，删除、插入依然+1，但是替换+2

这样设计的目的：ratio('a', 'c')，sum=2,按2中计算为（2-1）/2 = 0.5,’a','c'没有重合，显然不合算，但是替换操作+2，就可以解决这个问题。

4. Levenshtein.jaro(s1, s2)

计算jaro距离，

其中的m为s1, s2的匹配长度，当某位置的认为匹配当该位置字符相同，或者在不超过

t是调换次数的一半

5. Levenshtein.jaro_winkler(s1, s2)

计算Jaro–Winkler距离

python常用列表函数

len(list)

列表元素个数

max(list)

返回列表元素最大值

min(list)

返回列表元素最小值

list(seq)

将元组转换为列表

序号

方法

list.append(obj)

在列表末尾添加新的对象

list.count(obj)

统计某个元素在列表中出现的次数

list.extend(seq)

在列表末尾一次性追加另一个序列中的多个值（用新列表扩展原来的列表）

list.index(obj)

从列表中找出某个值第一个匹配项的索引位置

list.insert(index, obj)

将对象插入列表

list.pop([index=-1])

移除列表中的一个元素（默认最后一个元素），并且返回该元素的值

list.remove(obj)

移除列表中某个值的第一个匹配项

list.reverse()

反向列表中元素

list.sort( key=None, reverse=False)

对原列表进行排序

list.clear()

清空列表

list.copy()

复制列表

python 怎么调用余弦相似度函数

比如你在a.py的文件中定义了一个test(x,y)函数，在shell中调用的时候from a import testtest(x,y)