在 Python 中无论爬虫也好,数据分析也好,首先需要数据清洗,Python中有许多库可以帮助我们轻松搞定!
正则表达式(Regular Expression)
正则表达式是一种强大的字符串匹配工具,可以帮助你从文本数据中提取特定的模式。在 Python 中,你可以使用 re 模块来使用正则表达式。以下是一个使用正则表达式提取邮件地址的示例:
import re# 定义一个包含邮件地址的字符串text = 'Contact us at john@example.com or support@example.com'# 使用正则表达式匹配邮件地址pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'matches = re.findall(pattern, text)# 输出匹配的结果print(matches)
在上面的代码中,我们首先定义一个包含邮件地址的字符串。然后,我们使用正则表达式来匹配字符串中的邮件地址。最后,我们使用 re.findall() 函数返回所有匹配的结果
BeautifulSoup
BeautifulSoup 是一个用于解析 HTML 和 XML 文档的库,可以帮助你从网页中提取特定的数据。以下是一个使用 BeautifulSoup 提取网页标题的示例:
import requestsfrom bs4 import BeautifulSoup# 发送 GET 请求获取网页内容response = requests.get('https://www.python.org')# 解析网页内容并提取标题soup = BeautifulSoup(response.content, 'html.parser')title = soup.title.string# 输出网页标题print(title)
在上面的代码中,我们首先使用 requests 库发送一个 GET 请求,然后使用 BeautifulSoup 解析网页内容并提取标题。最后,我们打印网页标题
Pandas
Pandas 是一个用于数据分析和处理的库,可以帮助你清洗和转换大量的数据。以下是一个使用 Pandas 读取 CSV 文件并对数据进行清洗的示例:
import pandas as pd# 读取 CSV 文件并创建数据框df = pd.read_csv('data.csv')# 删除含有缺失值的行df = df.dropna()# 删除重复的行df = df.drop_duplicates()# 将数据写入新的 CSV 文件df.to_csv('cleaned_data.csv', index=False)
在上面的代码中,我们首先使用 Pandas 读取 CSV 文件并创建一个数据框。然后,我们使用 dropna() 函数删除所有含有缺失值的行,使用 drop_duplicates() 函数删除所有重复的行。最后,我们将清洗后的数据写入一个新的 CSV 文件
JSON
JSON是一种常用的数据交换格式,Python内置的json模块可以用来解析和序列化JSON数据。以下是一个例子:
import jsonjson_str = '{"name": "Alice", "age": 30, "city": "New York"}'data = json.loads(json_str)# 获取名字和年龄name = data['name']age = data['age']
从数据库中提取数据
如果数据存储在关系型数据库中,可以使用Python内置的sqlite3模块进行连接和查询。以下是一个例子:
import sqlite3# 连接数据库conn = sqlite3.connect('example.db')# 查询数据c = conn.cursor()c.execute('SELECT name, age, city FROM users')rows = c.fetchall()# 处理数据for row in rows: name, age, city = row # 进行数据清洗等操作 # 关闭连接conn.close()
其它例子正在搜集当中,需要更多Python学习资料可以私聊呢![机智]
评论留言