NLP学习者常用命令
2024-04-02 16:57:36 0 举报
AI智能生成
登录查看完整内容
这是一个学习资源,涵盖了自然语言处理(NLP)、Python编程语言以及Linux常用命令的内容。NLP是处理和理解人类语言的一种方法,主要用于实现人机交互和文本分析等任务。Python是一种流行的编程语言,由于其简洁易懂的语法和强大的库支持,被广泛应用于数据科学、机器学习和人工智能等领域。Linux则是一种广泛应用于服务器和工作站的操作系统,其命令行界面(CLI)提供了大量的命令来管理文件、执行任务等。通过学习这些内容,你可以提升自己的语言处理能力,掌握实用的编程语言,并且熟悉Linux系统的使用。
作者其他创作
大纲/内容
.split( ) 分割,( ) 中的符号进行分割 .strip( ) 头尾删除()中的字符
.shape 输出数组的行和列数 .shape[0] 输出行数 .shape[1] 输出列数
enumerate( ) 输出可遍历对象(如:列表)输出(如列表中的)数据 和 数据下标
.tolist( ) 将numpy的数组/矩阵转化为列表
eval( )
子主题
字符串转字典
修改 | 新增
字典转元组
字典
a_list = [] a_list.append(a_dict)
新建list列表,append添加字典数据
读取数据
1、对数据进行序列化 2、writer函数写入
读写数据
json文件新增数据
文件复制
读取str类型的list数据,可使用import ast data = ast.literal_eval( ) 进行数据转化为list
读取
写入
文件读写
list(set( ))
去重
from ast import literal_evalliteral_eval(a)
import re re.findall(\"\
字符串类型的列表,转化为列表
指定位置添加元素
.remove(str) # 指定元素删除
.pop(int) # 指定索引位置删除
删除指定元素
test = [i for i in test if i != '']
取除空值
列表list
删除重复
查看重复及重复次数
对字典依据值进行排序
sum(dict(dict_sort).values())
对字典的所有值进行求和
列表list重复项
find()
rfind() # 倒序查询
查询某字符串在另一字符串的位置
字符串str
>> Python <<
numpy
选择列: data['A'] # 输出'A'列数据
按索引选择行: data.loc[1] # 输出第2行数据
使用切片选择行:data[:3] # 输出前3行数据
筛选特定字符的行: data[data[\"A\"].str.contains(\"aa_info\")] # 输出 'A' 列中含有aa_info字符的行
data.query(\"A > B\") # 输出 'A' 列中大于 'B' 列的行
判断条件筛选
data[data[\"A\"].isin(name_list)] # 输出在列表中 同时 也A列中元素的行
以列表元素筛选
data.select_dtypes(\"int64\") # 输出数据类型'int64'的列
指定数据类型筛选
筛选数据
查询
删除列
删除
行名称:data.at['5'] = ['ABCDEFG'] # 行名称为5的行,增加内容'ABCDEFG'
将一个列表添加到最后一行:
增加行
列名称
插入列
增加
修改列名称
修改行名称
修改名称
(正则)replace修改: data[\"B\
排序: data[\"排名\"] = data.rank(method=\"dense\").astype(\"int\") # 对data的数据进行排序 并 增加“排名”列
截断:data[\"排名\"] = data[\"排名\
重置索引:data.reset_index(drop=True)
替换:data['A'].loc[data['A'] == 111] = 0 # 将A列中所有111的值,都替换成0
修改
查看缺失值 data.isnull()
填充空值: data.fillna('无') # 将所有缺失值填充为“无”
删除空值: data.dropna(axis=1) # 删除含有空值的列
空值
返回唯一值: data.unique() # 以数组的形式返回所有唯一值
data.nuniue() # 每列唯一值的个数
data['A'].value_counts()
data.A.value_counts() (查看\"A\"列各个值出现次数)
返回唯一值个数:
查看唯一值
删除重复值
重复值
自定义函数: data['B'].apply(lambda x: x+1) # B列所有值都+1
宽表转长表: data.melt(id_vars=\"姓名\
长表转宽表
长宽表转化
合并表
data.reset_index()
重置索引或其level
data.to_frame()
将Series 转化为 DataFrame
data[\"A\"].tolist() # A列数据转化为列表
Series 转化为 列表
data[\"A\"].to_dict() # A列数据转化为字典
转化为字典
Series类型转化
读取文件
保存文件
数据操作
创建表格
pandas
>> 数据分析 <<
lsof -i: (端口号) (如lsof -i:8001)
查看端口
kill -9 (进程号) (如kill -9 10820)
删除进程
top
查看设备使用情况
sudo dmidecode -t 1
查看机器SN号
sudo dmidecode |grep -A16 \"System Information$\"
查看服务器型号和主板型号
CPU型号$ cat /proc/cpuinfo | grep name | uniq
物理CPU个数$ cat /proc/cpuinfo| grep \"physical id\"| sort| uniq | wc -l
每个物理CPU的ID$ cat /proc/cpuinfo | grep \"physical id\" | sort | uniq
每个物理CPU的物理核数$ cat /proc/cpuinfo| grep \"cpu cores\"| uniq
逻辑总核数$ cat /proc/cpuinfo| grep \"processor\"| wc -l
直接查看输出$ cat /proc/cpuinfo
查看CPU和超线程信息
有几根内存条,总共内存多大:$ sudo dmidecode|grep -A16 \"Memory Device\"|grep 'Size'| sort
查看内存频率:$ sudo dmidecode|grep -A16 \"Memory Device\"|grep 'Speed'|sort
查看内存品牌:$ sudo dmidecode --type 17 | grep Manufacturer | sort
内存
df -h
查看每个硬盘和大小:$ lsblk
查看单个硬盘的品牌:$ sudo hdparm -I /dev/sda
硬盘
$ lspci | grep -i nvidia$ lspci | grep -i vga$ nvidia-smi
http://pci-ids.ucw.cz/read/PC/10de/2504 输入数字代码查询显卡型号
$ lspci -nn | grep VGA(lspci -n/-nn:显示设备的vendor厂商号和device设备号;显示厂商等信息和名称。)
nvitop
查看显存和显卡的用量
显卡
$ git clone https://github.com/wilicc/gpu-burn$ cd gpu-burn$ make# 压力测试60秒,不带参数默认应该是10秒$ ./gpu_burn 60
# 查看风扇转速:<服务器风扇满转一般10000RPM左右>$ sudo ipmitool sdr
NVIDIA GPU压力测试
$ sudo dmidecode | grep Power
查看电源情况
du -h --max-depth=1
iostat -d -m # 以M为单位显示所有信息
显示硬盘速度
查看文件夹大小
cat /proc/version
查看ubuntu系统的版本信息
arch
查看自己linux内核版本
硬件查看
sudo passwd root
重置root密码
sudo adduser 用户名
创建用户
sudo reboot
系统重启
系统状态
cp -r 旧文件名 新文件名
复制
rm -rf 文件名
touch 文件名字.后缀类型
创建文件
mkdir 文件夹名字
创建文件夹
mv 文件名
剪切文件
文件管理
chmod 权限值(如:777) chmod -R 权限值(如:777) ——>修改文件夹及其下面所有文件的权限
chmod +x(将文件设置为可执行文件(777对用户组操作, +x对文件操作))
修改权限
nvidia-smi -l 1 # 查看状态,设置每一秒刷新一次
nvidia-smi
测试:import torch
print(torch.cuda.current_device()) # 输出当前设备(只有一个GPU为0)
print(torch.cuda.is_available()) # 检查cuda是否可用
torch库
查看nvidia管理界面
zip -r data.zip data # 把/home目录下面的data目录压缩为data.zip
zip -r a123.zip a 3.txt # 把/home目录下面的a文件夹和3.txt压缩成为a123.zip
unzip data.zip -d databak # 把/home目录下面的data.zip解压到databak目录里面
unzip t.zip # 把/home目录下面的t.zip直接解压到/home目录里面
tar -czvf demo.tar.gz demo.c # 将demo.c 压缩成demo.tar.gz
tar -xzvf filename.tar.gz # 解压filename.tar.gz
压缩/解压文件
1、先下载gensim 2、下载transformers 3、下载sklearn
python库下载
配置 nginx.conf文件
cd /usr/local/nginx
sudo ./sbin/nginx -c ./conf/nginx.conf -s reload
启动nginx
ssh 172.16.98.100 -l 用户名 -p 测试端口号
测试
nginx转发ssh端口
>> Linux <<
import time start = time.clock() end = time.clock() print(end-start)
>> 库 <<
select * from e_book where types like \"%3%\";
查询e_book表的types字段包含字符串\"3\"
>> SQL <<
常用命令
0 条评论
回复 删除
下一页