1.0_Python_采集应用场景
2022-02-23 10:37:18 18 举报
AI智能生成
日常常见应用
作者其他创作
大纲/内容
起源发展趋势
从前
网页蜘蛛、网络机器人
按照一定的规则,自动抓取互联网信息
网页信息:文字,图片、音频、视频等
https://baijiahao.baidu.com/s?id=1648687748931251848&wfr=spider&for=pc
当下
大数据和人工智能的火爆,逐渐被大家熟知
未来
数据资产保护,安全性,操作规范化,法律法规问题
可采集数据
搜索引擎类
配置很简单,采集的时候无效数据会比较多
新闻类网站
标题,作者,发布时间,摘要,内容,视频链接,图片等
可以做舆情监控
论坛类网站
内容,发帖人,发帖时间,发帖数,发帖人关注数,回复等
招聘类网站
公司名,招聘岗位,网页链接,职位分类,工作地点,专业需求等
付费可看的不能采集
企业信息类
全国工商信息系统
电商类网站
价格,名字,关键词,图片链接,付款人数,链接地址等
存在反爬风险
垂直领域类
如OTA酒店类网站,医疗网站类,短视频网站等
不可采数据
个人身份隐私信息
姓名,年龄,地址,身份证,手机号,工作单位等
个人信用财产信息
信用卡,电子消费卡,网银账密,网上交易信息等
个人网络活动轨迹
IP地址,浏览痕迹,活动内容
受法律保护的特定类型数据或信息
商业数据机密数据等
优缺点对比
优点
数据的广度深度快速积累
大批量多维度收集存储
为数据分析提供支持
数据可视化,算法模型训练等
缺点
干扰网站正常运营
当请求访问量过载,服务器压力较大-DDoS
技术被滥用-数据贩卖
大量隐私泄露及地下黑产

收藏

收藏
0 条评论
下一页