1.0_Python_采集应用场景
2022-02-23 10:37:18 18 举报
AI智能生成
日常常见应用
作者其他创作
大纲/内容
起源发展趋势
从前
网页蜘蛛、网络机器人
按照一定的规则,自动抓取互联网信息
网页信息:文字,图片、音频、视频等
https://baijiahao.baidu.com/s?id=1648687748931251848&wfr=spider&for=pc
当下
大数据和人工智能的火爆,逐渐被大家熟知
未来
数据资产保护,安全性,操作规范化,法律法规问题
可采集数据
搜索引擎类
配置很简单,采集的时候无效数据会比较多
新闻类网站
标题,作者,发布时间,摘要,内容,视频链接,图片等
可以做舆情监控
论坛类网站
内容,发帖人,发帖时间,发帖数,发帖人关注数,回复等
招聘类网站
公司名,招聘岗位,网页链接,职位分类,工作地点,专业需求等
付费可看的不能采集
企业信息类
全国工商信息系统<br>
电商类网站
价格,名字,关键词,图片链接,付款人数,链接地址等
存在反爬风险
垂直领域类
如OTA酒店类网站,医疗网站类,短视频网站等
不可采数据
个人身份隐私信息
姓名,年龄,地址,身份证,手机号,工作单位等
个人信用财产信息
信用卡,电子消费卡,网银账密,网上交易信息等
个人网络活动轨迹
IP地址,浏览痕迹,活动内容
受法律保护的特定类型数据或信息
商业数据机密数据等
优缺点对比
优点
数据的广度深度快速积累
大批量多维度收集存储
为数据分析提供支持
数据可视化,算法模型训练等
缺点
干扰网站正常运营
当请求访问量过载,服务器压力较大-DDoS
技术被滥用-数据贩卖
大量隐私泄露及地下黑产
收藏
收藏
0 条评论
下一页