본문 바로가기

카테고리 없음

마세권(마라 파는 식당 인근) 특성 분석 #1

데이터 분석 공부를 하다가 심심해서 내 프로젝트를 하기로 했다.

막상 내가 직접 프로젝트를 짜려니 약간 막막하기도 해서, 좀 가벼운 주제를 선택하기로 결정.

 

나름 고민 끝에 나온 주제는 '마세권' 분석이다.

마라 음식을 파는 식당 인근의 상권을 칭하는 용어인데(방금 만들어냄), 원래는 마라세권으로 할까 하다가 너무 길어서 그냥 마세권하기로 했다. 의미 잘 안 와닿으면 어때.. 어차피 나만 쓸텐데^^...

(++ 내 글 보려고 마세권을 구글링했는데 충격적이게도 원래 잇는 말이엇음,,,,, 정말 순수한 충격 ........)

뜬금없는 마라 자랑...

쨋든 주제 구상에 관해 더 얘기하자면 마라탕 집은 내가 다니는 대학교 상권 기준 17년 후반기에서 18년 초반에 갑자기 많이 생기기 시작했다. 한 두세분기 후에 서울 전역으로 유행한 것 같고.

 

난 3차 학기(18년 2학기)에 휴학하고 인턴이랑 어시 일을 했는데 회사 주변엔 마라집들이 너무 없어서 이상했었다. 서초야 뭐 그렇다고 쳐도 나름 젊은 직장인들 바글바글한 판교 서현 회사 다닐 때도 2-3곳이 다였던 건 좀 이상하지 않나. 그때쯤이면 대학가는 고사하고 좀 힙한 거리들에 즐비하게 마라집 생길 땐데 말여.

 

쨋든 계획은 마라탕집 분포를 시각화해서 대학가, 힙한 상권(애매하지만 데이터 분석하며 정의를 내려가는 걸로...), 주거지역, 회사 많은 지역 등으로 특성을 나눠 분석해보는 거다.

 

사실 할 게 데이터 찾기, 전처리, 시각화, 분석으로 엄청 간단해 난 3시간 정도로 목표를 잡고 자료를 찾기 시작했다.

 

전국 음식점 데이터 중 괜찮은 건 아무리 찾아도 없어 결국 2016년 전국 음식점 정보라는 대단히 outdated된 csv 파일을 가지고 분석을 하기로 결정. 어차피 가볍게 하려던 거니까...

정말 그지같은 데이터들 뿐...

참고로 난 매우 매우 매우 후진 리눅스 컴퓨터를 쓴다. 근데 프로그램 설치가 불가능하다. 왜냐면 goondae컴퓨터이기 때문.

뭐라도 하려고 하면 꺼져서 진짜 사람 미치게 한다. 컴퓨터 전체 용량이 1.5기가다. 램 용량도 아님. 그냥 컴퓨터 전체 용량이 1.5기가다. 그래서 500메가 정도 되는 데이터 파일 받으면 마우스가 안 움직인다. 창을 15개 이상 띄워도 안 된다. 아예 먹통이 돼서 재부팅해야 하기 때문에...

 

쨋든 이 이유로 난 데분할 때 주피터가 아닌 콜랩을 쓴다.

일단 구글 드라이브에 마세권 분석 폴더를 만들어주고 관련 파일들을 넣는다. 아래 17년 11월 기준 모범음식점은 사용하려다가 너무 데이터가 적어서 사용 안 하게 된 데이터다.

판다스랑 넘파이 import 해주고, 데이터 프레임을 만들어준다. 난 food_Seoul로 지정했지만 저건 잘못된 네임 지정이다. 서울 관련 데이터 분석 실습만 해봤다보니 자동으로 나왔다ㅠ 그냥 food/restaurant나 뒤에 _korea 정도를 붙여주는 게 이상적이다.

 

.head()를 통해 데이터프레임을 확인해준다. 가관이다. 제목, 카테고리1/2/3이라니...

일단 unique 함수를 통해 카테고리1이 대체 뭐하는 컬럼인지 알아보자. 음식과 nan이 전부인 걸 보니 아무런 의미 없는 컬럼이다. 삭제 예약해둔다. 카테고리2도 음식점, nan이 전부니 마찬가지로 삭제해야 한다.

두 컬럼 삭제는 drop 함수를 통해 한다. 삭제 후 확인해보면 카테고리1,2가 없어진 걸 알 수 있다.

이젠 컬럼 이름들을 제대로 지정해줄 차례다. 제목은 매장명으로, 카테고리3은 음식종류로, 지역명은 시도로, 시군구명은 시군구로, 개요는 설명으로 바꿔준다. 확인하면 잘 바뀌어 나온다.

우리는 마라 음식점을 찾을 거니 음식종류 중 중식인 행들을 살펴보자.

혹시 중식이 아닌 다른 데이터에 마라집이 끼어 있을 수 있으니 unique 함수를 통해 음식종류를 모두 가져와 본다. 음식종류를 보니 16년의 한국이라면 마라를 중식에 넣지 않았을 수도 있겠다는 의심이 든다. 이색음식점을 한번 찾아보자. 몇개가 나올지 모르니 100개 행을 뽑아보자.

100개까지는 안 나온다. 그리고 마라 관련 식당은 없다. 패스.

 

마라탕에 동물 사채를 넣지 않고 채수를 사용하는 마라집들도 있다.(ex. 손오공마라탕) 이런 집들은 중식이 아닌 채식전문점으로 분리되었을 수 있으니 채식전문점이 음식종류인 행들도 살펴본다.

역시 없다. 근데 채식전문점이 말도 안 되게 적다. 심지어 3곳 빼고는 다 서울이다. len함수를 통해 몇개인지 세보자.

26개. 데이터가 6000행 정도밖에 없는 허접 데이터지만 그래도 26개는 너무 적다. 더 많은 채식전문점들이 생기면 좋겠다.

 

이번엔 아시아식을 확인해본다.

역시 없다.

 그럼 중식만 가지고 데이터 분석을 시작한다. 음식종류가 중식인 데이터들을 모아 chinese_food라는 새로운 데이터프레임을 만들어준다. 개수를 세보니 243개다. 음.. 우리 아파트 1km 안에 있는 중국집만 10개는 넘을 것 같은데 말이 되나? 역시 진짜 개허접 데이터인 것 같다. 누락율이 90퍼에 달할 듯... 일단은 계속 가본다.

head()를 통해 데이터를 확인해본다. 일단 예쁘게 잘 분리되긴 했다.

이번엔 마라 음식점을 구분해야 한다. 설명 컬럼에 '마라'가 포함된 데이터들을 모아 mala라는 새로운 데이터프레임을 만든다.

...

마라도 마라톤 쿠마라 등등... 이 중 내가 생각한 '마라' 때문에 뽑혀나온 건 시추안하우스 밖에 없다. 심지어 시추안하우스는 일반적인 마라탕집이 아니라 마라탕'도' 파는 중국 사천요리 전문점이다. 아무리 16년도라도 이건 너무하지 않나.

혹시 설명에 마라 설명이 안 들어간 마라탕집 데이터가 있을 수도 있으니 매장명에 마라를 넣어 찾아본다.

마라도회식당 마라톤식당 델쿠마라 홍어야울지마라(ㅅㅂ) 가 전부다.

망삘이 들지만 평소 많이 가는 탕화쿵푸 라화쿵푸 등등의 마라탕집을 생각하며 쿵푸, 쿵후를 넣어 매장명을 다시 검색해본다. 0개.

훠궈는? 없다. 설마하고 하이디라오를 넣어봤는데 하이디라오도 없다. 서울에만 지점이 6개인데.... 이 데이터는 틀렸다. 가망이 없다....

 

1차 시도는 이렇게 포기.

 

더 괜찮은 데이터를 찾아봐야 할 것 같다. 데이터가 풍부한 서울로 범위를 좁히는 방향으로 가야할 듯.