S3 버킷의 하위 폴더 이름을 bo에서 3으로 검색하는 중
boto3를 사용하여 AWS S3 버킷에 액세스할 수 있습니다.
s3 = boto3.resource('s3')
bucket = s3.Bucket('my-bucket-name')
이제 버킷에 폴더가 포함되어 있습니다.first-level
예를 들어 타임스탬프로 이름이 지정된 여러 하위 폴더가 포함되어 있습니다.1456753904534
제가 하고 있는 다른 작업을 위해 이 하위 폴더의 이름을 알아야 하는데 bto3에서 검색할 수 있었는지 궁금합니다.
그래서 노력했습니다.
objs = bucket.meta.client.list_objects(Bucket='my-bucket-name')
사전을 제공합니다. 사전 키의 '내용'은 2단계 타임스탬프 디렉토리 대신 모든 3단계 파일을 제공합니다. 사실 저는 다음과 같은 것들을 포함하는 목록을 얻습니다.
{u'ETAG': 'etag', 'u'Key': 1단계/1456753904534/part-00014', u'LastModified': datetime.datetime(2016, 2, 29, 13, 52, 24, tzinfo=tzutc),
u'owner': {u'DisplayName': 'owner', u'ID': 'id',
u'Size': size, u'StorageClass': 'storageclass'}
이 경우 특정 파일을 볼 수 있습니다.part-00014
디렉토리의 이름을 단독으로 얻고 싶습니다.원칙적으로 모든 경로에서 디렉터리 이름을 제거할 수 있지만 세 번째 레벨에서 두 번째 레벨을 얻기 위해 모든 것을 검색하는 것은 추악하고 비용이 많이 듭니다!
여기에 보고된 내용도 시도해 보았습니다.
for o in bucket.objects.filter(Delimiter='/'):
원하는 수준의 폴더가 없습니다.
이것을 해결할 방법이 있습니까?
아래 코드 조각은 s3 버킷의 '폴더'에 있는 '하위 폴더'만 반환합니다.
import boto3
bucket = 'my-bucket'
#Make sure you provide / in the end
prefix = 'prefix-name-with-slash/'
client = boto3.client('s3')
result = client.list_objects(Bucket=bucket, Prefix=prefix, Delimiter='/')
for o in result.get('CommonPrefixes'):
print 'sub folder : ', o.get('Prefix')
자세한 내용은 https://github.com/boto/boto3/issues/134 를 참조하십시오.
S3는 객체 스토리지이며 실제 디렉터리 구조를 가지고 있지 않습니다."/"는 다소 겉치레적입니다.응용프로그램에 트리를 유지/제거/추가할 수 있기 때문에 사람들이 디렉토리 구조를 갖고 싶어하는 이유 중 하나입니다.S3의 경우 이러한 구조를 인덱스 또는 검색 태그의 일종으로 처리합니다.
S3에서 객체를 조작하려면 boto3.client 또는 boto3.resource가 필요합니다.모든 개체를 나열하려면
import boto3
s3 = boto3.client("s3")
all_objects = s3.list_objects(Bucket = 'bucket-name')
실제로 s3 개체 이름이 '/' 구분 기호를 사용하여 저장된 경우.list_objects(list_objects_v2)의 최신 버전을 사용하면 지정된 접두사로 시작하는 키로 응답을 제한할 수 있습니다.
특정 하위 폴더 아래의 항목으로 항목을 제한하려면 다음과 같이 하십시오.
import boto3
s3 = boto3.client("s3")
response = s3.list_objects_v2(
Prefix ='DIR1/DIR2',
MaxKeys=100 )
또 다른 옵션은 python os.path 함수를 사용하여 폴더 접두사를 추출하는 것입니다.문제는 이 작업을 수행하려면 원하지 않는 디렉토리의 개체를 나열해야 합니다.
import os
s3_key = 'first-level/1456753904534/part-00014'
filename = os.path.basename(s3_key)
foldername = os.path.dirname(s3_key)
# if you are not using conventional delimiter like '#'
s3_key = 'first-level#1456753904534#part-00014'
filename = s3_key.split("#")[-1]
boto3:boto3.resource에 대한 알림은 고급 API입니다.boto3.client와 boto3.resource를 사용하는 것에는 장단점이 있습니다.내부 공유 라이브러리를 개발하는 경우 boto3.resource를 사용하면 사용된 리소스 위에 블랙박스 계층이 제공됩니다.
사용합니다. 이렇게 하면 버킷을 반복적으로 나열할 수 없습니다.여기서 일부 답변은 전체 목록을 작성하고 일부 문자열 조작을 사용하여 디렉터리 이름을 검색하는 것을 잘못 제안합니다.이것은 끔찍하게 비효율적일 수 있습니다.S3에는 버킷에 포함할 수 있는 개체 수에 대한 제한이 거의 없습니다.그래서, 상상해보세요, 그 사이에.
당신은 1조 개의 물체를 가지고 있습니다: 당신은 얻기 위해 매우 오랜 시간을 기다릴 것입니다.['bar/', 'foo/']
.사용합니다. 동일한 이유로 (S3는 엔지니어의 무한대 근사치) 페이지를 모두 나열하고 모든 목록을 메모리에 저장하지 않도록 해야 합니다.대신 "리스터"를 반복기로 간주하고 생성되는 스트림을 처리합니다.
사용하지 않습니다.그
버전은 잘 처리되지 않는 것 같습니다.Delimiter
선택.리소스가 있으면 다음과 같이 말합니다.bucket = boto3.resource('s3').Bucket(name)
수 있습니다.bucket.meta.client
긴 답변:
다음은 단순 버킷(버전 처리 없음)에 사용하는 반복기입니다.
import os
import boto3
from collections import namedtuple
from operator import attrgetter
S3Obj = namedtuple('S3Obj', ['key', 'mtime', 'size', 'ETag'])
def s3list(bucket, path, start=None, end=None, recursive=True, list_dirs=True,
list_objs=True, limit=None):
Iterator that lists a bucket's objects under path, (optionally) starting with
start and ending before end.
If recursive is False, then list only the "depth=0" items (dirs and objects).
If recursive is True, then list recursively all objects (no dirs).
a boto3.resource('s3').Bucket().
a directory in the bucket.
optional: start key, inclusive (may be a relative path under path, or
absolute in the bucket)
optional: stop key, exclusive (may be a relative path under path, or
absolute in the bucket)
optional, default True. If True, lists only objects. If False, lists
only depth 0 "directories" and objects.
optional, default True. Has no effect in recursive listing. On
non-recursive listing, if False, then directories are omitted.
optional, default True. If False, then directories are omitted.
optional. If specified, then lists at most this many items.
an iterator of S3Obj.
# set up
>>> s3 = boto3.resource('s3')
... bucket = s3.Bucket('bucket-name')
# iterate through all S3 objects under some dir
>>> for p in s3list(bucket, 'some/dir'):
... print(p)
# iterate through up to 20 S3 objects under some dir, starting with foo_0010
>>> for p in s3list(bucket, 'some/dir', limit=20, start='foo_0010'):
... print(p)
# non-recursive listing under some dir:
>>> for p in s3list(bucket, 'some/dir', recursive=False):
... print(p)
# non-recursive listing under some dir, listing only dirs:
>>> for p in s3list(bucket, 'some/dir', recursive=False, list_objs=False):
... print(p)
kwargs = dict()
if start is not None:
if not start.startswith(path):
start = os.path.join(path, start)
# note: need to use a string just smaller than start, because
# the list_object API specifies that start is excluded (the first
# result is *after* start).
if end is not None:
if not end.startswith(path):
end = os.path.join(path, end)
if not recursive:
if not path.endswith('/'):
path += '/'
if limit is not None:
kwargs.update(PaginationConfig={'MaxItems': limit})
paginator = bucket.meta.client.get_paginator('list_objects')
for resp in paginator.paginate(Bucket=bucket.name, **kwargs):
q = []
if 'CommonPrefixes' in resp and list_dirs:
q = [S3Obj(f['Prefix'], None, None, None) for f in resp['CommonPrefixes']]
if 'Contents' in resp and list_objs:
q += [S3Obj(f['Key'], f['LastModified'], f['Size'], f['ETag']) for f in resp['Contents']]
# note: even with sorted lists, it is faster to sort(a+b)
# than heapq.merge(a, b) at least up to 10K elements in each list
q = sorted(q, key=attrgetter('key'))
if limit is not None:
q = q[:limit]
limit -= len(q)
for p in q:
if end is not None and p.key >= end:
yield p
def __prev_str(s):
if len(s) == 0:
return s
s, c = s[:-1], ord(s[-1])
if c > 0:
s += chr(c - 1)
s += ''.join(['\u7FFF' for _ in range(10)])
return s
은 다은시동테데됩다니도이움는의 하는 데 .paginator
여러 개의 dir 및 파일을 생성합니다.페이지가 최대 1000개의 항목이기 때문에 여러 개의 항목을 dir 및 파일에 사용합니다. dirs
에는 디렉터리만 포함되어 있습니다(각각 개체가 하나씩 있음). mixed
에는 dir와 객체가 혼합되어 있으며, 각 dir에 대해 2개의 객체 비율이 있습니다(물론 dir 아래에 하나의 객체가 있습니다. S3에는 객체만 저장됨).
import concurrent
def genkeys(top='tmp/test', n=2000):
for k in range(n):
if k % 100 == 0:
for name in [
os.path.join(top, 'dirs', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_foo_a'),
os.path.join(top, 'mixed', f'{k:04d}_foo_b'),
yield name
with concurrent.futures.ThreadPoolExecutor(max_workers=32) as executor:
executor.map(lambda name: bucket.put_object(Key=name, Body='hi\n'.encode()), genkeys())
결과 구조는 다음과 같습니다.
위에 주어진 코드를 약간 조작하여s3list
의 paginator
당신은 몇 가지 재미있는 사실들을 관찰할 수 있습니다.
정말 배타적입니다. 해진정Marker=topdir + 'mixed/0500_foo_a'
목록을 해당 키 다음으로 시작합니다(AmazonS3 API에 따라). 즉,.../mixed/0500_foo_b
그것이 이유입니다.__prev_str()
.용사를 합니다.
을 할 때.mixed/
의 각 .paginator
에는 666개의 키와 334개의 공통 접두사가 있습니다.엄청난 반응을 일으키지 않는 것이 꽤 좋습니다.대적으로를 나열할 때, 나할때열.
의 각 .paginator
에는 1000개의 공통 접두사가 포함되어 있으며 키는 없습니다.의 형식으로 제한 통과
PaginationConfig={'MaxItems': limit}
키 수만 제한하고 공통 접두사는 제한하지 않습니다.우리는 반복기의 스트림을 더 잘라냄으로써 그것을 처리합니다.
이해하는 데 많은 시간이 걸렸지만 마지막으로 boto3를 사용하여 S3 버킷의 하위 폴더 내용을 나열하는 간단한 방법이 있습니다.도움이 되길 바랍니다.
prefix = "folderone/foldertwo/"
s3 = boto3.resource('s3')
bucket = s3.Bucket(name="bucket_name_here")
FilesNotFound = True
for obj in bucket.objects.filter(Prefix=prefix):
print('{0}:{1}'.format(bucket.name, obj.key))
FilesNotFound = False
if FilesNotFound:
print("ALERT", "No file in {0}/{1}".format(bucket, prefix))
같은 문제가 있었지만 사용하여 해결했습니다.boto3.client
와 함께Bucket
매개 변수
s3client = boto3.client('s3')
bucket = 'my-bucket-name'
startAfter = 'firstlevelFolder/secondLevelFolder'
theobjects = s3client.list_objects_v2(Bucket=bucket, StartAfter=startAfter )
for object in theobjects['Contents']:
print object['Key']
위의 코드에 대한 출력 결과는 다음을 표시합니다.
다음에 대한 디렉터리 이름만 제거하려면secondLevelFolder
나는 방금 파이썬 방법을 사용했습니다.split()
s3client = boto3.client('s3')
bucket = 'my-bucket-name'
startAfter = 'firstlevelFolder/secondLevelFolder'
theobjects = s3client.list_objects_v2(Bucket=bucket, StartAfter=startAfter )
for object in theobjects['Contents']:
direcoryName = object['Key'].encode("string_escape").split('/')
print direcoryName[1]
위의 코드에 대한 출력 결과는 다음을 표시합니다.
디렉터리 이름과 내용 항목 이름을 가져오려면 인쇄 줄을 다음으로 바꿉니다.
print "{}/{}".format(fileName[1], fileName[2])
다음과 같이 출력됩니다.
이것이 도움이 되길 바랍니다.
S3의 큰 이점은 폴더/디렉토리가 없고 키만 있다는 것입니다.겉보기 폴더 구조는 파일 이름 앞에 추가되어 '키'가 됩니다. 따라서 다음의 내용을 나열할 수 있습니다.myBucket
시도할 수 있습니다.
s3 = boto3.client('s3')
for obj in s3.list_objects_v2(Bucket="myBucket", Prefix="some/path/to/the/file/")['Contents']:
그러면 다음과 같은 것을 얻을 수 있습니다.
다음은 저에게 도움이 됩니다.S3 객체:
from boto3.session import Session
s3client = session.client('s3')
resp = s3client.list_objects(Bucket=bucket, Prefix='', Delimiter="/")
forms = [x['Prefix'] for x in resp['CommonPrefixes']]
다음을 확인:
resp = s3client.list_objects(Bucket=bucket, Prefix='form1/', Delimiter="/")
sections = [x['Prefix'] for x in resp['CommonPrefixes']]
다음을 확인:
CLI를 때 AWS 하지 않고 이 합니다.aws s3 ls s3://my-bucket/
그래서 저는 boto3를 사용하는 방법이 있을 것이라고 생각했습니다.
그들은 실제로 접두사와 구분 기호를 사용하는 것처럼 보입니다. 저는 그 코드를 조금 수정함으로써 버킷의 루트 수준에서 모든 디렉터리를 얻을 수 있는 함수를 작성할 수 있었습니다.
def list_folders_in_bucket(bucket):
paginator = boto3.client('s3').get_paginator('list_objects')
folders = []
iterator = paginator.paginate(Bucket=bucket, Prefix='', Delimiter='/', PaginationConfig={'PageSize': None})
for response_data in iterator:
prefixes = response_data.get('CommonPrefixes', [])
for prefix in prefixes:
prefix_name = prefix['Prefix']
if prefix_name.endswith('/'):
return folders
작업하는 것만큼 편리한 패키지를 사용하는 것은 어떻습니까?pathlib
꼭 를 사용해야 ,boto3
용사를 합니다.boto3.resource
이는 itz-azhar의 답변을 기반으로 선택 사항을 적용합니다.limit
그것은 분명히 사용하기가 훨씬 더 간단합니다.boto3.client
import logging
from typing import List, Optional
import boto3
from boto3_type_annotations.s3 import ObjectSummary # pip install boto3_type_annotations
log = logging.getLogger(__name__)
_S3_RESOURCE = boto3.resource("s3")
def s3_list(bucket_name: str, prefix: str, *, limit: Optional[int] = None) -> List[ObjectSummary]:
"""Return a list of S3 object summaries."""
# Ref: https://stackoverflow.com/a/57718002/
return list(_S3_RESOURCE.Bucket(bucket_name).objects.limit(count=limit).filter(Prefix=prefix))
if __name__ == "__main__":
s3_list("noaa-gefs-pds", "gefs.20190828/12/pgrb2a", limit=10_000)
용사를 합니다.boto3.client
이 기능은 다음과 같습니다.list_objects_v2
1000개 이상의 객체를 검색할 수 있도록 CpILL의 답변을 기반으로 합니다.
import logging
from typing import cast, List
import boto3
log = logging.getLogger(__name__)
_S3_CLIENT = boto3.client("s3")
def s3_list(bucket_name: str, prefix: str, *, limit: int = cast(int, float("inf"))) -> List[dict]:
"""Return a list of S3 object summaries."""
# Ref: https://stackoverflow.com/a/57718002/
contents: List[dict] = []
continuation_token = None
if limit <= 0:
return contents
while True:
max_keys = min(1000, limit - len(contents))
request_kwargs = {"Bucket": bucket_name, "Prefix": prefix, "MaxKeys": max_keys}
if continuation_token:
log.info( # type: ignore
"Listing %s objects in s3://%s/%s using continuation token ending with %s with %s objects listed thus far.",
max_keys, bucket_name, prefix, continuation_token[-6:], len(contents)) # pylint: disable=unsubscriptable-object
response = _S3_CLIENT.list_objects_v2(**request_kwargs, ContinuationToken=continuation_token)
log.info("Listing %s objects in s3://%s/%s with %s objects listed thus far.", max_keys, bucket_name, prefix, len(contents))
response = _S3_CLIENT.list_objects_v2(**request_kwargs)
assert response["ResponseMetadata"]["HTTPStatusCode"] == 200
is_truncated = response["IsTruncated"]
if (not is_truncated) or (len(contents) >= limit):
continuation_token = response["NextContinuationToken"]
assert len(contents) <= limit
log.info("Returning %s objects from s3://%s/%s.", len(contents), bucket_name, prefix)
return contents
if __name__ == "__main__":
s3_list("noaa-gefs-pds", "gefs.20190828/12/pgrb2a", limit=10_000)
버킷 아래의 첫 번째 수준 폴더만 검색하는 데는 이 작업이 잘 작동했습니다.
client = boto3.client('s3')
bucket = 'my-bucket-name'
folders = set()
for prefix in client.list_objects(Bucket=bucket, Delimiter='/')['CommonPrefixes']:
폴더 이름이 고유하므로 집합이 아닌 목록에서도 동일한 작업을 수행할 수 있습니다.
이 질문에 대한 몇 가지 훌륭한 대답.
자원인 boto3를 해 왔습니다.objects.filter
모든 파일을 가져오는 방법입니다.
메소드는 반복기로 반환되며 매우 빠릅니다.
목록으로 변환하는 데 시간이 많이 걸립니다.
반복자가 아닌 실제 내용을 반환합니다.
그러나 크기 제한이 1000이므로 모든 콘텐츠를 가져오려면 루프오버해야 합니다.
저는 폴더만 얻기 위해 이렇게 리스트 이해를 적용합니다.
[x.split('/')[index] for x in files]
다음은 다양한 방법에 소요되는 시간입니다.
이 테스트를 실행할 때 파일 수는 125077개였습니다.
s3 = boto3.resource('s3')
response = s3.Bucket('bucket').objects.filter(Prefix='foo/bar/')
3.95 ms ± 17.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
s3 = boto3.resource('s3')
response = s3.Bucket('foo').objects.filter(Prefix='foo/bar/')
files = list(response)
26.6 s ± 1.08 s per loop (mean ± std. dev. of 7 runs, 1 loop each)
s3 = boto3.client('s3')
response = s3.list_objects_v2(Bucket='bucket', Prefix='foo/bar/')
files = response['Contents']
while 'NextContinuationToken' in response:
response = s3.list_objects_v2(Bucket='bucket', Prefix='foo/bar/', ContinuationToken=response['NextContinuationToken'])
22.8 s ± 1.11 s per loop (mean ± std. dev. of 7 runs, 1 loop each)
Boto 1.13.3의 경우, 그것은 그것처럼 간단합니다 (다른 답변에서 다루었던 페이지화 고려 사항을 모두 건너뛰면).
def get_sub_paths(bucket, prefix):
s3 = boto3.client('s3')
response = s3.list_objects_v2(
return [item["Prefix"] for item in response['CommonPrefixes']]
이것은 제가 최근 프로젝트에서 사용한 것입니다.'paginator'를 사용하며 응답에 1000개 이상의 키가 반환되더라도 작동합니다.
import boto3
def list_folders(s3, bucket_name, prefix="", delimiter="/"):
all = []
paginator = s3.get_paginator("list_objects_v2")
for page in paginator.paginate(Bucket=bucket_name, Prefix=prefix, Delimiter=delimiter):
for common_prefix in page.get("CommonPrefixes", []):
return [content.get('Prefix') for content in all]
s3_client = boto3.session.Session(profile_name="my_profile_name", region_name="my_region_name").client('s3')
folders = list_folders(s3_client, "my_bucket_name", prefix="path/to/folder")
가능한 해결책은 다음과 같습니다.
def download_list_s3_folder(my_bucket,my_folder):
import boto3
s3 = boto3.client('s3')
response = s3.list_objects_v2(
return [item["Key"] for item in response['Contents']]
S3 버킷의 모든 고유 경로를 나열하는 재귀적 접근 방식 사용.
def common_prefix(bucket_name,paths,prefix=''):
client = boto3.client('s3')
paginator = client.get_paginator('list_objects')
result = paginator.paginate(Bucket=bucket_name, Prefix=prefix, Delimiter='/')
for prefix in result.search('CommonPrefixes'):
if prefix == None:
나열할 "dir"는 실제로 객체가 아니라 객체 키의 하위 문자열이므로 앞으로 표시되지 않습니다.objects.filter
방법.당신은 고객의 것을 사용할 수 있습니다.list_objects
Prefix가 지정된 상태입니다.
import boto3
s3 = boto3.resource('s3')
bucket = s3.Bucket('my-bucket-name')
res = bucket.meta.client.list_objects(Bucket=bucket.name, Delimiter='/', Prefix = 'sub-folder/')
for o in res.get('CommonPrefixes'):
네, 이미 언급했듯이 중요한 것은 S3에 실제 폴더 개념이 없다는 것입니다.S3 API로 어떤 트릭이 가능한지 알아보겠습니다.
다음 예제는 @cem의 답변 솔루션을 개선한 것입니다.
@cem의 Soution 외에도 이 솔루션은 S3 paginator API를 사용합니다.솔루션은 결과에 1000개 이상의 개체가 포함된 경우에도 모든 결과를 수집합니다.S3 paginator API는 1001부터 2000까지 다음 결과를 자동으로 해결합니다.
이 예에서는 "랄라"라는 이름의 특정 "폴더" 아래에 있는 모든 "하위 폴더"(키)가 나열됩니다(해당 하위 폴더의 재귀적 구조는 없음).
접두사='랄라/' 및 구분 기호="/" 매개 변수가 마법을 부립니다.
# given "folder/key" structure
# .
# ├── lorem.txt
# ├─── lala
# │ ├── folder1
# │ │ ├── file1.txt
# │ │ └── file2.txt
# │ ├── folder2
# │ │ └── file1.txt
# │ └── folder3
# │ └── file1.txt
# └── lorem
# └── folder4
# ├── file1.txt
# └── file2.txt
import boto3
s3 = boto3.client('s3')
paginator = s3.get_paginator('list_objects_v2')
# Execute paginated list_objects_v2
response = paginator.paginate(Bucket='your-bucket-name', Prefix='lala/', Delimiter="/")
# Get prefix for each page result
names = []
for page in response:
names.extend([x['Prefix'] for x in page.get('CommonPrefixes', [])])
# Result is:
# ['lala/folder1/','lala/folder2/','lala/folder3/']
우선 S3에는 실제 폴더 개념이 없습니다.당신은 확실히 파일을 가질 수 있습니다 @.'/folder/subfolder/myfile.txt'
폴더도 하위 폴더도 없습니다.
S3에서 폴더를 "시뮬레이션"하려면 이름 끝에 '/'가 있는 빈 파일을 만들어야 합니다(Amazon S3 boto - 폴더 생성 방법 참조).
당신의 문제를 위해서, 당신은 아마도 그 방법을 사용해야 합니다.get_all_keys
2개의 파라미터를 사용합니다.prefix
for key in bucket.get_all_keys(prefix='first-level/', delimiter='/'):
저는 boto3가 여기서 논의되는 주제라는 것을 알고 있지만, 저는 일반적으로 이러한 것에 단순히 awscli를 사용하는 것이 더 빠르고 직관적이라는 것을 알게 되었습니다. awscli는 가치보다 boto3보다 더 많은 기능을 보유하고 있습니다.
예를 들어, 지정된 버킷과 연결된 "하위 폴더"에 저장된 개체가 있는 경우 다음과 같은 모든 개체를 나열할 수 있습니다.
'mydata' = 버킷 이름
'f1/f2/f3' = "파일" 또는 개체로 이어지는 "경로"
'foo2.csv, 바파.segy, gar.tar' = 모든 객체 "점화" f3
따라서 이러한 개체로 이어지는 "절대 경로"는 'mydata/f1/f2/f3/foo2.csv'입니다.
awscli 명령을 사용하면 다음을 통해 주어진 "하위 폴더" 내의 모든 개체를 쉽게 나열할 수 있습니다.
aWS s3 ls s3://mydata/f1/f2/f3/ --message
많은 수의 S3 버킷 개체를 가져오려는 경우 페이지화를 처리할 수 있는 코드는 다음과 같습니다.
def get_matching_s3_objects(bucket, prefix="", suffix=""):
s3 = boto3.client("s3")
paginator = s3.get_paginator("list_objects_v2")
kwargs = {'Bucket': bucket}
# We can pass the prefix directly to the S3 API. If the user has passed
# a tuple or list of prefixes, we go through them one by one.
if isinstance(prefix, str):
prefixes = (prefix, )
prefixes = prefix
for key_prefix in prefixes:
kwargs["Prefix"] = key_prefix
for page in paginator.paginate(**kwargs):
contents = page["Contents"]
except KeyError:
for obj in contents:
key = obj["Key"]
if key.endswith(suffix):
yield obj
언급URL : https://stackoverflow.com/questions/35803027/retrieving-subfolders-names-in-s3-bucket-from-boto3
